技术教育社区
www.teccses.org

开启智能对话新纪元:大规模语言模型的探索与实践

封面

作者:蔡华、徐清、宣晓华 著

页数:392

出版社:清华大学出版社

出版日期:2024

ISBN:9787302678533

电子书格式:pdf/epub/txt

网盘下载地址:下载开启智能对话新纪元:大规模语言模型的探索与实践

内容简介

本书深度探讨了当今科技领域最引人注目的大语言模型相关技术,内容主要围绕大规模语言模型构建、评估和应用展开为下面的四个主要部分:第一部分主要介绍 大规模语言模型的发展历程以及预训练相关内容, 包括语言模型基本架构、大规模语言模型的高效微调技术、人类反馈的强化学 习和分布式模型训练; 第二个部分主要介绍大规模语言模型的推理优化技术、推理加速框架和模型的评估; 第 三个部分主要介绍大规模语言模型扩展和应用, 包括大规模语言模型和知识的融合、多模态大规模语言模型以 及大规模语言模型的垂直领域应用;第四个部分主要介绍大规模语言模型研究的困难、挑战和未来潜在研究方向。

本书的一些亮点特色包括:深度解析技术原理: 本书通过通俗易懂的语言,对大语言模型的相关技术进行深入解析,使读者能够理解模型的工作机制,训练优调和指标评估方法,从而更好地应用于实际项目中;扩展应用和案例: 本书介绍了大语言模型和知识融合,以及多模态大语言模型的两种常见扩展应用,而且通过了丰富的实际案例,书中展示了大语言模型在各行各业中的成功应用,读者可以了解到它如何改变传统业务流程,提高工作效率;关注社会影响与伦理问题: 除了技术层面,书中还关注大语言模型对社会的深远影响,涵盖创作权、隐私等方面的伦理问题,引导读者深思技术发展对社会的影响。未来趋势与开放性问题: 书籍不仅着眼于已有成果,还展望了大语言模型领域的未来趋势,提出了一系列开放性问题,鼓励读者参与到这一领域的探索中。

本书读者对象包括:技术爱好者:为人工智能和自然语言处理感兴趣的技术人员提供相对全面的大语言模型的介绍资料;相关从业者:提供给相关从业人员了解大语言模型应用以及深入了解大语言模型技术原理和最新研究趋势的资料;以及一些对人工智能社会影响感兴趣的一般读者:通过通俗的语言介绍大语言模型,让其更好地理解这一技术,以及这个技术给我们生活带来的影响。

本书特色

本书深度探讨了当今科技领域最引人注目的大语言模型相关技术,内容主要围绕大规模语言模型构建、评估和应用展开

目录

第 1章大规模语言模型的背景介绍 1

11语言建模的发展阶段 2

12大规模语言模型带来的机遇 3

第 2章从统计语言模型到预训练语言模型 5

21统计语言模型 6

22神经网络语言模型 7

221前馈神经网络语言模型 7

222循环神经网络语言模型 8

223长短期记忆神经网络语言模型 9

224 Word2Vec词向量表示模型 10

23 预训练语言模型 12
ELMo 12

231 Transformer13
232 BERT 22
233 ELECTRA 23
234 GPT 1-325
235 BART 29
236 T5 31
237

第 3章大规模语言模型的框架结构 34

31编码器结构36

32 编码器-解码器结构 36
GLM36

321 UL2 41
322
33 解码器结构43
PaLM43

331 BLOOM45
332 InstructGPT47
333
34 LLaMA家族 50

341预训练数据 52

342模型架构 53

343中文 LLaMA 62

344中文 Alpaca66

第 4章大规模语言模型的训练方法 69

41模型的训练成本 71

411算力估算 71

412费用和能耗 72

42有监督微调74

421提示学习 75

422上下文学习 76

423指令微调 77

43参数高效微调 78

431部分参数的高效微调79

432参数增加的高效微调80

433重参数化的高效微调91

434混合高效微调系列 97

44人类反馈强化学习100

441强化学习 101

442近端策略优化104

443人类反馈对齐111

45大模型灾难性遗忘123

第 5章大模型分布式并行技术125

51分布式系统125

52数据并行 129

521输入数据切分130

522模型参数同步131

523数据并行优化132

53模型并行 134

531 张量并行 134

532 流水线并行 139

533 优化器相关并行 141

54其他并行 146

541 异构系统并行146

542 专家并行 147

543 多维混合并行148

544 自动并行 149

55并行训练框架 149

551 Megatron-LM152

552 DeepSpeed159
Colossal-AI163

553
第 6章大规模语言模型解码推理优化相关技术 168

61解码方法 168

611 基于搜索的解码方法169

612 基于采样的解码方法171

62推理优化方法 174

621 推理原理 177

622 推理加速 177

63模型压缩技术 179

631 量化 181

632 剪枝 184

633 蒸馏 186

64显存优化技术 187

641 键值缓存 187

642 注意力优化 188

65算子优化技术 195

651 算子融合 195

652 高性能算子 195

66推理加速框架 195

661 HuggingFace TGI196
vLLM197

662
663 LightLLM200

第 7章大规模语言模型的评估203

71评估概述 205

72评估体系 206

721知识与能力 207

722伦理与安全 209

73评估方法 212

731自动评估 213

732人工评估 217

733其他评估 221

74评估领域 223

741通用领域 223

742特定领域 226

743综合评测 227

75评估挑战 232

第 8章大规模语言模型与知识的结合233

81知识和知识表示 233

82知识图谱简介 236

83大规模语言模型和知识图谱的结合 238

84知识图谱增强大规模语言模型 240

841 LLM预训练阶段240

842 LLM评估阶段 245

843 LLM推理阶段 247

85大规模语言模型增强知识图谱 249

851知识图谱嵌入249

852知识图谱补全251

853知识图谱构建257

854知识图谱到文本生成263

855知识图谱问答265

86大规模语言模型和知识图谱协同267

861知识表示 267

862知识推理 268

87知识检索增强大规模语言模型工程应用268

871结构化数据 269

872结构化和非结构化数据 270

873向量数据库 272

874 LangChain知识库问答276

88未来的发展方向 279

第 9章多模态大规模语言模型技术应用 281

91多模态指令调节 285

911模态对齐 286

912数据收集 287

913模态桥接 290

914模型评估 292

92多模态上下文学习296

93多模态思维链 299

931模态连接 299

932学习范式 300

933链的配置和形式 301

94 LLM辅助视觉推理 301

941训练范式 303

942功能角色 305

943模型评估 307

95 LLM扩展智能体 307

951智能体308

952记忆模块 312

953任务规划 314

954动作模块 317

955评估策略 319

96多模态语言模型挑战 323

961技术问题 323

962成本问题 323

963社会问题 324

第 10章大规模语言模型应用 326

101法律领域 328

1011法律提示研究329

1012法律综合评估332

102教育领域 336

1021能力评估 336

1022伦理问题 340

1023问答应用 341

103金融领域 342

1031智能应用场景346

1032困难和挑战 347

104生物医疗 348

1041潜力和价值 348

1042应用的场景 351

1043困难和挑战 355

105代码生成 356

1051代码生成问题356

1052代码大规模语言模型357

1053发展趋势 361

第 11章展望和结论 363

111局限和挑战 363

1111局限 363

1112挑战 364

112方向和建议 365

1121数据方面 365

1122技术方面 365

1123应用方面 366

1124方向建议 366

113值得探索的研究 368

1131基础理论研究369

1132高效计算研究370

1133安全伦理研究371

1134数据和评估研究 372

1135认知学习问题373

1136高效适配研究374

参考文献 376

前言

当我完成这本书的时候,回首走过的路,不禁感慨万分。本书是在我与算法组成员培训分享和知识交流的过程中孕育而成的。团队中的同事们有着不同的学习背景、思维方式和个体经验,这些不同的声音和力量聚在一起,凝结成了这部思想智慧的结晶。我们毫无保留地分享着彼此的见解,相互启发,共同成长。我相信,如果能够系统地整理出这些共享资源,将会让更多的人受益。
我的灵感不仅来自团队内的经验交流,还受到了大规模语言模型( LLM)研究的启发,这一研究热潮如同一阵清风,吹散了我对“自然语言处理”这个领域的传统认知,大规模语言模型的研究热潮点燃了我思维的火花,让我重新审视并深刻理解了这一领域所蕴含的无限潜力。大规模语言模型不仅为我们提供了强大的自然语言处理工具,也激发了我对创新和实践的渴望。

赞助用户下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《开启智能对话新纪元:大规模语言模型的探索与实践》
Article link:https://www.teccses.org/33002.html