作者:蔡华、徐清、宣晓华 著
页数:392
出版社:清华大学出版社
出版日期:2024
ISBN:9787302678533
电子书格式:pdf/epub/txt
网盘下载地址:下载开启智能对话新纪元:大规模语言模型的探索与实践
内容简介
本书深度探讨了当今科技领域最引人注目的大语言模型相关技术,内容主要围绕大规模语言模型构建、评估和应用展开为下面的四个主要部分:第一部分主要介绍 大规模语言模型的发展历程以及预训练相关内容, 包括语言模型基本架构、大规模语言模型的高效微调技术、人类反馈的强化学 习和分布式模型训练; 第二个部分主要介绍大规模语言模型的推理优化技术、推理加速框架和模型的评估; 第 三个部分主要介绍大规模语言模型扩展和应用, 包括大规模语言模型和知识的融合、多模态大规模语言模型以 及大规模语言模型的垂直领域应用;第四个部分主要介绍大规模语言模型研究的困难、挑战和未来潜在研究方向。
本书的一些亮点特色包括:深度解析技术原理: 本书通过通俗易懂的语言,对大语言模型的相关技术进行深入解析,使读者能够理解模型的工作机制,训练优调和指标评估方法,从而更好地应用于实际项目中;扩展应用和案例: 本书介绍了大语言模型和知识融合,以及多模态大语言模型的两种常见扩展应用,而且通过了丰富的实际案例,书中展示了大语言模型在各行各业中的成功应用,读者可以了解到它如何改变传统业务流程,提高工作效率;关注社会影响与伦理问题: 除了技术层面,书中还关注大语言模型对社会的深远影响,涵盖创作权、隐私等方面的伦理问题,引导读者深思技术发展对社会的影响。未来趋势与开放性问题: 书籍不仅着眼于已有成果,还展望了大语言模型领域的未来趋势,提出了一系列开放性问题,鼓励读者参与到这一领域的探索中。
本书读者对象包括:技术爱好者:为人工智能和自然语言处理感兴趣的技术人员提供相对全面的大语言模型的介绍资料;相关从业者:提供给相关从业人员了解大语言模型应用以及深入了解大语言模型技术原理和最新研究趋势的资料;以及一些对人工智能社会影响感兴趣的一般读者:通过通俗的语言介绍大语言模型,让其更好地理解这一技术,以及这个技术给我们生活带来的影响。
本书特色
本书深度探讨了当今科技领域最引人注目的大语言模型相关技术,内容主要围绕大规模语言模型构建、评估和应用展开
目录
第 1章大规模语言模型的背景介绍 1
11语言建模的发展阶段 2
12大规模语言模型带来的机遇 3
第 2章从统计语言模型到预训练语言模型 5
21统计语言模型 6
22神经网络语言模型 7
221前馈神经网络语言模型 7
222循环神经网络语言模型 8
223长短期记忆神经网络语言模型 9
224 Word2Vec词向量表示模型 10
23 预训练语言模型 12
ELMo 12
231 Transformer13
232 BERT 22
233 ELECTRA 23
234 GPT 1-325
235 BART 29
236 T5 31
237
第 3章大规模语言模型的框架结构 34
31编码器结构36
32 编码器-解码器结构 36
GLM36
321 UL2 41
322
33 解码器结构43
PaLM43
331 BLOOM45
332 InstructGPT47
333
34 LLaMA家族 50
341预训练数据 52
342模型架构 53
343中文 LLaMA 62
344中文 Alpaca66
第 4章大规模语言模型的训练方法 69
41模型的训练成本 71
411算力估算 71
412费用和能耗 72
42有监督微调74
421提示学习 75
422上下文学习 76
423指令微调 77
43参数高效微调 78
431部分参数的高效微调79
432参数增加的高效微调80
433重参数化的高效微调91
434混合高效微调系列 97
44人类反馈强化学习100
441强化学习 101
442近端策略优化104
443人类反馈对齐111
45大模型灾难性遗忘123
第 5章大模型分布式并行技术125
51分布式系统125
52数据并行 129
521输入数据切分130
522模型参数同步131
523数据并行优化132
53模型并行 134
531 张量并行 134
532 流水线并行 139
533 优化器相关并行 141
54其他并行 146
541 异构系统并行146
542 专家并行 147
543 多维混合并行148
544 自动并行 149
55并行训练框架 149
551 Megatron-LM152
552 DeepSpeed159
Colossal-AI163
553
第 6章大规模语言模型解码推理优化相关技术 168
61解码方法 168
611 基于搜索的解码方法169
612 基于采样的解码方法171
62推理优化方法 174
621 推理原理 177
622 推理加速 177
63模型压缩技术 179
631 量化 181
632 剪枝 184
633 蒸馏 186
64显存优化技术 187
641 键值缓存 187
642 注意力优化 188
65算子优化技术 195
651 算子融合 195
652 高性能算子 195
66推理加速框架 195
661 HuggingFace TGI196
vLLM197
662
663 LightLLM200
第 7章大规模语言模型的评估203
71评估概述 205
72评估体系 206
721知识与能力 207
722伦理与安全 209
73评估方法 212
731自动评估 213
732人工评估 217
733其他评估 221
74评估领域 223
741通用领域 223
742特定领域 226
743综合评测 227
75评估挑战 232
第 8章大规模语言模型与知识的结合233
81知识和知识表示 233
82知识图谱简介 236
83大规模语言模型和知识图谱的结合 238
84知识图谱增强大规模语言模型 240
841 LLM预训练阶段240
842 LLM评估阶段 245
843 LLM推理阶段 247
85大规模语言模型增强知识图谱 249
851知识图谱嵌入249
852知识图谱补全251
853知识图谱构建257
854知识图谱到文本生成263
855知识图谱问答265
86大规模语言模型和知识图谱协同267
861知识表示 267
862知识推理 268
87知识检索增强大规模语言模型工程应用268
871结构化数据 269
872结构化和非结构化数据 270
873向量数据库 272
874 LangChain知识库问答276
88未来的发展方向 279
第 9章多模态大规模语言模型技术应用 281
91多模态指令调节 285
911模态对齐 286
912数据收集 287
913模态桥接 290
914模型评估 292
92多模态上下文学习296
93多模态思维链 299
931模态连接 299
932学习范式 300
933链的配置和形式 301
94 LLM辅助视觉推理 301
941训练范式 303
942功能角色 305
943模型评估 307
95 LLM扩展智能体 307
951智能体308
952记忆模块 312
953任务规划 314
954动作模块 317
955评估策略 319
96多模态语言模型挑战 323
961技术问题 323
962成本问题 323
963社会问题 324
第 10章大规模语言模型应用 326
101法律领域 328
1011法律提示研究329
1012法律综合评估332
102教育领域 336
1021能力评估 336
1022伦理问题 340
1023问答应用 341
103金融领域 342
1031智能应用场景346
1032困难和挑战 347
104生物医疗 348
1041潜力和价值 348
1042应用的场景 351
1043困难和挑战 355
105代码生成 356
1051代码生成问题356
1052代码大规模语言模型357
1053发展趋势 361
第 11章展望和结论 363
111局限和挑战 363
1111局限 363
1112挑战 364
112方向和建议 365
1121数据方面 365
1122技术方面 365
1123应用方面 366
1124方向建议 366
113值得探索的研究 368
1131基础理论研究369
1132高效计算研究370
1133安全伦理研究371
1134数据和评估研究 372
1135认知学习问题373
1136高效适配研究374
参考文献 376
前言
当我完成这本书的时候,回首走过的路,不禁感慨万分。本书是在我与算法组成员培训分享和知识交流的过程中孕育而成的。团队中的同事们有着不同的学习背景、思维方式和个体经验,这些不同的声音和力量聚在一起,凝结成了这部思想智慧的结晶。我们毫无保留地分享着彼此的见解,相互启发,共同成长。我相信,如果能够系统地整理出这些共享资源,将会让更多的人受益。
我的灵感不仅来自团队内的经验交流,还受到了大规模语言模型( LLM)研究的启发,这一研究热潮如同一阵清风,吹散了我对“自然语言处理”这个领域的传统认知,大规模语言模型的研究热潮点燃了我思维的火花,让我重新审视并深刻理解了这一领域所蕴含的无限潜力。大规模语言模型不仅为我们提供了强大的自然语言处理工具,也激发了我对创新和实践的渴望。