开启智能对话新纪元:大规模语言模型的探索与实践 pdf/epub/txt电子书下载-技术教育社区

作者：蔡华、徐清、宣晓华著

页数：392

出版社：清华大学出版社

出版日期：2024

ISBN：9787302678533

电子书格式：pdf/epub/txt

内容简介

本书深度探讨了当今科技领域最引人注目的大语言模型相关技术，内容主要围绕大规模语言模型构建、评估和应用展开为下面的四个主要部分：第一部分主要介绍大规模语言模型的发展历程以及预训练相关内容，包括语言模型基本架构、大规模语言模型的高效微调技术、人类反馈的强化学习和分布式模型训练；第二个部分主要介绍大规模语言模型的推理优化技术、推理加速框架和模型的评估；第三个部分主要介绍大规模语言模型扩展和应用，包括大规模语言模型和知识的融合、多模态大规模语言模型以及大规模语言模型的垂直领域应用；第四个部分主要介绍大规模语言模型研究的困难、挑战和未来潜在研究方向。

本书的一些亮点特色包括：深度解析技术原理：本书通过通俗易懂的语言，对大语言模型的相关技术进行深入解析，使读者能够理解模型的工作机制，训练优调和指标评估方法，从而更好地应用于实际项目中；扩展应用和案例：本书介绍了大语言模型和知识融合，以及多模态大语言模型的两种常见扩展应用，而且通过了丰富的实际案例，书中展示了大语言模型在各行各业中的成功应用，读者可以了解到它如何改变传统业务流程，提高工作效率；关注社会影响与伦理问题：除了技术层面，书中还关注大语言模型对社会的深远影响，涵盖创作权、隐私等方面的伦理问题，引导读者深思技术发展对社会的影响。未来趋势与开放性问题：书籍不仅着眼于已有成果，还展望了大语言模型领域的未来趋势，提出了一系列开放性问题，鼓励读者参与到这一领域的探索中。

本书读者对象包括：技术爱好者：为人工智能和自然语言处理感兴趣的技术人员提供相对全面的大语言模型的介绍资料；相关从业者：提供给相关从业人员了解大语言模型应用以及深入了解大语言模型技术原理和最新研究趋势的资料；以及一些对人工智能社会影响感兴趣的一般读者：通过通俗的语言介绍大语言模型，让其更好地理解这一技术，以及这个技术给我们生活带来的影响。

本书特色

本书深度探讨了当今科技领域最引人注目的大语言模型相关技术，内容主要围绕大规模语言模型构建、评估和应用展开

前言

当我完成这本书的时候，回首走过的路，不禁感慨万分。本书是在我与算法组成员培训分享和知识交流的过程中孕育而成的。团队中的同事们有着不同的学习背景、思维方式和个体经验，这些不同的声音和力量聚在一起，凝结成了这部思想智慧的结晶。我们毫无保留地分享着彼此的见解，相互启发，共同成长。我相信，如果能够系统地整理出这些共享资源，将会让更多的人受益。
我的灵感不仅来自团队内的经验交流，还受到了大规模语言模型（ LLM）研究的启发，这一研究热潮如同一阵清风，吹散了我对“自然语言处理”这个领域的传统认知，大规模语言模型的研究热潮点燃了我思维的火花，让我重新审视并深刻理解了这一领域所蕴含的无限潜力。大规模语言模型不仅为我们提供了强大的自然语言处理工具，也激发了我对创新和实践的渴望。当我完成这本书的时候，回首走过的路，不禁感慨万分。本书是在我与算法组成员培训分享和知识交流的过程中孕育而成的。团队中的同事们有着不同的学习背景、思维方式和个体经验，这些不同的声音和力量聚在一起，凝结成了这部思想智慧的结晶。我们毫无保留地分享着彼此的见解，相互启发，共同成长。我相信，如果能够系统地整理出这些共享资源，将会让更多的人受益。 我的灵感不仅来自团队内的经验交流，还受到了大规模语言模型（ LLM）研究的启发，这一研究热潮如同一阵清风，吹散了我对“自然语言处理”这个领域的传统认知，大规模语言模型的研究热潮点燃了我思维的火花，让我重新审视并深刻理解了这一领域所蕴含的无限潜力。大规模语言模型不仅为我们提供了强大的自然语言处理工具，也激发了我对创新和实践的渴望。 2018年，Google的研究团队开创性地提出了预训练语言模型 BERT。该模型在诸多自然语言处理任务中展现出卓越的性能，激发了大量以预训练语言模型为基础的自然语言处理研究，也引领了自然语言处理领域的预训练范式的兴起。尽管这一变革影响深远，但它并没有改变每个模型只能解决特定问题的基本模式。2020年，OpenAI发布了 GPT-3模型，其在文本生成任务上的能力令人印象深刻，并在少样本（ Few-shot）的自然语言处理任务上取得了优异的成绩。但是，其性能并未超越专门针对单一任务训练的有监督模型。直到 2022年底 ChatGPT的横空出世，掀起了新一轮人工智能革命。此后，各国科技公司纷纷加码大规模语言模型研发，“千模大战”越发激烈。这些模型凭借其惊人的语言理解和生成能力，让人们惊叹不已，人们利用这些大规模语言模型创造出更为强大和智能的工具。我也深受启发，开始思考如何将这些前沿的技术与我们整理的资料相结合。 在这本书中，我将分享自己在大规模语言模型研究中的心得体会，整理培训资料过程中的所思所想。这些积累下来的培训资料仿佛是一颗颗散落的珍珠，当我把它们串联起来的时候，才发现其璀璨之处，呈现出我之前未曾意识到的深度和广度。写书的过程就像一场冒险，我不断探索知识的海洋，找寻隐藏在细节中的宝藏。在这里，我将培训组内积累的精华资料与大规模语言模型的研究成果相结合，带着十二分真诚打磨出这样一本既有实用性又有创新性的作品。真心希望通过这些分享，能够激发读者朋友们对于知识整理与应用的兴趣，同时也为大家带来一些关于语言模型及其应用的新思考。希望邂逅这本书的读者朋友们能够在阅读过程中了解前沿技术，并能在实际工作中得到些许启发。 本书共分为 11章，每一章都聚焦一个特定的主题，涵盖从基础知识到前沿技术的多个层面，包括大规模语言模型预训练、微调和评估相关内容，大规模语言模型的推理优化技术和推理框架，以及大规模语言模型扩展应用和未来的一些研究方向。通过深入浅出的讲解和实例分析，希望读者能够更好地理解和应用所学的知识。同时，我还将结合实际案例和个人经历，分享一些在培训组中成长的点滴，希望能够激发读者的思考和启示。 第 1章主要介绍大规模语言模型的背景，包括语言建模的发展阶段和大规模语言模型带来的机遇。 第 2章主要介绍大规模语言模型所需的基础理论知识，包括语言模型的定义和 Transformer结构，回顾了统计语言模型、神经网络语言模型以及预训练语言模型的概念，并且介绍它们中具有代表性的一些语言模型。 第 3章主要介绍大规模语言模型的框架结构，包括编码器结构、解码器结构以及编码器-解码器结构，并着重介绍 LLaMA家族所使用的模型结构。 第 4章主要介绍大规模语言模型的训练方法，并围绕大规模语言模型如何进行指令理解展开，即如何在基础模型基础上利用有监督微调和强化学习方法，使得模型理解指令并给出类人回答。主要介绍 LoRA和 Prefix Tuning等模型高效参数微调方法、强化学习基础、近端策略优化的人类反馈的强化学习，并且引入大模型灾难性遗忘问题。 第 5章主要围绕大规模语言模型的并行训练技术展开介绍，包括模型分布式训练中需要掌握的数据并行、流水线并行、模型并行以及 ZeRO系列优化方法，此外还将介绍一些常用的并行训练框架，并以 DeepSpeed为例介绍如何进行大规模语言模型预训练微调。 第 6章主要介绍大规模语言模型解码推理优化相关技术，包括解码方法、推理优化方法和一些常用的推理加速框架，如 vLLM和 LightLLM等。 第 7章主要围绕大规模语言模型的评估展开介绍，包括传统的语言模型评估方式，以及针对大规模语言模型使用的各类评估方法、评估领域和评估挑战。 第 8～10章主要围绕大规模语言模型的扩展应用进行展开。第 8章介绍大规模语言模型与知识的结合，主要以知识图谱为例介绍大规模语言模型和知识图谱之间的相互增强与协同，最后介绍将大规模语言模型与外部知识源进行连接的 LangChain相关的检索增强的文本生成实践应用；第 9章介绍多模态大规模语言模型技术应用，包括多模态指令调节、多模态上下文学习、多模态思维链和大规模语言模型辅助视觉推理；第 10章介绍大规模语言模型领域应用，包括法律、教育、金融、生物医疗领域以及代码生成的应用。 第 11章主要对大规模语言模型的未来研究进行展望，包括大规模语言模型研究的困难、挑战和未来值得探索的潜在研究方向。 在这里，我要特别感谢我的爱人郑诗君，在我写书的过程中她一直是我最坚实的后盾，给我无尽的支持和理解，为我营造一方自由空间，让我能够有机会专注于写作。每一次忐忑不安、每一次疲惫不堪时，都是她的鼓励和陪伴，让我坚定地继续前行，尽情探索和创作，追逐内心的梦想。 我衷心感谢与我携手合作的合著者们，他们的智慧、奉献和激励是这本书得以完成的关键。特别感谢公司董事长宣晓华博士，其严谨的治学态度和无私的支持极大地丰富了本书的内容，使得著作过程变得更有意义。感谢徐清博士，其贡献和合作精神使得这本书的内容更加全面和深刻。感谢我的同事沈旭立、李帅帅、史可欢、赵爽、刘君玲、刘育杰、孙显文、戴蕴炜，以及邵新平老师，他们在我撰写本书期间提供了很多支持和帮助。我真诚地感谢他们的帮助和热情参与，谢谢他们与我共同完成这本书，共同促成了本书的成功出版。 同时，也感谢科技的进步和大规模语言模型的研究热潮，为我们提供了前所未有的机会和可能性。 2023年，大规模语言模型研究进展非常快，如何既能够兼顾大规模语言模型的基础理论又能够在快速发展的各种研究中选择最具有代表性的工作介绍给大家，是本书写作中面临的最大挑战。受限于我的认知水平和所从事的研究工作，对其中一些任务和工作的细节理解可能存在错误，恳请专家、读者朋友们批评指正！ 最后，希望读者在阅读的过程中能够感受到我的热情和对知识深深的热爱。让我们一起踏上这场探索之旅，共同领略知识的无尽魅力。 蔡华 2024年 1月于云立方华院计算

显示全部信息

下载地址

立即下载

（解压密码：www.teccses.org）

开启智能对话新纪元:大规模语言模型的探索与实践

内容简介

本书特色

目录

前言

下载地址

Recommended For You

Search 书名作者

Guess You Like

内容简介

本书特色

目录

前言

下载地址

Recommended For You

Search 书名 作者

Guess You Like

Search 书名作者