作者:(美)Ashish Bansal编著
页数:286页
出版社:北京航空航天大学出版社
出版日期:2025
ISBN:9787512443167
电子书格式:pdf/epub/txt
网盘下载地址:下载TensorFlow 2高级自然语言处理实战
内容简介
本书是一本深入介绍自然语言处理(NLP)领域最新进展与实践应用的权威著作。本书聚焦于NLP的三大核心领域——自然语言理解、自然语言产生与对话系统,详细阐述了从基础文本预处理到高级深度学习模型的全面知识体系。书中不仅覆盖了令牌化、词性标注、命名实体识别等经典技术,还深入探讨了BERT、GPT系列、Transformer等前沿模型的应用。此外,本书还着重介绍了迁移学习、微调等关键技术,以及如何利用TensorFlow构建高效、复杂的NLP系统。通过丰富的实例和代码,读者将掌握解决复杂NLP问题的先进工具和技术,为从事NLP研究和应用打下坚实基础。本书适合中级机器学习开发人员及TensorFlow/Python数据科学专业人员阅读。
作者简介
Ashish Bansal 是Twitch推荐系统的总监,他在Twitch负责构建适用于各种产品界面的可扩展推荐系统,旨在将内容与用户连接起来。他曾在多家公司从事推荐系统的工作,其中最著名的包括Twitter和Capital One。在Twitter,他负责引领趋势和事件推荐系统;在Capital One,他致力于B2B和B2C产品的研发。Ashish Bansal还是多伦多一家全方位数字代理公司GALE Partners的联合创始人,并在领先的数字代理公司SapientNitro工作了9年多。在多年构建混合推荐系统的工作中,他需要在协同过滤信号和内容基础信号之间找到平衡,为此他花费了大量时间构建自然语言处理(NLP)系统以提取内容信号。在数字营销领域,他构建了用于分析优惠券、优惠活动和主题行的系统。他还处理过信息、推文、新闻文章等多种类型的文本数据,并应用了前沿的自然语言处理技术。
本书特色
在这个信息爆炸的时代,Natural Language不仅是沟通的桥梁,更是智能的钥匙!本书带你深入自然语言处理的神秘殿堂,揭秘AI如何理解、生成乃至与人类对话的奥秘!
从基础的文本预处理到最前沿的Transformer架构,本书不仅是一次技术的盛宴,更是一场思维的革命。你将亲眼见证,曾经的科幻场景——智能对话机器人、精准情感分析、自动文本摘要等,如何在深度学习的魔力下逐一实现!
书中不仅有扎实的理论基础,更有实战为王!通过丰富的案例和代码,手把手教你如何利用TensorFlow构建强大的NLP模型,无论是情感分析、命名实体识别,还是文本生成、多模式网络,都能轻松上手!
不要错过这场通往未来的语言之旅,让《解锁未来语言》成为你NLP征途上的灯塔,引领你探索未知,创造无限可能!立即加入,让我们一起,用代码书写语言的未来!
目录
第1章自然语言处理的要点1
1.1典型的文本处理工作流程1
1.2数据的收集与标记2
1.2.1收集标记的数据3
1.2.2在Google Colab上启用GPU6
1.3文本规范化7
1.3.1对规范化后的数据进行建模9
1.3.2令牌化11
1.3.3停止词删除17
1.3.4词性标注22
1.3.5词干提取与词形还原27
1.4矢量化文本29
1.4.1基于计数的矢量化30
1.4.2词频逆文档频率32
1.4.3词向量35
1.5总结38
第2章通过BiLSTM理解自然语言中的情感39
2.1自然语言理解39
2.2双向长短时记忆40
2.2.1RNN构建块41
2.2.2长短时记忆网络42
2.2.3门控循环单元43
2.2.4基于LSTM的情感分类44
2.3总结59
第3章基于BiLSTMs、CRFs和维特比解码的命名实体识别60
3.1命名实体识别60
3.2加载数据63
3.3规范化、矢量化数据68
3.4BiLSTM模型71
3.5条件随机场74
3.6基于BiLSTM和CRF的命名实体识别76
3.6.1实现自定义CRF层、损耗和模型77
3.6.2实施自定义训练81
3.7维特比解码(Viterbi decoding)85
3.8总结88
第4章基于BERT的迁移学习90
4.1迁移学习概述90
4.2基于GloVe嵌入的IMDb情感分析94
4.2.1GloVe 嵌入(GloVe embeddings)94
4.2.2加载IMDb训练数据95
4.2.3加载与训练GloVe嵌入97
4.2.4使用GloVe创建与训练嵌入矩阵98
4.2.5特征提取模型99
4.2.6微调模型103
4.3基于BERT的迁移学习104
4.3.1编码器解码器网络104
4.3.2注意力模型106
4.3.3Transformer模型108
4.3.4BERT模型110
4.4总结124
第5章利用RNN和GPT2生成文本125
第6章基于seq2seq Attention和Transformer Networks的文本总结154
第7章基于ResNets和Transformer Networks的多模式网络和图像字幕190
第8章基于Snorkel分类的弱监督学习238
第9章通过深度学习构建聊天AI应用程序271
9.1会话智能体概述271
9.2问答和MRC会话智能体280
9.3一般会话智能体282
9.4总结283
9.5结语283
第10章代码的安装和设置说明284
前言
着Transformer based和attention based网络的脱颖而出,对于自然语言处理(Natural Language Processing,NLP)来说,2017年无疑是可以称为分水岭的一年。过去几年里,NLP发生的变革就像是2012年AlexNet对于计算机视觉的变革一般。自然语言处理取得了巨大的进步,正从实验室研究转向应用。
这些进步跨越了自然语言理解(Natural Language Understanding,NLU)、自然语言产生(Natural Language Generation,NLG)和自然语言交互(Natural Language Interaction,NLI)等众多领域。随着对所涉及的众多领域的大量研究,我们发现,想要理解自然语言处理这些激动人心的进步是一项艰巨的任务。
本书重点介绍NLP、语言产生、对话系统领域的前沿应用,涵盖了通过令牌化(tokenization)、词性(POS)标记,以及使用流行库(如Stanford NLP和spaCy)进行词形还原等技术预处理文本的概念。命名实体识别(Named Entity Recognition,NER)模型是根据双向长短时记忆网络(Bi瞕irectional Long Short睺erm Memory networks,BiILSTMs)、条件随机场(Conditional Random Fields,CRFs)以及维特比解码构建的。从实际且注重应用的角度来说,本书涵盖了诸如用于语句填空和文本总结的文本生成、通过生成图像标题以连接图像和文本的多模式网络,以及聊天机器人对话方面的管理等一众关键的新兴领域。除此以外,本书还详细介绍了自然语言处理取得最新进展背后最重要的原因之一——迁移学习和微调。未标记的文本数据很容易获得,但相对而言,标记这些数据的成本很高。而可以简化文本数据标记的实用技术,同样也可以在本书中找到。