
作者:(美)真亚·安蒂科(Zhenya Ant
页数:218页
出版社:机械工业出版社
出版日期:2023
ISBN:9787111725152
电子书格式:pdf/epub/txt
内容简介
本书从NLP的概述开始,介绍了将文本分成句子、词干提取和词形还原、去除停用词和词性标记的方法,以帮助您准备数据。然后,您将学习提取和表示语法信息的方法,例如依存分析和回指解析,发现使用词袋、TF-IDF、词嵌入和BERT表示语义的不同方法,并培养文本技能使用关键字、SVM、LSTM和其他技术进行分类。随着学习的深入,您还将了解如何从文本中提取信息、实施无监督和有监督的主题建模技术,以及对短文本(如推文)进行主题建模。此外,本书还向您展示了如何使用NLTK和Rasa开发聊天机器人并可视化文本数据。
目录
目录
译者序
原书前言
第1章学习NLP基础知识
1.1技术要求
1.2将文本分成句子
1.3将句子切分成单词——分词
1.4词性标注
1.5词干提取
1.6组合相似词——词形还原
1.7删除停用词
第2章玩转语法
2.1技术要求
2.2计数名词——复数名词和单数名词
2.3获取依存句法
2.4将句子拆分为从句
2.5提取名词块
2.6提取实体和关系
2.7提取句子的主语和宾语
2.8寻找引用——指代消解
第3章表示文本——捕获语义
3.1技术要求
3.2将文档放入词袋中
3.3构建n-gram模型
3.4用TF-IDF表示文本
3.5使用词嵌入
3.6训练您自己的嵌入模型
3.7表示短语——phrase2vec
3.8使用BERT代替词嵌入
3.9语义搜索入门
第4章文本分类
4.1技术要求
4.2准备好数据集和评估基准
4.3使用关键词执行基于规则的文本分类
4.4使用K-means聚类句子——无监督文本分类
4.5使用SVM进行有监督的文本分类
4.6使用LSTM进行有监督的文本分类
第5章信息提取入门
5.1技术要求
5.2使用正则表达式
5.3寻找相似的字符串:Levenshtein距离
5.4使用spaCy执行命名体识别
5.5用spaCy训练您自己的NER模型
5.6发现情感分析
5.7使用LSTM的短文本情感分析:Twitter
5.8使用BERT进行情感分析
第6章主题建模
6.1技术要求
6.2使用sklearn进行LDA主题建模
6.3使用gensim进行LDA主题建模
6.4NMF主题建模
6.5使用BERT进行K-means主题建模
6.6短文本主题建模
第7章构建聊天机器人
7.1技术要求
7.2使用关键字匹配构建一个基本的聊天机器人
7.3构建一个基本的Rasa聊天机器人
7.4使用Rasa创建问答对
7.5使用Rasa创建和可视化对话路径
7.6为Rasa聊天机器人创建操作
第8章可视化文本数据
8.1技术要求
8.2可视化依存句法
8.3可视化词性
8.4可视化NER
8.5构建词云
8.6可视化主题
附录
附录AspaCy词性标签列表
附录BNLTK词性标签列表
附录C停用词列表
附录DspaCy命名实体标签
译者序
原书前言
第1章学习NLP基础知识
1.1技术要求
1.2将文本分成句子
1.3将句子切分成单词——分词
1.4词性标注
1.5词干提取
1.6组合相似词——词形还原
1.7删除停用词
第2章玩转语法
2.1技术要求
2.2计数名词——复数名词和单数名词
2.3获取依存句法
2.4将句子拆分为从句
2.5提取名词块
2.6提取实体和关系
2.7提取句子的主语和宾语
2.8寻找引用——指代消解
第3章表示文本——捕获语义
3.1技术要求
3.2将文档放入词袋中
3.3构建n-gram模型
3.4用TF-IDF表示文本
3.5使用词嵌入
3.6训练您自己的嵌入模型
3.7表示短语——phrase2vec
3.8使用BERT代替词嵌入
3.9语义搜索入门
第4章文本分类
4.1技术要求
4.2准备好数据集和评估基准
4.3使用关键词执行基于规则的文本分类
4.4使用K-means聚类句子——无监督文本分类
4.5使用SVM进行有监督的文本分类
4.6使用LSTM进行有监督的文本分类
第5章信息提取入门
5.1技术要求
5.2使用正则表达式
5.3寻找相似的字符串:Levenshtein距离
5.4使用spaCy执行命名体识别
5.5用spaCy训练您自己的NER模型
5.6发现情感分析
5.7使用LSTM的短文本情感分析:Twitter
5.8使用BERT进行情感分析
第6章主题建模
6.1技术要求
6.2使用sklearn进行LDA主题建模
6.3使用gensim进行LDA主题建模
6.4NMF主题建模
6.5使用BERT进行K-means主题建模
6.6短文本主题建模
第7章构建聊天机器人
7.1技术要求
7.2使用关键字匹配构建一个基本的聊天机器人
7.3构建一个基本的Rasa聊天机器人
7.4使用Rasa创建问答对
7.5使用Rasa创建和可视化对话路径
7.6为Rasa聊天机器人创建操作
第8章可视化文本数据
8.1技术要求
8.2可视化依存句法
8.3可视化词性
8.4可视化NER
8.5构建词云
8.6可视化主题
附录
附录AspaCy词性标签列表
附录BNLTK词性标签列表
附录C停用词列表
附录DspaCy命名实体标签















