
作者:张世博著
页数:207
出版社:中国水利水电出版社
出版日期:2019
ISBN:9787517069263
电子书格式:pdf/epub/txt
内容简介
目前,大数据产业蓬勃发展,从而带动了人们对于非格式化文本数据的分析需求,本书全面、系统的介绍了文本信息处理的相关技术,包括分词、文本向量化、特征选择、文本相似度计算、文本分类、主题模型、情感计算等内容,并在若干综合性的章节中,设计了独到的模型算法,阐述了算法过程。所有章节都通过实例对过程做详细描述,并辅助以代码或伪代码实现,帮助读者理解,具有高度的可操作性和实用性。本书内容新颖、层次清晰,适合高校教师、研究生、高年级本科生使用,也可供相关的软件工程师做参考。
目录
前言
章引言1
1.1文本分析简介1
1.2技术发展历程5
1.3应用现状7
1.4小结12
第2章常用的救学基础13
2.1机器学习的处理过程13
2.2数学工具16
2.3归一化与正则化18
第3章分词23
3.1分词的基本原理23
3.2分词中的序列标注方法28
3.3深度学习下的分词37
3.4词性标注43
3.5分词技术面临的挑战49
3.6小结51
第4章丈本向量化53
4.1词向量介绍53
……














