技术教育社区
www.teccses.org

智能科学与技术丛书:模式识别

封面

作者:吴建鑫

页数:368

出版社:机械工业出版社

出版日期:2020

ISBN:9787111643890

电子书格式:pdf/epub/txt

内容简介

(1)近年来,随着人工智能技术的快速发展和应用,国内外很多重点院校已经或正在成立人工智能学院/研究院或者人工智能专业,模式识别是其中的核心课程。现有的模式识别课程教材内容相对比较陈旧,未能包括模式识别领域的新知识和技术,如各种深度学习框架、端到端学习、软硬件结合等。
(2)为了适应当前模式识别方法与系统的新特性,南京大学计算机科学与技术系吴建鑫教授潜心6年时间写作了这本全新的模式识别课程入门教材,注重从四个方面(强调可读、注重实践、拓广视野、培养能力)培养学生培养独立解决任务的能力,为模式识别的项目开发及相关科研活动打好基础.
(3)本书作者吴建鑫现为南京大学计算机系教授、博导,机器学习与数据挖掘研究所(LAMDA)核心成员,同时他还入选国家青年千人计划,获得国家自然科学基金委员会优秀青年科学基金支持,是模式识别与计算机视觉领域非常杰出的青年学者。2013年回国加入南京大学计算机系一直主讲模式识别课程,本书根据他这些年的课程讲义和科研实践,全部习题由作者自己设计,英文版即将由剑桥大学出版社出版。本书的正式出版将有望弥补目前模式识别课程教材内容陈旧、未能结合AI领域新技术的不足,更好地助力人工智能专业建设和人才培养。

作者简介

吴建鑫
南京大学计算机科学与技术系教授、博士生导师,入选中组部青年海外高层次人才引进计划(青年千人计划),2014年获得国家自然科学基金委优秀青年科学基金项目支持. 同时,担任Minieye首席科学家(minieye.cc). 主要从事计算机视觉和机器学习等领域的研究. 在重要国际期刊如TPAMI、IJCV、AIJ、JMLR等以及重要国际会议如ICCV、CVPR、ICML等发表论文六十余篇. 曾担任国际会议ICCV、AAAI、CVPR等领域主席。发表论文被60余个国家和地区的学者引用7000余次.

本书特色

本书是模式识别领域的入门教材,系统阐述了模式识别中的基础知识、主要模型及热门应用,并给出了近年来本领域一些新的成果和观点;通过理论学习和动手实践相结合的形式使初学者能有效入门,并培养独立解决任务的能力,为模式识别的项目开发及相关科研活动打好基础.
全书共15章,大致分为五部分:最部分(第1~4章)介绍了本书的概论和基础知识,包括绪论、数学背景知识、模式识别系统概述以及评估;第二部分(第5~6章)介绍了与领域知识无关的特征提取,包括主成分分析和Fisher线性判别;第三部分(第7~10章)介绍了分类器与其他工具,包括支持向量机、概率方法、距离度量与数据变换、信息论和决策树;第四部分(第11~12章)介绍了如何处理变化多端的数据,包括稀疏数据和未对齐数据、隐马尔可夫模型;第五部分(第13~15章)介绍了一些高阶课题,包括正态分布、EM算法和卷积神经网络.
本书可作为高等院校人工智能、计算机、自动化、电子和通信等相关专业研究生或本科生的教材,也可供人工智能、计算机、自动化、电子和通信等领域研究人员和工程技术人员参考.

目录

前言
符号表
第一部分概述……………………………………………………………….1
第1章绪论…………………………………………………………………..2
1.1样例:自动驾驶…………………………………………………………3
1.2模式识别与机器学习…………………………………………………….5
1.2.1一个典型的模式识别流程……………………………………………..5
1.2.2模式识别vs.机器学习……………………………………………….8
1.2.3评估、部署和细化…………………………………………………..9
1.3本书的结构…………………………………………………………….9
习题………………………………………………………………………12
第2章数学背景知识…………………………………………………………14
2.1线性代数……………………………………………………………..14
2.1.1内积、范数、距离和正交性…………………………………………..14
2.1.2角度与不等式……………………………………………………..15
2.1.3向量投影…………………………………………………………16
2.1.4矩阵基础…………………………………………………………17
2.1.5矩阵乘法…………………………………………………………18
2.1.6方阵的行列式与逆………………………………………………….19
2.1.7方阵的特征值、特征向量、秩和迹……………………………………..20
2.1.8奇异值分解……………………………………………………….22
2.1.9(半)正定实对称矩阵……………………………………………….22
2.2概率………………………………………………………………….23
2.2.1基础…………………………………………………………….23
2.2.2联合分布、条件分布与贝叶斯定理……………………………………..25
2.2.3期望与方差/协方差矩阵……………………………………………..26
2.2.4不等式…………………………………………………………..27
2.2.5独立性与相关性……………………………………………………28
2.2.6正态分布…………………………………………………………29
2.3优化与矩阵微积分……………………………………………………..30
2.3.1局部极小、必要条件和矩阵微积分……………………………………..30
2.3.2凸优化与凹优化……………………………………………………31
2.3.3约束优化和拉格朗日乘子法………………………………………….33
2.4算法复杂度……………………………………………………………34
2.5阅读材料……………………………………………………………..35
习题………………………………………………………………………35
第3章模式识别系统概述…………………………………………………….39
3.1人脸识别……………………………………………………………..39
3.2一个简单的最近邻分类器……………………………………………….40
3.2.1训练或学习……………………………………………………….40
3.2.2测试或预测……………………………………………………….40
3.2.3最近邻分类器……………………………………………………..41
3.2.4k-近邻…………………………………………………………..42
3.3丑陋的细节……………………………………………………………43
3.4制定假设并化简……………………………………………………….46
3.4.1设计工作环境vs.设计复杂算法………………………………………46
3.4.2假设与简化……………………………………………………….47
3.5一种框架……………………………………………………………..51
3.6阅读材料……………………………………………………………..51
习题………………………………………………………………………53
第4章评估………………………………………………………………….55
4.1简单情形中的准确率和错误率…………………………………………..55
4.1.1训练与测试误差……………………………………………………56
4.1.2过拟合与欠拟合……………………………………………………56
4.1.3使用验证集来选择超参数……………………………………………58
4.1.4交叉验证…………………………………………………………59
4.2最小化代价/损失………………………………………………………61
4.2.1正则化…………………………………………………………..62
4.2.2代价矩阵…………………………………………………………62
4.2.3贝叶斯决策理论……………………………………………………63
4.3不平衡问题中的评估……………………………………………………64
4.3.1单个类别内的比率………………………………………………….64
4.3.2ROC曲线下的面积…………………………………………………65
4.3.3查准率、查全率和F值……………………………………………..66
4.4我们能达到100%的准确率吗?…………………………………………..68
4.4.1贝叶斯错误率……………………………………………………..68
4.4.2真实标记…………………………………………………………69
4.4.3偏置-方差分解…………………………………………………….70
4.5对评估结果的信心……………………………………………………..73
4.5.1为什么要取平均?…………………………………………………..73
4.5.2为什么要报告样本标准差?…………………………………………..74
4.5.3比较两个分类器……………………………………………………75
4.6阅读材料……………………………………………………………..79
习题………………………………………………………………………79
第二部分与领域知识无关的特征提取………………………………………83
第5章主成分分析……………………………………………………………84
5.1动机………………………………………………………………….84
5.1.1维度与内在维度……………………………………………………84
5.1.2降维…………………………………………………………….86
5.1.3PCA与子空间方法…………………………………………………86
5.2PCA降维到零维子空间………………………………………………..86
5.2.1想法-形式化-优化实践………………………………………………87
5.2.2一个简单的优化……………………………………………………87
5.2.3一些注释…………………………………………………………88
5.3PCA降维到一维子空间………………………………………………..88
5.3.1新的形式化……………………………………………………….88
5.3.2最优性条件与化简………………………………………………….89
5.3.3与特征分解的联系………………………………………………….90
5.3.4解………………………………………………………………91
5.4PCA投影到更多维度…………………………………………………..91
5.5完整的PCA算法………………………………………………………92
5.6方差的分析……………………………………………………………93
5.6.1从最大化方差出发的PCA…………………………………………..94
5.6.2一种更简单的推导………………………………………………….95
5.6.3我们需要多少维度呢?……………………………………………….95
5.7什么时候使用或不用PCA呢?…………………………………………..96
5.7.1高斯数据的PCA………………………………………………….96
5.7.2非高斯数据的PCA………………………………………………..96
5.7.3含异常点数据的PCA………………………………………………98
5.8白化变换……………………………………………………………..98
5.9特征分解vs.SVD……………………………………………………..98
5.10阅读材料…………………………………………………………….99
习题………………………………………………………………………99
第6章Fisher线性判别……………………………………………………..103
6.1用于二分类的FLD…………………………………………………..104
6.1.1想法:什么是隔得很远呢?…………………………………………..104
6.1.2翻译成数学语言…………………………………………………..105
6.1.3散度矩阵vs.协方差矩阵…………………………………………..107
6.1.4两种散度矩阵以及FLD的目标函数………………………………….108
6.1.5优化……………………………………………………………108
6.1.6等等,我们有一条捷径……………………………………………..109
6.1.7二分类问题的FLD……………………………………………….109
6.1.8陷阱:要是SW不可逆呢?…………………………………………..110
6.2用于多类的FLD……………………………………………………..111
6.2.1稍加修改的符号和SW…………………………………………….111
6.2.2SB的候选……………………………………………………….111
6.2.3三个散度矩阵的故事……………………………………………….112
6.2.4解……………………………………………………………..113
6.2.5找到更多投影方向…………………………………………………113
6.3阅读材料…………………………………………………………….113
习题……………………………………………………………………..114
第三部分分类器与其他工具……………………………………………….119
第7章支持向量机………………………………………………………….120
7.1SVM的关键思想……………………………………………………..120
7.1.1简化它!简化它!简化它!…………………………………………..120
7.1.2查找最大(或较大)间隔的分类器…………………………………….121
7.2可视化并计算间隔…………………………………………………….122
7.2.1几何的可视化…………………………………………………….123
7.2.2将间隔作为优化来计算…………………………………………….124
7.3最大化间隔…………………………………………………………..124
7.3.1形式化………………………………………………………….125
7.3.2各种简化………………………………………………………..125
7.4优化与求解…………………………………………………………..127
7.4.1拉格朗日函数与KKT条件…………………………………………127
7.4.2SVM的对偶形式………………………………………………….128
7.4.3最优的b值与支持向量…………………………………………….129
7.4.4同时考虑原始形式与对偶形式……………………………………….131
7.5向线性不可分问题和多类问题的扩展……………………………………131
7.5.1不可分问题的线性分类器…………………………………………..132
7.5.2多类SVM………………………………………………………134
7.6核SVM……………………………………………………………..134
7.6.1核技巧………………………………………………………….135
7.6.2Mercer条件与特征映射…………………………………………….136
7.6.3流行的核函数与超参数…………………………………………….137
7.6.4SVM的复杂度、权衡及其他………………………………………..138
7.7阅读材料…………………………………………………………….139
习题……………………………………………………………………..139
第8章概率方法…………………………………………………………….144
8.1思考问题的概率路线………………………………………………….144
8.1.1术语……………………………………………………………144
8.1.2分布与推断………………………………………………………145
8.1.3贝叶斯定理………………………………………………………145
8.2各种选择…………………………………………………………….146
8.2.1生成式模型vs.判别式模型…………………………………………146
8.2.2参数化vs.非参数化……………………………………………….147
8.2.3该如何看待一个参数呢?……………………………………………148
8.3参数化估计…………………………………………………………..148
8.3.1最大似然………………………………………………………..148
8.3.2最大后验………………………………………………………..150
8.3.3贝叶斯………………………………………………………….151
8.4非参数化估计…………………………………………………………153
8.4.1一个一维的例子…………………………………………………..153
8.4.2直方图近似中存在的问题…………………………………………..155
8.4.3让你的样本无远弗届……………………………………………….156
8.4.4核密度估计………………………………………………………157
8.4.5带宽选择………………………………………………………..158
8.4.6多变量KDE…………………………………………………….158
8.5做出决策…………………………………………………………….159
8.6阅读材料…………………………………………………………….159
习题……………………………………………………………………..160
第9章距离度量与数据变换………………………………………………….163
9.1距离度量和相似度度量………………………………………………..163
9.1.1距离度量………………………………………………………..164
9.1.2向量范数和度量…………………………………………………..164
9.1.3lp范数和lp度量…………………………………………………165
9.1.4距离度量学习…………………………………………………….167
9.1.5均值作为一种相似度度量…………………………………………..168
9.1.6幂平均核………………………………………………………..170
9.2数据变换和规范化…………………………………………………….171
9.2.1线性回归………………………………………………………..172
9.2.2特征规范化………………………………………………………173
9.2.3数据变换………………………………………………………..175
9.3阅读材料…………………………………………………………….177
习题……………………………………………………………………..177
第10章信息论和决策树…………………………………………………….182
10.1前缀码和霍夫曼树……………………………………………………182
10.2信息论基础………………………………………………………….183
10.2.1熵和不确定性…………………………………………………..184
10.2.2联合和条件熵…………………………………………………..184
10.2.3互信息和相对熵…………………………………………………185
10.2.4一些不等式…………………………………………………….186
10.2.5离散分布的熵…………………………………………………..187
10.3连续分布的信息论……………………………………………………187
10.3.1微分熵………………………………………………………..188
10.3.2多元高斯分布的熵………………………………………………189
10.3.3高斯分布是最大熵分布…………………………………………..191
10.4机器学习和模式识别中的信息论………………………………………192
10.4.1最大熵………………………………………………………..192
10.4.2最小交叉熵…………………………………………………….193
10.4.3特征选择………………………………………………………194
10.5决策树………………………………………………………………195
10.5.1异或问题及其决策树模型…………………………………………195
10.5.2基于信息增益的结点划分…………………………………………197
10.6阅读材料……………………………………………………………198
习题……………………………………………………………………..199
第四部分处理变化多端的数据…………………………………………….203
第11章稀疏数据和未对齐数据………………………………………………204
11.1稀疏机器学习……………………………………………………….204
11.1.1稀疏PCA?……………………………………………………204
11.1.2使用l1范数诱导稀疏性………………………………………….205
11.1.3使用过完备的字典………………………………………………208
11.1.4其他一些相关的话题…………………………………………….210
11.2动态时间规整……………………………………………………….212
11.2.1未对齐的时序数据………………………………………………212
11.2.2思路(或准则)…………………………………………………213
11.2.3可视化和形式化…………………………………………………214
11.2.4动态规划………………………………………………………215
11.3阅读材料……………………………………………………………218
习题……………………………………………………………………..218
第12章隐马尔可夫模型…………………………………………………….222
12.1时序数据与马尔可夫性质……………………………………………..222
12.1.1各种各样的时序数据和模型……………………………………….222
12.1.2马尔可夫性质…………………………………………………..224
12.1.3离散时间马尔可夫链…………………………………………….225
12.1.4隐马尔可夫模型…………………………………………………227
12.2HMM学习中的三个基本问题…………………………………………228
12.3α、β和评估问题…………………………………………………….229
12.3.1前向变量和算法…………………………………………………230
12.3.2后向变量和算法…………………………………………………231
12.4γ、δ、ψ和解码问题………………………………………………….234
12.4.1γ和独立解码的最优状态…………………………………………234
12.4.2δ、ψ和联合解码的最优状态………………………………………235
12.5ξ和HMM参数的学习……………………………………………….237
12.5.1Baum-Welch:以期望比例来更新?…………………………………238
12.5.2如何计算ξ…………………………………………………….238
12.6阅读材料……………………………………………………………240
习题……………………………………………………………………..241
第五部分高阶课题………………………………………………………..245
第13章正态分布……………………………………………………………246
13.1定义………………………………………………………………..246
13.1.1单变量正态分布…………………………………………………246
13.1.2多元正态分布…………………………………………………..247
13.2符号和参数化形式……………………………………………………248
13.3线性运算与求和……………………………………………………..249
13.3.1单变量的情形…………………………………………………..249
13.3.2多变量的情形…………………………………………………..250
13.4几何和马氏距离……………………………………………………..251
13.5条件作用……………………………………………………………252
13.6高斯分布的乘积……………………………………………………..253
13.7应用Ⅰ:参数估计……………………………………………………254
13.7.1最大似然估计…………………………………………………..254
13.7.2贝叶斯参数估计…………………………………………………255
13.8应用Ⅱ:卡尔曼滤波………………………………………………….256
13.8.1模型………………………………………………………….256
13.8.2估计………………………………………………………….257
13.9在本章中有用的数学…………………………………………………258
13.9.1高斯积分………………………………………………………258
13.9.2特征函数………………………………………………………259
13.9.3舒尔补&矩阵求逆引理………………………………………….260
13.9.4向量和矩阵导数…………………………………………………262
习题……………………………………………………………………..263
第14章EM算法的基本思想………………………………………………..266
14.1GMM:一个工作实例…………………………………………………266
14.1.1高斯混合模型…………………………………………………..266
14.1.2基于隐变量的诠释………………………………………………267
14.1.3假若我们能观测到隐变量,那会怎样?………………………………..268
14.1.4我们可以模仿先知吗?……………………………………………269
14.2EM算法的非正式描述……………………………………………….270
14.3期望最大化算法……………………………………………………..270
14.3.1联合非凹的不完整数据对数似然……………………………………271
14.3.2(可能是)凹的完整数据对数似然……………………………………271
14.3.3通用EM的推导………………………………………………..272
14.3.4E步和M步…………………………………………………..274
14.3.5EM算法………………………………………………………275
14.3.6EM能收敛吗?………………………………………………….275
14.4EM用于GMM……………………………………………………..276
14.5阅读材料……………………………………………………………279
习题……………………………………………………………………..279
第15章卷积神经网络……………………………………………………….281
15.1预备知识……………………………………………………………281
15.1.1张量和向量化…………………………………………………..282
15.1.2向量微积分和链式法则…………………………………………..283
15.2CNN概览…………………………………………………………..283
15.2.1结构………………………………………………………….283
15.2.2前向运行………………………………………………………285
15.2.3随机梯度下降…………………………………………………..285
15.2.4误差反向传播…………………………………………………..286
15.3层的输入、输出和符号……………………………………………….287
15.4ReLU层…………………………………………………………….288
15.5卷积层………………………………………………………………290
15.5.1什么是卷积?……………………………………………………290
15.5.2为什么要进行卷积?……………………………………………..291
15.5.3卷积作为矩阵乘法………………………………………………293
15.5.4克罗内克积…………………………………………………….295
15.5.5反向传播:更新参数……………………………………………..296
15.5.6更高维的指示矩阵………………………………………………297
15.5.7反向传播:为前一层准备监督信号…………………………………..298
15.5.8用卷积层实现全连接层…………………………………………..300
15.6汇合层………………………………………………………………301
15.7案例分析:VGG-16网络………………………………………………303
15.7.1VGG-Verydeep-16………………………………………………303
15.7.2感受野………………………………………………………..304
15.8CNN的亲身体验…………………………………………………….305
15.9阅读材料……………………………………………………………305
习题……………………………………………………………………..305
参考文献……………………………………………………………………..309
英文索引……………………………………………………………………..325
中文索引……………………………………………………………………..332

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《智能科学与技术丛书:模式识别》
Article link:https://www.teccses.org/1132668.html