
作者:蒂莫西·马斯特斯
页数:156
出版社:中国水利水电出版社
出版日期:2021
ISBN:9787517097822
电子书格式:pdf/epub/txt
内容简介
本书是美国有名数据挖掘算法专家、数值计算专业的数理统计学博士Timothy Masters的近期新作品。 作为一名严谨的数据挖掘工程师,应用中的预测或分类使你经常会面对成千上万的候选特征。这些特征绝大多数没有价值或只有很小的价值,只有与某个或某些其他特征联合起来才可能有用;一些特征可能有巨大的预测能力,但它们又可能仅存在于整体特征空间的某些区域……数据挖掘中,类似这种使人痛苦的问题是无穷的。本书中的现代特征选择技术,将帮助你解决这些问题。本书中所有的算法都可被直觉证实,并有相关方程和解释材料支撑。作者还展现了这些算法的完整的、受到高度好评的源代码,并对其进行了解析。本书适合算法、数据挖掘、人工智能等专业领域的教师、学生及相关的技术及研究人员作为参考及学习用书。
作者简介
Timothy Masters在获得数值计算专业的数理统计博士学位后,一直担任政府和行业的独立顾问。早期研究领域包括高程影像的自动特征检测,期间开发了洪灾和旱灾预测,隐蔽导弹发射井检测和军用车辆识别等应用。后来与医学研究人员合作开发了穿刺活检良性细胞恶性细胞的计算鉴别算法。
本书特色
l 数据技术专家Timothy Master博士力作
l 展现特征提取与选择的新技术
l 所有算法可被直觉证实
目录
第1章 概述
第2章 前向选择成分分析
前向选择成分分析概述
数学原理与代码示例
最大化解释方差
方差最大化准则代码
后向细化
多线程后向细化
有序成分正交化
综合应用
仅前向选择子集的成分变量
后向细化子集的成分变量
人工变量示例
第3章 局部特征选择
算法概述
算法输出结果
简要介绍:单纯形算法
线性规划问题
Simplex类的接口
更多细节
一种更严格的LFS方法
类内分割和类间分割
计算权重
最大化类间分割
最小化类内分割
测试β试验值
关于线程的简要说明
CUDA权重计算
将CUDA代码集成到算法中
初始化CUDA硬件
计算与当前实例之差
计算距离矩阵
计算最小距离
计算权重方程项
转置项矩阵
权重项求和
权重迁移到主机
局部特征选择示例
关于运行时的解释说明
第4章 时间序列特征的记忆特性
简单数学概述
前向算法
后向算法
α和β修正
一些常规计算
均值和协方差
概率密度
多元正态概率密度函数
启动参数
初始化算法流程
对均值施加扰动
对协方差施加扰动
对转移概率施加扰动
关于随机数发生器的解释
完整优化算法
计算状态概率
更新均值和协方差
更新初始概率和转移概率
HMM在时间序列中的记忆特性评估
链接特征变量与目标变量
链接HMM状态与目标
一个人为的不当示例
一个合理可行的示例
第5章 逐步选择改进算法
特征评估模型
基本模型实现代码
交叉验证性能度量
逐步选择算法
确定第一个变量
在现有模型中添加变量
三个算法演示示例
第6章 名义变量到有序变量的转换
实现概述
合理关系测试
股票价格变动示例
名义变量到有序变量变换实现代码
构造函数
输出计数表
计算映射函数
Monte-Carlo置换检验















