
作者:(美)刘兵著;俞勇等译
页数:434
出版社:清华大学出版社
出版日期:2012
ISBN:9787302298700
电子书格式:pdf/epub/txt
内容简介
在过去的20年里,Web的迅速发展使其成为世界上规模最大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。依据在挖掘过程中使用的数据类别,Web挖掘任务可以被划分为3种主要类型:Web结构挖掘、Web内容挖掘和Web使用挖掘。Web结构挖掘从表征Web结构的超链接中寻找知识。Web内容挖掘从网页内容中抽取有用的信息和知识。而Web使用挖掘则从使用日志和其他形式的用户交互记录中挖掘用户的活动模式。从本书在2006年底的第1版发行之后,很多领域已经有了重大的进展。大部分的章节都已经添加了新的材料来反应这些进展。主要的改动在第11章和第12章中,这两章已经被重新撰写并做了重要的扩展。在撰写第1章的时候,观点挖掘(第11章)的研究仍处于初步阶段。从那以后,搜索社区对这个问题已经拥有了一个更好的理解并提出了许多新颖的技术来解决问题的各个方面。为了将Web使用挖掘(第12章)的最新进展包含进来,关于推荐系统、协同过滤、用户日志挖掘和计算广告学的话题已经被添加进来。新版比原来长了很多。 本书旨在讲述上述的互联网数据挖掘任务以及它们的核心挖掘算法;尽可能涵盖每个话题的广泛内容,给出足够多的细节,以便读者无须借助额外的阅读,即可获得相对完整的关于算法和技术的知识。其中第5章–监督学习的部分内容、结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘–是本书的特色,这些内容在其他书籍中没有提及,但它们在Web数据挖掘中却占有非常重要的地位。当然,传统的Web挖掘主题,如搜索、页面爬取和资源探索以及链接分析在书中也做了详细描述。 本书尽管题为“Web数据挖掘”,但依然涵盖了数据挖掘和信息检索的核心主题;因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习(分类)、无监督学习(聚类)这三大重要的数据挖掘任务,和半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。因此,本书自然的分为两大部分,第1部分包括第2~5章,介绍数据挖掘的基础,第2部分包括第6~12章,介绍Web相关的挖掘任务。 有两大指导性原则贯穿本书始末。其一,本书的基础内容适合本科生阅读,但也包括足够多的深度资料,以满足打算在Web数据挖掘和相关领域研读博士学位的研究生。书中对读者的预备知识几乎没有作任何要求,任何对算法和概率知识稍有理解的人都应当能够顺利地读完本书。其二,本书从实践的角度来审视Web挖掘的技术。这一点非常重要,因为大多数Web挖掘任务都在现实世界中有所应用。
本书特色
《世界著名计算机教材精选:Web数据挖掘(第2版)》不仅可作为本科生的教科书,也是在Web数据挖掘和相关领域研读博士学位的研究生的重要参考用书,同时对Web挖掘研究人员和实践人员获取知识、信息、甚至是创新想法也很有帮助。
目录
第1章 概述1.1 什么是万维网1.2 万维网和互联网的历史简述1.3 Web数据挖掘1.3.1 什么是数据挖掘1.3.2 什么是Web数据挖掘1.4 各章概要1.5 如何阅读本书文献评注参考文献第1部分 数据挖掘基础第2章 关联规则和序列模式2.1 关联规则的基本概念2.2 Apriori算法2.2.1 频繁项目集生成2.2.2 关联规则生成2.3 关联规则挖掘的数据格式2.4 多最小支持度的关联规则挖掘2.4.1 扩展模型2.4.2 挖掘算法2.4.3 规则生成2.5 分类关联规则挖掘2.5.1 问题描述2.5.2 挖掘算法2.5.3 多最小支持度分类关联规则挖掘2.6 序列模式的基本概念2.7 基于GSP挖掘序列模式2.7.1 GSP算法2.7.2 多最小支持度挖掘2.8 基于PrefixSpan算法的序列模式挖掘2.8.1 PrefixSpan算法2.8.2 多最小支持度挖掘2.9 从序列模式中产生规则2.9.1 序列规则2.9.2 标签序列规则2.9.3 分类序列规则文献评注参考文献第3章 监督学习3.1 基本概念3.2 决策树归纳3.2.1 学习算法3.2.2 混杂度函数3.2.3 处理连续属性3.2.4 其他一些问题3.3 评估分类器3.3.1 评估方法3.3.2 查准率、查全率、F-score和平衡点(Breakeven Point)3.3.3 受试者工作特征曲线3.3.4 提升曲线3.4 规则归纳3.4.1 顺序化覆盖3.4.2 规则学习:Learn-One-Rule函数3.4.3 讨论3.5 基于关联规则的分类3.5.1 使用类关联规则进行分类3.5.2 使用类关联规则作为分类属性3.5.3 使用古典的关联规则分类3.6 朴素贝叶斯分类3.7 朴素贝叶斯文本分类3.7.1 概率框架3.7.2 朴素贝叶斯模型3.7.3 讨论3.8 支持向量机3.8.1 线性支持向量机:可分的情况3.8.2 线性支持向量机:数据不可分的情况3.8.3 非线性支持向量机:核方法总结3.9 A、近邻学习3.10 分类器的集成3.10.1 Bagging3.10.2 Boosting文献评注参考文献第4章 无监督学习4.1 基本概念4.2 A-均值聚类4.2.1 A-均值算法4.2.2 A-均值算法的硬盘版本4.2.3 优势和劣势4.3 聚类的表示4.3.1 聚类的一般表示方法4.3.2 任意形状的聚类4.4 层次聚类4.4.1 单连结方法4.4.2 全连结方法4.4.3 平均连结方法4.4.4 优势和劣势4.5 距离函数4.5.1 数字属性4.5.2 布尔属性和名词性属性4.5.3 文本文档4.6 数据标准化4.7 混合属性的处理4.8 采用哪种聚类算法4.9 聚类的评估4.10 发现数据区域和数据空洞文献评注参考文献第5章 部分监督学习5.1 从已标注数据和无标注数据中学习5.1.1 使用朴素贝叶斯分类器的EM算法5.1.2 Co-naining5.1.3 自学习5.1.4 直推式支持向量机5.1.5 基于图的方法5.1.6 讨论5.2 从正例和无标注数据中学习5.2.1 PU学习的应用5.2.2 理论基础5.2.3 建立分类器:两步方法5.2.4 建立分类器:偏置SVM5.2.5 建立分类器:概率估计5.2.6 讨论……
第2部分 Web挖掘
节选
《世界著名计算机教材精选:Web数据挖掘(第2版)》不仅可作为本科生的教科书,也是在Web数据挖掘和相关领域研读博士学位的研究生的重要参考用书,同时对Web挖掘研究人员和实践人员获取知识、信息、甚至是创新想法也很有帮助。
下载地址
立即下载(解压密码:www.teccses.org)
Article Title:《Web数据挖掘(第二版)》
Article link:
https://www.teccses.org/313758.html