
作者:李志刚
页数:338
出版社:高等教育出版社
出版日期:2008
ISBN:9787040230147
电子书格式:pdf/epub/txt
本书特色
高等学校信息管理与信息系统专业系列教材
本书特色:
从技术和管理的角度,系统介绍了数据仓库、数据挖掘的基本知识;在
阐述基本知识的同时,强调在现实领域中的应用与实现。
易教、易学,尽可能采用浅显易懂的语言,循序渐进地表述知识内容。
突出理论与实践相结合,概念与具体方法、工具相结合,使知识具体而不
枯燥;并基于SQL Server最新的技术工具,结合实例介绍了数据仓库与
数据挖掘技术工具的应用与操作,达到学以致用的目的。
节选
nbsp; 言
随着计算方法和信息技术的不断发展,大量数据的产生和收集导致信息爆
炸。现代社会的竞争趋势要求对这些数据进行实时的和深层次的分析。虽然现
在已经出现更强大的存储系统和检索系统,但是使用者发现在分析所拥有的信
息方面变得越来越困难。数据仓库提供了容纳大量.信息的场所,但它只有和数
据挖掘技术相结合才能最终解决用户的困惑,使用户能够从繁杂的数据中找出
真正有价值的信息和知识。数据仓库可以加强企业对信息的管理能力,数据挖
掘可以改善企业的经营状况,使企业的决策制定过程更加科学化和快速,为企业
带来巨大的收益,增强企业的竞争优势。
数据仓库和数据挖掘是20世纪90年代中期兴起的决策支持新技术,它们
是基于大规模数据库的决策支持系统的核心。数据仓库是区别于数据库的一种
新型数据存储形式,它是面向主题的、集成的、不可更新的、随时间不断变化的数
据集合,用以支持经营管理中的决策制定。数据挖掘是从数据库中发现知识的
核心技术,它从大量的数据中提取隐含的、人所未知的、可信而有效的知识。数
据挖掘能够对数据进行再分析,以期获得更加深入的了解。它具有预测功能,可
以通过已有数据预测发展趋势。数据仓库与数据挖掘技术相结合,与现代的管
理决策方法相结合,就能够使数据仓库在组织机构的经营管理决策中发挥巨大
的作用。
我国数据挖掘技术的研究始于20世纪90年代,经过十几年的发展,这一领
域目前正处于蓬勃发展时期。但是由于数据仓库、数据挖掘技术都是数据处理
与分析领域出现的新技术,大部分人把目光投向基于这两项技术的基础理论的
研究,特别是具体技术和算法的实现,而忽略对数据仓库、数据挖掘理论与实践
相结合的应用研究。因此,笔者在结合科研项目的基础上,对数据仓库、数据挖
掘技术进行较系统的研究,并将研究成果应用于财经、证券投资等领域;同时笔
者在研究过程中不断地学习,既对原有的理论和实践进行总结,又不断地将所学
到的知识运用到实践中去,丰富了原有的理论。
本书详细阐述数据仓库与数据挖掘的基本原理,系统而全面地介绍数据仓
库与数据挖掘的概念、作用、算法以及应用领域、相关学科和发展趋势,并着重讨
论数据仓库和数据挖掘在企业管理中的应用及构建策略。基于sQL ser、rer 2005
介绍数据仓库与数据挖掘工具的操作和应用,并结合具体实例,阐述企业数据仓
库和数据挖掘的实施过程。最后.以证券行业为对象提供一个数据挖掘的开发
实例。本书的指导思想是在系统阐述基本知识和基本理论的基础上,强调实际
应用能力的培养,充分体现数据仓库和数据挖掘技术作为解决实际问题的方法
和工具的特点。本书兼顾理论性与通俗性,注重理论联系实际,叙述时力求深入
浅出,着重阐述理论的基本思路与方法的基本步骤。
本书的目的旨在向读者系统阐述数据仓库与数据挖掘的基本原理、方法和
实用工具,介绍国内外的最新研究成果。全书共有11章,第l章介绍数据仓库
的基本概念和知识;第2章介绍联机分析处理的基本理论;第3章介绍数据仓库
的设计思想、方法和技巧;第4章介绍数据仓库的规划与开发;第5章介绍各种
数据仓库工具的基本功能及SQL Server 2005数据仓库工具的应用;第6章介绍
数据挖掘的概念和相关知识;第7章介绍数据挖掘的算法;第8章介绍文本挖
掘、Web挖掘等数据挖掘新技术;第9章介绍数据挖掘的工具及其应用;第10章
介绍数据仓库与数据挖掘的综合应用;第1l章介绍基于数据挖掘的上市公司财
务危机预警应用实例,使读者能结合具体应用进行上机操作,消化和理解所学的
知识。
本书由李志刚负责全书的整体策划和最后统稿。编写任务的分工如下:第
1章、第2章、第6章、第7章由马刚编写;第3章由李志刚、宛石锋编写;第4章
由李志刚、黄艳编写;第5章由马刚、李志刚编写;第8章、第10章由李志刚编
写;第9章由李志刚、彭易成编写;第11章由彭易成、李志刚编写。郭丰恺、聂运
洁参加部分的文字和图形处理工作。
在本书的编写过程中,笔者借鉴国内外一些文献和网上资料,由于编写体例
的限制未将其在文中一一注明,只在参考文献中列出,在此谨向各位学者表示由
衷的敬意和感谢。由于数据仓库和数据挖掘技术发展迅速,尽管笔者付出艰苦
的努力,但由于本人水平所限,疏漏甚至错误之处在所难免,恳请专家与读者批
评指正。
李志刚
2007年12月
数据挖掘的-I-具及其应用
本章介绍数据挖掘软件的特征、国外数据挖掘产品与工具、国内数据挖掘
产品与工具、数据挖掘工具的功能分类、评价数据挖掘工具优劣的指标:阐述
SQL Server 2005数据挖掘工具的功能、数据挖掘算法,及数据源的准备与创
建、数据挖掘模型的创建与处理过程。
数据信息量的日趋庞大促使数据挖掘技术兴起,META Group曾经做出这
样的评论:“全球重要的企业、组织机构会发现,到21世纪数据挖掘技术将是它
们商业成功与否的至关重要的影响因素。”现在许多研究机构和企业开发出系
列数据挖掘软件或者宣称其产品支持数据挖掘,希望抢占数据挖掘软件的主导
地位。IBM公司发布了基于标准的数据挖掘技术DB2智能挖掘器积分服务,可
用于开发个性化解决方案。两大统计软件公司SAS和SPSS也推出了各自的数
据挖掘工具Enterprise Miner和Clementine。而数据挖掘软件的应用也显示出它
们在具体的数据挖掘中的有效性,例如NBA教练就运用Advanced Scout来挖掘
信息,安排阵形,提高了获胜的概率。数据挖掘软件的层出不穷也推动了数据挖
掘技术的不断发展,但大量的数据、复杂的分析、形式多样的挖掘工具也使得人
们对这类软件的深入了解变得越来越困难。
9.1 国内外数据挖掘’1-具及评价
9.1.1数据挖掘软件的特征
通常人们认为数据挖掘就是从海量的数据中挖掘信息,以供决策制定者使
用。其主要功能是:分类、聚类、关联规则和序列模式发现、预测、偏差检测。数
据挖掘综合运用统计学、数据库和机器学习的方法。目前应用最广泛的算法和
模型有:传统的统计学方法;可视化技术;决策树;人工神经网络;遗传算法;关联
规则挖掘算法,等等。
从数据挖掘的定义、功能和方法中可以大致了解数据挖掘软件所应具备的
特性。因此,评价数据挖掘软件需要从以下几个方面考虑。
(1)软件开发的目的或解决问题的领域 ·
数据挖掘软件可分为通用的和专业的数据挖掘软件,主要由软件所要解决
的问题而定,而这也是评价软件时最先要考虑的因素之一。
(2)软件实现的功能和方法
不同软件的实现算法可能是不同的,这也就决定了软件的运行速度、对数据
处理的有效性和正确性。同时,此软件实现功能的多寡也是需要重点考虑的因素。
(3)对数据的操作能力
数据挖掘所面对的海量数据可能有不同的格式,如多媒体数据、多维数据
等,还可能是不完全的,如何快速地操作这些数据也就显得非常关键。这些数据
可能以不同的形式存储在不同的介质上,一个强大的数据挖掘软件应能支持
ODBC等连接,可以对DB2、Informix、Microsoft SQL和Oracle数据进行操作。
(4)软件使用的难易程度
软件的目的在于应用,其使用的难易程度决定它是否可以为人接受,易于推广。
现在的一种趋势是提供以Web为基础的操作界面和允许XML数据输入输出。
(5)软件的运行平台等因素
软件的适用性在很大程度上取决于其运行平台。理想的数据挖掘软件应该
适应客户一服务器的结构。
软件的销售价格和服务也是必须考虑的因素。
9.1.2 国外数据挖掘工具
目前,国外许多科研机构、公司从事数据挖掘工具的研制与开发,我国在这
方面的研发也已经起步,如今世界上已出现几十种具有较大影响力的数据挖掘
工具。这些软件各有其特点,差别很大,这不仅体现在关键技术上,还体现在其
运行平台和数据存取等方面。
国外的数据挖掘软件由于开发时间早、使用时间长,并积累了大量数据挖掘
工具的开发和使用经验,因此其应用范围较广,也比较专业。当前国外推出的数
据挖掘软件有很多,其功能和方法都不同。鉴于以上评价软件的标准,选择部分
软件介绍如下。
1.Intelligent Miner系列
IBM公司无疑是世界上最强大的IT公司之一,其商业智能软件InteIligent
Miner也是主流产品之一。Intelligent Miner系列是IBM公司研发的数据挖掘工
具,提供基于DB2的数据操作能力,实现神经网络、决策树、聚类、关联和序列模
式及时间序列等,可以运行在Windows和IBM OS/2环境上。
Intelligent Miner系列中的DB2 Intelligent Miner lor Data与Siebel电子商务应
用的集成允许用户将数据挖掘的结果应用于Siebel电子商务中,这使得IBM公司
的DB2 Intelligent Miner妇Data和Siebel系统的用户可以通过数据挖掘来分析、
发现和利用市场数据,并将挖掘结果应用于对客户的排序、分类或评分等,从而以
更加个性化的方式为客户服务。Intelligent Miner系列数据挖掘工具的特点如下。
(1)具有最广泛的数据挖掘技术和算法集,使用各种算法以支持大量数据
分析,其中包括交易过程中(市场分析)对关联模式的勘测、时间序列、客户分类
与剖析、聚类和预测值;
(2)具有开发数据挖掘应用程序的编程接口;
(3)所有的数据挖掘引擎和数据操纵函数能通过共享c++库被访问;
(4)在数据规模和计算性能方面有很高的可扩缩性;
(5)支持分类、预测、关联规则产生、聚类、顾序模式侦测和时间序列分析算
法,集成大量复杂的数据挖掘操纵函数;
(6)此工具是一个客户一服务器系统,客户机用于控制用户界面和数据可
视化函数,而数据挖掘引擎和数据操纵函数位于服务器上;
(7)此工具采用复杂的可视化技术和稳健的基于Java的用户界面(主要面
向有经验的用户),具有较强的可用性。
Intelligent Miner专业性极强,这一方面标志着其数据挖掘质量高,另一方面
也要求使用者必须具备一定的技术水平和操作经验,才能驾驭这台大型的“挖
掘机”,使用者的水平和经验将直接影响挖掘质量。
2.SAS Enterprise Miner SAS
SAS Enterprise Miner SAS(statistical analysis system,统计分析系统)是由美
国北卡罗来纳大学研究所开发的软件包,是目前最好的统计软件之一。此研究
所提出数据挖掘模型SEMMA(Sample,Explore,Modify,Model,Assess),结合
SAS/EM进行数据挖掘。由于它提供了强大的统计技术,使得SAS/EM成为最
好的数据挖掘软件之一。SAS/EM可以对Oracle、Informix、Sybase和DB2的数据
集进行操作,实现神经网络、决策树、统计、预测、时间序列和关联等,可以运行在
多种操作平台上。
3.QUEST
QUEST是IBM公司Almaden研究中心开发的通用多任务数据挖掘工具,为
新一代决策支持系统的应用开发提供高效的数据开采基本构件。
由于QUEST是一个多任务数据挖掘系统,它具有以下一些特点。















