技术教育社区
www.teccses.org

数字文献资源高维聚合模型研究

封面

作者:牛奉高著

页数:259

出版社:中国社会科学出版社

出版日期:2017

ISBN:9787520307826

电子书格式:pdf/epub/txt

内容简介

针对文本挖掘和信息检索中的文本或文献聚类与分类等问题,学术界基于VSM(向量空间模型)主要有两方面的研究,一者是文献表示模型的改进,二者是算法的改进。然而传统的算法对高维稀疏的向量聚类存在不足,一些新的算法也不尽完美,更主要的是聚类算法的效果与数据本身的特征以及信息提取和表示密切相关,特别是在信息有限的情况下,聚类算法的优势也不能得到完美发挥,相比之下,信息的挖掘、提取和文献向量表示就尤为重要。在本文仅限于元数据甚至只有关键词的前提下,文献的表示向量相比一般文本表示就表现得非常稀疏,面对这种情形聚类算法即使是“巧妇”也“难为无米之炊”,因此,本书的重点突破是文献主题语义信息的提取、度量和文献高维向量的新表示方法。基于以上问题和现象,本书以数字文献资源为对象,本着在信息资源聚合中减少对背景知识的依赖,便于推广应用的宗旨,提出了基于文献集本身或者相关领域的共现信息而实现文献聚合的共现潜在语义向量空间模型(CLSVSM)。而且通过实验证实基于CLSVSM的文献聚类表现比基于VSM和GVSM(广义向量空间模型)显著地好。

作者简介

牛奉高,男,1980年4月生,山西沁水人。山西大学数学科学学院统计系讲师,硕士生导师,山西省高等学校优秀青年学术带头人,中国数学会会员,中国科学学与科技政策研究会、全国科学计量学与信息计量学专业委员会会员。2014年毕业于武汉大学情报学专业,获管理学博士学位。2015年获湖北省优秀博士学位论文奖。研究领域包括信息计量与科学评价、应用统计等。主持国家自然科学基金项目一项,省厅级科研项目三项;在《Scientometrics》、《情报学报》、《情报科学》、《重庆大学学报》、《武汉大学学报》、《山西大学学报》等国内外期刊上发表学术论文20余篇;获批软件著作权一项;参编《科学计量学》、《知识计量学》等多部著作,担任《中国研究生学科专业评价报告》副主编。

本书特色

针对文本挖掘和信息检索中的文本或文献聚类与分类等问题,学术界基于VSM(向量空间模型)主要有两方面的研究,一者是文献表示模型的改进,二者是算法的改进。然而传统的算法对高维稀疏的向量聚类存在不足,一些新的算法也不尽完美,更主要的是聚类算法的效果与数据本身的特征以及信息提取和表示密切相关,特别是在信息有限的情况下,聚类算法的优势也不能得到完美发挥,相比之下,信息的挖掘、提取和文献向量表示就尤为重要。在本文仅限于元数据甚至只有关键词的前提下,文献的表示向量相比一般文本表示就表现得非常稀疏,面对这种情形聚类算法即使是“巧妇”也“难为无米之炊”,因此,本书的重点突破是文献主题语义信息的提取、度量和文献高维向量的新表示方法。基于以上问题和现象,本书以数字文献资源为对象,本着在信息资源聚合中减少对背景知识的依赖,便于推广应用的宗旨,提出了基于文献集本身或者相关领域的共现信息而实现文献聚合的共现潜在语义向量空间模型(CLSVSM)。而且通过实验证实基于CLSVSM的文献聚类表现比基于VSM和GVSM(广义向量空间模型)显著地好。

目录

引言
一 研究背景和意义
(一)研究背景
(二)研究意义
二 国内外研究综述
(一)国内研究进展
(二)国外研究进展
(三)相关研究述评
三 研究目的、方法与创新
(一)研究目的与思路
(二)研究方法与工具
(三)本书的创新之处
第一章 数字文献资源聚合的概念与理论基础
一 数字文献资源的范畴
(一)数字化的信息资源
(二)数字文献资源
二 数字文献资源聚合的内涵与外延
(一)聚合的缘起
(二)文献资源聚合的内涵
(三)文献资源聚合的外延
三 数字文献资源聚合研究的形式和内容
(一)数字文献资源聚合的形式
(二)数字文献聚合研究内容辨析
四 数字文献资源聚合研究的理论基础
(一)文本挖掘理论
(二)共现理论与共现网络
(三)LSA与LSI理论
(四)FA与PA理论
(五)信息熵理论
(六)长尾理论
五 数字文献资源聚合的应用方法研究
(一)新闻聚合与自动摘要
(二)对检索结果的聚类
(三)文档管理与个性化信息服务
(四)改善文献分类的结果
六 数字文献资源基于元数据聚合的探索
(一)元数据是数字文献资源的特征信息
(二)基于元数据实现文献聚合的可行性
七 本章小结
第二章 数字文献资源的高维向量表示与语义相关性研究
一 数字文献资源的多元和高维特征
(一)文献属性的多元特征
(二)文献主题的高维特征
二 文献主题的特征选择与评价方法
(一)文献主题特征的选择问题
(二)特征子集的选取与评价
三 文献特征的高维表示与文献相似性测度方法
(一)文献特征的高维向量表示
(二)文献相似性与距离的测度
四 向量空间模型及其衍生模型
(一)经典VSM模型
(二)广义向量空间模型
(三)面向中文文献聚类的VSM类模型
五 语义向量空间模型
(一)基于VSM的语义相关性研究
(二)语义信息增强模型
(三)语义核与文献主题相似性
六 本章小结
第三章 共现潜在语义向量空间模型(CLSVSM)
一 共现潜在语义的概念
(一)语义与语义信息
(二)潜在语义与共现潜在语义
(三)共现潜在语义的挖掘
二 基于共现潜在语义的文献高维向量表示模型
(一)文献高维向量表示的困境
(二)模型提出的基础
(三)相关定义和记号
(四)CLSVSM模型的表示
(五)CLSVSM模型的解释
三 语义信息的增强与约简探讨
(一)语义信息的增强
(二)语义信息的约简
四 基于CLSVSM的数字文献资源聚合
(一)基于特征向量聚类的文献聚合步骤
(二)文献的相似矩阵
(三)文献集的相似度
(四)聚类算法选择
(五)聚类准则函数
(六)聚类评价方法
五 CLSVSM模型与VSM衍生模型的类比
(一)类比基于关键词相同度的VSM模型
(二)类比扭曲VSM模型
(三)类比TCABARwC模型
六 本章小结
第四章 CLSVSM模型的实验检验与评价
一 文献聚类实验的基本设计
(一)实验的目的和要求
(二)实验基本流程设计
二 文献聚类评价方法
(一)BF指标
(二)熵值、纯度和错误率
三 高维向量聚类工具:gCLUTo
四 实验文献集的来源与描述
(一)数据的选择和采集
(二)数据的整理与分析
(三)实验数据集的基本统计描述
五 文献聚类实验内容与方案
(一)实验内容
(二)实验步骤
(三)实验方案
六 文献聚类实验结果与分析
(一)CLSVSM模型的语义信息增强效果分析
(二)CLSVSM模型的聚类效果对比实验
(三)实验总结:CLSVSM的优势
七 本章小结
第五章 CLSVSM模型的应用与实证
一 CLSVSM模型的应用范围
二 实证准备
(一)实证数据的选择
(二)文献聚类簇数目的确定
三 基于CLSVSM模型的聚合实证研究
(一)实证Ⅰ一一以概率论与数理统计学科抽样文献为例
(二)实证Ⅱ一一以信息资源建设主题的检索文献集为例
四 本章小结
第六章 CLSVSM模型的进一步研究
一 共现潜在语义的不同估计量对比研究
(一)基于不同共现潜在语义估计量的模型构建
(二)基于不同共现潜在语义估计量的模型对比
二 CLSVSM对英文文献的适应性研究
(一)英文文献数据采集
(二)CLSVSM对中英文数据聚类的对比
三 共现矩阵的约简研究
(一)截尾共现潜在语义向量空间模型
(二)共现矩阵约简前后的对比
四 共现潜在语义核研究
(一)GCLSVSM
(二)广义模型与原模型的实验对比
(三)CLSVSM_K
五 三元共现的挖掘与利用研究
(一)三元共现的表示
(二)三元共现强度的计算
(三)三元CLSVSM
(四)三元CLSVSM与CLSVSM的比较
六 本章小结
第七章 总结与展望
一 总结与启示
二 不足与展望
参考文献
致 谢

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《数字文献资源高维聚合模型研究》
Article link:https://www.teccses.org/906765.html