
作者:朱亮
页数:212
出版社:科学出版社
出版日期:2017
ISBN:9787030588999
电子书格式:pdf/epub/txt
内容简介
Top-N查询(也称Top-K查询,排序查询或kNN查询等)检索出N个元组使其很好地匹配,但不一定接近匹配查询条件,并按指定的排序函数对输出的结果集合排序。本书主要内容包括三类Top-N查询的处理和优化。1.基于数值属性的Top-N查询,即”数值Top-N查询”包括:(1)基于学习的Top-N查询处理方法;(2)基于区域聚类的多Top-N查询优化;(3)Top-N查询流处理和优化。2.对于文本属性,在数据库中对关键词搜索得到Top-N结果,即”关键词Top-N查询”。3.对于具有自然语言语义的文本属性,基于语义相似度/语义距离的Top-N查询,即”语义Top-N查询”。
目录
序
前言
第1章 绪论
1.1 数学概念和术语
1.1.1 集合及其运算
1.1.2 度量空间
1.2 关系数据库
1.2.1 关系模式
1.2.2 关系代数
1.2.3 规范化理论
1.2.4 关系模式的分解
1.3 Top-N查询模式
1.3.1 距离空间KNN查询
1.3.2 单调排序函数的Top-N查询
1.3.3 数值属性的关系Top-N查询
参考文献
第2章 基于学习的Top-N查询处理
2.1 关系Top-N查询处理
2.1.1 基于直方图的方法
2.1.2 基于抽样的方法
2.1.3 数据维数对查询处理的影响
2.2 基于学习的Top-N查询处理方法
2.2.1 查询信息的存储
2.2.2 新提交查询的处理
2.2.3 知识库P的维护
2.2.4 知识库P的稳定性
2.3 实验与数据分析
2.3.1 数据集和准备
2.3.2 性能比较
2.3.3 LB方法的其他实验
2.3.4 重复查询的效果
2.3.5 知识库的稳定性
2.4 本章小结
参考文献
第3章 基于区域聚类的多Top-N查询优化
3.1 问题分析
3.2 区域聚类
3.2.1 算法和术语
3.2.2 区域聚类模型
3.3 多个Top-N查询搜索区域的聚类
3.4 Top-N元组检索
3.4.1 搜索Top-N元组
3.4.2 确保获得Top-N元组
3.5 实验与数据分析
3.5.1 数据集和准备
3.5.2 通过训练确定聚类模型和阈值
3.5.3 性能比较
3.6 本章小结和相关研究
参考文献
第4章 基于知识库的Top-N查询流处理
4.1 问题分析
4.2 Top-N查询流的处理
4.2.1 术语和结构
4.2.2 LRC方法与LB和RCM的对比
4.2.3 知识库的创建
4.2.4 处理新提交的Top-N查询
4.2.5 确保得到所有Top-N元组
4.3 知识库的维护
4.3.1 简档集合于的维护
4.3.2 J和t-List的维护
4.4 性能分析
4.4.1 空间开销
4.4.2 时间开销
4.5 实验与数据分析
4.5.1 数据集和准备
4.5.2 耗用时间
4.5.3 I/O请求次数
4.5.4 检索元组的数目
4.5.5 知识库的空间开销
4.5.6 查询结果不同Ⅳ值的影响
4.5.7 实验小结
4.6 本章小结
参考文献
第5章 基于语义距离的Top-N查询处理
5.1 亲缘词和语义距离
5.1.1 亲缘词
5.1.2 语义距离和Top-N查询
5.1.3 排序方式比较
5.2 查询的语义搜索
5.2.1 索引创建过程
5.2.2 w-索引的结构和创建
5.2.3 w-索引的维护
5.2.4 查询处理
5.3 实验与数据分析
5.3.1 数据集和准备
5.3.2 实验结果
5.4 本章小结
参考文献
第6章 基于索引技术的中文关键词Top-N查询处理
6.1 引言
6.2 相关工作
6.3 索引和索引表
6.3.1 索引表的创建
6.3.2 索引表的维护
6.4 中文关键词Top-N查询处理
6.4.1 候选元组查找和排序结构
6.4.2 候选元组生成
6.4.3 相似度
6.4.4 获得查询结果
6.4.5 相似度的短语修正
6.4.6 时间和空间开销
6.5 实验与数据分析
6.5.1 单表数据库
6.5.2 多表数据库
6.6 本章小结
参考文献
第7章 n维赋范空间中的Top-N查询处理
7.1 查询模式和理论分析
7.2 Top-N查询处理算法
7.2.1 关于一般范数的算法
7.2.2 关于x-单调范数的算法
7.3 缓冲区大小和最优性
7.3.1 G-算法和m-算法缓冲区的大小
7.3.2 m-算法的伪实例最优性
7.3.3 NNS优化算法和TA-类算法的比较
7.4 实验与数据分析
7.4.1 数据集和准备
7.4.2 处理查询耗用的时间
7.4.3 顺序访问次数
7.4.4 不同结果大小N的影响
7.4.5 算法性能比较
7.5 本章小结
参考文献
前言
第1章 绪论
1.1 数学概念和术语
1.1.1 集合及其运算
1.1.2 度量空间
1.2 关系数据库
1.2.1 关系模式
1.2.2 关系代数
1.2.3 规范化理论
1.2.4 关系模式的分解
1.3 Top-N查询模式
1.3.1 距离空间KNN查询
1.3.2 单调排序函数的Top-N查询
1.3.3 数值属性的关系Top-N查询
参考文献
第2章 基于学习的Top-N查询处理
2.1 关系Top-N查询处理
2.1.1 基于直方图的方法
2.1.2 基于抽样的方法
2.1.3 数据维数对查询处理的影响
2.2 基于学习的Top-N查询处理方法
2.2.1 查询信息的存储
2.2.2 新提交查询的处理
2.2.3 知识库P的维护
2.2.4 知识库P的稳定性
2.3 实验与数据分析
2.3.1 数据集和准备
2.3.2 性能比较
2.3.3 LB方法的其他实验
2.3.4 重复查询的效果
2.3.5 知识库的稳定性
2.4 本章小结
参考文献
第3章 基于区域聚类的多Top-N查询优化
3.1 问题分析
3.2 区域聚类
3.2.1 算法和术语
3.2.2 区域聚类模型
3.3 多个Top-N查询搜索区域的聚类
3.4 Top-N元组检索
3.4.1 搜索Top-N元组
3.4.2 确保获得Top-N元组
3.5 实验与数据分析
3.5.1 数据集和准备
3.5.2 通过训练确定聚类模型和阈值
3.5.3 性能比较
3.6 本章小结和相关研究
参考文献
第4章 基于知识库的Top-N查询流处理
4.1 问题分析
4.2 Top-N查询流的处理
4.2.1 术语和结构
4.2.2 LRC方法与LB和RCM的对比
4.2.3 知识库的创建
4.2.4 处理新提交的Top-N查询
4.2.5 确保得到所有Top-N元组
4.3 知识库的维护
4.3.1 简档集合于的维护
4.3.2 J和t-List的维护
4.4 性能分析
4.4.1 空间开销
4.4.2 时间开销
4.5 实验与数据分析
4.5.1 数据集和准备
4.5.2 耗用时间
4.5.3 I/O请求次数
4.5.4 检索元组的数目
4.5.5 知识库的空间开销
4.5.6 查询结果不同Ⅳ值的影响
4.5.7 实验小结
4.6 本章小结
参考文献
第5章 基于语义距离的Top-N查询处理
5.1 亲缘词和语义距离
5.1.1 亲缘词
5.1.2 语义距离和Top-N查询
5.1.3 排序方式比较
5.2 查询的语义搜索
5.2.1 索引创建过程
5.2.2 w-索引的结构和创建
5.2.3 w-索引的维护
5.2.4 查询处理
5.3 实验与数据分析
5.3.1 数据集和准备
5.3.2 实验结果
5.4 本章小结
参考文献
第6章 基于索引技术的中文关键词Top-N查询处理
6.1 引言
6.2 相关工作
6.3 索引和索引表
6.3.1 索引表的创建
6.3.2 索引表的维护
6.4 中文关键词Top-N查询处理
6.4.1 候选元组查找和排序结构
6.4.2 候选元组生成
6.4.3 相似度
6.4.4 获得查询结果
6.4.5 相似度的短语修正
6.4.6 时间和空间开销
6.5 实验与数据分析
6.5.1 单表数据库
6.5.2 多表数据库
6.6 本章小结
参考文献
第7章 n维赋范空间中的Top-N查询处理
7.1 查询模式和理论分析
7.2 Top-N查询处理算法
7.2.1 关于一般范数的算法
7.2.2 关于x-单调范数的算法
7.3 缓冲区大小和最优性
7.3.1 G-算法和m-算法缓冲区的大小
7.3.2 m-算法的伪实例最优性
7.3.3 NNS优化算法和TA-类算法的比较
7.4 实验与数据分析
7.4.1 数据集和准备
7.4.2 处理查询耗用的时间
7.4.3 顺序访问次数
7.4.4 不同结果大小N的影响
7.4.5 算法性能比较
7.5 本章小结
参考文献













