
作者:李晓明
页数:330
出版社:科学出版社
出版日期:2005
ISBN:9787030342584
电子书格式:pdf/epub/txt
内容简介
李晓明等编著的《搜索引擎——原理技术与系统(第2版)》系统介绍了互联网搜索引擎的工作原理、实现技术及系统构建方案。全书分三篇共13章。上篇介绍搜索引擎的基本原理和技术,讲述一个小型简单搜索引擎实现的具体细节;中篇详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;下篇结合“中国web信息博物馆”和“中国互联网数字资源财富库藏
”的实践经验,介绍了构建大规模web历史网页和非网页仓储系统的技术和方法,以及中文网页的自动分类与聚类、开放域问题系统的构建等。
《搜索引擎——原理技术与系统(第2版)》层次分明,由浅入深,上篇和中篇涉及内容提供了源代码下载地址;既有深入的理论分析,也有大量的实验数据和程序,具有学习和实用双重意义。
《搜索引擎——原理技术与系统(第2版)》可作为高等院校计算机科学与技术、软件工程、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料;对广大从事网络技术、web站点管理、数字图书馆、web挖掘等研究和应用开发的科技人员有很高的参考价值;书中提供了大量源代码,除了用于构建搜索引擎之外,对于学习编程,提高编程技巧,以及实现一个大规模应用开发也有一定的参考价值。
本书特色
李晓明等编著的《搜索引擎——原理技术与系统(第2版)》保留了第一版上篇的大部分内容,即搜索引擎的基本原理,过去这么些年并没有什么变化;删除了第一版中的第九,第十二和十三章,增加了第十,第十一和十三章,分别介绍基于搜索引擎技术开发并从2002年一直运行至今的“中国web信息博物馆”、“中国数字财富库藏”及开放域问答系统。同时,较大幅度修订了第一版中的部分小节内容。本书分三篇共13章,内容包括引论、web搜索引擎工作原理和体系结构、
web信息的搜集、对搜集信息的预处理、信息查询服务等。
目录
第二版 前言
第一版 前言
第一章 引论
第一节 搜索引擎的概念
第二节 搜索引擎的发展历史
第三节 一些著名的搜索引擎
第四节 小结
上篇 web搜索引擎基本原理和技术
第二章 web搜索引擎工作原理和体系结构
第一节 基本要求
第二节 网页搜集
第三节 预处理
第四节 查询服务
第五节 体系结构
第六节 小结
第三章 web信息的搜集
第一节 概述
一、超文本传输协议
二、一个小型搜索引擎系统
第二节 网页搜集
一、定义url类和page类
二、与服务器建立连接
三、发送请求和接收数据
四、网页信息存储的天网格式
第三节 多道搜集程序并行工作
一、多线程并发工作
二、控制对一个站点并发搜集线程的数目
第四节 如何避免网页的重复搜集
一、记录未访问、已访问url和网页内容摘要信息
二、域名与ip的对应问题
第五节 搜集信息的类型
第六节 小结
第四章 对搜集信息的预处理
第一节 索引网页库
第二节













