本书是信息检索的教材,旨在从计算机科学的视角提供一种现代的信息检索方法。书中从基本概念讲解网络搜索以及文本分类和文本聚类等,对收集、索引和搜索文档系统的设计和实现的方方面面、评估系统的方法、机器学习方法在文本收集中的应用等给出了*新的讲解。 [美]克里斯托夫·曼宁 (Christopher Manning) 计算机科学家,斯坦福大学教授,斯坦福大学人工智能实验室主任,ACM会士、AAAI会士、ACL会士。目前的研究目标为计算机如何智能地处理、理解和生成人类语言资料。曼宁博士是深度学习在自然语言处理应用方面的先锋人物,在树递归神经网络、语义分析、神经机器翻译、深度语言理解等方面均有令业界瞩目的研究成果。[美]普拉巴卡尔·拉格万(Prabhakar Raghavan)Google高级副总裁,目前负责谷歌的广告与商业产品、基础设施团队。之前作为Google App和Google Cloud的副总裁,带领团队做出了突出业绩。在加入Google前任职于Yahoo!,是Yahoo!实验室的创建者和负责人。拉格万博士毕业于加州大学伯克利分校,长期担任斯坦福大学计算机科学系顾问教授,主要研究方向是文本及Web数据挖掘、随机算法等,是美国国家工程院院士、ACM会士、IEEE会士。[德]欣里希·舒策(Hinrich Schütze) 德国慕尼黑大学信息与语言处理中心主任,计算语言学家,斯坦福大学博士。曾在美国硅谷工作多年。王斌 博士,小米公司AI实验室NLP方向首席科学家,前中国科学院信息工程研究所研究员、博导,中国科学院大学教授。李鹏 博士,中国科学院信息工程研究所高级工程师,硕士生导师。 第 1章 布尔检索 . 1 1.1 一个信息检索的例子 21.2 构建倒排索引的初体验 . 51.3 布尔查询的处理 81.4 对基本布尔操作的扩展及有序检索 111.5 参考文献及补充读物 . 13第 2章 词项词典及倒排记录表 142.1 文档分析及编码转换 . 142.1.1 字符序列的生成 . 142.1.2 文档单位的选择 . 162.2 词项集合的确定 162.2.1 词条化 162.2.2 去除停用词 192.2.3 词项归一化 . 202.2.4 词干还原和词形归并 . 232.3 基于跳表的倒排记录表快速合并算法 262.4 含位置信息的倒排记录表及短语查询 282.4.1 二元词索引 . 282.4.2 位置信息索引 . 292.4.3 混合索引机制 . 312.5 参考文献及补充读物 . 32第 3章 词典及容错式检索 . 343.1 词典搜索的数据结构 343.2 通配符查询 . 363.2.1 一般的通配符查询 . 373.2.2 支持通配符查询的k-gram索引 . 383.3 拼写校正 393.3.1 拼写校正的实现 . 393.3.2 拼写校正的方法 403.3.3 编辑距离 403.3.4 拼写校正中的 k-gram索引 423.3.5 上下文敏感的拼写校正 . 433.4 基于发音的校正技术 443.5 参考文献及补充读物 . 45第 4章 索引构建 . 464.1 硬件基础 464.2 基于块的排序索引方法 . 474.3 内存式单遍扫描索引构建方法 . 504.4 分布式索引构建方法 . 514.5 动态索引构建方法 . 544.6 其他索引类型 564.7 参考文献及补充读物 . 57第 5章 索引压缩 . 595.1 信息检索中词项的统计特性 . 595.1.1 Heaps定律:词项数目的估计 615.1.2 Zipf定律:对词项的分布建模 . 625.2 词典压缩 635.2.1 将词典看成单一字符串的 压缩方法 635.2.2 按块存储 645.3 倒排记录表的压缩 . 665.3.1 可变字节码 . 675.3.2 γ编码 685.4 参考文献及补充读物 74第 6章 文档评分、词项权重计算及 向量空间模型 766.1 参数化索引及域索引 766.1.1 域加权评分 786.1.2 权重学习 796.1.3 最优权重g 的计算 806.2 词项频率及权重计算 . 816.2.1 逆文档频率 . 816.2.2 tf-idf 权重计算 826.3 向量空间模型 836.3.1 内积 836.3.2 查询向量 866.3.3 向量相似度计算 . 876.4 其他tf-idf 权重计算方法 . 886.4.1 tf的亚线性尺度变换方法 . 886.4.2 基于最大值的tf归一化 . 886.4.3 文档权重和查询权重机制 896.4.4 文档长度的回转归一化 . 896.5 参
阅读更多