本书阐述文本数据挖掘的理论模型、实现算法和相关应用,主要内容包括:信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅,深入浅出,通过实例说明实现相关任务的理论方法和技术思路,而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。 第 1章绪论 .11.1基本概念 11.2文本挖掘任务 .21.3文本挖掘面临的困难 .51.4方法概述与本书的内容组织 .71.5进一步阅读 .9第 2章数据预处理和标注 . 112.1数据获取 112.2数据预处理 . 152.3数据标注 172.4基本工具 192.4.1汉语自动分词与词性标注 192.4.2句法分析 . 202.4.3 n元语法模型 . 212.5进一步阅读 . 22第 3章文本表示 . 233.1向量空间模型 . 233.1.1向量空间模型的基本概念 233.1.2特征项的构造与权重 . 243.1.3文本长度规范化 . 253.1.4特征工程 . 263.1.5其他文本表示方法 273.2词的分布式表示 293.2.1神经网络语言模型 293.2.2 CW模型 . 323.2.3 CBOW与 Skip-gram模型 343.2.4噪声对比估计与负采样 . 353.2.5字词混合的分布式表示方法 . 373.3短语的分布式表示 . 383.3.1基于词袋的分布式表示 . 393.3.2基于自动编码器的分布式表示 . 393.4句子的分布式表示 . 423.4.1通用的句子表示 . 423.4.2任务相关的句子表示 . 453.5文档的分布式表示 . 483.5.1通用的文档分布式表示 . 483.5.2任务相关的文档分布式表示 . 493.6进一步阅读 . 52第 4章文本分类 . 534.1概述 . 534.2传统文本表示 . 544.3特征选择 554.3.1互信息法 . 554.3.2信息增益法 584.3.3卡方统计量法 . 594.3.4其他方法 . 604.4传统分类算法 . 614.4.1朴素贝叶斯模型 . 614.4.2 Logistic回归、 Softmax回归与最大熵模型 . 634.4.3支持向量机 654.4.4集成学习 . 674.5深度神经网络方法 . 684.5.1多层前馈神经网络 684.5.2卷积神经网络 . 694.5.3循环神经网络 . 714.6文本分类性能评估 . 784.7进一步阅读 . 81第 5章文本聚类 . 835.1概述 . 835.2文本相似性度量 835.2.1样本间的相似性 . 835.2.2簇间的相似性 . 86目录 IX5.2.3样本与簇之间的相似性 . 875.3文本聚类算法 . 875.3.1 K-均值聚类 . 875.3.2单遍聚类 . 915.3.3层次聚类 . 925.3.4密度聚类 . 955.4性能评估 975.4.1外部标准 . 975.4.2内部标准 . 995.5进一步阅读 . 99第 6章主题模型 . 1016.1概述 . 1016.2潜在语义分析 . 1026.2.1奇异值分解 1026.2.2词项 -文档矩阵的奇异值分解 1036.2.3词项和文档的概念表示及相似度计算 . 1046.3概率潜在语义分析 . 1066.3.1模型假设 . 1066.3.2参数学习 . 1076.4潜在狄利克雷分布 . 1086.4.1模型假设 . 1086.4.2词项和主题序列的联合概率 . 1106.4.3模型推断 . 1126.4.4新文档的推断 . 1146.4.5 PLSA与 LDA的联系与区别 . 1156.5进一步阅读 . 115第 7章情感分析与观点挖掘 1177.1概述 . 1177.2情感分析任务类型 . 1187.2.1按目标形式划分 . 1187.2.2按分析粒度划分 . 1197.3文档或句子级情感分析方法 . 1217.3.1基于规则的无监督情感分类 . 1227.3.2基于传统机器学习的监督情感分类 . 1237.3.3深度神经网络方法 126文本数据挖掘7.4词语级情感分析与情感词典构建 . 1317.4.1基于语义知识库的方法 . 1317.4.2基于语料库的方法 1317.4.3情感词典性能评估 1347.5属性级情感分析 1347.5.1属性抽取 . 1357.5.2属性情感分类 . 1387.5.3主题与情感的生成式建模 1417.6情感分析中的特殊问题 1437.6.1情感极性转移问题 1437.6.2领域适应问题 . 1457.7进一步阅读 . 147第 8章话题检测与跟踪 . 1498.1概述 . 1498.2术语与任务 . 1518.2.1术语 1518.2.2任务 1528.3报道或话题的表示与相似性计算 . 1548.4话题检测 1568.4.1话题在线检测 . 1578.4.2话题回溯检测 . 1588.5话题跟踪 1598.6评估方法 1608.7社交媒体话题检测与跟踪 . 1618.7.1社交媒体话题检测 1628.7.2社交媒体话题跟踪 1638.8突发话题检测 . 1638.8.1突发状态识别 . 1648.8.2以文档为中心的方法:先检测话题后评估突发性 . 1678.8.3以特征为中心的方法:先识别突发特征后生成突发话题 . 1688.9进一步阅读 . 169第 9章信息抽取 . 1719.1概述 . 1719.2命名实体识别 . 1739.2.1基于规则的命名实体识别方法 . 174目录 XI9.2.2有监督的命名实体识别方法 . 1759.2.3半监督的命名实体识别方法 . 1819.2.4命名实体识别方法评价 . 1839.3共指消解 1849.3.1基于规则的共指消解方法 1859.3.2数据驱动的共指消解方法 1879.3.3共指消解评价 . 1909.4实体消歧 1939.4.1基于聚类的实体消歧方法 1939.4.2基于链接的实体消歧 . 1979.4.3实体消歧任务的评价方法 2039.5关系抽取 2049.5.1基于离散特征的关系分类方法 . 2069.5.2基于分布式特征的关系分类方法 2129.5.3基于远程监督的关系分类方法 . 2149.5.4关系分类性能评价 2159.6事件抽取 2159.6.1事件描述模板 . 2159.6.2事件抽取方法 . 2179.6.3事件抽取评价 . 2249.7进一步阅读 . 224第 10章文本自动摘要 22710.1概述 . 22710.2抽取式自动摘要 22810.2.1句子重要性评估 22910.2.2基于约束的摘要生成方法 . 23710.3压缩式自动摘要方法 23810.3.1句子压缩方法 23810.3.2基于句子压缩的自动摘要方法 24210.4生成式自动摘要 24410.4.1基于信息融合的生成式摘要方法 . 24410.4.2基于编码 -解码的生成式摘
阅读更多