内容简介:这是一本讲述如何用NLP技术进行文本内容理解的著作,也是一本系统讲解NLP算法的著作,是作者在NLP和内容理解领域多年经验的总结。 本书结合内容理解的实际业务场景,系统全面、循序渐进地讲解了各种NLP算法以及如何用这些算法高效地解决内容理解方面的难题,主要包括如下几个方面的内容: (1)文本特征表示 文本特征表示是NLP的基石,也是内容理解的基础环节,本书详细讲解了离散型表示方法和分布型表示方法等特征表示方法及其应用场景,还讲解了词向量的评判标准。 (2)内容重复理解 详细讲解了标题重复、段落重复、文章重复的识别方法和去重算法。 (3)内容通顺度识别及纠正 详细讲解了内容通顺度的识别方法以及纠正不通顺内容的方法。 (4)内容质量 详细讲解了多种内容质量相关的算法,以及如何搭建高质量的知识问答体系的流程。 (5)标签体系构建 详细讲解了针对内容理解的标签体系的建设流程和方法,以及多种相关算法。