本章主要介绍了文本预处理的主要流程、常用的文本特征表示方法以及词向量的评估方法。1.1节主要讲解了语料和语料库的定义以及语料的预处理流程。1.2节详细介绍了离散型特征表示方法和分布型特征表示方法。1.3节对词向量的内部评估方法和外部评估方法进行了详细介绍。
[1] 论文刊登在 Journal of Machine Learning Research (2008)上。 a8EGnhEd4zZNzHLygbJ1vN7o1kqNPimd6r5C7npLuGEPDGZSo8Wue386WNxZZHNi