本章目标
· 了解词向量的基本概念。
· 理解词向量的技术原理。
· 掌握词向量技术的离散表示方法。
· 掌握词向量技术的分布式表示方法。
· 掌握gensim工具训练中文词向量的方法。
自然语言是我们用来表达含义的一套复杂系统。这套系统中最基本的单元就是词。自然语言的句子大多都是以文本格式存储的,而文本是一种非结构化的数据信息,是不可以直接被计算的。目前,词嵌入已成为基于深度学习的自然语言处理系统的重要组成部分,它通过固定长度的稠密向量实现文本表示。这些技术的基础就是词向量。本章将介绍词向量相关的技术。
本章包含的实验案例如下。
· 维基百科中文词向量训练:使用gensim完成中文词向量的训练,要求能查看给定单词的词向量,并输出和给定单词接近的前10个词语。