自然语言处理应用与实战最新章节_韩少云著

2.1 词向量概述

2.1.1 词向量基础

文本表示是自然语言处理中的基础工作，文本表示的质量好坏会直接影响整个自然语言处理系统的性能。在自然语言处理的任务中，词向量（Word2vec）是表示自然语言中单词的一种方法，即把每个词都表示为 N 维空间中的一个点，也就是用高维空间的向量表示一个单词。顾名思义，词向量是用来表示词语的特征向量，通过这种方法可以把自然语言计算转化为向量计算。

词向量技术为文本技术提供了向量化的表示方法，这是文本数据能够被计算机处理的基础，也是机器学习和深度学习可以用于文本分析的前提。图2.1所示为词向量计算示意图，先把每个词转换成一股高维空间向量，每个词的向量可以表示该词语的语义信息；然后可以利用向量计算这些词语之间的相似度，从而达到让计算机像计算数值一样去计算自然语言的目的。

图2.1 词向量计算示意图

2.1.2 词向量表示的问题

自然语言中的单词都是离散的信号，比如“香蕉”“橘子”“水果”在我们看来就是3个离散的词语。如何把每个离散的单词转换成向量是词向量表示的第一个问题。我们可以维护一个如图2.2所示的词向量查询表。表中每一行都存储了一个特定词语的向量值，每一列的第一个元素表示该单词本身，以便于我们进行单词和向量的查询，如单词“香蕉”对应的向量值为[-0.4，0.37，0.02，-0.34]。

图2.2 词向量查询表

给定任何一个或一组单词之后，我们都可以通过查询这个词向量表，实现把单词转换为向量的目的，这个查询和替换过程被称为嵌入查找（Embedding Lookup）。

词向量表示的第二个问题是如何具有语义信息。比如我们知道“香蕉”和“句子”之间没有相似性，而“香蕉”和“橘子”则更加相似。同时，“香蕉”和“水果”的相似程度，则介于“橘子”和“句子”之间。因此，应该让存储的词向量具备语义信息。在接下来的章节中，我们将系统学习词向量的表示方法，具体内容包括词向量的离散表示和分布式表示。