购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 词向量概述

2.1.1 词向量基础

文本表示是自然语言处理中的基础工作,文本表示的质量好坏会直接影响整个自然语言处理系统的性能。在自然语言处理的任务中,词向量(Word2vec)是表示自然语言中单词的一种方法,即把每个词都表示为 N 维空间中的一个点,也就是用高维空间的向量表示一个单词。顾名思义,词向量是用来表示词语的特征向量,通过这种方法可以把自然语言计算转化为向量计算。

词向量技术为文本技术提供了向量化的表示方法,这是文本数据能够被计算机处理的基础,也是机器学习和深度学习可以用于文本分析的前提。图2.1所示为词向量计算示意图,先把每个词转换成一股高维空间向量,每个词的向量可以表示该词语的语义信息;然后可以利用向量计算这些词语之间的相似度,从而达到让计算机像计算数值一样去计算自然语言的目的。

图2.1 词向量计算示意图

2.1.2 词向量表示的问题

自然语言中的单词都是离散的信号,比如“香蕉”“橘子”“水果”在我们看来就是3个离散的词语。如何把每个离散的单词转换成向量是词向量表示的第一个问题。我们可以维护一个如图2.2所示的词向量查询表。表中每一行都存储了一个特定词语的向量值,每一列的第一个元素表示该单词本身,以便于我们进行单词和向量的查询,如单词“香蕉”对应的向量值为[-0.4,0.37,0.02,-0.34]。

图2.2 词向量查询表

给定任何一个或一组单词之后,我们都可以通过查询这个词向量表,实现把单词转换为向量的目的,这个查询和替换过程被称为嵌入查找(Embedding Lookup)。

词向量表示的第二个问题是如何具有语义信息。比如我们知道“香蕉”和“句子”之间没有相似性,而“香蕉”和“橘子”则更加相似。同时,“香蕉”和“水果”的相似程度,则介于“橘子”和“句子”之间。因此,应该让存储的词向量具备语义信息。在接下来的章节中,我们将系统学习词向量的表示方法,具体内容包括词向量的离散表示和分布式表示。 uMjs+tX6TV7xbUwW4cTqYZnU6jHRLXBZyPFjI7DBPwstm+DaarnkFkxI5zhR9xDt

点击中间区域
呼出菜单
上一章
目录
下一章
×