购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章
词向量技术

本章目标

· 了解词向量的基本概念。

· 理解词向量的技术原理。

· 掌握词向量技术的离散表示方法。

· 掌握词向量技术的分布式表示方法。

· 掌握gensim工具训练中文词向量的方法。

自然语言是我们用来表达含义的一套复杂系统。这套系统中最基本的单元就是词。自然语言的句子大多都是以文本格式存储的,而文本是一种非结构化的数据信息,是不可以直接被计算的。目前,词嵌入已成为基于深度学习的自然语言处理系统的重要组成部分,它通过固定长度的稠密向量实现文本表示。这些技术的基础就是词向量。本章将介绍词向量相关的技术。

本章包含的实验案例如下。

· 维基百科中文词向量训练:使用gensim完成中文词向量的训练,要求能查看给定单词的词向量,并输出和给定单词接近的前10个词语。 udWImXvzmpg4n5jotrc74zkJHXTHPrhcViN/IJuI/A6DC0+4niHRjaEM/fEi+od8

点击中间区域
呼出菜单
上一章
目录
下一章
×