购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 为什么要学习分词

分词相对来说是中文的一个专属NLP任务,英文因为有天然的空格作为分割,所以基本上不需要分词。在英文NLP教材或者论文中基本上找不到与分词相关的内容。

但要研究和学习中文的NLP就一定要学习分词吗?后面有一节会专门讨论这个问题。之所以讨论这个问题,是因为在当前的深度学习时代,尤其是BERT(Bidirectional Encoder Representations from Transformers,一种预训练语言模型)的中文字向量使用以来,很多任务使用字向量的效果反而比使用词向量的效果好,似乎学习分词已经不能算是深度学习的必备能力了,使用字向量的模型可能不需要分词了。但并不是所有的模型都使用的是字向量,也就是说字向量目前并没有完全代替词向量。而且很多的NLP任务并不需要做向量化的嵌入,如信息提取IR(其实就是搜索),还有很多任务依然是基于词向量的(如知识图谱、词性标注和句法分析等),如果不分词,那么这些任务就无法执行。

如果想要精通自然语言处理,那么还是要学习分词。其实现在主流的分词工具的实现还是比较简单的,如jieba和hanlp等,其代码看着复杂,但核心逻辑并不复杂,里面的很多代码是分词后要做的工作,如词性标注POS及命名实体识别NER等。 BcTeaHIok/PP+zbwP05dhehMJ2AY5qXkY2YdqZe8xc5poFBzm+fnxEnxgoqHxUtC

点击中间区域
呼出菜单
上一章
目录
下一章
×