购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.8 小结

本章首先讲解了分词的传统方法,虽然是传统方法但是性能优秀,所以现阶段的线上NLP相关服务只要涉及分词,基本上使用的还是传统算法,涉及简单的NER,也是使用HMM解决,都是基于同样的目的——响应速度。除非有一些较为复杂的NER需求,才会在传统分词基础上再接一个NER模型。然后较为详细地介绍了中文分词在深度学习中的发展情况。主流研究领域基本上都是在多标准、多数据集的融合学习上,因为任何一个单数据集的数据量都不能提供足够的训练样本。同时,不同的数据集基于不同的中文使用地区其习惯有所不同,如中国香港和中国台湾地区的中文使用习惯不同,它们和新加坡的中文使用习惯也不同,这样会形成一些互相补充的好处。至少最终的实验效果可以证明多数据集融合学习比单数据集的效果好,同时也证明bi-gram这个双字特征对分词也是较为有效的,预训练字向量也是有价值的,使用BERT此类动态字向量明显好于Word2vec之类的静态字向量。最后通过实例简单介绍了ChatGPT在分词和词性标注中的应用。下一章将介绍文本分类任务。 U5Qa2F2FiCEkcOqm0dG0fzflZlaCfvmcZ8uj2kVefeDbR0LkKFOMjm/CeeK1Nk+L

点击中间区域
呼出菜单
上一章
目录
下一章
×