第1课
高楼万丈平地起：语言模型的雏形N-Gram和简单文本表示Bag-of-Words

初春，阳光明媚。咖哥和小冰边往公司走，边刷手机。

咖哥笑着说：你看，“刷屏”的又是GPT，大模型简直要火到天上去了。

不过，在语言模型刚刚出现的时候，它们可没有现在这么强大，那个时候的语言模型，几乎连最简单的自然语言处理任务都无法完成。谁能想到，几十年之后，有了深度学习和大数据，语言模型会发展成今天这个样子？

也好，今天我们就从最简单、最基本的语言模型讲起吧。不了解语言模型的本质和发展过程，GPT和ChatGPT也就无从谈起。你还记得语言模型是什么吗？

小冰：我隐约记得，语言模型好像是用来预测下一个单词的模型？

咖哥：哈哈，你说对了一半。语言模型确实可以预测单词，但更严谨地说，语言模型就是一个用来估计文本概率分布的数学模型，它可以帮助我们了解某个文本序列在自然语言中出现的概率，因此也就能够根据给定的文本，预测下一个最可能出现的单词。语言模型关注的是一段上下文中单词之间的相关性，以保证模型所生成的文本序列是合理的语句。

这个概念看似晦涩，但其实在我们生活中很常见。比如，你用手机打字时，输入法会根据你输入的前几个字和你平日的习惯，自动推荐接下来的字或词（如右图所示），这正是语言模型的应用。

语言模型帮我们预测下一个词

第1课 高楼万丈平地起：语言模型的雏形N-Gram和简单文本表示Bag-of-Words

第1课
高楼万丈平地起：语言模型的雏形N-Gram和简单文本表示Bag-of-Words