购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
GPT为何火爆?它能做什么?

截至本章写作之时,AI聊天机器人ChatGPT仍是一款研究性预览版产品。数以亿计的用户明知它不是一个正式版产品,但仍然迫不及待地想要使用它。类似的技术和产品也吸引了非常多的用户,比如下列这些由大型科技公司推出的产品:微软的搜索引擎必应(Bing)推出的新必应聊天、谷歌推出的Bard聊天机器人、百度推出的文心一言大语言模型、阿里巴巴在钉钉中推出的通义千问模型、笔记软件Notion和办公软件金山文档(WPS)推出的AI功能等。

问答或对话是普通用户与这一轮新AI产品的典型交互方式。这类产品都是将用户提出的问题交给背后的大语言模型去处理,然后生成相应的内容再反馈给用户。在本书中,我们将各类AI产品背后的模型称为“大语言模型”,而在讨论特定AI产品时,我们会用一个更为普及的词——GPT,来指代其背后的模型。GPT是OpenAI于2018年推出的第一代模型的缩写,意思是“生成式预训练转换器”(Generative Pre-trained Transformer)。

下面以ChatGPT聊天机器人为例,来看看我们可以用它做什么。它的界面是一个聊天对话框,我们既可以与它问答(即一问一答),也可以与它开展多轮对话。我们可以用日常的语言(自然语言)与它对话,提出问题或提出要求,它会以文字的形式回答我们。

ChatGPT擅长很多事,它能完成很多我们曾经认为需要经过良好的教育和长期的训练才能做好的知识型任务,比如以下六类事务。

当我们与ChatGPT进行多轮对话时,就像在与一个人聊天。如果发现它答错了,或者给出我们不想要的答案,就可以纠正它。这种情况下,它会立刻认错,并迅速调整,输出新的回答。

能够进行多轮对话这一重要的特点使得ChatGPT变得更加实用。因为它不一定能在一开始就完美地满足我们提出的要求,但是我们可以以多轮对话的方式为它补充信息、纠正错漏、完善要求,以“训练”它给出符合我们预期的回答。

这种交互方式很像我们在日常工作中与他人沟通交流的方式。比如,我请一位同事帮忙做某事,一开始,或许是我提出的要求不够精确,又或许同事没能理解我的要求,他给出的反馈不符合我的期待。然后我会想办法完善自己的要求,并提供更多更具体的参考案例和相关资料。几轮沟通过后,他给出的结果将渐趋完美。ChatGPT采用的问答与对话模式使得普通人也能够用上其背后的AI模型。

简言之,ChatGPT让我们感到惊艳的能力主要有三个。

GPT能够理解我们的要求,并用我们能理解的语言给出回答。 生成式AI模型在经过训练后不仅能够理解我们的语言,还拥有足够的知识储备,能够进行分析和推理。

GPT能为我们做什么

ChatGPT能为我们做什么?OpenAI的官网展示了众多使用示例。比如,从一段文本中提取关键字、根据产品说明生成广告文案、生成会议记录、提取文章摘要、创建面试问题等。

给这些功能按类别进行分类,ChatGPT能够完成的文字相关任务包括问答、分类、编程、对话、生成、翻译和转换等。

各家公司可以基于GPT模型进行功能定制,为用户提供服务,比如一些社交问答网站就提供了多种聊天机器人服务。当我们询问其中一个聊天机器人时,它这样介绍模型的原理与使用场景

GPT是一种基于深度学习算法的大语言模型,它使用无监督学习来训练神经网络处理大量的文本数据。通过这样的训练,模型能够理解自然语言的模式和结构,并能根据提示生成连贯和有意义的文本。

GPT可以用于各种场景,例如回答问题、提供建议、生成文本,甚至执行翻译或提取摘要等。以下是一些特定的语言模型使用案例。

  • 聊天机器人: GPT非常适合用于聊天机器人和虚拟助手。它能理解用户输入的内容并生成适当的回复,可以实现客户服务自动化、提供信息,甚至为用户提供娱乐。
  • 内容生成: GPT生成连贯和有意义文本的能力使其成为有价值的内容生成工具。例如,GPT可以用于生成新闻文章、产品描述或创意写作等。
  • 语言翻译: 由于GPT掌握多种语言,因此可以将文本从一种语言翻译成另一种语言。这项能力对于那些需要与世界各地的人进行交流的企业或个人尤其有用。
  • 文章摘要: GPT可以提取长文本或文章的要点,生成摘要,帮助人们快速了解主要观点而无须阅读整个文本。
  • 个性化对话: 通过分析用户之前的交互内容和偏好,GPT可以为该用户提供个性化内容或建议。这项能力对于希望为客户提供个性化体验的企业非常有用。
  • 资料研究: 由于GPT理解和生成文本的能力较强,因此可以帮助研究人员撰写摘要和分析大量数据。例如,可以将其用于分析科学论文或社交媒体网站上的大量帖子,以识别模式或预测趋势。

大语言模型的能力

大语言模型在完成预训练之后,研发人员通常会从语言生成、知识利用、复杂推理这三个方面来测试其基础能力,并进行一些高级能力评估。从表1—1中可以看到,研发人员试图让大语言模型拥有何种能力。

表1—1 大语言模型的能力

资料来源:《大语言模型调研》,2023年。

大语言模型产品中,OpenAI公司的ChatGPT最为成功,但它并不是唯一的一个。除此之外,Anthropic公司推出了模型和聊天机器人Claude应用,而问答社区Quora推出的Poe聊天机器人也支持多种模型。另外还涌现了多个繁荣的开源模型社区,如Facebook母公司Meta公司推出的LLaMA(羊驼)开源语言模型、清华大学开源的ChatGLM等。

微软、谷歌、百度分别推出了自己的模型及聊天机器人(见表1—2),但与ChatGPT这种仅基于大语言模型来给出作答不同,它们的聊天机器人均与搜索紧密结合。

表1—2 由互联网公司推出的聊天机器人不完全列表

获得较多用户认可的基于大语言模型的AI产品除了聊天机器人这种形式之外,还有笔记软件Notion推出的AI助理功能Notion AI,其用了大约4个月的时间获得了400万付费用户。Notion不仅是当下流行的学习笔记工具,也是很多公司的办公协同工具。我们使用它的AI助理功能,只要像日常写笔记时一样输入斜杠符号“/”,就可以召唤出AI助理帮助我们撰写笔记文档。根据Notion的调研结果,用户用得最多的几个场景分别是头脑风暴、任务清单以及编写大纲,而用户觉得最有用的功能是语法修改和撰写文章概要。

目前,各家互联网科技公司都在尝试将AI的聊天功能或助手功能集成到已有产品上。比如,微软将其集成到了自己的办公软件中,新推出了名为Copilot(领航员)的AI助理。我们可以用文字跟它交流,这个强大的助理能够按我们的要求处理演示文稿(Power Point,PPT),或者用工作表(Excel)的数据生成图表。微软最近还将该功能直接引入操作系统中,推出了视窗领航员的功能,用户可以与它对话。

当前GPT产品的形式
  • 通用聊天机器人助理
  • 搜索引擎聊天机器人助理
  • 应用软件助理
  • 应用网站助理

OpenAI在发布GPT-4时,在官网展示了其与一些产业和应用相结合的案例 。其中值得关注的教育应用有“多邻国”(语言学习App)和“可汗学院”(在线教育网站),它们都有利用AI模型开发的智能助理。智能助理可以成为用户的“一对一”导师,帮助用户更好地学习。另外,很多开源技术项目的网站推出了技术文档对话功能,程序员除了可以阅读技术文档,还可以针对文档内容进行提问。

目前,普通用户能够直接使用的GPT应用主要包含以下形式:通用聊天机器人助理、搜索引擎聊天机器人助理、应用软件助理、应用网站助理。当前GPT领域的发展呈现杠铃式形态:一端是能力快速提升的各类大语言模型,另一端是主要以问答或助理的形式呈现,并使每个人都可以使用的应用。相信未来会发展出更多的应用形式,而不仅仅是问答与助理这样的方式。

值得注意的是,目前这种转化为聊天机器人或应用助理的能力只是大语言模型能力的一小部分,很多专业的应用仍然需要通过应用程序接口(Application Programming Interface,API)直接调用模型能力,进行多轮复杂的操作,甚至可能需要有人工参与才能完成任务。举一个例子,如果我们要将一本书由中文翻译成英文,首先需要将书拆成模型能够处理的多个片段,其次要附上词汇表所用的模型,才能进行翻译,最后可能还要多次调用其他模型,对内容进行语法检查和语言润色等。

当我们尝试使用各种AI聊天机器人或助理功能,特别是把它们应用在自己的工作中时,也会发现它们有一些不足之处。比如,有人会把ChatGPT当作搜索引擎用,查询最新的信息,但很快就会发现它并不知道最新的信息,它所知道的信息截止于某个时间。更糟糕的是,有时它会给出完全错误的信息,而且是用非常“自信”的方式来表达这些信息。它甚至还会凭空编造一些信息,就像有人喝醉酒后胡言乱语一样,可是它给出的回答又极有条理,让人难以辨别。我们如果轻信这些信息并加以使用,就会造成很多麻烦。后面的章节会专门讨论这个话题。但总的来说,如果能够聪明地避开它们的缺点,用其所长,这些AI工具就可以在很多方面提供帮助。 XalC9fI/yXgEXP7JyOJQE99+7hkZMBQxHf4PHTXNsB6vvyg9sy1PkxiBpYUFwLRi

点击中间区域
呼出菜单
上一章
目录
下一章
×