如果说ChatGPT、GPT-4的诞生,让人们看到了通用AI的希望,那么,Sora的出现则让人们看到了实现通用AI不再是设想。ChatGPT API和GPT-4 API的开放使人工智能的适用性进一步被拓展,把人们推向了通用AI的前夜。
2023年3月1日,OpenAI官方宣布正式开放ChatGPT API。这意味着,开发者可以通过API将ChatGPT和Whisper模型集成到他们的应用程序和产品中。也就是说,企业或开发人员无须自研类ChatGPT,就能直接使用ChatGPT这样的模型来做二次应用和开发。
API,其实就是为了在两个不同的应用之间实现流畅通信而设计的应用程序编程接口,通常被称为应用程序的“中间人”。实际上,在生活中我们经常会接触到硬件接口,最常见的就是HDMI接口和USB接口,我们知道接入某个接口就能实现某种功能。和硬件接口一样,程序接口能够将程序内部实现的功能封装起来,使得程序像一个盒子一样只留出一个口子,人们接入这个“口子”就能使用这个功能。调用的人即便不知道这些功能的具体实现过程,也能方便地使用这些功能。
比如,我们到商店里扫码点餐,先扫描二维码进入页面,输入就餐人数,然后点菜并提交订单。点完后,服务员会来跟你核对菜单,然后同步到后厨,我们就可以坐等上菜了。其中,扫码点餐的过程就可以看作是API的工作过程,我们通过一个点餐的API选中菜品,让服务员和后厨在后台知道我们的需求并提供相应的饭菜和服务,这个过程就是点餐API的作用。
在OpenAI未开放API之前,人们虽然能够与ChatGPT进行交流,但却不能基于ChatGPT进一步开发应用。2023年3月1日,OpenAI官方宣布,正式开放ChatGPT和Whisper的API。其中,Whisper API是OpenAI推出的由人工智能驱动的语音转文本模型。
具体来看,ChatGPT API由ChatGPT背后的AI模型提供支持,该模型被称为GPT-3.5 Turbo。根据OpenAI的说法,它比ChatGPT、GPT-3.5更快、更准确、更强大。ChatGPT API的定价为每1000个Token(约750个单词)0.002美元,使用成本比同期的公众版(GPT-3.5)要便宜90%。而ChatGPT API之所以能这么便宜,在一定程度上要归功于“系统范围的优化”。OpenAI称,这样做将比直接使用现有的语言模型要便宜得多。
在OpenAI开放ChatGPT不久后,就有几家公司接入ChatGPT API来创建聊天界面。比如,Snap公司就为Snapchat的订阅用户推出了My AI,这是一项基于ChatGPT API的实验性应用。这个可定制的聊天机器人不仅可以提供建议,甚至可以在几秒钟内为用户写个笑话。
Shopify通过ChatGPT API,为自家用户数量达到1亿的应用程序Shop创建了一个“智能导购”。当消费者搜索产品时,这个“智能导购”就会根据他们的要求进行个性化的推荐——通过扫描数百万种产品来简化购物流程,从而帮助用户快速找到自己想要的东西。
Quizlet是一个6000多万名学生都在使用的学习平台。过去三年,Quizlet与OpenAI合作,在多个用例中利用GPT-3,包括词汇学习和实践测试。随着ChatGPT API的推出,Quizlet也发布了Q-Chat——一个可以基于相关的学习材料提出自适应问题,并通过富有趣味性的聊天体验来吸引学生的“AI老师”。
除开放ChatGPT API外,2023年7月,GPT-4 API也正式开放。这意味着开发者们可以在更强大的GPT-4上,进行二次应用和开发。
就OpenAI的API调用类型来看,主要分为两种:Chat Completions(聊天补全)和Text Completions(文本补全)。
在GPT-4 API开放的同一时间,OpenAI还向开发者分享了广泛使用的Chat Completions API的情况。OpenAI表示,Chat Completions API占其API使用量的97%。究其原因,Chat Completions API的结构化界面(如系统消息、功能调用)和多轮对话能力能够使开发者建立对话体验和广泛地完成任务,同时降低提示注入攻击的风险,因为用户提供的内容可以从结构上与指令分开。
并且,OpenAI也发布了旧模型的弃用计划。即从2024年1月4日开始,OpenAI的某些旧模型,特别是GPT-3及其衍生模型都不再可用,并被新的“GPT-3基础”模型所取代,新的模型计算效率会更高(见图2-1)。
图2-1 从2024年1月4日开始,OpenAI的某些旧模型被新的“GPT-3基础”模型所取代
根据公告显示,使用基于GPT-3模型(ada、babbage、curie、davinci)的稳定模型名称的应用程序在2024年1月4日自动升级至新模型。
使用其他旧的完成模型(如text-davinci-003)的开发者需要在2024年1月4日之前手动升级他们的集成,在他们的API请求的“模型”参数中指定gpt-3.5-turbo-instruct。gpt-3.5-turbo-instruct是一个Instruct GPT风格的模型,训练方式与text-davinci-003类似。
随着模型的升级,基于模型的二次应用也将获得更强大的功能。
不过,虽然市面上基于API构建的二次应用已经非常不错,但问题是,这些应用依然具有很高的技术门槛,有时需要几个月的时间,由数十名工程师组成的团队处理很多事情才能成功进行二次开发。这些事情包括状态管理(state management)、提示和上下文管理(prompt and context management)、扩展功能(extend capabilities)和检索(retrievel)。
于是,在2023年11月7日的OpenAI首届开发者大会上,OpenAI推出Assistants API,让开发人员在他们的应用程序中构建“助手”。使用Assistants API,OpenAI用户就可以构建一个具有特定指令、利用外部知识并可以调用OpenAI生成式人工智能模型和工具来执行任务的“助手”。像这样的案例范围包含从基于自然语言的数据分析应用程序到编码助手,甚至是人工智能驱动的假期规划器。
Assistants API封装的能力包括:持久的线程(persistent threads),人们不必弄清楚如何处理长的对话历史;内置的检索,利用来自OpenAI模型外部的知识(如公司员工提供的产品信息或文档)来增强开发人员创建的助手;提供新的Stateful API管理上下文;内置的代码解释器(code interpreter),可在沙盒执行环境中编写和运行Python代码,让使用Assistants API创建的助手迭代运行代码来解决代码和数学问题;改进的函数调用,从而能够调用开发人员定义的编程函数并将响应合并到他们的消息中。
Assistants API的发布标志着OpenAI在为开发者提供更强大的工具和功能方面取得了重要进展。未来,我们可以期待看到更多基于Assistants API的创新性应用,为各行各业带来更先进、智能的解决方案。
支持许多不同应用的ChatGPT API是一个强大的工具,在ChatGPT API开放前,有些开发者试着自己在应用中接入OpenAI的常规GPT API,却无法达到ChatGPT的效果。而OpenAI开放了ChatGPT API,则为广大开发者打开了新的大门。
毕竟,对于大多数企业和开发人员来说,开发ChatGPT这样的聊天机器人模型是遥不可及的。根据Semianalysis估算,ChatGPT一次性训练费用就达8.4亿美元,生成一条信息的成本在1.3美分左右,是目前传统搜索引擎的3到4倍。OpenAI也曾因为经费不足,差点倒闭。ChatGPT的成功也决定了入局的高门槛,后来者必须同时拥有坚实的人工智能技术底座和充裕的资金。但ChatGPT API正式开放,且使用其花费的价格并不高,则为开发人员构建聊天机器人模型打开了大门。人们只要通过相关API接口就可以轻松地获得GPT的能力,并将其应用于各种任务和场景中,包括问答系统、对话生成、文本生成等。
更重要的是,ChatGPT API的公布,为通用AI提供了一条现实途径。如果按照是否能够执行多项任务的单一标准来看,GPT系列已经具备了通用AI的特性。
可以说,ChatGPT API为AI的发展构建了一个完善的底层应用系统。虽然GPT是语言模型,但与人对话只是GPT的表皮,GPT的真正作用,是使我们能够基于GPT这个开源的系统平台,开放接口来做一些二次应用。
或许,在未来,AI将成为与水、电力一样的基础设施。1764年,一位叫哈格里夫斯的英国纺织工,发明了一种可以同时纺8卷线的纺纱机,大大提高了生产效率。这个被命名为“珍妮纺纱机”的出现,引发了发明机器进行技术革新的连锁反应,揭开了工业革命的序幕。
18世纪中叶,英国率先进入工业革命阶段。当时,蒸汽机用的能源还是煤炭,大大提高了人类的生产效率。又因为效率的提升,煤炭价格变得非常低廉。现在的AI几乎就是那时的煤炭,因为未来的AI,一定会变成整个社会的基础设施、大众商品。就像我们在现实生活中离不开水、电、燃气这些必需的生活要素一样——大模型,就是智能时代的基础设施。