购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 启航:必看的阅读指南

本章非常重要,是本书的阅读指南,读完本章可以确定自己是否需要本书,或者本书中的哪些内容对自己当前是有用的,哪些内容可以暂时略过,等需要时再去搜索。

本书主要讲解大模型项目的应用开发,主要利用各大平台提供的大模型SDK或API完成应用项目的开发,具体来说就是构建6个不同行业的应用场景,然后通过行业分析、需求分析、技术/原理分析、编写代码、测试功能、总结启发6个步骤完成大模型应用的开发。

本书通过循序渐进的方式展现大模型项目开发,能够让读者清晰地看到项目的业务脉络和技术要点。本书没有理论的堆叠,所有的理论描述都基于技术需要,技术需要又来源于用户需求,能够帮助读者在实际工作中落地大模型项目。

本书没有大模型、深度学习、机器学习的理论知识讲解,只教读者动手完成大模型项目的开发。在写本书之前,笔者已经在51CTO的直播课上带了3期学员,主要讲解大模型应用开发。刚开始做直播课时,笔者介绍了NLP发展的历史,以及RNN、CNN、LSTM等深度学习知识,并结合Transformer模型架构,讲述GPT的发展历程。后来发现,读者更加关心如何利用现有的工具平台完成一个具体项目的开发。于是,笔者把这些理论和历史知识都放到录播课中,在直播课上只讲落地的项目和应用,教读者用代码搭建大模型项目。

深度学习、神经网络、机器学习的理论知识可以帮助读者更加深刻地了解大模型应用,但是上手太慢,就好像武学中的内功,需要多年的修炼才能见效。如果直接练习招式,马上就能够完成具体的项目,等积累了一定的实战经验之后再回头学习基础也不迟。所以本书是一本大模型应用程序开发的书,主要讲大模型应用项目开发的“思路”和“技术”,适合从事大模型开发的产品经理、项目经理、技术经理、架构师、AI开发工程师阅读。

本书共8章,第1章介绍什么是大模型,第2章介绍开发环境的安装,第3章到第8章介绍不同行业的6个大模型项目。第3章到第8章每章大概分为行业分析、需求分析、技术/原理分析、编写代码、功能测试、总结与启发几个部分。由于每章的标题并没有统一,需要读者自行分辨,但是以上内容出现的顺序是一致的。以第6章为例,行业分析包括6.1节和6.2节,介绍行业以及热门的应用;需求分析包括6.3节,介绍项目需求以及功能;技术/原理分析包括6.4节,介绍该项目所涉及的技术要点;编写代码包括6.5节,带领读者完成整个项目的编码;功能测试包括6.6节,把整个项目的功能带领读者过一遍。一般每章的最后都会对本章的技术要点进行总结,如6.7节,就是对项目的知识点进行总结,并给读者之后的开发提供一些思路。

第3~8章的讲述顺序保持一致,首先介绍一个行业在AI大模型的影响之下发生的变化,并且提出几个比较有用的产品和应用。然后,对要实现项目的需求分析,即需要哪些功能支撑。为了支持这些功能,需要解决哪些技术问题,通过对逐个技术问题的突破,完成大模型开发技术要点的讲解。一般来说,每个技术点都会通过独立的Python文件执行,让每个技术点可以独立运行。技术点讲解完毕就是项目代码的编写,此时会调用技术点讲解中涉及的代码模块,通过模块复用的方式在项目实施中调用。在完成代码编写后,利用功能测试带读者把整体的项目过一遍,以展示效果。

产品经理、项目经理可以关注行业分析、需求分析、功能测试、总结启发等部分,如图1-1所示。这些部分可以帮助读者构建对大模型行业应用的认知,知道在具体的业务场景下如何构建大模型应用的思路,以及了解在功能上怎样集成大模型与应用,将大模型的能力推广到本行业的其他领域。

图1-1 产品经理、项目经理的关注点

AI开发工程师更加关注技术分析和代码编写,如图1-2所示。技术分析环节将详细讲解整个项目的技术精华,会涉及技术原理和实践,让读者知道为什么使用该技术以及该技术的应用场景。然后,代码编写环节会将技术分析环节中提到的技术要点依次应用到项目中,让大模型相关技术点与传统技术相结合,即便之前没有经验的应用程序员也能知道大模型技术是如何集成到项目中的。

对于技术经理和架构师而言,他们需要将业务场景与技术架构相结合,如图1-3所示。在了解业务需求的同时,需要集合大模型技术,思考如何让大模型技术为业务场景做支撑。通过总结技术要点的方式,扩展技术应用。对于代码编写部分,可以从架构设计出发,思考如何将大模型集成到企业现有的框架中。

图1-2 AI开发工程师的关注点

图1-3 技术经理、架构师的关注点

如果初学者对大模型概念不太了解,可以从第1章开始学习,第1章会以最浅显的文字告诉读者什么是大模型,它具备哪些特征,它是如何训练出来的。第2章会告诉读者如何搭建本书项目代码的环境。然后,依次阅读第3~8章,这几章的代码难度逐渐增加,会让读者平滑过渡。

如果读者对大模型已经有所了解,并且有一定编程基础,可以跳过第1、2两章,直接看后面的章节,然后根据自己的需要关注每个章节中的内容。这里将3~8章的描述和要点统一整理如下:

第3章,在游戏行业中创建虚拟角色。本章会以“百川角色大模型”作为切入点,介绍提示词在大模型应用中的案例,利用提示词唤醒大模型在某些方面的记忆。由于提示词工程是大模型应用的基础,对于其他章节的学习也会有帮助,因此本章会着重介绍提示词使用的原则,包括SMART驱动提问、给大模型设定身份、通过设定步骤完成复杂问题的回答等。接着,创建一个游戏中的虚拟角色,利用LangChain架构的提示词模板PromptTemplate完成提示词的编写。最后,创建一个武林游戏的虚拟角色,可以设置角色的年龄、性别、门派、武学造诣等基本信息,同时可以设置所在的游戏关卡,并能回答玩家的问题。

第4章,利用大模型在多媒体行业中实现视频解说功能。本章将利用大模型帮读者理解视频、图片,生成声音,并利用多媒体工具合成视频、嵌入声音和字幕,最终完成对指定视频的解说。当读者上传一段“夕阳西下”视频之后,系统会帮读者理解视频的内容,然后为视频生成解说词,并将解说词转化为语音嵌入视频中且加上字幕,最终呈现给读者的是带有解说的视频。本章会跳出文字处理的圈圈,介绍多模态、信息融合与交叉模态学习,其中,使用“通义千问VL”模型进行视频的解析工作,使用灵积平台的语音合成API完成语音合成工作。

第5章,金融领域的应用往往伴随复杂的数据操作,包括数据下载、比对、图表、报告生成等。本章创建“智能股票分析”项目,让大模型分别扮演金融分析师、金融研究员和专业携手,比较两只股票(招商银行和万科A),洞察差异,最后生成分析报告。本章引入了AI Agent的概念,它是能够在其环境中自主感知、思考、行动以实现特定目标的软件程序。Autogen是AI Agent的最佳实践,本章利用Autogen框架完成项目的开发,整个项目涉及的工具和方案包括Conversable Agent、顺序聊天、代码执行器(Code Executor)、UserProxy Agent和Assistant Proxy。

第6章,用简单的提示词生成文章远远不能满足媒体行业对专业文章的要求,本章会通过网络爬虫技术抓取专业文章,让大模型扮演编辑对文章进行仿写,再让大模型扮演总编进行评估并且要求编辑按照要求修改,通过编辑和总编之间的多轮互动,最终生成高质量的媒体文章。本章会使用Playwright和Beautiful Soup工具帮助获取网络信息,利用OpenAI大模型的function call功能对HTML信息进行抽取,通过LangChain的MapReduce功能精练文章内容,用LangGraph模仿工作流实现大模型之间的多轮交互与自我评估。

第7章,通过智能旅游的项目让大模型与旅游业产生联系。虽然大模型可以理解人类的语言,还可以生成人类的语言,但是对于实时信息的搜索是短板。本项目通过搜索旅游城市、制订旅游计划、搜索景点详情三个步骤完成智能旅游项目的开发。其中,利用LangChain提供的Agent结合function call调用外部Tool完成网页和维基百科的搜索,然后使用ReWOO(Reasoning WithOut Observation)无观察推理完成旅游计划的制订,提高多步骤推理任务的效率和效果。

第8章,电商平台一直是大模型企业应用的主战场,本章将大模型接入传统电商平台,利用自动客服助手的项目,带读者了解如何在企业级应用中使用大模型进行知识库和关系型数据库的检索,如何在用户提问时启动自动路由机制划分售前还是售后问题,如何利用大模型的记忆机制缓存用户聊天记录,从而提升用户体验。整个项目模拟用户在售前和售后的不同阶段所涉及的问题,让大模型分别扮演售前助理和售后助理,通过搜索知识库和订单数据库的方式回答用户的问题。事后,还可以通过用户的聊天信息对用户的购买意愿进行分析,从而提升客服满意度。技术方面涉及向量数据库搜索、SQLDatabaseChain驱动的SQLite数据库检索、Agent与Few-Shot Prompting实现的路由选择以及由ConversationSummaryMemory类完成的记忆聊天功能。

各章知识点汇总: 5hGuyrYtaaeAwCjA8uDhOSlhx0AUGFtHHRkl3R0dmxi7Dal1jzHo1P7igAPOQLLU

点击中间区域
呼出菜单
上一章
目录
下一章
×