笔者团队在大数据领域深耕十多年,见证了从早期处理能力有限的大数据平台,到如今能够实现秒级处理的湖仓一体架构的演进,以及大数据的存储、计算、治理、应用等各类底座、平台的蓬勃发展。随着大模型时代的到来,构建以AI为驱动的数据体系已经从可能转变为必然。在这一进程中,笔者团队也积极地融入大模型的浪潮,以大模型、湖仓一体等新技术为基础,实施并落地了基于AI与湖仓一体技术的数据资产方案,从而达成在AI驱动下构建数据体系的目标。
2024年,笔者团队决定撰写本书,旨在通过介绍项目中积累的技术体系与方法论,助力读者构建起体系化的思维模式。笔者团队深刻意识到,在大模型时代,不仅要关注大模型技术本身,还要具备全局视角,提出系统化的解决方案。因此,本书内容由浅入深,侧重于介绍基础概念、技术原理、解决方案和实战案例。
在具体的工程化实现中,为了让AI成为提高生产力的有力工具,笔者团队对需求沟通、资产建设、资产推荐、Text2SQL、SQL结果验证、数据验证等环节进行了系统化整合,并确保AI贯穿全流程,打造以AI为核心的数据体系。笔者团队结合数据湖和数据仓库的优势,基于AI重构了数据资产体系,建立了领域大模型。在此基础上,以智能助手系统为例,阐述AI驱动下的数据体系在游戏领域的应用。
本书分为6个部分,共16章,各章主要内容如下。
第1章介绍大模型的发展现状,涉及大模型的发展历程、市场规模和应用现状。
第2章介绍大模型与数据体系的相关背景知识,从业务对数据体系的需求出发,介绍经典数据中台解决方案,并围绕经典数据中台解决方案中的痛点,探讨大模型带来的新机会,包括大模型的优势与不足、与经典数据中台的结合方式,以及新思路的提出。最后,提出全新的大模型解决方案,包含其建设目标、关键技术和方案架构。
第3章聚焦于大模型下的新基建。首先,介绍湖仓一体引擎,包括数据技术的发展和湖仓一体架构。接着,详细探讨DeltaLH湖仓的关键技术,包括存储计算分离、数据冷热分层和湖仓一体化。随后,介绍实时数据写入,包括实时数据链路、全链路监控和数据预构建。最后,探讨高效数据分析,包括查询引擎优化和物化透明加速。
第4章介绍数据资产重塑。首先分析数据资产方案的现状,随后探讨其面临的核心挑战,包括缺失非结构化标准、建设和治理成本高、运营目标不一致等。接着,提出重塑数据资产的思路,旨在解决现有问题并优化数据资产的管理和应用。
第5章介绍数据资产标准,分析如何通过定义更广义的数据资产标准,包括需求资产标准、特征资产标准和库表资产标准,为数据资产的建设奠定坚实基础。
第6章聚焦于数据资产建设。首先,介绍AI如何助力资产初始化,包括特征资产和库表资产的初始化。接着,探讨AI如何辅助需求资产、特征资产和库表资产的建设。
第7章主要探讨数据资产运营。首先,明确数据资产运营的目标。接着,以北极星指标为牵引,分别介绍需求资产、特征资产和库表资产的运营策略,包括这3个运营策略中的不同关键指标。
第8章介绍领域大模型的基础知识。首先,介绍领域大模型的背景,包括通用大模型的局限性和领域大模型的优势。接着,详细阐述领域大模型方案,包括3种构建方案和模型选型等内容。最后,以Text2SQL为例,讲解领域大模型架构。
第9章聚焦于需求理解算法。首先,阐述从模糊需求到清晰需求的必要性及面临的挑战。接着,介绍常见的需求理解算法,包括传统Query理解算法和创新需求理解算法。最后,详细探讨需求理解算法的设计原理,包括构建业务知识库和构建需求理解链路。
第10章主要介绍需求匹配算法。首先,阐述从需求到资产的必要性、面临的挑战和解决方案。接着,详细介绍召回算法,包括资产图谱、文本召回、向量召回、意图召回和召回粗排。最后,介绍精排算法,包括数据生成、模型微调和多LoRA部署。
第11章聚焦于需求转译算法。首先,阐述从需求到查询的必要性及面临的问题。接着,介绍解决方案,包括传统的Text2SQL技术和创新的需求转译算法。最后,详细探讨实战原理,包括评测数据集和算法流程等内容。
第12章介绍工程化的基础。首先,介绍工程化的背景,包括工程化的定义和理念。接着,阐述工程化的核心和建设思路,包括业务流程和系统架构等内容。
第13章主要探讨工程化的技术筹备工作。首先,进行技术调研评估。然后,介绍大模型应用框架的4个层次,分别是核心层、社区组件层、应用层和技术生态层。接着,探讨提示词工程的内容模块,包括少样本提示、链式思考提示和自调整提示。最后,介绍开发环境的准备过程,包括软件安装和依赖库安装。
第14章聚焦于工程化的建设要点。首先,明确构建目标,包括功能性需求、非功能性需求和流程定义。接着,介绍核心功能的实现,具体包括模块化架构、安全管控、工具模型、人机协同和应用场景。最后,介绍运营质量的评估指标,包括回归评估指标和资产运营指标。
第15章主要探讨工程化的安全策略。首先,介绍安全体系建设要点,包括制度与流程、数据安全和运行安全。接着,提出安全体系实施方案,包括数据分类分级方案、资产匿名化与脱敏方案、访问控制方案和监控告警方案。
第16章介绍游戏领域的应用案例。以游戏领域为例,首先介绍游戏经营分析的背景。接着,详细阐述智能助手系统架构的设计和实现。最后,展示代码生成应用和探索分析应用的具体实践。
本书由多位作者梳理结构和写作,具体分工如下。
● 张凯负责制订本书整体框架、梳理技术流程,以及统筹和优化所有章节的内容。
● 司书强负责组织团队写作,合理配置项目资源,严格把关并细心审阅本书的技术内容。
● 刘岩负责撰写第1章到第3章的内容。
● 张昱负责撰写第4章到第6章的内容。
● 戴诗峰负责撰写第7章、第16章的内容。
● 谢思发负责撰写第8章到第11章的内容。
● 李飞宏负责撰写第12章到第15章的内容。
衷心感谢众多朋友的鼎力相助。特别感谢周威、皇甫学军、梁彪、黄奕文对第3章内容的贡献,以及人民邮电出版社编辑单瑞婷对本书出版工作的全程支持。
虽然在写作过程中,我们尽最大努力保证内容的完整性与准确性,但由于写作水平有限,书中难免存在不足之处,恳请读者批评和指正。
腾讯游戏数据团队
2024年10月