随着互联网技术的稳步发展以及人工智能时代的到来,我们已经迈入了一个数据激增的时代。每时每刻都在产生大量的数据,数据的格式和种类也在不断增加。与此同时,大数据技术和架构也在不断变革。传统的数据仓库已经无法满足海量数据的存储和分析需求,于是出现了数据湖以及湖仓一体的新型大数据技术架构。由此可以看到,随着大数据的发展,数据存储和分析会变得越来越复杂,海量数据的管理也会变得越来越重要。同时,随着人工智能技术越来越成熟,海量数据可以更好地服务于人工智能的模型训练,让人工智能变得更加准确。
本书从技术与应用两个角度讲述了如何管理数据资产、解决数据资产管理中面临的诸多技术痛点,从而让数据终端用户或者数据分析师等能快速找到自己想要的数据,让数据可以发挥出更大的价值。
本书聚焦数据资产管理的核心技术与应用,作者分享了多年大数据工作中积累的相关技术与经验,旨在为读者提供一套可以落地的数据资产管理框架,基于该框架进行数据资产管理实践,让读者能更好地学习和理解数据资产管理底层所涉及的众多核心技术。
本书内容可以分为如下三个部分来理解:
(1)第1章,主要让读者认识数据资产,了解数据资产相关的基础概念及其发展情况。
(2)第2~8章,主要介绍大数据时代数据资产管理包含的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等,全面介绍数据资产管理底层所涉及的核心技术。
(3)第9~10章,主要从实战的角度介绍数据资产管理的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。
本书配套PPT课件、示例源代码、作者微信群答疑服务,需要读者用自己的微信扫描下方的二维码下载。如果在学习本书的过程中发现问题或有疑问,可发送邮件至booksaga@163.com,邮件主题写上“数据资产管理核心技术与应用”。
本书第1章由张永清和王函共同写作,第2~3章由张永清写作,第4章由蒋彪和张永清共同写作,第5~8章由张永清写作,第9~10章由赵伟写作。
感谢清华大学出版社的编辑们对本书的出版所做出的贡献。
感谢福特中国新能源技术、数字化及整车硬件研发执行总监陈兵为本书写推荐序。
感谢白鲸开源联合创始人、Apache基金会正式成员、Apache孵化器导师、Apache DolphinScheduler PMC Chair、Apache SeaTunnel PMC、ApacheCon亚洲大数据湖仓论坛出品人、中国开源先锋、中国科协“2023开源创新榜”优秀人物代立冬为本书写推荐序。
感谢Databricks高级架构师吴舒对本书的技术指导。
感谢福特中国数字化高级经理周扬对本书的特别点评和支持。
感谢部门同事以及身边的众多朋友对本书的支持。
感谢江苏省交通通信信息中心朱雷雷为本书写推荐序。
由于作者水平和时间的限制,书中难免存在疏漏之处,还望见谅并帮忙指正,也恳请读者提出更多宝贵的意见和建议。
张永清于南京
2024年5月