随着5G、IoT、V2X、AIGC等技术的发展,我们正见证着数据的爆炸式增长。“Data Age 2025”报告预测,从2018年到2025年,全球数据将从33ZB急速增长到175ZB,与2016年之前产生的数据量相比增加了10倍。随着企业对数据的需求不断提高,数据分析已经成为影响商业竞争的关键因素。如今企业正面临着巨大的挑战,需要在短时间内处理和分析大量的数据,从而为决策提供有力支持。通过对数据的清洗、整合、挖掘和可视化,企业能够发现潜在的商业机会,预测市场趋势,优化运营效率,甚至创造全新的商业模式。因此,掌握大数据技术和数据分析工具及其使用方法已经成为当代企业和个人发展的必备技能。
OLAP技术历经传统数据库阶段、数据仓库阶段、Hadoop生态系统阶段、MPP内存计算阶段、实时分析阶段。在技术演进的过程中,从单机数据库到分布式的Hadoop生态系统,分析处理的数据规模不断提升;从传统数据仓库到MPP内存计算、实时计算,每个阶段的技术都在追求更高的查询性能和处理速度,分析处理的计算性能不断提升。
Presto项目始于2012年,由Facebook的工程师为了解决Hive查询性能而发起,是一款基于内存、支持MPP的分布式SQL交互式查询引擎,可以快速查询PB级数据,同时支持标准SQL语法,现已成长为大数据分析领域中的一颗明星。伴随Presto社区的发展,目前国内许多互联网公司和金融机构都在使用Presto进行大数据查询和分析,如字节、腾讯、阿里、百度、美团、京东、滴滴、蚂蚁等,这充分证明了Presto在处理大规模数据查询方面的优秀性能和稳定性。
作为本书作者之一的许一腾曾经的直接上级,我见证了他在大数据工程领域的精进。在2017—2022年,我和一腾在腾讯共事的这6年间,他一直负责腾讯资讯业务的大数据工程工作,历经QQ看点、天天快报、QQ浏览器信息流、腾讯医典等项目。他曾基于开源Presto引擎和Hue组件开发异构数据源查询服务,针对腾讯tHive、ES、ClickHouse等数据源进行改造适配,其中QQ看点ODS层每日上报日志近5000亿规模,能稳定应对数据科学团队高效数据查询需求。一腾积极参与组建腾讯内部Presto Oteam协同工作小组,重点解决PCG(腾讯平台与内容事业群)内部跨Venus平台、TDW(Tencent Distributed Data Warehouse,腾讯分布式数据仓库)平台数据查询慢的问题。
一腾热衷技术整理与分享,作为 Presto: The Definitive Guide 中文版的审稿、书评人,积极参与Presto项目创始成员执笔的官方书籍在中国的推广。
本书讲解了OLAP、Presto的基本原理、OLAP引擎的整体工作流程与核心模块、连接器和自定义函数开发实践等内容。
本书汇集了笔者在腾讯、字节工作的实践经验,它的出版丰富了Presto大数据领域的资料,也为有志深入了解和应用Presto的技术人员提供了十分有价值的参考。
本书理论与实践相结合,有助于读者快速从理论知识走入实践应用。愿各位读者能从本书中获益。
王汪
腾讯健康医药SaaS研发负责人