目前我们正处在一个“一切都被记录,一切都被数字化”的“大数据时代”。大数据成了一个炙手可热的名词,似乎每一个人都了解大数据,也在谈论大数据。但又不是每一位读者都真正了解什么是大数据。所以,作为本书的序言,我们打算从基本概念、发展趋势、核心理念和重大价值四个方面介绍大数据。
大数据本身是一个比较宽泛和抽象的概念,单从字面来看,它仅表示数据规模大。所以要给这个概念下一个精确的定义是非常困难的,且对于我们理解大数据并无实质帮助。实际上,从来没有人能说出让所有人信服的关于“复杂性”和“人工智能”的定义,但这不影响复杂性科学和人工智能的发展。麦肯锡曾给出过一个大数据的定义 :大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它又同时强调,并不是说一定要超过特定规模的数据集才能算是大数据。与麦肯锡更多关注数据规模不同,维克托·迈尔-舍恩伯格强调大数据赋予的新能力,并基于此给出了一个新的定义 :大数据所代表的是当今社会所独有的一种新型的能力——以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。笔者从大数据应用带来的结果出发,也给出了一个定义 :大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。读者结合这三个定义,应该能够初步描摹出大数据的特征,但可能还有一些抽象。序言的第四部分以及本书的其他内容,就是希望把这些抽象的概念具体化。
在大数据发展的早期, IBM将大数据的特征总结为 4 个“V”,也就是规模性(volume)、高速性(velocity)、多样性(variety)和价值性( value)。“规模性”是指现在需要处理的数据量,往往已经不是几MB、几GB甚至几TB,而是以PB (1024 TB)、 EB (1024 PB)甚至ZB (1024 EB)为计量单位。“高速性”是指数据产生的速度很快,要求数据处理的响应速度也很高,往往需要实时分析而非以离线的、批量的形式分析。“多样性”是指数据来源渠道多,数据结构丰富,其中绝大部分都是非结构化的数据,包括文字、语音、图像、视频、社交网络、时间序列等,这些数据无法简单地制作成表格或者用关系型数据库处理(强行使用表格或者关系型数据库效率会非常低)。“价值性”包含三方面的含义:一是数据中蕴藏着巨大的价值;二是指因为数据量很大,所以数据的价值密度很低;三是因为数据结构很复杂,挖掘数据中的价值难度很大。尽管大数据还有其他重要特征,而不具备一项或多项 4V特征的数据也可以是典型的大数据,但是IBM的总结还是非常有价值的,至少可以作为大数据的水墨画像。
十年来,数据自身数量和形态的迅猛变化驱动了大数据产业的发展,其主要趋势体现在四个方面。
其一,数据总量呈指数型爆炸性生长。现在我们每天产生的数据大约为 5 × 10 18 字节,比唐、宋、元、明、清五个朝代全世界产生的数据量还多。我们现在一年产生的数据量约为 2010 年以前整个人类文明产生的数据量的总和。这些数据主要包括互联网、个人行为和生理数据,传感器和其他探测装置采集的自然数据,大型科学研究生成的巨量数据,等等。2020 年全球有 300 亿台具有互联互通功能的智能终端,这些设备自身以及设备之间通信所产生的数据已经成为新增数据的主体。2018 年全球数据总存储量超过了 20 ZB, 2020年全球数据总存储量超过了 40 ZB, Intel预测在 2025—2026 年,全球数据总存储量将超过200 ZB。面对如此巨量的数据,大数据时代的第一个挑战,就是如何解决信息过载的问题,也就是如何帮助用户在信息汪洋中找到他需要或者喜欢的内容。搜索、推荐、广告等技术在电子商务和个性化教育等方面的应用,是典型的代表 。本书介绍的营销大数据,很大程度上就是为了解决信息过载的问题,例如电商平台上可以选择的商品数以亿计,单靠用户自己的记忆和主动搜索,很难找到自己真正喜欢的商品。
其二,数据的结构发生了巨大的变化。以前绝大部分的数据都是以表格的形态存在,我们称之为结构化的数据。例如一个员工的档案中,就有他的姓名、性别、年龄、籍贯、民族、毕业院校、笔试分数、面试分数、专业方向、工资水平、考核结果等信息。利用一些标准化的统计分析工具,我们很容易就可以得到数据之间的关联,例如挖掘出面试分数对于考核结果的影响,毕业院校对于工资水平的影响。但是现在新增数据的绝大部分是非结构化的数据,包括文本、语音、图像、视频、社交关系网络、空间移动轨迹等等。这些数据蕴含着巨大的价值。例如在数据充分的情况下,仅仅通过一个智能手机移动轨迹的分析,就能较精准地获取这个人从“生活消费水平”“违法犯罪可能性”到“感染新冠肺炎风险性”等方方面面的信息。又如在本书重点介绍的市场营销领域,商家可以借助海量文本评论数据,萃取自身产品和品牌在消费者心中最关键的优点和不足。但和结构化的数据不一样,我们没有一套标准化的方法去挖掘这些价值,这就带来了大数据时代的第二个大挑战:如何挖掘非结构化数据中的价值,甚至把它转化为结构化的数据。
其三,数据的组织发生了巨大的变化。以前针对同一个对象不同侧面的数据分散在多处,形成一个个数据孤岛。以个人数据为例,阿里巴巴记录了我们的购物行为,新浪微博知道我们的朋友关系和言论,医保部门了解我们的就医情况,公安部门有我们的犯罪记录——但这些数据之间是不连通的。最近,通过一些政策、资本、产品和技术手段,针对个人、家庭、企业、产品等的多源数据正在被打通。例如“信用中国”项目正在尝试打通个人和企业在数十个部委办的数据记录,阿里巴巴从 2015 年起开始利用新浪微博的数据提高淘宝广告推送的准确度。针对同一对象不同数据的跨域关联,有巨大的社会经济价值。例如,金融机构可以获得更完整的征信记录,税务部门可以全面了解个人和企业的涉税信息,民政部门可以开展更精准的扶贫行动,公安部门可以实时掌握流动人口及涉毒涉服人员全面的信息,商业机构能够投送点击率更高的广告,等等。与此同时,数据的跨域关联带来了隐私和安全方面的巨大挑战,因为分析人员更容易通过多源立体的数据反向挖掘出个人和家庭的隐私信息,而关联数据出现的安全问题带来的毁坏会远远大于单一数据集。这些隐私和安全的挑战和应对在本书的最后还会强调。简而言之,大数据时代的第三个大挑战,就是如何在隐私安全可控的前提下充分应用跨域关联的数据,形成“1+1>2”的效果。
2020 年 4 月 9 日,中共中央、国务院联合印发的《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据认定为新型生产要素,明确指出要加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值,强调要健全要素市场化交易平台,引导培育大数据交易市场,支持各类所有制企业参与要素交易平台建设。这一对于数据“经济地位”掷地有声的新说法,以及产业界愈发积极的回应,将助推一个正在萌芽的新趋势。
其四,高价值易流通数据将逐步要素化。从产业需求来看,各领域对数据的需求增长迅猛。在科学研究方面,人工智能、生物科技、智能装备等领域的研究需要大量的科研数据,以支撑对关键算法和核心技术的探索和实现;在社会治理方面,智慧城市、智慧治理需要大量的社会数据与政务数据相结合,形成更为科学有效的监管模式;在产业创新方面,不管是工业、农业、传统服务业还是新兴的互联网,各领域都需要在大数据基础上实现模式创新,以BAT等互联网公司为例,每年在数据清洗、标注等数据加工服务方面的支出超出上亿元人民币。借力政策利好,随着数据确权、数据产品登记、数据评估与定价方法、数据资产化和资本化的会计准则、数据质量控制、安全与互信等数据流通中关键机制的成熟,越来越多的数据将实现要素化,通过多次流通在并非该数据产生的多个地方产生价值。
总体来说,只有数据充分价值化和要素化之后,我们才能真正进入“大数据时代”。
在简单介绍了大数据的基本概念和发展趋势之后,笔者还特别希望各位读者能够记住有关大数据的两个理念。
首先,大数据的“大”在于价值大。2006 年德国世界杯八强赛,德国队对阵阿根廷队。时任守门员教练科普克用下榻酒店的便笺纸写了一张纸条给守门员莱曼,里面按顺序列着阿根廷队最可能踢点球的球员和他们最常用的点球方式。比赛后来进入点球大战,阿根廷队出场的前四名队员正好就是科普克纸条上的前四名,顺序完全一致。更可怕的是,他们踢点球的方式也和科普克的预测完全一致。因此,莱曼四次扑救都非常准确,只是有些球速度太快且角度刁钻,所以只扑出了两个点球。即便如此,莱曼依然一战封神,而阿根廷队连罚第五个点球的机会都没有就被淘汰了。后来科普克揭秘说,他自己看了阿根廷队所有队员可以找到的点球记录(其实也不多,就是两三百个),并且相信一个球员在一场特别重要的比赛中会按照自己最熟悉的方式踢点球。笔者讲这个例子是想说明,尽管这个数据非常小,但是对重大决策起到了关键性的支撑作用,因此也是典型的大数据。数据规模大,只能说明存储、传输和处理的成本高,真正重要的,是这些数据价值要大。
其次,大数据的首要作用是用客观定量的方式描述事实。我们常常把大数据和人工智能放在一起谈论,似乎这两者是一枚硬币的两面。因为没有人工智能,大数据的价值无法挖掘;没有数据,人工智能便成了“巧妇难为无米之炊”。实际上,这种理解是错误的。人工智能很多重要方法不依赖数据,或者只需要“小数据” 。反过来讲,大数据的很多价值都不需要深度挖掘,而只需要数据告知真相。2017 年前,杭州停车问题非常突出。王坚博士在解决该问题时发现,大量公共停车场数据未录入,更没有进入各类导航系统。这就使得即便在医院门口以及杭州大厦、杭州银泰等停车最难的地方,很多“隐匿的停车场”依然有大量闲置停车位。通过四年的努力,杭州接入导航系统的公共停车场车位从20 万个左右提升到了 120 万个,杭州停车难问题得到了解决。从这个例子可以看到,只要数据能够反映甚至调动真实的资源,很多问题就迎刃而解了。
大数据对政府治理、产业发展、科技创新等都有重大价值。下面简要举几个具体的例子。
第一,大数据可以帮助维护社会的安全和稳定。通过网络、通信、遥感等多渠道的数据分析,可以实时、精准地感知社会态势,对一些重大事件进行提前预警。在隐私可控的前提下,通过对可能带来重大安全隐患的若干重点人群的行为进行分析,可以提前发现异常,将风险扼杀于摇篮之中。与此同时,需要注意的是,数据安全意识的缺失和数据安全管理的松懈,也可能给国家安全带来重大隐患。
第二,大数据可以提升政府的治理能力和决策能力。通过数据资源目录和数据标准的建设,以及跨部门数据的融通,可以大幅度提高政府的社会服务和治理能力,既包括普通公民办理政务手续的用户体验改进方面,也包括交通管理、土地规划、科技计划、税务管理、人才建设、公共治安、应急管理、纪检反腐、安全生产、扶贫脱贫等多个方面。与此同时,数据的统计分析,可以帮助主要决策机构和决策人准确了解政府在教育、医疗、产业、人才等方面的资源配置现状和发展态势,并对医保、税收、教育等牵涉大量公民利益的重大政策调整所带来的直接结果进行定量化政策仿真。在决策完成后,数据分析可以帮助政府实时掌握决策的社会经济影响,包括各种正面和负面的重大舆情。
第三,大数据可以助力打赢疫情防控战。在流行病调查阶段,可以利用亮码、扫码和手机定位数据,精确再现关键高风险人员的时空轨迹,为快速排查重点区域和重点人员,以及精细化人工流调提供支撑。在重点人员分类管控方面,可以根据人员在高风险区域的停留方式和时间,与高风险人员的接触方式和接触时间,估算人员感染概率,并按照流行病学分类方法与感染概率大小,对重点人员进行精细分类与高效管控。特别地,有了大数据不仅可以找到密接人员、次密接人员……,还可以根据具体情况对密接/次密接人员进行更细致的分类管理。在资源优化调度方面,大数据能够帮助我们了解检测需求与检测资源的关系、隔离需求与隔离资源的关系、治疗需求与医疗资源的关系等,从而帮助城市管理者优化配置资源,提升老百姓的获得感。
第四,大数据可以挖掘传统行业内在的创造力。大数据已经在一些数据密集型行业,例如金融和电子商务,发挥了巨大作用。事实上,针对一些尚处于信息化初级阶段的行业,大数据有望发挥更大的作用。例如:可以通过具有近场通信能力的工卡,记录产业工人的工作情况;通过具有短程通信能力的传感器,采集生产设备的温度、压力、转速、振动强度、电流强度等信息;进一步通过数据综合分析,优化生产流程,提高产业工人平均生产效率,监控大型制造设备的运行情况,实现故障的提前预警,等等。这些措施可以提高制造业的生产效率,降低事故风险。类似的技术手段还可以应用在农业生产等传统行业中。
第五,大数据可以催生全新的商业模式。除了和传统行业深度结合,大数据还可以催生以数据共享和交易为核心的新商业模式。尽管大部分可以通过公共渠道获得的数据资源存在数据陈旧、数据噪音大、数据非标准化等缺陷,且高质量的政务数据又不能直接售卖,但通过数据的增值加工形成的数据产品,是具有商品价值的。随着数据市场的逐步成熟,数据供需双方信息会进一步透明化,数据的定价会变成逐步成熟的市场行为。当数据被赋予价格甚至资本化后,数据的商品价值和金融价值非常可观,数据交易本身会成为一种具有巨大经济价值的新商业模式,并且通过数据的流通从整体上促进科技和产业的创新。
第六,大数据可以改善人民的生活水平。随着数据深度、广度、真实性和实时性的持续提升,政府和市场化机构可以更好配置有限资源,为老百姓提供匹配度更高的服务,从而在交通、医疗和教育等老百姓最关注的民生领域,显著提升老百姓的获得感。例如杭州城市大脑通过接入所有公共停车位并进行智能导航,以及对交通信号灯实行实时优化控制,大幅度降低了老百姓出行的拥堵程度。又如基于个人基因测序数据和蛋白质组学数据的个性化医疗已经被用于多种重大疾病的诊疗并显著提高预后效果。一些发达国家和地区已经开始有计划地采集老百姓的医疗数据以期提升医疗服务能力,如英国国家卫生服务局预计 2020—2025 年英国全基因检测人数将从 10 万人增加到 500 万人 。再如利用线上教育平台和个性化内容匹配与推荐技术,可以把教育先进地区优质的教育内容精准发送给相对落后地区的孩子,实现千人千面的万人课堂 ,提高教育均衡化水平。
第七,大数据可以推动科技创新。整个科学技术领域都在向着数据密集和计算密集的方向发展,实际上,大型科学仪器,例如粒子对撞机和射电望远镜所产生的数据量是惊人的。例如大型强子对撞机(LHC)在 2015 年每秒产生的数据量超过 1GB,年产生数据量约为 30PB, 2020 年产生超过 100PB的数据,最终将达到每年产生 400PB的数据。大量激动人心的物理学和生命科学的发现都是基于巨量数据和计算资源的,以前那种依靠纸笔就能做出的重大发现越来越少了,甚至在社会科学、管理科学、心理科学等传统上主要使用定性和半定量研究方法的学科,数据驱动的研究占比也越来越多 。垂直方向 和综合性 的科学数据中心在科学研究中起到了创新引擎的作用。
读者正在读的这本书,主要阐述了大数据在营销与创业方面的应用——这实际上是大数据应用最为成熟的领域。笔者的博士研究中有相当一部分人涉足推荐系统领域 ,而第一家创业公司(北京百分点集团)也曾深耕这个领域,所以有很深的感情。另外特别值得一提的是,本书还花了一定的笔墨专题介绍初创企业可能遇到的各种陷阱、危机和解决方案。有一些可能是营销类的企业需要特别关注的,例如品牌危机的处理方式,但还有一些是所有初创企业的共同问题,例如融资与股权结构的问题等。初创企业的创始人团队往往被炙热的梦想驱动,很难真正冷静地意识到这个世界上绝大多数其他人并没有梦想,或者至少拥有不一样的梦想,所以渴望用自己的梦想点燃世界——哪怕世界的一小部分,都是非常困难的。因此,创业的过程中会遇到远远超过最初设想的困难,这就需要如本书所建议的,对于这些风险有提前的预判和预案。希望各位读者能够通过阅读本书直观了解典型的大数据创新实践,并举一反三,快速理解甚至创新大数据在其他领域的应用。如果读者恰好是营销领域的创业者、从业者或者研究者,并且还能于本书中有所得,那我们就更高兴了。
周涛
四川省决策与咨询委员会委员
电子科技大学大数据研究中心主任
教授、博士生导师
2022年6月