亘古以来,降低对于未知的恐惧,是人类一直在探索的议题。从占卜到历法,都是试图通过已知和经验,探测未知世界。这种对于未来的渴望和敬畏,恰是人类不断变迁、发展的重要推动力。每一次行为模式的重大变革,都伴随着或者推动了技术的进步。
2016年,这个移动互联网盛行的时代,正是技术与模式交锋的一次新革命。无孔不入的触角,将各层面都无可避免地纳入互联网。其中,突如其来的海量数据,是我们对新时代最直观的感知。这些无所不在的数据,似乎给人们提供了新的探索介质,如何把这些看似没有关联的数据,归纳总结,形成一套新的预测模式,就是我们现在面对的最大问题。
所谓数据,其实就是现在风头正盛的“大数据”概念,它不仅可以反映我们过去的行为轨迹,也可以预测我们将来的行为倾向。这一切的便利也归功于“量化”。国际知名测量师、决策分析师和风险管理专家道格拉斯·哈伯德在其撰写的《数据化决策》一书中,提出“一切皆可量化”的理论。 量化从来都是为目的而服务的,以便更好地管理和决策,为很多难以确定的情况提供评估和判断的依据,尽可能让未来的决策和管理提高可行性。“无量化,无管理;先量化,后决策”,这恰是当今商业社会的真实写照。
数据,正在从最不可能的地方提取。而所谓的数据化,又并不尽然是数字化。量化,是数据的核心,而数据正在推动者社会发展的步伐。可以仔细感知:当文字变成数据、当方位变成数据、当沟通变成数据、当行为变成数据⋯⋯我们,已然置身于一个一切事物皆被量化的数字世界中。数据的几何倍增长,势必伴随着数据分析与挖掘工具的日益丰富与多元,存量越来越大、越来越全面的数据,为个人和企业提供着无限可能和想象空间。于是,大数据概念受到了各方的追捧,大数据作为这个时代最流行的热词。
大数据的概念包罗万象,这种广泛的内涵,使大数据成为一个“千人千面”的概念。因此,不同机构及专家,基于各自擅长的领域和角度定义大数据,各界尚未有统一的共识。因此,对于大数据,更多的是从大数据的实际效果,即如何应用大数据着手处理。
“大数据是体量大、快速和多样化的信息资产,需要高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力。” 这是目前各界比较认同的观点,我们也认为大数据的特点是数量大、获取速度快、形态多样,但这并不局限于传统的数字型的数据,也包括大量文字、图形等非传统的数字型数据。因此,难以用传统关系型数据分析方法进行有效分析,需要大规模的水平扩展才能高效处理。
因此,只要能够积累大量记录资料,就可以通过数据化的方式进行大数据研究,要注意的是,这里是数据化而不是数字化。数据化与数字化大相径庭。数字化是模拟数据,转换成用0和1表示的二进制,这样电脑就可以处理这些数据了。而数据化,是一种把现象转变为可制表分析的量化形式的过程。
为了得到可量化的信息;我们要知道如何计量:为了数据化量化了的信息,我们要知道怎么记录计量的结果。计算机的数字测量和存储设备,大大提高了数据化的效率。计算机可以通过数学分析挖掘出比数据更大的价值。数字化带来了数据化,但是数字化无法取代数据化。数据,正在日复一日地扩大,几何级的增长,随之带来存储、处理和展示等一系列问题。我们姑且不去考虑这背后,会产生什么样的联动效应。只要闭上眼,通过字符幻化,这个世界就出现在你的眼前。
数据就像一个神奇的矿山,一旦世界被数据化,就只有你想不到而没有做不到的事。我们跨过艰辛的人工分析过程,揭示隐藏在数据中的价值,就是为了探寻它的真实价值。这种价值就像漂浮在海洋中的冰山,第一时间看到的只是冰山一角,而绝大部分隐藏在其表面之下。今天,大部分的数据,现在只是被交易的对象。事实上,数据真正的价值,从来都不是数据本身。拥有数据分析工具(统计学和算法)以及必需的设备(信息处理器和存储器),就可以在更多领域、更快、更大规模地进行数据处理。
抛开传统的思维模式,将世界看作信息,就会发现,大数据为我们提供了一个从未有过的审视世界的视角,渗透到生活的每一个角落。这一转变意义重大,它影响了企业评估其拥有的数据及访问者的方式,促使甚至是迫使公司改变他们的商业模式,同时也改变了组织者看待和使用数据的方式。当我们明白,数据还有更多潜在价值的时候,我们就应该明白,那些创新型企业,可以借由提取其潜在价值而获得潜在的巨大利益,甚至成为改变行业格局的独角兽。我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值仍须从数据本身中挖掘。
总之, 在我们判断数据的价值的时候,我们需要考虑到未来它可能被使用的各种方式,而非仅仅考虑其目前的用途。数据的价值体现在其所有可能用途的总和。 这些似乎无限潜在用途的选择,不再是指传统意义上的利用选择,而是实际意义上可能产生价值的选择。这些选择的总和加在一起就是数据的价值,就是数据的“潜在价值”。同时,我们不再是数据的单遍扫描,而是数据的再利用、数据重组利用、扩展数据利用、数据折旧利用、数据的废除利用、开放数据的利用、数据的估值利用等。
上面我们谈到如何通过创新用途挖掘出数据新的价值,这里“新的价值”主要是指我们所说的潜在价值。现在,我们把重点转移到使用数据的公司和它们通过数据产生的价值是如何融入大数据价值链中的。
(1)基于数据的公司: 这些公司拥有大量数据或至少可以收集到大量数据却不一定有从数据提取价值或使用催生创新思想的技能。最好的例子就是Twitter,它拥有海量数据这一点是毋庸置疑的,但它的数据却通过两家独立的公司授权给别人使用。
(2)基于技能的公司: 它们通常是咨询公司、技术供应商或第三方数据分析公司。它们掌握了专业的技能但并不一定拥有数据或提出数据创新性用途的才能。例如,沃尔玛和Pop-Tarts这两个零售商是借助Teradata的分析来获得营销点子,Teradata就是一家大数据分析公司。
(3)基于思维的公司: Jetpac的联合创始人,皮特·华登(Pete Warden),就是通过想法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有的是挖掘数据的新价值的独特想法。
而从数据自身来看,目前大数据有4V的特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
(1)过去一些记录是以模拟的方式存在的,或者以数据的形式存在但是存储在本地,不是公开数据资源,没有开放给互联网用户,如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有的。例如,Facebook每天有18亿张照片上传或被传播,形成了海量的数据。
(2)移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,已知i Phone有3个传感器,三星有6个传感器。它们每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成大量用户行为数据。
(3)电子地图如高德、百度、Google地图出现后,产生了大量的流数据。所谓流数据是一组顺序、大量、快速、连续到达的数据序列,这不同于传统数据的一个只代表一个属性或一个度量值,流数据代表着一种行为、一种习惯,因此,经频率分析后,可以产生巨大的商业价值。
(4)进入了社交网络的年代后,互联网行为主要由用户参与创造,大量的互联网用户创造出海量的社交行为数据,这些数据是过去未曾出现的,揭示了人们行为特点和生活习惯。而电商崛起产生了大量网上交易数据,包含支付、查询行为、物流运输、购买喜好、点击顺序和评价行为等。
(5)传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据,单位存储价格的下降也为存储这些数据提供了经济上的可能。
大数据思维必然会引起一些人的恐慌,也必然引起一些公司的倒闭与转型。传统行业最终都会转变为大数据行业,无论是金融服务业、医药行业还是制造业。当然,大数据不会让所有行业的公司消亡,但是肯定会给这些公司带来巨大的挑战。当我们正在憧憬大数据给我们带来的变革的时候,如何应对大数据带来的问题是最先要面对的。