购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一章
“可怕”的大数据

除了上帝,任何人都必须用数据说话。

——爱德华·戴明(美国管理学家、统计学家)

有了大数据的帮助,我们不会再将世界看作一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。

——维克托·迈尔-舍恩伯格

在裸体群落中的蚊子说:“我不知道从哪一个人开始下嘴。”

——H.M. 麦克卢汉

1

坊间流传着一则黑色幽默:

某比萨店的电话铃响了,客服人员拿起电话。

客服:×××比萨店。您好,请问有什么需要我为您服务的?

顾客:你好,我想要一份……

客服:先生,烦请先把您的会员卡卡号告诉我。

顾客:16846146***。

客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?

顾客:你为什么知道我所有的电话号码?

客服:陈先生,因为我们联机到CRM系统。

顾客:我想要一个海鲜比萨……

客服:陈先生,海鲜比萨不适合您。

顾客:为什么?

客服:根据您的医疗记录,您的血压和胆固醇都偏高。

顾客:那你们有什么可以推荐的?

客服:您可以试试我们的低脂健康比萨。

顾客:你怎么知道我会喜欢吃这种?

客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。

顾客:好。那我要一个家庭特大号比萨,要付多少钱?

客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。

顾客:那可以刷卡吗?

客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。

顾客:那我先去附近的提款机提款。

客服:陈先生,根据您的记录,您已经超过今日提款限额。

顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?

客服:大约30分钟。如果您不想等,可以自己骑车来。

顾客:为什么?

客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录,您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。

顾客几乎晕倒。

客服补充道:根据订餐记录,您可能还有一个另外的两口之家……

顾客彻底晕倒。

根据订餐记录,您可能还有一个另外的两口之家……顾客彻底晕倒。

2

这个笑话,让人思考几个问题,什么是大数据(Big Data)?大数据是怎么得到并算出这一切的?大数据会在多大程度进入和改变我们的生活方式?

2016年年初,一场人机大战吸引了世界的眼球。世界围棋冠军、韩国九段高手李世石与一台名叫“阿尔法狗”的计算机进行了五番棋的“人狗大战”。在这场大战开始前,围棋界的超一流选手大多看好李世石,认为机器斗不过人,但事实却让这些大师汗颜,“阿尔法狗”以4∶1的悬殊比分轻松战胜了李世石。

当人类为此惊叹、惊呼的时候,“阿尔法狗”静静地待在一边,甚至连庆祝都不会。

“阿尔法狗”运用的就是大数据。

人类的智力游戏中,围棋的难度是最大的,因为棋手起手时有19×19=361种落子选择,所以它的变化几乎每一局都不相同,一局150回合的围棋可能出现的局面多达10170种。因此,挑战围棋被称作人工智能的“阿波罗计划”。

但“阿尔法狗”的设计者们是一些甚至连初段选手水平也达不到的科学家,对于他们来说,只需要懂得围棋的基本规则即可。他们利用蒙特卡洛树搜索算法和神经网络算法,将棋类专家的比赛记录输入计算机,并让计算机自己与自己进行比赛,在这个过程中不断学习训练。在与李世石对阵之前,谷歌首先用人类对弈的近3000万种走法来训练“阿尔法狗”的神经网络,让它学会预测人类专业棋手怎么落子。通过让“阿尔法狗”自己跟自己下棋,从而又产生规模庞大的全新的棋谱。谷歌工程师说,“阿尔法狗”每天可以尝试百万量级的走法。在下棋的过程中,它不是考虑自己应该怎么下,而是想人类的高手会怎么下。也就是说,它会根据输入棋盘当前的一个状态,预测人类下一步棋会下在哪儿,提出最符合人类思维的几种可行的下法。

这样的计算能力和数据量是人类在有限的时间内无法完成的,所以,李世石只能输了。

人类对资料与数据的占有与使用,是文明程度发展的标志。从结绳记事到仓颉造字,从竹简刻字到活版印刷,随着人们对资料数据越来越多地占有和利用,人类文明也一步步进入高级阶段。

加拿大经济历史学家哈罗德·英尼斯甚至以媒介为标准,将人类文明分为埃及文明(莎草纸和圣书文字)、希腊罗马文明(拼音文字)、中世纪时期(羊皮纸和抄本)、中国纸笔时期、印刷术初期、启蒙时期(报纸的诞生)、机器印刷时期(印刷机、铸字机、铅版、机制纸)、电影时期、广播时期九个阶段。

中国纸笔和活字印刷是世界文明重要的传播手段。

这种划定人类文明的思维虽然让人大跌眼镜,但也不无道理,我们不能否认,正是因为新媒介的产生,各种资料和数据比上一种文明成百倍千倍地增加,才使新的文明获得更多的营养得以传承和发展。

哈罗德·英尼斯被引用最多的一句话是这么说的:“一种媒介经过长期使用之后,可能会在一定程度上决定它传播的知识的特征。也许可以说,它无孔不入地影响创造出来的文明,最终难以保存其活力和灵活性。也许还可以说,一种新媒介的长处,将导致一种新文明的产生。”

似乎为了证明哈罗德·英尼斯预言的准确性,人类发明了电脑和互联网后,这种新媒介果然导致了新文明的产生。这就是互联网文明,大数据时代。

大数据是一种说不清道不明的东西,许多人提起它都是云里雾里,就是专业人员解释起来也得费半天劲。

比如说,啤酒与纸尿布有何关系?难道爱喝啤酒的人容易尿裤子?

写魔幻现实主义小说的马尔克斯与写推理小说的东野圭吾是好友吗?他们的书为什么被亚马逊网排列在一起,说明是“经常一起购买的商品”?

去给孩子买纸尿布的丈夫通常会顺手买罐啤酒犒劳自己。

马尔克斯与东野圭吾,不知道为什么在网上会被拉郎配。

原来,被老婆“赶”进超市去给孩子买纸尿布的丈夫通常会顺手买罐啤酒犒劳自己,沃尔玛根据购买数据把这两种本不相干的商品放在一起,提高了销售收入。

沃尔玛每小时可以处理100万笔购买资料,从中找出隐含的资讯与商机,一些小小的商品摆放改动,也是分析巨量数据后的心得。沃尔玛的首席信息官罗林·福特说:“每天早上一醒来,我就要问自己:怎样才能让数据流动得更好,管理得更好,分析得更好?”

哥伦比亚人马尔克斯与日本人东野圭吾之间唯一的关联就是他们都是作家,但亚马逊网上书店却把他们放在一起,原因是这两本书经常被同一个顾客同时买走。

最早的时候,亚马逊是遵循传统方式,让书评家写评论推销图书的,但是,他们很快就发现,计算机比人聪明,计算机虽然看不懂小说,但是却准确地知道每个人都买了什么书,哪些书经常被一起买走。这种内在的关联数据被利用起来,变成“经常一起购买的商品”,于是销量大增,成为年销售450亿美元的大企业。

这就是大数据。

科学家和工程师们试图给大数据下定义。

日本政府“智慧云端运算研究会”智库成员城田真琴认为:“所谓大数据,就是用现有的一般技术难以管理的大量资料群。大数据拥有3V特性:大量(Volume)、内容庞杂(Variety)、速度快(Velocity)。”

大数据的3V特性:大量(Volume)、内容庞杂(Variety)、速度快(Velocity)。

研究机构Gartner给出的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

“著云台”的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多的时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像Map Reduce一样的框架来向数十、数百甚至数千的电脑分配工作。

信息管理专家、《大数据》的作者涂子沛说,大数据是指一般的软件工具难以捕捉、管理和分析的大容量数据,一般以“太字节”为单位。大数据之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”“大科技”“大利润”和“大发展”。

申万宏源证券研究所副总经理易欢欢认为:“大数据”是继云计算、物联网之后IT产业又一次颠覆性的技术变革。对国家治理模式,对企业的决策、组织和业务流程,对个人生活方式都将产生巨大的影响。

《大数据时代》的作者维克托·迈尔-舍恩伯格、肯尼思·库克耶说:“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉。而更多的转变正在蓄势待发……”

中国互联网发展重要参与者、IT评论人谢文说:“大数据很可能成为发达国家在下一轮全球竞争中的利器,而发展中国家依然处于被动依附状态之中。整个世界可能被割裂为大数据时代、小数据时代和无数据时代。”

根据IDC(国际数据公司)的监测统计,2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB,1.8ZB也就相当于18亿个1TB移动硬盘的存储量),而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥有35ZB的数据量,增长近20倍。大数据为信息产业带来新的、更为广阔的增长点。开源分析机构Wikibon预计,2012年全球大数据企业营收为50亿美元,未来5年的市场复合年增长率将达到58%,到2017年将达到500亿美元。

大数据不仅仅表现出商业智能,它还能够预测一些大趋势,从而对世界安全、社会公益有所贡献。比如在非典流行的2003年,谷歌的两个工程师就从大众搜索的关键字中,预测了可能暴发疫情的地区,他们的预测,甚至比美国权威的卫生部门的预告还要快和准确。因为,一个月900亿条的搜索数据,就是最权威、最准确的抽样调查资料,这是任何专家靠人工都无法做到的。

大数据是冥冥中的一个神秘的预言家,它知道某种我们根本不知道的东西,它还知道所谓风马牛不相及的事物其实都是相及的,它发现规律的能力甚至比专家还要专业。

3

大数据如此神奇,普通人能使用它吗?

与万事万物的规律一样,大数据只偏爱有准备的头脑和强大的技术能力。

对于不会利用或无能力利用它的人来说,大数据就是一团乱麻,一堆无用的电脑垃圾。而对于认识到它的价值的人来说,这是一座宝藏之山,谁能说出“芝麻开门”之类的暗语,谁就能成为无尽宝藏的拥有者。

2012年3月,美国政府宣布投入两亿美元,进行以大数据运用为目的的研究开发,表示了举国动员致力于大数据研究的明确态度。美国政府说,要“尽力将大数据所创造的机会发挥到淋漓尽致”,“资料是新石油”。

对于不会利用或无能力利用它的人来说,大数据就是一团乱麻,一堆无用的电脑垃圾。而对于认识到它的价值的人来说,这是一座宝藏之山。

石油不能再生,大数据无穷无尽。

石油需要提炼,大数据需要“被利用”。

“未来世界的本质就是数据,一切的竞争归结到最后都是数据的竞争。在生活方面,想想看,你的存款、你的通讯录、你的社交、你的一切都是由一堆数字组成的,如果有人篡改了它们呢?”

“在军事方面,大数据正在逐步取代传统的军事侦察手段,成为军队高层进行决策的重要依据。不仅侦察搜集,作战兵器、战场动态、指挥命令等都是以数据的形式存在,这些瞬息万变的海量信息,构成了最基本的战场生态。”

被称为台湾天才工程师的翟本乔说,利用大数据,不是一个简单的大量储存和平行运算系统就能完成的,而是需要data minning(资料探勘)、neural network(神经网络)、pattern recognition(模式识别)、information retrieval(资讯萃取)等领域的投资和开发。

对于传统媒体出身的人来说,我们这代人是靠“码字”开始的职业生涯。今天,数据革命真的“革”到我们头上了,“狼来了”。

大数据颠覆了许多固有观念,也改变了我们的世界观。

让人印象特别深刻的是,用电脑分析数据的亚马逊的工程师打败了用笔写评论的书评家。

按照常理,书评家对图书内容的了解与分析,应该比工程师更深入、更专业,但是,奇怪的事情发生了:工程师通过对用户消费记录和浏览记录等数据进行分析,从每年450亿美元的订单中寻找关联度,对照行为相仿的用户记录,可以更准确地找到需要向顾客推荐的产品。

亚马逊三分之一的图书是靠这种个性化推荐系统卖掉的。

而书评家显然创造不了这样的销售业绩,如果他想通过阅读和写稿的传统方式去评论这些书,非累吐血不可。于是,大数据上位,书评家失业,因为“人工评论的成本是非常高的。而电脑运算大数据,要快捷和省力得多”。

不懂书籍好坏的计算机打败了懂书的评论家,这是非常严峻的挑战。

挑战并非来自某一企业、某一行业、某一国家,而是来自那个无形的大网——互联网和互联网生产的无穷无尽的大数据。

对大数据不懂、不会、不用,就如同坐在黄金上的乞丐,只有饿死的份儿。

回望刚刚过去的这几年,在数字革命的浪潮冲刷下,许多昔日的弄潮儿,遭遇了死在时代沙滩上的厄运。的确,在这个最坏也是最好的时代,并非只有凯歌。无论百年名企,还是昨日新贵,同样可能岌岌可危:

2012年1月19日,美国柯达公司及其美国子公司依据美国《破产法》提出破产保护申请。

柯达的际遇,尤为令人慨叹商业竞争的惨烈与悲壮。即使已辉煌百年,即使是数码技术的最初发明者,也不曾摆脱黯然落幕的结局……

另一边,在2012年5月18日,Facebook在纳斯达克上市,IPO定价38美元,融资160亿美元,估值1040亿美元,创下美国公司最高上市估值。

全球投资者都在密切关注这场互联网史上最大规模的IPO盛事。

究竟是什么演绎了这样一个又一个令人瞠目结舌的悲喜剧?

雷·哈蒙德在《数字化商业》中曾说:“全球电脑网络化的发展将成为塑造这个星球上生活的决定因素。”

正如国金证券的一份报告所说,大数据时代网民和消费者的界限正在消弭,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。因此,大数据对国家治理模式,对企业的决策、组织和业务流程,对个人生活方式都将产生巨大的影响。

这份报告警告说,如果不能利用大数据更加贴近消费者、深刻理解需求、高效分析信息并做出预判,所有传统的产品公司都只能沦为新型用户平台级公司的附庸,其衰落不是管理能扭转的。

长久以来,新技术好像寒风中想要挤进帐篷里的一只骆驼,人类不曾注意到它温良眉目下蕴藏着的锐气与生机,直到今天,蓦然回首,我们才发现,这只巨大的骆驼,已挤进了我们栖身的帐篷,生存空间被它挤压得小而又小。这一切,令人不由得想起托夫勒在《未来的冲击》中所描述的:“新知识的浪潮已迫使我们走入日渐细分的专业领域,驱使我们以更快的速度,重新修正互联网在我们头脑中的形象,这就需要我们积极去接触它、拥抱它。”

这个图景,是新技术革命景象的写照,同时也符合新技术革命竞争下的媒体态势。自20世纪90年代至今,中国传媒刚刚经历了要做大做强,扬帆出海的改革,倏然间,又面临着新媒体技术下未知市场空间的挑战。面对已经全身挤进来的“骆驼”,是选择放弃帐篷,抑或去驾驭这只巨大的骆驼,与新媒体、新技术全面融合?

逆水行舟,不进则退。这是无可选择的宿命。

新技术好像寒风中想要挤进帐篷里的一只骆驼。

正如大数据时代的预言家维克托·迈尔-舍恩伯格所说,大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人扮演重要角色。

大数据能帮助我们表现更佳、更富效率、取得进步,最终捕捉住利益。

好吧,让我们去接触它、拥抱它。 GEWyEo9Eobrow2dYc//LD2a5m/iuBL4tjKc4nYFE+SFozfE/NZ00bdDWr18apJtu

点击中间区域
呼出菜单
上一章
目录
下一章
×