购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第1章 大数据现状

1.1 大数据的前世今生

1.2 从1G到5G,互联网的跨越式发展

1.3 大数据革命带来了什么

1.4 中国遭到大数据冲击

1.5 来自中国的数据狂人

1.1 大数据的前世今生

1941年的一个下午,在昏暗的英国情报中心实验室里,几台高速运转的巨型计算机突然停顿了一下,这时与计算机相连的一组读表盘,报出了几组数字。守候在一旁的图灵 和他的破译团队战战兢兢地抄下读数,这组读数很快被翻译成英文字符:“德军潜藏在大西洋海底的潜艇,计划攻击路过的英军战舰。”

他们立即将译码报告给英军高层,接下来是焦急的等待,大约过了一小时,军方高层来电回复,证实英军战舰的确受到德军潜艇攻击。实验室里一片欢呼,既欢呼德军潜艇密码被破解,也欢呼图灵和他的团队研制的新一代计算机取得成功。那么图灵研制的计算机,究竟是怎样破译德军密码的呢?

其实,这是一个怎样高效处理数据的问题。图灵和他的团队开发的“巨人”计算机,能大规模处理数据,是世界上第一台可编程计算机。为了快速找出德军密码的潜在模式,它读取卡纸的速度达到5000字符/秒,仅用几个小时就能完成以往近一个月的工作量。

德军密码的破译直接扭转了大西洋战场的局势,加速了德军的覆灭。这是大数据首次在世界性的大战中发挥作用,而大数据在人类生活中的应用古已有之。几千年前中国的《易经》就是一个很好的例子,《易经》将数字分为阳爻和阴爻,通过判断阳爻和阴爻的不同组合,其实就是不同的数据组合,来预测将要进行的事件的“吉凶”。

现代意义上的大数据发源于20世纪90年代。20世纪90年代初,西方国家开始把一批智能工具和知识管理技术运用到生产实践中去。同时,数据挖掘理论和数据库理论逐渐成熟,出现了一批如数据储存库、专家系统、知识管理系统等新技术。

大数据技术的成熟和它的优势,吸引了各行各业的关注。无论是跨国集团还是小团队,在开展新业务时,都会事先查看与该行业相关的数据。可见,大数据带来的变革性影响,已使它成为各行各业发展、创造的助推器。2013年5月来自全球经济研究所的报告显示:多达12种新兴技术,将在未来20年中,为人们带来14~33万亿的巨大收益,而这些新兴技术中,很多都把大数据作为其研究和应用的基石,包括物联网、云计算、自动汽车、生物基因等。

2014年4月举行的世界经济论坛,也围绕“大数据的回报与风险”,发布了《全球信息技术报告(第13版)》。报告认为,在未来几年中针对各种信息通信技术的政策,会显得更加重要。全球大数据产业日趋活跃,技术创新和应用扩展的速度加快,使各国政府认识到大数据在推动经济发展、改善公共服务,乃至保障国家安全方面的重大意义。

1.2 从1G到5G,互联网的跨越式发展

现代意义上的大数据,主要来源于互联网,而互联网的发展则依赖于计算机技术的进步。从世界第一代电子计算机的诞生,到现在智能手机的广泛普及,通信技术有了长足发展。从1G到5G,在互联网通信跨越式发展的同时,大量数据也随之产生,因此,数据存储问题成为突出问题,成为制约通信设备发展的瓶颈,直到云计算和云存储技术的成熟,存储问题才有所缓和。

2009 年 5 月,瑞典通信运营商 TELIA,发布全球首个商用 4G LTE网络。紧随其后,欧、美、亚、澳几大洲争先建起 4G 网络。

中国在 2013 年 11 月向国内通信三巨头——中国移动、中国联通和中国电信——发放 4G 商用牌照,这标志着中国移动通信正式进入 4G 时代。

根据中国移动发布的报告,中国移动已经部署了约41万个TD-LTE基站,约有1400万用户。其在2014年11月发布的数据显示,目前,中国4G用户已达约4305.7万户,4G网络普及之迅速,相比于此前的3G要快上很多倍。

4G网络在全球覆盖范围不断扩大,为通信商带来了丰厚回报。在此基础上,全球移动通信行业正在加紧研发新一代5G网络。根据国际电信联盟的相关规范,下一代移动通信网络将命名为“IMT-2020”,IMT-2020即5G网络,将会在2020年正式推出。

现阶段,通信运营商与学界专业人士都看到了下一代5G技术的巨大潜力。各国政府部门也看到了5G的巨大价值,制定了多种发展政策,以保证在5G到来时本国不被抛在后面。另外,在5G的发展愿景、应用需求、候选频段及关键技术指标等方面,许多国家进行了广泛的磋商研究,在各方的共同努力下,5G技术已初见端倪。

在世界知名导演詹姆斯·卡梅隆的电影《阿凡达》中,生活在潘多拉星球上的纳美人,利用植物神经纤维来传递信号,实现彼此交流。而在地球上生活的人类,是用无数根电缆光缆和无线电来传递信号,电缆光缆和无线电虽无植物神经纤维那样多姿多彩,但它的传导能力却不逊色于植物神经纤维。预估,大约发展到2020年,移动通信网络的容量将比现在高出1000倍左右,需要接入的终端设备数量也会发展到1000亿部。届时,由无数金属线和无线电波织成的网络,能覆盖地球20遍并辐射到地球以外遥远的星空中。有人笑称,假如潘多拉星球真的存在,或许纳美人能通过植物神经纤维收到来自地球的电子信号呢。

智能手机的普及为人类实现自由沟通提供了平台,自此人们再也不用“一处相思,两地闲愁”了。这也正是5G的驱动力所在,若只有智能手机而无信号,它的功能就相当于“游戏机”;若只有信号而无充足的流量,那智能手机的功能将大打折扣,而无法实现更广泛的信息交流。

对于信息,人类在蛮荒时代时就加以运用了。那个时候打猎、捕渔要看天气,还要掌握动物活动规律等,这些都是信息。在中国,对信息的依赖,在春秋战国时代达到了高峰,流传至今的军事名著《孙子兵法》中谈到的用兵谋略,大多与对信息的刺探和应用密切相关。

因此我们说,智能手机好比一支军队,而指导这支“军队”行动的将领就是信号,如果没有信号,这支军队将形同虚设。这也让我们看清一个事实:对无线信号的严重依赖,也将造成无线频谱的资源危机。

在2020年到来之前,通信商们若不能解决“无线资源危机”,5G时代恐将遭遇“难产”。据估测,未来5年通信行业所需总带宽将超过1000MHz 。如何解决这个难题,目前有两种方法,一是在频段资源的调配方面,把获取新的低频段资源放在首位,其次再从获得新高频段资源的方面入手;二是开发新型频谱,例如授权型频谱的共享和新的无线频谱的开发和使用。两者都能为解决资源难题提供思路。

1886年1月29日,卡尔·本茨发明了世界上第一辆机动三轮车,历经无数次失败,卡尔·本茨的机动三轮车成功上路了。卡尔的技术革命有着深远影响,以至于到现在,中国马路上的“三轮车”,还在延用着卡尔的技术。另一方面,机动车的发明与交通道路的建设还有着微妙关系。很难说,是车辆的更新换代加速了道路的平整升级,还是道路的平整升级促使车辆不断更新换代。

5G网络就相当于一条刚刚投入使用的高速公路,而宽敞的“公路”要满足“安全行车”的需要,就必须达到一些苛刻的技术指标:

①Mbit/s:网络带宽计量单位,1Tbit/s=1024Gbit/s;1Gbit/s=1024Mbit/s;1Mbit/s=1024kbit/s;1kbps=1024bit/s。

上述提到的7个基本要求是最基础的,2020年后的5G网络理应还有更高的要求:

1 无限频谱效率进一步提升5~15倍

2 能量效率、成本效率要分别提升100倍以上

虽然5G口号喊得震天响,各国能人异士也纷纷加入5G“洪流”,但是对5G技术的定义仍然很模糊。从学界和企业界所提出的多种概念看来,其共同特征可以总结为“柔和、绿色、超速”。

要使5G达到“柔和、绿色、超速”这三个目标,移动通信业界需要深刻变革,变革范围涉及用于通信网络的设计原则:

第一 要的革开新shannon定理,这有助于移动通信“绿色”之旅启

第二 要适时变革由贝尔实验室的两位科学家DouglasH.Ring和W.RaeYoung所提出的“蜂窝移动通信系统”。这个系统延用了很久,从最初的1G到现在的4G,一直都由这个理念来指引,然而在未来的5G时代,庞大的基础网络将令移动通信变得更加复杂,它将形成异构的超密集多层组网。如果仍然延用“把移动通信基站作为中心”的移动信号发射平台架构设计理念,将会导致高能耗、大干扰、移动性弱等难以解决的问题

第三 要改造信令与控制机制,确保网络可感知上层应用及负载

第四 要而开减发少高基频站天的线分,布让单个基站的信号覆盖面积更大,从而减少基站的分布数量

第五 要拓宽无线频谱的覆盖范围,增加空中接口的数量,让5G通信有更大承载空间和更灵活的使用方式

5G技术催生了一批边缘技术,例如能量效率及频谱效率协同设计技术、大规模输入输出技术、无线频谱共享及无线频谱灵活使用技术等。除了在移动通信硬件技术方面的聚集效应外,在网络技术方面的突破也数不胜数,比如“云”化无线入网技术、网络功能虚拟化技术、超密集网络技术等。可以说,众多的技术创新为5G时代的到来铺平了道路。因此对于这个充满可能的时代,我们拭目以待。

1.3 大数据革命带来了什么

人类社会革命背后均有工业革命的背景。1765年出现的珍妮纺纱机,标志着第一次工业革命的开始;第二次工业革命,起始于19世纪70年代,以电力的广泛应用为标志;最近一次的工业革命,由核能技术的应用所引发,以电子信息技术的普及为标志。

阿里巴巴总裁马云曾在卸任演讲中感叹:“科技发展的迅速总是超出人们的预期,电脑、互联网这些新生事物尚未被全部接受并理解时,‘大数据’就来了。”互联网技术的发展和应用所创造的财富总和,超出第一次和第二次工业革命所创造的财富总和十多倍。互联网大数据技术给人类带来的便捷,使得我们的工业发展得更快,生产规模也更大。

马云创立淘宝网的灵感来源于一次公务出国。当年,他供职的政府单位需要一名通晓英语的工作人员前往美国,沟通一项跨国投资事宜,出身英语专业的马云被选中。这次出国,让他对网络购物有了更多了解,回国不久就辞官下海,马云随后发动多个朋友,共同投资淘宝网。从创始到现在十多年来,淘宝网一直是中国市场的电商霸主。淘宝网的成长历史,也反映了中国互联网的发展历史。

淘宝成交用户年龄分析

淘宝网能够有现在的规模,与国际国内的大环境是密切相关的。每天成千上万单的交易为马云带来巨额财富,同时也为他积攒了丰富的数据资源,这些数据资源累积到现在就转化成了有利用价值的大数据。马云在多次演说中,都提及了大数据未来在阿里巴巴整体业务中的地位。开创淘宝的经历不仅让马云一跃成为富翁,也让马云成为一名“演讲大师”,他热衷于引导创业中的青年,因此在年轻一代的创业者中人气颇高。

与阿里巴巴应用大数据相比,在美国,较早开始应用大数据的是一家农业生物技术公司——孟山都集团。在农业领域孟山都首先发起“绿色数据革命”运动,在全球范围内建立了农业数据联盟,孟山都利用这个数据联盟来建立农业数据标准,让农场主们学会运用数据来规划自己的农业生产:例如在农业机械方面,孟山都将一套“决策服务”系统安装到农田和农机中,这套系统能适时监测和汇总农作物和农田方面的数据,然后将搜集到的数据形成选项和指令发送到农机中,农民只需坐在电子显示器前,触摸几下键盘就能完成对农作物的管理。

大数据在IT领域的应用,首先要提到的就是苹果公司了,在iPhone6面市后不久,苹果即推出智能手表,又创造了一种全新的信息载体,这种手表能帮助热爱健身的人记录详细的健身数据,包括跑步时消耗的热量、迈出的步数、心跳的频率等,还能帮助睡眠不佳者记录睡眠时长,自动提醒出行时间、出行路线和识别登机牌等。智能手表会把这些大数据汇总,从而让用户能更好地掌握自身的健康状况,以及更便捷地处理生活、工作上的事务。

事实上,将大数据引入到自己产品中的公司还有很多。如美国最大的商业视频供应商Netflix,很早就在追踪用户的各项数据,包括用户的观影喜好、上网时间、使用什么设备观看、在某个情节点快进或后退等。精细周密的数据分析体现了西方人浓重的理性精神,然而,商业公司对普通大众数据的搜索行为,也会侵犯到个人隐私,这可能会引起道德或法律层面的争议。

Netflix利用搜集到的数据,说服了BBC重新翻拍电视剧《纸牌屋》。就这样,这部电视剧以大数据为准,根据3000万用户的收视选择、400万条评论、300万次主题搜索等数据,敲定了拍摄内容、拍摄人员、演员以及播出方式。可以说,《纸牌屋》的成功是用大数据“算”出来的。《纸牌屋》播出后,奥巴马在推特中予以转发评论,同时《纸牌屋》包揽了当年多项影视大奖。一石激起千层浪,21世纪的白宫政治不仅在英语世界里掀起轩然大波,在亚洲等地也颇受关注。这部剧之所以收获这么大的成功,大数据无疑起到了巨大的作用。

大数据引起的变革早已不是“小荷才露尖尖角”,在各行各业对大数据的争先运用中,可以看出它的流行程度。恰如瓦特改良蒸汽机在工业上引起的革命,大数据创造了一个行业,也渐渐改造了众多行业。

1.4 中国遭到大数据冲击

时至20世纪90年代,互联网开始在中国流行,这些鲜为人知的计算机让缓慢沉稳的中国人一下子追上了世界速度。人们只要有一台计算机,上网之后就能和世界各地的人沟通交流,此时,眼界顿开的老百姓迅速融入了互联网的世界中。

经过十几年的发展探索,互联网越来越普及,依靠互联网工作、生活的人也越来越多,这些人也将大量的上网数据留在了网络上。这就像星云孕育恒星,恒星孕育卫星,进而地球孕育生命一样,互联网平台的建立,迅速催生了一个独立的大数据领域。

电商成为社会化媒体

根据有关部门的统计,阿里巴巴集团的营业收入中,有60%~70%来自淘宝和天猫的广告业务收入,这在互联网业内已不是什么惊奇的事件了。许多网站就是靠流量生存的,电视台的很多综艺节目也是如此,如在中国火爆一时的《爸爸去哪儿》,曾一度掀起收视率高潮。这部火爆的综艺节目,其主要收入也是来自广告费用。

社会化电商媒体的主要特点

传统媒体机遇和挑战

随着大数据的发展,人们不再满足于阅读每日推送的纸媒新闻,新闻媒体业也开始朝着多元化和个性化的方向发展。与此同时,网络媒体的崛起削弱了传统纸媒的影响力,个性化定制媒体也正在一步步蚕食网络新闻。数据时代传统媒体面临的主要瓶颈在于观念保守——没有油墨味的报纸怎么能称得上新闻呢。在一些相对开放的新闻媒体中,也只是把印在纸上的新闻,用键盘敲在网页上而已,在更新设备和创新新闻理念上缺乏实质改变。

与保守的媒体新闻从业者相反,网络媒体充分意识到了网络市场的巨大潜力。就国内而言,我们不妨来看一组数字:2012年我国移动电子产品用户规模达4600万,2013年达到9700万,2014达到3.5亿。这些数据都在说明一个问题,即网络媒体在不久的将来可能会成为主流媒体。社会发展到了一定节点,技术智慧和财富累积达到了一定程度,就会引起某些变革,如果传统媒体不能适应21世纪这个数据时代,那就会被淹没在数据的海洋里。

移动电子用户近三年增长示意图

如何应对大数据冲击

社会化、移动化、媒体化的网络产业创造了海量数据。然而,如何把这些数据的潜在价值,转化为可供操作的市场化数据,已成为当务之急。笔者认为,要解决这一问题有几条道路可供参考:

续表

1.5 来自中国的数据狂人

提到发明,不同的国家有不同的认知。在我国,人们常常为中国古代的四大发明而自豪;在国外,一提及古藤堡印刷术、牛顿定律、瓦特蒸汽机等这些发明,外国人也会备感骄傲。这些伟大的发明构成了人类文明的基石,对国家与社会的发展起到了促进作用,那么在这些发明中最伟大的是什么呢?笔者认为,人类最原始、最伟大的发明非语言与数字莫属了。

没有语言就无法交流,人类的语言所实现的精确交流,构成了人类文明的前提。数字代表着一种纯粹的思维,这种思维是不带任何情感的,这种“纯粹思维”渐渐演化为人类大脑中的理性思维。而正是理性思维创造出的工业文明,使人类能够脱离体力劳动而生存,强大的工业力量也让人类征服了动物界。

理性思维有着不竭的生命力,在信息时代它演化为数据精神,从而促成了大数据的诞生。大数据无疑已成为了一种新资源,马云曾公开表示:“阿里巴巴公司本质上是一家数据公司,做淘宝的目的,是为了获得所有零售数据和制造业的数据。”马云的观点代表了大数据从业者们的心声,“得数据者得市场、得先机”的观念被广泛接纳。

在欧美发达国家大数据已被普遍应用,而在中国,以马云为代表的这批“数据主义者”,称得上是大数据的先驱了。在互联网观念上,他们最早做出改变,马云认为人类正从IT时代走向DT时代:“IT是以我为中心,IT的目的是为了让老板更好决策、更好管理,DT的思想是让客户强大、让员工强大、让别人强大,这是完全不同的思考。在DT时代,我们需要遵循的原则有三个:

由以我为中心变为以他人为中心

完全透明

良好的用户体验

‘体验’,将能够成为这个世纪最重要的一个词,很多时候客户不要服务,要的是体验。十五年以来我们用互联网的技术、互联网的思想去影响和完善帮助中小企业,就做这点事儿。我一直认为我们不是互联网公司,我们是用了互联网的技术、互联网的思想去改变和影响传统行业,完善这个社会,帮助那些我们认为能够帮助的人。”

现在的阿里巴巴公司不同以往了。马云曾说:“现在的阿里巴巴公司,本质上是一家数据公司。”显然,他将淘宝网重新定义为搜集用户数据的平台。虽然马云的说法颇受争议,但无论如何,马云确有超前的大数据意识。2010年《经济学人》也曾预言到:“阿里巴巴拥有一项庞大而未经开发的资产——针对中国正在崛起的中产阶级消费习惯搜集的大量数据。”

数据安全问题一直是使用大数据的一个基本前提,没有谁乐意让自己的一举一动都被监视,并用这些监测到的数据谋利。关于怎样使用搜集到的数据,阿里巴巴采取谨慎的态度,并明确表示会保护好每个人的隐私。马云在构建淘宝大数据系统时,也曾把保护用户隐私设置为底线,目前,阿里内部的淘宝系统可以共享同一数据,但是在B2B的数据方面,淘宝、天猫、一淘平台则是相互独立的。法律规定,支付宝的数据必须是独立的,如果谁想要支付宝的数据,要先提出权限申请,通过审核后才能够查看相关数据。

事实上,阿里巴巴的用户隐私安全工作开展得并不顺利,第一次建支付宝的安全架构时,直接套用了银行的一套物联网安全架构,“我想定义所有数据的层,结果做完就进行不下去了。”马云如是说。

当支付宝再一次制定安全架构时,阿里巴巴采用了另一种方法——Case-by-Case(案例法)。事实证明,这次的举措是正确的,支付宝安全系统成功实现了。

在数据安全方面,阿里巴巴的大数据团队深入分析用户行为,制定了一套自律准则,即使通过后台来查看数据,许多详细的用户内容也是无法看到的。这种封闭式的设置,不仅能有效保护用户隐私,还可以避免数据滥用。

为了确保用户隐私安全,阿里巴巴还成立了专门的安全小组,负责掌控数据的安全性。数据是否可以公开、公开程度是多少,都要视具体情况而定。缺乏法律法规和第三方监管的大数据,到今天为止仍然不能让人完全放心,数据委员会里的安全小组和数据质量小组已经成立,但是数据开放现在太早了,数据使用的“度”很难把握。在某种程度上,数据开放考验的是数据人员的良心和经验。 H4hr8iNNsVzeK2/WWKeM0xv8JL5gc+UmgMK1aeteAw6Rcz2svNKK6yi5J2pA5WO5

点击中间区域
呼出菜单
上一章
目录
下一章
×