购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP
第一章
从小数据到大数据

过去很长时间,我们习惯采用问卷调查、现场采访等方式去采集一些有代表性的数据,借以分析我们要解决的问题。这些方法在过去取得了很不错的效果。只是,随着科技的迅猛发展,我们对数据处理和分析的要求越来越高,这些方法慢慢变得不太适合了,此时大数据应运而生,逐渐展示出惊人的力量。

一、大数据的过去

给你一个超市

如果现在你是一个超市的经营者,你会怎么让超市的利益最大化呢?

随便想想都有很多办法,如降低进货成本、降低物流成本、精简不必要的人员、优化销售团队、策划必要的营销活动、分析其他超市的策略、分析消费者需求……这些举措中,有的可以直接降低成本提高利润率,有的则间接地提高销售数据。而其中最重要的,肯定是分析消费者需求。你会怎么分析消费者的需求呢?

先看一个销售的例子吧。

一个老太太走到路边的水果摊,想买一些杏子,她先到了第一个水果摊。

老太太上前,问摊主:“你这个杏子怎么样?”摊主热情地说:“我的杏子又大又甜,保证好吃啊。”老太太想了想,摇摇头走了。摊主一脸失望,不知道为什么老太太没买他的杏子。

老太太走到了第二个水果摊,问道:“你这个杏子怎么样?”这位摊主也很热情地回答说:“都挺好的啊,您想要什么样的?”老太太回答:“我想要那种比较酸的。”摊主很诧异,酸杏子谁吃啊。他眼珠一转,笑眯眯地说:“大妈,您这是故意套我话的吧?我这儿绝对都是个赛个的甜,保证您买了不吃亏。”老太太回答说:“你这儿真没酸的?”摊主信心十足地说:“有一个酸的我赔您一筐!”老太太摇摇头,叹了口气,又往前走了。自己这么保证了老太太还是没买,摊主别提多失落了。

老太太又走到了第三个水果摊。摊主一见到老太太便上前问道:“您想买点什么?”老太太说:“我想买点酸的杏子。”摊主说:“我这儿倒是有酸杏子,可是我觉得您这样年纪的人,吃得太酸了不太好呢。您保重身体啊!您要不搭配着买点儿别的,比如香蕉什么的。”老太太高兴地答复道:“不是我要吃,是我儿媳妇要吃。”摊主又问:“您儿媳妇要吃酸杏子啊,您这是要抱孙子了吧?”老太太高兴地说:“是啊是啊,她刚怀孕没多久,就想吃点酸的。”摊主笑着回答说:“酸儿辣女,您肯定能抱个大胖孙子!我这还有猕猴桃,含各种维生素,特别适合孕妇吃。您要不也来点?”就这么一句又一句,老太太特别开心,最后老太太买了很多摊主推荐的水果走了。

在这个例子里,很明显,第三个摊主是最成功的。他的成功在哪里呢?在于他问清楚了老太太的需求。在他与老太太的对话里,他获得了几个信息:老太太需要酸杏子;酸杏子是给儿媳妇吃的;儿媳妇怀孕了。由这几个信息,他便能从营养搭配等角度去推荐,既满足了消费者本身的需求(酸杏子),又挖掘出消费者潜在的其他需求(各种营养)。

这样的场景,我们在生活中可能经常遇到。可是在大型超市,商家并不是一对一地跟消费者沟通。更多的情景是,商家把物品放到货架上后消费者自行选择。在这种情况下,怎么能够知道消费者潜在的需求呢?

在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然被摆在了一起。但令人不解的是,这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。实际上,这不是美国人的幽默细胞所致,而是数据的魔力。这个发现为商家带来了大量的利润,但是沃尔玛是如何从多如牛毛却又杂乱无章的数据中发现啤酒和尿布销售之间的联系的呢?这又给了我们什么样的启示呢?

沃尔玛的商品种类非常多,它有一套非常复杂的方法对所有商品的销售情况进行统计。沃尔玛通过对每件商品每天的销售数据统计发现,每到周末啤酒和尿布的销量就异样的好,这两者之间似乎有什么关联。但是,沃尔玛并没有去找这两个销售数据之间的联系,而是立即做出决定,将这两样商品摆放在一起,结果这两样商品销售量都大幅增加。显然,这个决定是正确的。那么原因是什么呢?

有人分析称,因为在美国,周末电视台一般会转播球赛,而看球赛的大部分是男人。男人们都会在家看球赛的时候拿上一罐啤酒,受到冷遇的妻子会出门逛街或和闺密小聚,照料小宝宝的重担就留给了留守的丈夫。就这样,沃尔玛把婴儿尿布放在啤酒销售区旁,男人往往会在超市买啤酒的时候顺手拿起尿布。

也有人说,是因为在美国家庭里,一般都是丈夫挣钱养家,妻子照顾孩子。忙于照顾孩子的妻子经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。

这两个原因都说得通。那么,真正的原因是什么呢?

你是不是开始思考这个问题了?打住!别忘了,我们假设的是你是一个超市的经营者,你要解决的是让超市利益最大化,达到这个目的就行了,你不是研究这些现象的科研人员,没有必要去搞清楚这些问题后面的复杂原因。如果你有一辆汽车,你更需要学习的是驾驶而不是汽车制造及修理。同样,如果你有足够多的数据并分析出结果,你需要做的是利用结果去提高盈利而不是搞清楚结果背后的原因。

作为一个超市的管理人员,你肯定会对沃尔玛如何进行统计分析各类销售数据感兴趣。可是,数据到底是什么呢?我们不妨回顾一下数据的历史。

19头牛的难题

数据是什么?

一年有365天;真空中的光速是299792458米每秒;正常人心跳每分钟大约75次(60~100次);2013年11月15日国内汽、柴油标准品最高供应价格每吨分别为8715元和7890元;2012年度北京市职工月平均工资为5223元,比上年增长11.8%……

可以说,我们的生活里到处都是数据。

数据是对客观事物的符号化的表示,是未经加工的、用于表示客观事物的原始素材,如图形符号、数字、字母等。换句话说,数据是通过物理观察得来的事实和概念,是关于物理世界中的地方、事件、其他对象或概念的描述。在计算机科学里,数据被定义为所有能输入到计算机并被计算机程序处理的符号的介质的总称。

数据具有数值属性、物理属性,这一点和数字是不同的。很多人会把数据和数字混为一谈,其实,可以这么说,数字是一种没有物理属性的数据。

比如,1+1=?是数字计算,结果是2,这个是没有问题的。如果我们加入物理属性,1个土豆+1头牛=?由于土豆和牛的物理属性不同,我们没法求出它们的和,总不能说答案是土豆烧牛肉吧?

在计算机问世之前,人们处理的数据一般都是有关数字的数学问题,比如家喻户晓的分牛问题便是一个很经典的例子。

一位老人养了19头牛。临终前,他对3个儿子立下遗嘱:“家中有19头牛,老大可以分一半,老二可以分得1/4,老三则只能分到1/5。牛不得杀死分肉,不得卖钱后分钱。”说完老人便去世了。3个儿子犯愁了,19头牛怎么分一半、1/4、1/5啊?每个人都想多分一点儿,每个人又不肯吃一点儿亏,于是争吵了起来。

一位智者想到了办法,他笑眯眯地对老人的3个儿子说:“我有办法。”然后他把自己家的一头牛牵来,和19头牛放到一起,又对他们说:“现在这里有20头牛,老大分一半,也就是10头;老二分1/4,也就是5头;老三分1/5,也就是4头。剩下还有一头是我牵来的,我牵回去好了。”3个儿子终于解决了这个问题,喜笑颜开,重归于好。

这是一个很小的有关数据的故事,日常生活中,我们经常会遇到各种数据。一般来说,我们都是通过数学来解决这些问题的:五险一金的计算问题;话费套餐的计算问题;银行利息的计算问题……我们每天都在和各式各样的数据打交道,也许我们对此已经习以为常、熟视无睹。

最开始,我们的生活里都是很小的数据:部落里20头猎物如何分给50个人;采集的200个浆果一半给部落首领家族后其他人怎么分;两个部落间的土地如何平分……这一类的问题,随着人类数学水平的提高,慢慢地得到了解决。同时,人们也遇到越来越棘手的问题:一个人每周买一注彩票,20年内中500万的概率有多大;一个人父母都是A型血,孩子是O型血的可能性有多大;一块完全不规则的土地,如何划分成5等份,等等。比如中国古代就有一些很经典的数学题:

1.八万三千短竹竿,将来要把笔头安,管三套五为期定,问君多少能完成?

用现代的话说就是:有83000根短竹竿,每根短竹竿可制成3个笔管或者5个笔套。怎样安排笔管或笔套的短竹的数量,使制成的笔管和笔套正好数量匹配。

2.有井不知深,先将绳三折入井,井外绳长四尺,后将绳四折入井,井外绳长一尺。问井和绳长各几何?

3.今有门厅一座,不知门广高低,长杆横进使归室,无奈门狭四尺,随即竖杆过去,也长二尺无疑,对角斜进恰好齐。请问高宽各几?

4.100个大人和小孩共吃100个馒头,已知大人每人吃3个,小孩3人合吃一个。大人和小孩各有多少?

5.今有蒲生一日,长三尺;莞生一日,长一尺。蒲生日自半,莞生日自倍。问几何日而长等?

6.甲赶群羊逐草茂,乙拽肥羊一只随其后;戏问甲及一百否?甲云所说无差谬,若得这般一群凑,再添半群小半群,得你一只来方凑,玄机奥妙谁猜透?

7.远望巍巍塔七层,红光点点倍加增。共灯三百八十一,请问各层几盏灯?

可以说,这些数学题很多都是古人遇到的各种问题的再现。

我们不仅发明了数字用以储存数据,还发明了不同的计量单位、不同的进制。一分钟有60秒,一天有24小时,一秒等于100毫秒,等等。在不同的领域里,二进制、八进制、十进制、十六进制、六十进制等发挥着不同的作用。

在十进制的世界里,人们用以记录数字大小的数字符号有10个,分别是从0到9,数数的方式是0、1、2、3、4、5、6、7、8、9、10……而在计算机里使用的是二进制,记录数字大小的符号只有0和1,数数的方式是0、1、10、11、100、101、110、111、1000……再比如,中国有个成语叫作“半斤八两”,用以表示旗鼓相当,水平差不多,这是因为中国古代的秤采用的是十六进制,一斤等于十六两。半斤和八两,确实是旗鼓相当的。

从古至今,数学的发展一直伴随着数据处理的问题成长着。

数学,起源于人类早期的生产活动,为中国古代六艺之一,亦被古希腊学者视为哲学的起点。史前的人类除了学会以数字统计物品的数量外,也学会了数一些抽象的东西的数量,比如天数、季节、年数。古代的许多文物如石碑、石刻、泥版都证实了这种说法。更进一步则需要写作或其他可记录数字的系统,如符木或印加帝国用来储存数据的奇普。历史上曾有过许多有分歧的记数系统。

从历史时代的一开始,数学的主要原理是为了做税务和贸易等相关计算,为了了解数字间的关系,为了测量土地,以及为了预测天文事件而形成的。这些需要可以简单地被概括为数学对数量、结构、空间及时间方面的研究。

到了16世纪,算术、初等代数以及三角学等初等数学已大体完备。17世纪变量概念的产生使人们开始研究变化中的量与量的相互关系和图形间的相互变换。在研究经典力学的过程中,微积分的方法被发明。随着自然科学和技术的进一步发展,为研究数学基础而产生的集合论和数理逻辑等也开始慢慢发展。

数学从古至今便一直不断地延展,且与科学有丰富的相互作用,并使两者都得到好处。数学在历史上有着许多的发现,并且直至今日都还处在不断的发现中。

数学本身作为一种工具,对数据问题的解决起到了最关键的作用。随着数学的发展,以前不能够解决的数据问题逐渐得到了解决。

从现场调查说起

英国历史上爆发过几次瘟疫。一个半世纪前,英国接二连三地暴发霍乱,成千上万人被瘟疫夺去了生命。伦敦的布劳德大街(现在的布劳维克大街)附近,3天内有127人被瘟疫夺走了生命,霍乱暴发后的前10天就有500人丧生。

霍乱在当时是致命的疾病,人们既不知道它的病源,也不了解它的治疗方法。因此,每次一爆发霍乱,就有成百上千的人死去。那个时代,人们普遍认为霍乱是“疠气”(或称“恶气”)所致。有位年轻医生亲眼目睹了这一幕幕惨剧,忧心如焚。这位医生叫约翰·斯诺,他医术精湛,在伦敦非常有名,以至于维多利亚女王都请他当私人医生。约翰·斯诺想要挑战并解决这个问题,他知道,在找到病源之前,霍乱是无法控制的。

霍乱之所以能致人死亡,当时有两种看法,斯诺对这两种推测都很感兴趣。第一种看法是霍乱病毒在空气中繁殖,它像一股危险的气体到处漂浮,直到找到病毒的受害者为止。第二种看法是人们在吃饭的时候把这种病毒引入体内。病毒从胃里发作而迅速殃及全身,患者会很快死去。

约翰·斯诺推测第二种说法是正确的,但他需要证据证明自己的推断。因此,在1854年伦敦再次爆发霍乱的时候,他开始着手准备他的调查。当霍乱在贫民区迅速蔓延的时候,他就开始收集资料。在两条特定的街道上,霍乱病情很严重,以致10天之内就死去了500多人。他决心要查明其中的原因。

首先他在一张地图上标明了所有死者居住的确切地方。这给他提供了一条说明霍乱起因的很有价值的线索。许多死者是在宽街的水泵附近(特别是这条街上的16、37、38和40号)居住。约翰·斯诺还注意到有些住户(如宽街上的20号和21号以及剑桥街上的8号和9号)却并没有感染霍乱而死亡。他没有预料到这一点,于是他做了进一步调查。他发现,这些未被感染的人都在剑桥街7号的酒馆里打工,而酒馆为他们提供免费啤酒喝,因此他们没有喝水泵抽上来的水。就这一点来看,霍乱的流行要归罪于饮用水了。

其次,约翰·斯诺调查了这两条街的水源情况。他发现,水是从河里打来的,而河水被伦敦排出的脏水污染了。约翰·斯诺马上叫宽街上惊慌失措的老百姓拆掉水泵的把手。这样,水泵就用不成了。民间的说法是当人们把抽水机的手柄移走后霍乱就随之停止了。约翰·斯诺在此之前就曾经表明,霍乱是由病菌而不是由气团传播的。

在伦敦市的另一个地方,他从两个与宽街爆发的霍乱有关联的死亡病例中找到了证据。有一位妇女是从宽街搬来的,她特别喜欢宽街的水,每天都要派人从水泵打水运到家里来。她和她的女儿喝了这种水,都得了霍乱而死去。有了这个额外的证据,约翰·斯诺就能够肯定地宣布这种被污染了的水携带有致病病菌。

为了防止这种情况的再度发生,约翰·斯诺建议所有水源都要经过检验。自来水公司接到指令,不再让人们接触被污染的水。最后,霍乱就这么消失了。

斯诺医生所开创的现场调查方法标志着传染病流行病学的开始。后来,亚历山大·朗缪尔医生把这门学问引入美国。作为美国疾病预防与控制中心的首席流行病专家,朗缪尔在1951年创建了流行病学情报所,用于训练“疾病侦探”。他把这个项目设计成一种“国民防御”的形式,并向外界兜售,用以抵制冷战期间生物武器的威胁。流行病学情报所在许多如脊髓灰质炎、铅中毒等疾病的预防、控制方面发挥了主导作用。该组织的成员自豪地戴着一枚翻领别针,上面有一个穿孔的皮鞋图案,象征着疾病监测活动的汗水与艰辛。

朗缪尔的办公室里悬挂着他所敬仰的3位偶像的肖像:约翰·斯诺、埃德温·查德威克爵士和查尔斯·蔡平。查德威克爵士跟斯诺一样,是英国19 世纪推动公共卫生改革的先驱。他提倡居民们用水管将水输送到家里,这种观念在当时是很新鲜的。蔡平在罗得岛州普罗维登斯市当了48 年的卫生员,被大家称为“城市卫生官员主任”。他在19世纪80年代推动了美国的公共卫生运动,而且拥护在公共卫生管理中使用科学原则。

朗缪尔到处宣讲合作的价值,鼓励那些来自心理学、人类学、社会学及其他学科领域的人参加流行病学情报所培训。到今天为止,已有3000多名官员毕业于此;最近的班上大约有30%的学员不是医生。流行病学情报所培养出来的官员不仅以分析的细致见长,而且具备实际的眼光,他们因集两种优点于一身而著称于世。

约翰·斯诺的现场调查方法和朗缪尔的“疾病侦探”其实是小数据时代使用的典型方法,长期以来,人们使用类似的方法成功地解决了各种问题。直到现在,这些方法依然在各个领域广泛应用。

二、大数据的历史背景

小数据的失败

数据分析这种办法许多人都用过,效果却各有差别。同样是数据挖掘,很多案例显得很成功,而失败的例子也不少。历史上,庞涓也是一个足智多谋的将领,但最终他的数据分析让他在孙膑面前一败涂地。这又是怎么回事呢?

庞涓和孙膑都是战国时期著名人物鬼谷子的学生。相传鬼谷子学问渊博,见解高超,兵书战策无不通晓,对星象相术极有研究,庞涓和孙膑都在他那里学到了不少东西。后来,自觉学成的庞涓下山后在魏国当上将军,不料魏王得知孙膑的才能,让庞涓请孙膑下山一同辅佐他。

心胸狭窄的庞涓知道自己才能远在孙膑之下,于是在请孙膑来魏国之后,设下毒计陷害孙膑,让魏王相信孙膑私通齐国,结果使孙膑沦为阶下囚,还身受髌足之刑。最后,孙膑靠装疯卖傻和一系列计策终于脱身到了齐国,以自己卓越的军事才能大败庞涓,并将庞涓乱箭射死。

在最后一战里,庞涓率兵攻打韩国,弱小的韩国向齐国求救。齐王采纳了孙膑的建议:“深结韩之亲,而晚承魏之弊。”意思就是首先向韩表示必定出兵相救,促使韩国竭力抗魏。当韩处于危亡之际,再发兵救援,从而“尊名”“重利”一举两得。韩国得到齐国的允诺后,人心振奋,竭尽全力抵抗魏军进攻,虽然是五战皆败,但也让魏国军队吃亏不少。韩国再次向齐国告急,齐王看准时机,派出大军援助,孙膑则担任军师,居中调度。魏国本来胜利在望,结果遇到齐国来救援,于是庞涓一生气,决定暂时放过韩国,转身来打齐国军队。庞涓带着10万军队气势汹汹地扑向齐军,企图同齐军一决胜负。

那时的魏国军队是非常强大的,无论是军队规模还是单兵作战能力都比齐国强大,连荀子都说过:“齐之技击不可遇魏之武卒。”面对强敌,孙膑胸有成竹,针对魏兵强悍善战,素来蔑视齐军的实际情况,判断魏军一定会骄傲轻敌、急于求战、轻兵冒进。很显然,孙膑对庞涓是很了解的。在认真研究了战场地形条件之后,孙膑定下减灶诱敌,设伏聚歼的作战方针。

战争的进程完全按照齐军的计划展开。齐军与魏军刚一接触,就立即佯败后撤。为了诱使魏军进行追击,齐军按孙膑预先的部署,施展了“减灶”的高招,第一天挖了10万人煮饭用的灶,第二天减少为5万灶,第三天又减少为3万灶,制造在魏军追击下齐军士卒大批逃亡的假象。不知情的庞涓似乎很喜欢进行数据分析,根据灶的数目,他自然认为齐军已经少得不堪一击。

接连3天追下来以后,根据灶数的数据分析结果对庞涓越来越有利。庞涓认定齐军斗志涣散,士卒逃亡过半,于是丢下步兵和辎重,只带着一部分精锐骑兵,昼夜兼程追赶齐军。

孙膑根据魏军的行动,判断魏军将于日落后进至马陵一带。马陵一带道路狭窄,树木茂盛,地势险阻,实在是打伏击战的绝好处所。于是孙膑利用这一有利地形,选择齐军中一万名善射的弓箭手埋伏于道路两侧,规定到夜里以火光为号,一齐放箭,并让人把路旁一棵大树的皮剥掉,在上面书写“庞涓死于此树之下”字样。

最后,被数据分析结果误导的庞涓果真中计,在大树下被乱箭射杀。不知道他死的时候有没有明白到底是哪一步搞错了。

庞涓的失败在于数据量太小和分析方法太过粗略。仅分析一个样本太小的数据,得来的结果很可能是有问题的;而分析方法不够好,好的数据也得不出好的结果。如果庞涓不仅知道齐军的灶数,还有能力得到齐军每天粮食消耗量、营帐多少、伤亡数目、士气状况等,灶数带来的误导就显得没那么重要,或者庞涓就能根据其他数据识破孙膑的计谋,而历史可能就完全改写了。

大瘟疫的统计

摇一摇玫瑰花苞,

这塞满小花的荷包。

阿嚏!

阿嚏!

我们就被放倒。

这是一首曾经在英国广为传唱的曲调欢快的儿歌,描写的却不是快乐的事情,而是一个人感染了可怕的瘟疫后的情景?这是比前面所说的霍乱更早的一次瘟疫。从1485年到1665年,英国灰色的天空下瘟疫不断,死亡成了挥不去的记忆,在这样的歌谣中流传?

歌谣里提到的“玫瑰花苞”指的是染上瘟疫的人身上冒出来的斑点状的东西。这种疾病会使人的呼吸系统出现强烈反应,导致喷嚏之声不断。很多人认为香草的气味能够净化瘟疫的恶浊空气,可是,那些被疾病放倒了的人再也没能站起身来。当黑死病风卷残云般从欧洲退去之后,英国平静了一个多世纪。然而在1485年到1665年这段伦敦大瘟疫猖獗的日子里,英国一直生活在瘟疫的梦魇里。从这首儿歌里,我们还能够依稀感觉到当年残存的噩梦的记忆。在将近200年的时间里,可怕的瘟疫笼罩在英国的上空,主宰着英国人的生活,久久不散。

一说到英国作家笛福,大家肯定都知道他的著名作品《鲁滨孙漂流记》,其实笛福还创作了很多其他作品,只是没有《鲁滨孙漂流记》有名罢了。笛福有一本纪实小说叫作《A Journal of the Plague Year》,这本书里用大量的笔墨描写了1665年伦敦发生的可怕的鼠疫场景。

历史画家丽塔·格里尔的作品《伦敦大瘟疫》便描绘了大瘟疫时期伦敦街头的惨状。在死亡的笼罩下,人们或被强制隔离,或恐慌疯狂,或麻木等死。这是英国本土最后一次大型的鼠疫传播,此前在1636年及1625年发生过的两次则分别夺去了1万和3.5万人的生命。当时英国的鼠疫被认为是由荷兰带入的,因为荷兰从1599年起就多次出现鼠疫疫情,最初进入英国的病源很可能便是那些从阿姆斯特丹开出的运送棉花的商船,而阿姆斯特丹本身在1663年至1664年亦同样受鼠疫蹂躏,死亡民众不少于5万人。

作家托马斯·维森特在《城市中上帝的可怕之声》中也曾作了这样的描述:“秋天到来时,人们就像那落叶一样,被可怕的风所摇撼着,随风倒下去,如落叶一样越积越厚。商店的门关了,路上的行人消失了……几乎每一处都是沉寂……没有马的嘶鸣,没有车辆的行踪,没有物品的供应,也没有顾客的喊叫声……从来没有如此之多的丈夫和妻子共赴黄泉,从来没有这么多的父母携带着孩子一起踏上死亡之路。”

在这个人人恐慌,连医生都大量逃出伦敦以躲避瘟疫的年代,有一个名不见经传的伦敦市民约翰·格兰特做了一件事情。这件事情在当时看来也许没有太多意义,但现在,伦敦大学学院儿童健康研究所的菲利浦·比尔斯教授对此非常赞赏,他将格兰特称为“300年前居住在伦敦的非凡人物”。那时的格兰特非常想搞清楚这场直到今天也没搞清楚起因的可怕瘟疫到底是怎么回事,而他采取的方法和其他人完全不同。一开始,格兰特开始在教区的死亡记录中搜寻线索,也就是死亡统计表。

格兰特在《可怕的天谴》一书中对1665年这一年中每周的死亡人数作了详细统计。这本书里共有55张统计表,其中记录了各种死亡原因、男女比例、各个堂区的具体死亡人数、死于疫病的人数,等等。从1665年10月14到21日,一个周内发生疫情的社区有99个,各类死亡人数共1359人。其中,死于鼠疫的有1050人,约占这周死亡总人数的77.3%。从15l9 年开始,伦敦属下的堂区开始统计死亡人数。从1538年开始,堂区又有了出生、结婚、死亡的堂区登记表。将两者进行对比,我们便可以得出鼠疫死亡人数的较为准确的情况。据此,现代学者们统计出的结果表明,从1563年到1625年,伦敦因鼠疫而死亡的人数是相当惊人的。

格兰特死亡统计表

年份 死亡人数 鼠疫死亡人数 伦敦人口死亡率

1563 20372 17404 8500024.0

1593 17893 10675 12500014.3

16033l861 25045 14100022.6

1625 41312 26350 20600020.1

死亡统计表基本上就是随机的一组组信息,而格兰特将其归纳整理并在其中找到了规律,他意识到这些信息简直就是个大宝藏。格兰特想知道谁是死于瘟疫而谁又是死于其他原因,他将所有的死亡记录汇编在一起,而这些统计数据让他发现了别人没发现的规律。后来他将自己的成果整理成书,留传至今。在他的书里,他列出了一系列死亡原因,并将其归类整理,现在的我们如果对这场瘟疫感兴趣,可以翻开这本书,找到当时人们的死因。比如,在1632年,38人死于淋巴结核病,一人因被疯狗咬伤死亡,另有12人死于法国花柳病,也就是今天所说的梅毒。而在瘟疫受害者的数据中,格兰特发现了隐藏的规律,这一发现颠覆了当时人们对于疫病起因的观念。直到今天,他在书中整理和分析的这些数据对于医学也有极其重要的价值。

当时,很多人都错误地认为瘟疫是由人与人接触而传播的,还有不少人迷信地认为新国王登基那一年往往会出现瘟疫,总之,各种说法层出不穷。格兰特通过数据分析逐一反驳了这些错误说法。他对数据研究得越多,发现了越多隐藏的规律,而人们也通过他的数据分析开始从全新的角度观察伦敦城。格兰特第一个通过科学办法估算出了伦敦总人口,证明了男婴的出生率要高于女婴,而更高的男性死亡率又使性别比例很快恢复了平衡……他告诉世人可以通过挖掘数据得到惊人而实用的想法——只要你使用了正确的方式去挖掘。他的研究彻底改变了人们对于信息的观念,并革新了提取有用数据的方法,格兰特算得上是数据分析领域的先驱者,后人都将他视为统计学流行病学的奠基人,一些学者将1663年约翰·格兰特根据死亡率统计表编订出版的《自然与政治观察》一书视为统计学诞生的标志。

也许你会好奇,同时期的其他人又是如何对待瘟疫的呢?人们在极度恐惧之下想出了各种方法:使用通便剂、催吐剂、放血疗法、烟熏房间、烧灼淋巴肿块并在其上放置干蛤蟆,或者用尿洗澡,甚至通过医生凝视患者来“捉住”疾病。当这些都不能奏效时,深受中世纪宗教思想影响的人们便把瘟疫的原因视为上帝对原罪和不忠的惩罚,结果导致基督教大忏悔和宗教改革。然而,宗教狂热并没有把人们从鼠疫的魔爪中解救出来。没有人像格兰特这样,想到通过死亡数据找到瘟疫特征的方法。

格兰特利用数据分析找到瘟疫的规律,这一点和现代计算机学家对待大数据的态度是一样的。数据是一个金矿,却需要通过合理的方法来进行挖掘才能获得巨大的财富。现在人们也常常把数据分析叫作数据挖掘,就是这个道理。

如今,格兰特的粉丝菲尔·比尔斯教授要采取相似的方式挖掘新的人类数据组,就是构成人类基因图谱的30亿个基因位点信息。他在我们的DNA中寻找有助于诊断并治疗疾病的线索。

杰克·皮克特是他的一位病人,14年以来杰克饱受异常症状的困扰,包括学习障碍、肥胖症还有视力不佳等。他的这些症状一直找不到原因,这令他的父母和医生们感到很困惑。在杰克出生的十几年后,这件事情终于有了转机。现在,比尔斯教授掌握的技术帮杰克和他的家人解开了这个谜团。他认真研究了杰克的DNA,从中寻找任何微小的基因变异迹象,最终找到了导致这些症状的变异基因。

比尔斯教授表示,像这样的例子不算少,每位被分析过的患者的基因都会被添加到日益增加的DNA数据库中,以此帮助医生们制定新的治疗方法,并确诊以前难以理解的症状。过去的10年里,这项技术已成功揭露了许多疾病的基因根源。能够鉴别出疾病常常是帮助患者的第一步。对于患者来说,多年无法确诊,他们生活在不确定性中,因此不能低估诊断的好处和重要性。通过分子学检测,至少能让患者知道自己的身体到底出了什么问题,到底能不能进行治疗。搞清楚问题本身就是一种安慰,也是某种意义上的了断,能让他们甩开过去的包袱,无负担地向生活的下一章节迈进。

梳理出藏在人类数据组中的规律,正在改变着整个医学界。数据分析逐渐被更多人使用,成为一种无比强大的工具,一种通往科学见解与理解人类行为的新途径。

小数据的局限

如果你是一家笔记本电脑销售门店的主管,哪些方法可以帮助提高销售额呢?有许多专家、专业人士会给出建议,比如提高库存管理的能力、为员工提供更多的专业培训、做更新更炫的广告,或者搞一些促销活动。这些方式当然都会很有效,多方面的统计数字显示,这样的方法大致能提高2%~9%左右的销售额。

但是,历来讲究创新的苹果公司并没有这么做。苹果公司将门店中所有能够收集到的数据,不管看不上去是不是有关联,全都录入了软件,然后发现了一个惊人的现象:电脑屏幕和桌子呈70度角左右的电脑销售量比其他电脑高出15%,而这比其他任何经验式的建议更有效。这是为什么呢?因为当我们走到一个70度角的电脑前,会觉得反光非常不舒服,而当人觉得电脑屏幕反光不舒服,自然而然地会伸手去扳动屏幕。心理学理论告诉我们,一旦潜在客户与货物发生了肢体接触,他购买这个商品的可能性就上升了15%。

这个例子对我们有何启示呢?我们的经验真的是正确的吗?我们的知识真的对我们的工作有帮助吗?我们认为很重要的东西真的那么重要吗?

在这个案例里,人们传统的经验完败于计算机的数据分析,我们对知识和经验的自信看起来很可笑。

也许有人说,员工个人的建议或者专家、专业人士的建议毕竟都来自个人,如果我们去做问卷调查,详细了解消费者的真实需求,便能够有的放矢,找到宣传推广的好方法,从而提高消费额。可是,问卷调查到底能够多大程度上反映出真实情况呢?我们肯定都或多或少地接触过问卷调研这种方法,但是对于问卷调研的结果,我们又有多少信心呢?

斯坦福大学教育评估专家哈代教授曾经做过这样一个有趣的小实验,他关注的内容是不同国家师生在做量表与问卷时的“F值”。F值指的是被试者填写问卷时出现的掩饰倾向。结果发现,中国学生的F值比美国与以色列学生分别高23.4%与27.6%。而中国教师的这一倾向更为明显,达到36.5%与41.4%。在中国的文化环境下,师生更容易认为一个量表和问卷是用来评判自己的,从而倾向于掩饰自己的真实想法。所以如果想获得真实、客观的数据,问卷并非是个好办法。

另一种情况是,即使学生想提供真实的信息,有时也无能为力。比如调研学生课外运动的时间,人们最通常的做法是设计一个问卷,问他“本学期平均每周参加课外运动的时间,A.1小时以下,B.1~1.5小时,C.1.5~2小时,D.2小时以上”,且不论选项的设计是否能体现区分度,我们自己又能否比较准确地估算出自己一个学期里平均每周参加多少运动呢?

还有一种情况,如果我们要在网络上做一个有关房地产调查的问卷或投票,作为报酬,每个被调查者会获得一款时尚运动手表,你认为这个问卷的结果能真实反映出中国人对房地产的态度吗?肯定不能,因为大多数喜欢时尚运动手表的人都是30岁以内的年轻男性,接受问卷调查的群体与设计问卷调查的人设想的群体并不一致。

此外,即使一个调查问卷能够考虑到以上所有因素,但由于问卷通常只是抽样调查而不是全体调查,抽样的代表性也是一个问题。比如我们要调查一个社区的所有居民对社区环境的看法,社区有1000名居民,其中18岁以下200人,18~60岁600人,60岁以上200人,且男女各半。我们调查时选择了100个人,其中18岁以下20人,18~60岁60人,60岁以上20人,且男女各半。除此之外,选择被调查对象时还充分考虑了他们的居住位置、学历、工作性质等因素。这个调查已经做到这么精确了,那么这100个被调查对象的看法能不能准确代表1000名居民的意见呢?这还是不一定的。两个人即便年龄层次相同、性别相同、受教育程度相同、工作性质相同、居住位置差不多,他们对某个事物的看法也不一定一致。当样本量不够大时,设计再精妙的问卷也不能保证能够获得真实的看法。

这些问题都说明,我们经常使用的问卷调查的办法是有很大局限的。那么,我们要怎么样才能获得真实的结果呢?在之后的章节里,我们会谈到人们在这方面的诸多探索。

三、互联网的新时代

复杂计算的烦恼

远古的人们用石头来计算捕获的猎物,石头就是他们的计算工具。随着人们社会活动的增加、文明程度的提高,人们需要解决很多计算问题。比如食物太多如何分配,这对于早期的人类来说真是一个甜蜜的烦恼。当仅仅靠大脑来计算会存在错误多和效率低的问题时,人们开始凭借一些工具来进行比较复杂的计算。而“计算机”也就跟随着人类甜蜜的烦恼出现了。

著名的科幻文学大师阿西莫夫说过,人类最早的计算工具是手指,英语单词“Dight”既表示“手指”又表示“整数数字”。而古代的中国人常用“结绳”来帮助记事,“结绳”当然也可以充当计算工具。除此之外,石头、手指、绳子、贝壳等都曾是古人用过的“计算机”。

很凑巧的是,不知道从什么时候开始,很多不同文明地区的人们都想到使用算筹一类的工具来改进计算,其中要数中国的算筹最有名气。商周时代问世的算筹,实际上是一种竹制、木制或骨制的小棍。古人在地面或盘子里反复摆弄这些小棍,通过移动来进行计算,从此出现了“运筹”这个词,运筹就是计算,后来才派生出“筹”的词义。中国古代科学家祖冲之最先算出圆周率小数点后的第6位,使用的工具正是算筹,这个结果即使用笔算也很不容易求得。

欧洲人发明的算筹与中国不尽相同,他们的算筹是根据“格子乘法”的原理制成的。例如要计算1248×456,可以先画一个矩形,然后把它分成3×2个小格子,在小格子边依次写下乘数、被乘数的各位数字,再用对角线把小格子一分为二,分别记录上述各位数字相应乘积的十位数与个位数。把这些乘积由右到左,沿斜线方向相加,最后得到乘积。1617年,英国数学家纳皮尔把格子乘法表中可能出现的结果印刻在一些狭长条的算筹上,利用算筹的摆放来进行乘、除或其他运算。纳皮尔算筹在很长一段时间里是欧洲人主要的计算工具。不过,算筹在使用中一旦遇到复杂运算常弄得繁杂混乱,让人感到不便,于是中国人又发明了一种新式的“计算机”。

著名作家谢尔顿在他的小说《假如明天来临》里讲过一个故事:骗子杰夫向经销商兜售一种袖珍计算机,说它“价格低廉,绝无故障,节约能源,10年中无须任何保养”。当商人打开包装盒一看,这台“计算机”原来是一把来自中国的算盘。世界文明的四大发源地──黄河流域、印度河流域、尼罗河流域和幼发拉底河流域──先后都出现过不同形式的算盘,只有中国的珠算盘一直沿用至今。珠算盘最早可能萌芽于汉代,定型于南北朝。它利用进位制记数,通过拨动算珠进行运算:上珠每珠当五,下珠每珠当一,每一档可当作一个数位。打算盘必须记住一套口诀,口诀相当于算盘的“软件”。算盘本身还可以存储数字,使用起来的确很方便,它帮助中国古代数学家取得了不少重大的科技成果,在人类计算工具史上具有重要的地位。

15世纪以后,随着天文、航海的发展,人们在工作中遇到的计算任务日趋繁重,迫切需要探求新的计算方法并改进计算工具。

1630年,英国数学家奥特雷德使用当时流行的对数刻度尺做乘法运算,突然萌生了一个念头:如果采用两根相互滑动的对数刻度尺,不就可以省得用两脚规度量长度吗?他的这个设想最后直接启发了“机械化”计算尺的诞生。不过,奥特雷德是一名理论数学家,对这个小小的计算尺的设想并不在意,也没有打算让它流传于世。之后的200年,他的这项发明也一直没有得到实际运用。18世纪末,以发明蒸汽机闻名于世的瓦特成功地制出第一把名副其实的计算尺。瓦特原来就是一位仪表匠,他的蒸汽机工厂投产后,需要迅速计算蒸汽机的功率和气缸体积。瓦特设计的计算尺在尺座上多了一个滑标,用来“存储”计算的中间结果,这种滑标很长时间一直被后人所沿用。

1850年以后,对数计算尺迅速发展,成了工程师们必不可少的随身携带的“计算机”。直到20世纪五六十年代,对数计算尺仍然是代表工科大学生身份的一种标志。

从织布机到计算机

也许你看到标题后感到很奇怪,织布机和计算机有什么关系?是的,看上去它们一点儿也不像,可实际上它们之间的“血缘”关系超乎你的想象。无论是电脑桌上的台式计算机、客厅的平板电脑还是塞在口袋里的智能手机,这些都是1804年诞生的一台织布机的子子孙孙。想不到吧?

19世纪早期,法国里昂的丝织工人们就已经能够使用一种老式的手工提花机编织出图案非常复杂绚丽的丝绸锦缎。可是,这种老式手工提花机质量低劣、效率低下,它需要有人站在上面,费力地一根一根地将丝线提起、放下、再提起、再放下……这样才能织出精细绚丽的丝绸。丝织工人们都像操纵牵线木偶的演员一样,劳动非常单调乏味而且辛苦劳累。

1804年雅卡尔发明了雅卡尔织布机,这种烦琐的劳动也随着发生了改变。这种革命性的织布机利用预先打孔的卡片来控制织物的编织式样,速度比老式手工提花机快了25倍,就好比从自行车到汽车的飞跃。雅卡尔的打孔卡片不只为丝织业带来革命,也为人类打开了一扇信息控制的大门。

1836年,雅卡尔去世两年后,计算机科学先驱、著名的英国科学家查尔斯·巴比奇使用木齿铁轮制造了一台计算机用来计算很多数学难题,并利用雅卡尔打孔卡片的原理为这台计算机编程。巴比奇提出了为计算机编程的思想,虽然他没有发明现代电子计算机,也没有创立任何一门编程语言,但他的这一理念启发了20世纪的计算机科学家。后来,人们将巴比奇称为计算机的鼻祖。

美国宪法要求每10年进行一次人口普查。这在1790年仅有不到400万人口的美国是比较容易做到的。但是一个世纪后,美国人口达到6300万。

1880年的一天,美国人口普查局的办公室里,一名叫赫尔曼·霍尔瑞斯的20岁年轻人正盯着那堆小山般的人口登记册发呆。那里面记录着前不久数以万计的普查员费尽千辛万苦采集回来的人口数据,而要用效率低下的手摇计算器把这些数据分析完毕,至少要花费7年时间。这意味着几乎要到下一次人口普查时,美国民众才能得知这次人口普查的结果。

更让霍尔瑞斯沮丧的是,据他估算,1890年美国人口总数将在5000万的基础上增加1200万。如果还用老一套的办法统计,至少需要10年时间才能把所有数据全部搞定。

严峻的现实让霍尔瑞斯下定决心:必须进行改革,要发明一种能高效完成繁重统计制表工作的机器!

经过很多对比研究后,霍尔瑞斯决定把法国机械师于19世纪初期设计的“杰卡德编织机”改造成一种能够读取卡片信息的制表机。6年后,霍尔瑞斯设计出了制表机,后来又对制表机作了不少改进。改进后的制表机得到美国国内各部门的纷纷采用。1889年,这种机器又在欧洲各地展出,好评如潮,由此进入欧洲市场。1890年,美国再次进行人口普查,有了霍尔瑞斯的制表机帮忙,这次普查的结果用了两年半的时间来完成,不仅比预定时间大大减少,还替政府节省了500多万美元。这次普查开启了数据处理自动化的时代,并让霍尔瑞斯的制表机大放异彩。

20世纪40年代,IBM公司开始制造计算机,计算机的时代到来了。不过那时候的计算机没有放弃类似于雅卡尔提花机上的那种打孔卡片,还在利用它编程。这种状况一直延续到20世纪80年代后期,打孔卡片最终被电子媒介——磁带和光盘所取代。

从历史发展的角度来看,可以说计算机是台复杂精密的高级织布机。当你使用计算机的时候,你和使用雅卡尔织布机的丝织工人没有本质区别,只不过你是在以光速做着编织工作。

电子时代到来

1936年,美国青年艾肯来哈佛大学攻读物理学博士学位。由于家庭贫困,他不得不以半工半读的方式艰难地读完高中。大学期间,他也是一边工作一边刻苦学习,毕业后谋到一份工程师的工作。36岁那年,他毅然辞去收入丰厚的职务,重新走进大学校门。由于博士论文的研究涉及空间电荷的传导理论,需要求解非常复杂的非线性微分方程,在进行烦琐的手工计算之余,艾肯很想找到一种机器代替人工求解的方法,幻想能有一台计算机帮助他解决数学难题。

3年之后,艾肯在图书馆里发现了作者名为巴比奇的论文,这令年轻人心摇旌动。艾肯想,以当时的科技水平,也许已经能够完成巴比奇未竟的事业,造出通用计算机。为此,他写了一篇《自动计算机的设想》的建议书,提出要用机电方式而不是用纯机械方法来构造新的“分析机”。然而,正在求学的读书人根本没有可能筹措到那么大的一笔经费。

取得博士学位的艾肯后来进入美国海军军械局,不过职位只是一名小小的中尉,还是没什么钱。“金钱不是万能的”,但是,对于艾肯实现计算机梦想来说,“没有钱是万万不能的”,否则只会重蹈巴比奇和阿达(巴比奇《分析机概论》的翻译者)的覆辙。年轻的海军中尉想到了制表机行业的IBM公司。

艾肯从他的一位老师口中得知IBM董事长沃森的大名,他的老师此时正在由IBM出资创办的哥伦比亚大学统计局里任职。听说艾肯的事情后,他的老师非常乐意地为学生写了封推荐信。艾肯通宵达旦地准备材料,拟好了一份详细的可行性报告,直接跑去找沃森。从老师的描述中他得知,沃森的作风从来就是独断专行,不设法说服此人,研制计算机的计划一准泡汤。

IBM的总部坐落在一幢古色古香的建设物里。沃森坐在宽大的写字台后,一言不发地听艾肯陈述。在他的背后,是整整齐齐摆满各种书籍的大书柜,书柜的上方贴着只有一个单词的格言──THINK,翻译成中文就是“思考”,这是沃森最为推崇的行动准则。

艾肯说完了该说的话,忐忑不安地望着对面这位爱好“思考”的企业家。

“至少需要多少钱?”沃森开口询问道。“这个恐怕要投入数以万计吧,也许……”艾肯不敢大声说出那个他觉得要不到的数字。没想到,沃森摆了摆手,打断了艾肯的话头,拿起笔来,在报告上划了几下。艾肯的心随着沃森的笔一同晃动着,心里想:“肯定没戏了。”沃森写完后把报告递给了艾肯,艾肯出于礼貌还是恭敬地用双手接过了过来。他没抱希望地低头一瞅,顿时喜上眉梢──沃森的大笔一挥,批了100万美元!

有了IBM为作坚强后盾,新的计算机研制工作在哈佛物理楼后的一座红砖房里开始了,艾肯把它取名为“自动序列受控计算机”,一般直接叫它“马克1号”(MarkⅠ)。IBM又派来莱克、德菲和汉密尔顿等工程师组成攻关小组,对艾肯来说,这次研究可谓财源充足,兵强马壮。比起巴比奇和阿达,艾肯的境况实在要幸运得多。IBM也因此从生产制表机、肉铺磅秤、咖啡碾磨机等乱七八糟玩意的行业里,正式跨进计算机的“领地”。

艾肯设计的“马克1号”已经是一种电动的机器,它借助电流进行运算,最关键的部件用的是普通电话上的继电器。“马克1号”上大约安装了3000个继电器,每一个都有由弹簧支撑着的小铁棒通过电磁铁的吸引上下运动。吸合则接通电路,代表“1”;释放则断开电路,代表“0”。继电器“开关”能在大约1/100秒的时间内接通或是断开电流,当然比巴比奇的齿轮先进得多。

为“马克1号”编制计算程序的是一位女数学家格雷斯·霍波。这位遐迩闻名的数学博士有一天在调试程序时出现了故障,拆开继电器后,发现有只飞蛾被夹扁在触点中间,从而“卡”住了机器的运行。于是,霍波诙谐地把程序故障统称为“bug(虫子)”,而这一奇怪的称呼后来成为计算机领域的专业行话,如DOS系统中的调试程序,程序名称就叫DEBUG。DEBUG也就是“DELETE BUG”的简称,直译过来就是“去除虫子”,这个名字一直沿用到现在。

1944年2月,“马克1号”计算机在哈佛大学正式运行。它看上去和现在的计算机没有一点儿相似的地方。它的外壳用钢和玻璃制成,长约15米,高约2.4米,重量达到31.5吨,是个身材像恐龙一样巨大的钢铁怪物。据说,艾肯和他的同事们在“马克1号”上装备了15万个元件和长达800千米的电线。这台机器跟现在哪怕一个科学计算器都没法比,但是在当时,它运行的速度已经是相当可观的了。人们觉得觉得非常惊奇,因为这台计算机能进行每分钟200次以上的运算。它可以做23位数与23位数的加法,一次仅需要0.3秒;而进行同样位数的乘法,则需要6秒多的时间。“马克1号”运转时声音非常大,有的参观者形容它的声音时说:“就像是一群纺织女工在一间屋子里干活发出的声音一样。”也许你会联想到,“马克1号”计算机也与之前所说的织布机有天然的联系。“马克1号”代表着自帕斯卡(法国大思想家)以来,人类所制造的机械计算机或电动计算机最顶尖的水平,当时就被用来计算原子核裂变过程。它一直运行了15年,编出的数学用表我们至今还在使用。1946年,艾肯和霍波联袂发表文章说,这台机器能自动实现人们预先选定的系列运算,甚至可以求解微分方程。

至此,巴比奇的夙愿终于在“马克1号”身上得以实现。事隔多年后,担任大学教授的艾肯谈起巴比奇其人其事来,仍然惊叹不已,他不无感慨地说:“如果巴比奇晚生75年,我就会失业。”但是,“马克1号”是早期计算机的最后代表,从它投入运行的那一刻开始就已经过时,因为此时此刻,人类社会已经跨进电子的时代。

“电脑”的由来

1946年2月14日在美国宾夕法尼亚大学电机学院的一个揭幕典礼上,所有人都在期盼着一睹世界上第一台多用途电子计算机“埃尼阿克”的风采。这个占地面积达170平方米、重达30吨的庞然大物为来宾表演了它的“绝招”——在1秒钟内进行了5000次加法运算,这比当时最快的继电器计算机的运算速度快1000多倍。这次完美的亮相使得来宾们惊叹不已。那时,承担开发任务的“莫尔小组”的4位科学家和工程师分别是埃克特、莫克利、戈尔斯坦、博克斯,而总工程师埃克特在当时年仅24岁。

“埃尼阿克”是真正的庞然大物。它长30.48米,宽1米,占地面积约170平方米,有30个操作台,约相当于10间普通房间的大小,重达30吨,耗电量150千瓦,造价48万美元。它包含17000多个真空管,7200多个水晶二极管,1500多个中转,7万个电阻器,1万个电容器,1500个继电器,6000多个开关,每秒执行5000次加法或400次乘法,是继电器计算机的1000倍、手工计算的20万倍。

和现在的计算机不同,它是按照十进制而不是二进制来操作的。但其中也用少量以二进制方式工作的电子管,因此机器在工作中不得不把十进制转换为二进制,而在数据输入、输出时再变回十进制。“埃尼阿克”最初是为了进行弹道计算而设计的专用计算机,但后来通过改变插入控制板里的接线方式来解决各种不同的问题,成为一台通用机。它的一种改型机曾用于氢弹的研制。“埃尼阿克”程序采用外部插入式,每当进行一项新的计算时,要重新连接线路。有时几分钟或几十分钟的计算,要花几小时或1~2天的时间进行线路连接准备,这是一个致命的弱点。它的另一个弱点是存储量太小,至多只能存20个10位的十进制数。

研制电子计算机的想法产生于二战期间。当时激战正酣,各国的武器装备还很差,占主要地位的战略武器就是飞机和大炮,因此研制和开发新型大炮和导弹就显得十分必要和迫切。为此,美国陆军军械部在马里兰州的阿伯丁设立了“弹道研究实验室”。

美国军方要求该实验室每天为陆军炮弹部队提供6张火力表以便对导弹的研制进行技术鉴定。千万别小瞧了这区区6张火力表,它们所需的工作量大得惊人。事实上,每张火力表都要计算几百条弹道,而每条弹道的数学模型你知道是什么吗?一组非常复杂的非线性方程组。这些方程组是没有办法求出准确解的,因此只能用数值方法近似地进行计算。

不过即使用数值方法近似求解也不是一件容易的事情。按当时的计算工具,实验室即使雇用200多名计算员加班加点工作大约需要两个多月的时间才能算完一张火力表。在“时间就是胜利”的战争年代,这么慢的速度怎么能行呢?恐怕还没等先进的武器研制出来,败局已定。

为了改变这种不利的状况,当时任职宾夕法尼亚大学莫尔电机工程学院的莫克利于1942年提出试制第一台电子计算机的初始设想——“高速电子管计算装置的使用”,期望用电子管代替继电器以提高机器的计算速度。

美国军方得知这一设想,马上拨款大力支持,成立了一个以莫克利、埃克特为首的研制小组开始研制工作,预算经费为15万美元,这在当时是一笔巨款。要不是为了战争,谁能舍得出这么多的钱!虽说战争万恶,但未始不偶尔促进科技的发展。

让研制工作十分顺利的是,当时任弹道研究所顾问、正在参加美国第一颗原子弹研制工作的数学家冯·诺依曼带着原子弹研制过程中遇到的大量计算问题,在计算机研制过程中期加入研制小组。原本的“埃尼阿克”存在两个问题,即没有存储器且它用布线接板进行控制,甚至要搭接几天,计算速度也就被这一工作抵消了。1945年,冯·诺依曼和研制小组在共同讨论的基础上发表了一个全新的“存储程序通用电子计算机方案”,在此过程中他对计算机的许多关键性问题的解决做出了重要贡献,从而保证了计算机的顺利问世。

英国无线电工程师协会的蒙巴顿将军把“埃尼阿克”的出现誉为“诞生了一个电子的大脑”,“电脑”的名称由此流传开来。

虽然“埃尼阿克”体积庞大,耗电惊人,运算速度不过几千次,但它比当时已有的计算装置要快1000倍,而且还有按事先编好的程序自动执行算术运算、逻辑运算和存储数据的功能。“埃尼阿克”宣告了一个新时代的开始,从此科学计算的大门也被打开了。

全新的技术革命

1996年2月15日,“埃尼阿克”问世50周年纪念日,在宾夕法尼亚大学举行的隆重纪念仪式上,时任美国副总统的戈尔再次按动这台已沉睡40年的庞大电子计算机的启动电钮。戈尔随后向当年参加“埃尼阿克”的研制,如今仍健在的科学家发表讲话:“我谨向当年研制这台计算机的先驱者们表示祝贺。”“埃尼阿克”上的两排灯以准确的节奏闪烁到46,标志着它于1946年问世,然后又闪烁到96,标志着计算机时代开始以来的50年。

到今天,“埃尼阿克”已经诞生60多年了。这60多年里,计算机的运算能力和用途都得到了极大的发展,过去人们根本无法想象的一些事情现在都已成为事实。让我们回顾一下计算机发展的几个关键时刻。

晶体管计算机:真空管计算机体积大、能耗高、故障多、价格贵,大大制约了它的普及应用。晶体管发明后,电子计算机找到了腾飞的起点。1947年贝尔实验室发明了晶体管,开辟了电子时代新纪元。1949年剑桥大学建成了一台存储程序的计算机,输入输出设备仍是纸带。1949年,人们预测未来的计算机“不会超过1.5吨”。在当时,这是一个非常大胆的预测。

集成电路:1958年,仙童公司的罗伯特·诺伊斯与德仪公司基尔比间隔数月分别发明了集成电路,开创了世界微电子学的历史。那时,随着科技的发展,各行业对计算机也产生了较大的需求,生产更轻便、更便宜的机器成了当务之急,而集成电路的发明正如及时雨,其高度的集成性不仅仅使计算机体积得以减小,更使其速度加快,故障减少。人们开始制造革命性的微处理器。计算机技术经过多年的积累,终于驶上了用硅铺就的高速公路。1959年到1964年间设计的计算机大量采用晶体管和印刷电路。计算机体积不断缩小,功能不断增强,出现大量应用软件。

1972年以后的计算机习惯上被称为“第四代计算机”。第四代计算机基于大规模集成电路及后来的超大规模集成电路,计算机功能更强,体积更小。1972年4月1日英特尔推出8008微处理器,1972年阿帕网开始走向世界,因特网革命拉开序幕。

计算机技术渐入辉煌在这之前,计算机技术主要集中在大型机和小型机领域发展,但随着超大规模集成电路和微处理器技术的进步,计算机进入寻常百姓家的技术障碍已层层突破。特别是从英特尔发布其面向个人机的微处理器8080之后,这一浪潮便汹涌澎湃起来,同时也涌现出一大批信息时代的弄潮儿,如乔布斯、比尔·盖茨等,至今他们对计算机产业的发展还起着举足轻重的作用。

在此时段,互联网技术、多媒体技术也得到空前的发展,计算机真正开始改变人们的生活。而大数据的篇章,也就由此开始。

互联网的兴起

47岁、黑人后裔、毫无从政经验……这就是美国第一个“互联网总统”奥巴马。美国大选历来都是全球最激动人心的营销活动,而对互联网和搜索引擎的应用是奥巴马连续淘汰希拉里、麦凯恩等竞争对手的法宝之一。在整个竞选过程中,奥巴马近乎完美地利用了互联网的种种助推功能,为自己塑造了无比亲民的网络形象,筹得了超乎想象的巨额资金,更有力地在网络平台上给了对手重重的打击。不出各方意料,这位网络高手凯旋,同时也赢得了“互联网总统”的称号。

互联网到底是什么?似乎我们每个人都知道,我们上网的那个“网”就是互联网。可是互联网从哪里来,又对我们的生活产生了什么影响?20世纪,通信技术对人类社会所产生的巨大影响之一,就是利用通信技术把许多计算机联系在一起形成的因特网,即互联网。可以说,互联网的出现完全改变了我们的生活空间。

互联网是继电报、电话、无线电、电脑之后的一个伟大发明,全世界的电脑能够通过互联网联系起来,进行通讯或分享讯息资源。无线电话加上互联网,是整个地球的主要通讯工具。互联网是世界上最大的电子计算机网络,它的形成使计算机不但能处理信息,而且可以获得信息和传递信息,其迅速发展对全球政治、经济、文化等领域具有深远的影响。目前,互联网被认为是全球“信息高速公路”的雏形或前身。

互联网的来源地是美国,而追溯美国互联网的起源,是可以从1957年苏联抢先用火箭发射第一颗人造地球卫星“Spunik一号”说起。那时苏联抢在美国之前发射人造地球卫星,使美国政府大受刺激,全面检讨国家的科学技术政策和教育,以便奋起直追。当时美国总统艾森豪威尔决定设立一个用来发展科学技术的机构,叫作ARPA(阿帕)。就是这个机构后来提供经费设立了最早的互联网,即“阿帕网”。

互联网发展成世界性的特大网络,本来是用来在各大学之间交换科学研究信息,但后来大家更感兴趣的是它的电邮功能。就是说,大家更感兴趣的是利用互联网传送各种各样的信息,包括私人的信息。早在互联网只能传送文字信息的时候,有机会接触互联网的人就用它来讨论各种各样的问题,而现在已成为一个重要操作系统,就是在那个时候由散居世界各地的电脑编程人员通过互联网进行讨论和交流自己的研究成果,而逐渐形成一个完整的操作系统。

后来在互联网中产生具有多媒体功能的万维网,本来其目的是让世界各地的核子物理学家能够分享欧洲粒子物理研究所的研究资料。结果对万维网最感兴趣的是互联网的普通用户,而这个时候个人电脑的功能越来越强大,价钱便宜的已具有多媒体的功能,就是说大家已有条件使用万维网了。因此,万维网的用户越来越多,他们可通过电话线以计时的方式接驳到互联网。

互联网把每个人桌面上的计算机连接起来,改变了人们的生活,成为大家获取各类数据的首要渠道,在发展远程教育、人际交流和计算机开发等方面发挥着巨大的作用,多媒体与网络结合实现交互式传播,进而引起新的传媒革命。互联网的出现也引发了许多新生事物,如网上婚姻、网上购物、网上大学等。

黑人、互联网、墨西哥裔、摩门教徒……这些都是这届美国总统大选的关键词。这些关键词过去和“总统”这个名号似乎难以扯上关系,然而这一次都得到了粉墨登场的机会,第一次站在了聚光灯下。大浪淘沙,流光散尽,当总统大选最终尘埃落定时,最后只剩下了两个关键词:黑人和互联网。这两个关键词都属于同一个人,他就是奥巴马。

奥巴马最终在大选中胜出,祝贺他成为新一届美国总统的欢呼声中,有很多网民,有很多互联网从业人士。因为,奥巴马的胜利,也是互联网的胜利。

据说日本很多商界巨头靠的是一本《三国演义》,而奥巴马这一次竞选战役的胜利,靠的也是一本名著。奥巴马至少读了5遍同胞克里斯·安德森那本著名的《长尾理论》。长尾理论,正是互联网时代最有影响的一个理论。

在长尾理论的指导下,奥巴马也给自己弄了一条“长长的尾巴”:他建立了一个美国政界见所未见的筹款机制,同时吸引了“大户”和“散户”、想给钱的人和想筹钱的人、经验丰富的老手和首次关注大选的新鲜人,还有任何能上网的人——有电脑、手机的人。美国的选举是“市场民主”的金钱游戏,没有钱是无法参加竞选的。奥巴马光在2月份一个月就筹到5500万美元,打破之前的纪录,其中4500万美元来自网络,而奥巴马本人甚至一次也没出席过募捐会议,钱就这样滚滚而来,不可阻挡。超过10万人捐钱给奥巴马参加总统选举,其中5万人是通过互联网捐款。2月份奥巴马阵营报告说,奥巴马94%的捐款由200美元或更少的捐赠构成,希拉里这一比例为26%,麦凯恩为13%。整个3月份,有1276000人为奥巴马捐款,奥巴马阵营每个月都忙着统计不断增加的捐款数额。

《纽约时报》曾经给这个事件盖棺论定,定义为“Web2.0时代的美国大选”。可惜《纽约时报》只谈到Youtube、Facebook等对选举进程造成的影响,却从未提到那条长尾巴的实质。

从某种意义上说,奥巴马的胜利是互联网的胜利,是长尾理论的胜利,是一种全新的信息体系带来的变革胜利。奥巴马的一个平民支持者曾经制作过一段视频《不同的选举》(Vote different),它采用的是奥威尔小说《1984》的背景。自从3月上传以来,这段74秒的视频获得了上千万的点击。在谈到这则视频的影响时,《华盛顿邮报》的专栏作家豪尔德·库尔特一针见血地说:“网络时代,一个稍懂技术的平民,就能让政客们学富五车的顾问自愧不如。” hrpGOP26BA9x3cZeaBnKOaHQwOu5pdBdVXos+rhYVdkHTd4ix0NCNCJDAPfWLwVj

点击中间区域
呼出菜单
上一章
目录
下一章
×