购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

我读大数据,拒绝大忽悠——读《大数据时代》有感

谭天

如今说起新媒体和互联网,必提到大数据,似乎不这样说就Out了。而且人云亦云的居多,不少谈论者甚至还没有认真读过这方面的经典著作——舍恩伯格的《大数据时代》。维克托·迈尔·舍恩伯格何许人也?他现为牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目的负责人。他的咨询客户包括微软、惠普和IBM等全球顶级企业,他是欧盟互联网官方政策背后真正的制定者和参与者,他还先后担任多国政府高层的智囊。这位被誉为大数据时代的“预言家”的牛津教授真牛!那么,这位大师说的都是金科玉律吗?并不一定,读大师的作品一定要做些功课才容易读懂,只有做足功课又具备相应的理论功底,才能与之进行一场思想上的对话。

一读

舍恩伯格的书分三部分来讨论大数据,即思维变革、商业变革和管理变革。在第一部分“大数据时代的思维变革”中,舍恩伯格旗帜鲜明地亮出他的三个观点:①更多:不是随机样本,而是全体数据。②更杂:不是精确性,而是混杂性。③更好:不是因果关系,而是相关关系。

对于第一个观点,我不敢苟同。一方面是对全部数据进行处理,在技术和设备上有相当高的难度。另一方面是不是都有此必要,对于简单事实进行判断的数据分析难道也要采集全部数据?我曾与香港城市大学的祝建华教授讨论过这个问题。祝教授是传播学研究方法和数据分析的专家,他认为一定可以找到一种数理统计方法来进行分析,并不一定需要全部数据。联系舍恩伯格的第二个观点中所说的相关关系,我认为他说的全体数据不是指数量,而是指范围,即大数据的随机样本不限于目标数据,还包括目标以外的所有数据。我认为大数据分析不能排除随机抽样,只是抽样的方法和范围要加以拓展。

我同意舍恩伯格的第二个观点,我认为这是对他第一个观点很好的补充,这也是对精准传播和精准营销的一种反思。“大数据的简单算法比小数据的复杂算法更有效”,更具有宏观视野和东方哲学思维。

对于舍恩伯格的第三个观点,我也不能完全赞同。“不是因果关系,而是相关关系”,不需要知道“为什么”,只需要知道“是什么”。传播即数据,数据即关系。在小数据时代,人们只关心因果关系,对相关关系认识不足,大数据时代的相关关系举足轻重,如何强调都不为过,但不应该完全排斥因果关系。大数据从何而来?为何而用?如果我们完全忽略因果关系,不知道大数据产生的前因后果,也就消解了大数据的人文价值。如今不少学者为了阐述和传播其观点,往往语出惊人,对旧有观念进行彻底的否定,这是不可取的。

世间万物的复杂性、多样化并非非此即彼那么简单,舍恩伯格也陷入了这种二元对立的幼稚思维吗?其实不然,读者在阅读时一定要看清楚他是在什么语境下说的,不要因囫囵吞枣的浅读而陷入断章取义的误读。比如说,舍恩伯格在提出“不是因果关系,而是相关关系”这一论断时,他在书中还说道:“在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续研究更深层次的因果关系,找出背后的‘为什么’。” 由此可见,他说的全部数据和相关关系都有特定语境,是数据挖掘中的选项。

大数据研究的一大驱动力是商用,舍恩伯格在第二部分里讨论了大数据时代的商业变革。舍恩伯格认为数据化就是一切皆可“量化”,大数据的定量分析有力地回答了“是什么”这一问题,但仍然无法完全回答“为什么”。因此,我认为并不能排除定性分析和质化研究。数据创新可以创造价值,这是毫无疑问的。舍恩伯格在讨论大数据的角色定位时,仍把它置于数据应用的商业系统中,而没有把它置于整个社会系统里,但他在第二部分大数据时代的管理变革中讨论了这个问题。在风险社会中,信息安全问题日趋凸显,数据独裁与隐私保护成为一对矛盾。如何摆脱大数据的困境?舍恩伯格在最后一节“掌控”中试图作出回答,但基本上属于老生常谈。我想,或许凯文·凯利的《失控》可以帮助我们解答这个问题,至少它可以提供更多的思考维度。正如舍恩伯格在结语中所道:“大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。”谢谢舍恩伯格,让大数据讨论从自然科学回到人文社科。由此推断,《大数据时代》不是最终答案,也不是标准答案,只是参考答案。

此外,在阅读此书之前还必须具备一些数据科学的基本知识和基本概念,比如说,什么叫数据?什么叫大数据?数据分析与数据挖掘的区别是什么?数字化与数据化有什么不同?读前做些功课,读起来就比较好懂了。

二读

概念是研究的逻辑起点,“大数据”到底是什么?在百度上搜索到的解释是,“大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯”。大数据的4V特点是:数量(Volume)、速度(Velocity)、品种(Variety)和真实性(Veracity)。但舍恩伯格认为大数据并非一个确切的概念。他在书中的一段诠释更具人文色彩和社会意义:“大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。” 其实,概念的界定要看研究者从哪个角度来研究它。

科学家的治学态度是严谨的,而人文学家则更具有想象力。一些对大数据不甚了然的人往往夸大了它的作用,甚至把它神化。舍恩伯格认为大数据的核心是预测。“大数据不是要教机器像人一样思考。相反,把数学算法运用到海量的数据上来预期事情发生的可能性。” 舍恩伯格甚至不回避大数据所产生的负面影响,他在第七章里谈到让数据主宰一切的隐忧,我觉得这是实事求是的科学态度。在量子力学里有一个测不准原理:一个微观粒子的某些物理量(如位置和动量,或方位角与动量矩,还有时间和能量等),不可能同时具有确定的数值,其中一个量越确定,另一个量的不确定程度就越大。测不准原理主要解释微观世界的物理现象,信息社会中的大数据会不会也有类似情况呢?如果我们再把凯文·凯利的《失控》和它对比来读的话就更有意思了,这样我们对整个物质世界乃至人类社会就有了更全面、更深刻的洞察。从物理王国到生物世界,再到信息社会,从公共卫生到商业应用,从个人隐私到政府管理,大数据无处不在。与此同时,从哪个角度探讨,用什么方法来研究,舍恩伯格都不会忘记大数据服务人类、造福人类的终极目的和价值所在。“大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。它们偶尔会带来屈辱或扰乱大脑运作,但也能带来成功,在偶然间促成我们的伟大。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。” 用中国话来说就是“人无完人”,人类在收获大数据带来的红利的同时,也要承受它带来的危害。这不就是对立统一的辩证唯物主义吗?我把它看作是带着欧洲批判学派色彩的科学发展观。

问题是研究的价值基点,“大数据”不是舍恩伯格研究的问题,而是研究对象,他研究的是数据处理和信息管理问题,同时也讨论信息安全和网络伦理问题,还引发了人类在哲学上的思考,将哲学史上争论不休的世界可知论和不可知论转变为实证科学中的具体问题。可知性是绝对的,不可知性是相对的。“大数据”之所以伟大,是因为它引发人类生活、工作和思维的大变革。从这个意义上来看,《大数据时代》的意义不仅在于它讨论了若干重大问题,而且也为研究者开出了一个问题清单,从而引发更多人来探讨这些有趣的问题。

《大数据时代》是一本主要讨论数据挖掘的书。数据挖掘与数据分析是两个不同的概念。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。而数据分析的目的是将隐没在一大批看起来杂乱无章的数据中的有用信息集中、萃取和提炼出来,以找出所研究对象的内在规律。数据挖掘主要运用计算机来进行处理,而数据分析既要用计算机,也要人工分析,是计算机科学与人文价值判断的统一与结合。换言之,《大数据时代》并不是一本讨论大数据所有问题的书。

《大数据时代》也是一本讨论互联网发展的书,从数字化到数据化,同时有浓厚的未来学色彩。当文字变成数据,我们进入了互联网时代;当方位变成数据,我们进入了物联网时代;当沟通变成数据,我们进入了下一代互联网时代。一切可量化,万物皆数据,正是当今互联网世界的真实写照。面对这样的世界,在《大数据时代》中出现最多的词是“思维”和“方法”,因此也可以把这本书视为思维科学应用研究的书。

三读

2013年国庆节前一天,中共中央政治局常委们来到中关村搞集体学习,调研、讲解、讨论创新驱动发展战略。包括习近平总书记、李克强总理在内的七位常委全部来到中关村,这是史无前例的百度、联想和小米的负责人有了一次直接向最高层汇报工作的机会。雷军和柳传志,讲解的都是本公司的各种情况,李彦宏则没有讲百度的广告业务发展得如何好,而是讲起了大数据。在讲解中,李彦宏认为大数据有两个重要价值,一是促进信息消费,加快经济转型升级;二是关注社会民生,带动社会管理创新。这些价值也是目前党和国家领导人最为重视的,可见《大数据时代》既有理论价值也有现实意义。

当今大数据正在影响着新闻传媒业,大数据新闻、大数据营销、舆情分析、受众(用户)研究……数据分析师变身新闻编辑,大数据正在改变新闻生产流程及创造传媒新业态。“不妨想象一下,随着数据的进一步增加,坐拥用户资源的新媒体们完全有能力通过数据挖掘,分析用户癖好,向电视台定制一部电视剧甚至向好莱坞定制一部电影。到那个时候,电视台一如那些家电厂商们,曾经产业链的上游‘王者’,将彻底成为一个产业链最低端的内容代工厂。” 然而,情形远没有人们想象的那么乐观。李彦宏指出,目前多数所谓的大数据公司其实还是空壳子,因为数据还没有完全开放。他认为必须在政府层面推动数据平台的建设才能真正实现大数据的开发与利用。我在讨论大数据时代的舆情监测与预警时说道:“经典自由主义传播学说对媒体的定位:秉持公正、客观立场的媒体被称为代表公众监督政府行为的‘看门狗’。其实,媒体既是公众利益也是国家利益的‘看门狗’。要看好门就要瞭望、洞察社情民意。传统媒体信息反馈渠道单一,视野、人力十分有限,而开放互动的新媒体平台却大有可为。作为公共信息发布平台的微博可以成为政府及时了解社情民意,从而选择正确治理路径的‘导盲犬’。” 遗憾的是,目前我国的数据平台还没有完全开放,真正的大数据时代还没有到来。

与国内不少教科书式的专著相比,国外的书写得更有趣,尤其是大学者写的,不仅视野开阔,而且能够深入浅出。《大数据时代》不到22万字,却有上百个学术和商业的实例,丰富翔实的例子通俗易懂,深奥的理论看起来也不费劲。这恐怕与舍恩伯格既是学者也是专家,既有理论又有实践有关。反观我们一些学者故弄玄虚以示高明,实际上是把读者拒之门外。我觉得优秀的科学家也应该是一个科普作家,优秀的学者也应该是一个不错的传播者。然而对于国外的学术著作存在一个翻译问题,《大数据时代》这本书译得还不错。此外,该书还附有不少IT界名流的推荐意见,虽是出版商的发行所为,但对解读此书也不无益处。

除了《大数据时代》,舍恩伯格的另一本著作《删除》也值得一读。要研究大数据不能只读一本书,该书译者周涛教授还推荐了三部国内出版的大数据方面的专著:《证析》、《大数据》、《个性化:商业的未来》。相比《大数据时代》的宏大视野,这些书就大数据某一局部问题给出了翔实的介绍和洞见。我也推荐读一读中国工程院李国杰院士和中科院计算技术研究所副总工程学旗合写的文章《大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考》。

虽说开卷有益,但是由于每个人的时间精力有限,对于一个研究者来说,不读什么书甚至比读什么书更重要。我认为书有三种:有用的书,主要是应用类的专业书;无用的书,主要是形而上的思想类;无字的书,指的是人间百态、社会现实。可偏重但不应偏废。对于学生来讲,这三类“书”都该读一些,研究者则要读一些解决关键问题的书,《大数据时代》就是这样一部书。当然,并非每一个读者都是研究大数据的,但进入大数据时代,还有什么东西与数据完全没有关系呢?麦肯锡全球研究机构认为,未来十年里有12项对经济发展产生重大影响的技术,其中包括三项新媒体技术:移动互联网、物联网和云计算。这三项新媒体技术都与大数据密切相关,而这些新媒体、新技术的发展都影响着当今的新闻传播业。阅读此书,至少给我们研究新闻传播学带来一些启迪。我觉得一本书的价值不在于让你顶礼膜拜,而在于能引发广泛而深入的讨论。

“凡是过去,皆为序曲”,读完此书,我们对大数据的认识才刚刚开始。 C1sRNexDBIlzP2vQBU9HFtG9R9ifnkRaVbgW48UsVykjKgcT+JqcGG/7/bCVaUey

点击中间区域
呼出菜单
上一章
目录
下一章
×