购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

序言

问:你是谁?你从哪里来?要到哪里去?

答:我们八零后是从信息时代而来,正处于大数据时代,要赶往人工智能时代。

很久很久以前,我们的祖先总是习惯于被动地接受大自然赐予的一切,小心翼翼地去敬拜各种各样的神灵,生怕“犯错”得罪了哪一位神祇而引起他的暴怒,带来灾害。即使起源于天文数据革命的近代科学也没有帮助人类摆脱被动的局面,我们的祖先所能做的就是尽量去探索和了解这个“客观”世界。很长时间内,人类活动基本就是观测自然——得到数据——分析数据——获取信息——形成知识。为了获取科学知识,我们就需要对观测到的数据进行分析。在与几代人累积下来的数据打交道中,人们最终发现了观测的误差分布理论。这是一个伟大的成就,被应用到了科学的各个分支,比如物理学、生物学甚至经济学。但不久之后,一场统计学革命席卷而至,这场革命的领导者皮尔逊声称观测误差并非那么回事,或者说根本就没有误差,我们观测到的并不是所谓的物质实体,而是统计分布本身。这一革命性的思想助推了20世纪科学的新走向,人类把对物质实体的研究逐渐转变为对“信息”的研究,科学研究的方法也从观测自然发展到人工模拟自然。像所有的革命一样,那些正确且适用的东西被保留下来,继续传承。对于数学和统计学至关重要的观测行为为人们打开了新的视野,分形、模糊和包络分析让人们从不同于以往的角度去看待信息。至此,数据分析的历史演化清晰地展现了人类是怎样从大自然获得的原始数据中抽取信息形成知识,一直到开始研究信息本身的抽象性质的这一过程。

今天,爱好科学新知的人们茶余饭后讨论得更多的科学问题或许是人工智能的“奇点”何时会到来。1983 年,数学家、科幻小说家温格提出技术奇点的概念。他将奇点定义为人工智能超过人类智力极限的时间点,在那一时间点后,世界的发展将会超出人类的理解范畴。自此之后,“技术奇点”仿佛一把达摩克利斯之剑,最开始的时候感受到它存在的只是一些科幻作家和所谓的“未来家”“预言家”,但随着计算机技术的发展,越来越多的科学家、经济学家和企业家,如太阳微系统创始人乔伊、经济学家汉森等,都开始担忧头顶这把摇摇欲坠的利刃。2009 年,未来学家库兹韦尔与X-Prize创始人迪亚曼迪斯共同建立了奇点大学,致力于“聚集、教育并激励一批核心的领导者,以应对人类在指数增长的科技下遭遇到的重要挑战”。

但现在来看,图灵机模型即现代计算机雏形的提出才是人类命运真实的拐点,没有此拐点就不会有我们翘首企盼的奇点临近。如果奇点真能在未来几十年内降临,它的另一个关键出发点要追溯到1960至1980 年间统计学领域出现的又一场革命。上一场统计学革命刚建立起来的费希尔理论体系被一种新的体系取代了—这一体系是用统计方法研究“机器学习”规律,故而也被称为统计机器学习理论。“学习”的问题都是非常一般性的问题,统计学中研究的几乎所有问题都可以在学习理论中找到对应,而且一些十分重要的一般性结论也是首先在学习理论的范畴内被发现,然后再用统计学术语重新表达。统计学习理论直接辅助了人工智能的崛起,从此机器能够高效地“学习”了。而且我们甚至会惊讶地发现,那些生物学里的探索成果以及早年用于描摹星辰运行轨迹的算法居然也可以用在智能机器人身上,使得它们能主动地智能化行事。而人类几百万年来的存亡大计或许也将在奇点到来后发生巨大的变化,未来的世界将进入一片新天地。

我们看到科学的发展大体上是从研究“独立于主观的客观真理”到研究“链接主客观的信息”再到“反映客观的主观真理”。而对于伴随科学成长的数据分析而言,整部数据分析史就是辅助人类研究客观世界到研究主观世界演化的历史。那么到底数据是什么呢?数据分析又是什么呢?在现代汉语词典中,数据的解释是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的,比如声音、图像,这些被称为模拟数据;也可以是离散的,如符号、文字,这些被称为数字数据。在如今的计算机系统中,数据以二进制信息单元 0,1 的形式表示。而词典中关于数据分析的解释是用适当的统计分析方法对收集来的大量数据进行分析,从而提取有用信息并形成结论。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。

数据分析起源于天文学、生物学和城邦政情。数据分析所必需的是统计学的思想,而统计学的思想古已有之,可以说是在人类早期的社会实践活动中萌芽的。统计学的思想主要包括计数思想、均值思想、变异思想、估计思想、相关思想、拟合思想和检验思想等。

统计学的踪影在古汉字“数”和“算”中就可以找到。从字义上看,“数”为查点数目,“算”为计算数目。从字形上看,古“数”字左边是一条绳子打了一串大小不同的结,而右边是一只正在打结的手;“算”字从“竹”到“具”表示以算筹为工具进行的统计计算。这从一个侧面反映了早在文字形成初期,中国已经开始了结绳计数。从太古时代起,统计各种数据对人类而言就是一件重要的事,如分配食物、分组围猎等。

图Ⅰ

在人类的历史中,处处有统计学的踪影。早在公元前 4500 年,巴比伦王国就开始对地籍、人口、农具、牲畜等进行调查。公元前 3050 年,古埃及进行全国人口和财富登记以修建金字塔。

根据魏晋时期皇甫谧著的《帝王世纪》中的记录,公元前2200年,中国夏禹时期就开始记载土地和人口:“禹平水土,还为九州,今禹贡是也。是以其时九州之地,凡二千四百三十万八千二十四顷,定垦者九百三十万六千二十四顷,不定垦者千五百万二千顷。民口千三百五十五万三千九百二十三人。”

约公元前 1238—前 1180 年的商朝时期,甲骨文中记载了“登妇好三千,登旅万,呼伐羌”,这里不仅有统计数字,而且有简单的情况表述,说明商代已有人口调查统计的表册。

约公元前 1100—前 771 年,西周参照商朝官职,在周王以下设有天、地、春、夏、秋、冬六卿,为执政大臣,对国家行政事务各负专责,并办理各部门统计工作基本上形成了分散的统计组织。《礼记·王制》里有“视年之丰耗,以三十年之通制国用,量入以为出”,这说明西周已经有了平均数的思想,而《周易》里的“方以类聚,物以群分”则体现了现代统计分组法的基本思想。到了春秋时期,管仲(约公元前723—前 645 年)曾提出四民分业定居论,把百姓按照职业分为四个社会集团——士、农、工、商。这是我国最早的类型分组。

公元前 453 年,罗马帝国制定了对人口、土地、牲畜等每五年调查一次的规定,这是最早的人口定期调查制度。

公元前 450 年,历史上的第一位数学家希庇亚斯用以前每个国王执政时间长短的均值推算出首届奥运会是距当时 300 多年前的公元前776 年举办的。这是人类最早对均值这一概念的使用。

公元前 445 年战国时期,魏文侯任用李悝为相,实行变法,著《法经》六篇:《盗法》《贼法》《囚法》《捕法》《杂法》《具法》,其中含有许多有关统计法规的思想内容。

公元前 431 年希腊伯罗奔尼撒战争中雅典人让士兵数城墙砖的层数,取数据的众数乘以每块砖的厚度推算城墙的高度。这是人类最早对众数这一概念的使用。

公元前 400 年,印度史诗《摩诃婆罗多》中国王用两个大树枝上的果实和叶子的数量乘上树枝的数量估算整棵树上果实和叶子的数量,这是已知最早的抽样推断。古希腊哲学家亚里士多德(公元前384—前 322)撰写了 150 余个城邦纪要,主要包括若干城邦的历史、行政、科学、艺术、人口、资源和财富等社会和经济状况的统计、比较和分析。“城邦政情”式的统计研究延续了 2000 多年。

《史记·秦始皇本纪》记载,公元前 230 年,中国进行了人口统计史上第一次分年龄的人口登记—“十六年九月,发卒受地韩南阳假守腾。初令男子书年”。公元 2 年,中国汉代进行了人口普查,普查结果是 1223 万家庭,5959 万人口。记载的数据被认为相当准确。

《圣经·新约·马可福音》记载,公元 30 年,耶稣传道。耶稣对银库坐着,看众人怎样投钱入库。有好些财主,往里投了若干的钱。有一个穷寡妇来,往里投了两个小钱,就是一个大钱。耶稣叫门徒来,说:“我告诉你们,这穷寡妇投入库里的,比众人所投的更多。因为他们都是自己有余,拿出来投在里头﹔但这寡妇是自己不足,把她一切养生的都投上了。”这是比例思想的源头。

公元 840 年,伊斯兰数学家金迪利用最常用符号和最常用字符破解了伊斯兰密码,频数分析由此出现。

公元1069年,英格兰国王威廉一世在《末日审判书》(其正式名称应是《土地赋税调查书》或《温彻斯特书》,又称《最终税册》)中对新王国村庄和牲畜进行调查,这是英国官方最早的统计记录(根据调查结果,当时英格兰约150万人,其中90%是农民)。

公元 1150 年,英国皇家制币厂通过随机样本进行等比例抽样检验,对硬币纯度和质量进行年度检验,这个方法延续至今。

……

这些是数据分析的早期统计思想的萌芽。 gL5uZ1ssZr//yGpn2MyN6oauDi37nKZTGuN8aNBwGRT5A0Y4m/fk0hYWnrOOZj4c

点击中间区域
呼出菜单
上一章
目录
下一章
×