“数是万物的本原”,微小似一粒尘、一只虫、一片叶、一块石、一枝梅、一缕烟、一阵风、一时雨,浩瀚如一座山、一片海、一弯月、点点星光、渺渺星云、茫茫宇宙,所有的一切都可以为“数”所描述。自然依据内在的规律运转,自然的规律通过不断重复试验的方式为数据所揭示。
数学文化史的研究表明,古代数学作为一个在文化系统里操作运演的子系统,一开始就具有双重功能,即数量性的功能和神秘性的功能。而不同民族文化所展示的数据或者数学都在特定的文化氛围中有某些神秘性,并且不同民族数学的发展道路是各不相同的。
文字最早起源于大自然物体的形态,但是在漫长的演化过程中,绝大多数文字都脱离本原,与原意没有干系,变成毫无意义的字母与字符。英语、法语、德语、俄语、拉丁语等所有的非象形文字语种更甚,基本失去语言本来的意义与价值。
依照中国古代文献的记载,汉字的起源有多种说法,比如结绳、八卦、书契、岩画、陶符、筹码等,还有黄帝的史官仓颉造字的传说。当然系统化的文字体系不可能由一个人创造出来,如果仓颉确有其人,应该是文字的整理者或者颁布者。
数字的起源如同文字的起源一样古老。阿拉伯数字发源于古代印度,后来被阿拉伯人掌握、改进并且传到西方。早期计数系统有:公元前3400年前后的古埃及象形数字;公元前2400年前后的巴比伦楔形数字;公元前1600年前后的中国甲骨文数字;公元前500年前后的希腊阿提卡数字;公元前500年前后的中国筹算数字;公元前300年前后的印度婆罗门数字以及年代不详的玛雅数字。其中巴比伦楔形数字采用六十进制、玛雅数字采用二十进制,其他均采用十进制。计数系统的出现使人类文明向前迈进一大步,随着生产力的持续发展和数字的持续完善,数学逐渐地发展起来。
数学来源于生活并且高于生活,从形象的生产和生活中被抽象出来成为解决计算问题的学科和科学,具有一定的超前性。“万物皆数”表明:所有事物的形态和运行,从底层来讲都是把事物转为数据化映射,事物规律都是由数学规律所决定的。“万物皆数”是人类认知与改造世界持续的进步、从唯心主义走向唯物主义的必然。
数字只是一种符号化的用来表示某种特征的程度或者状态的原始信息,没有被应用到特定的场合。根据数字所代表的原始信息,建立适当的数学模型,经过带有指向性的加工,被应用到合适的场所,转变为有影响的数据,从而帮助人们理解事物的本质、完成特定的任务,才有实际的意义,这就是数字的数据化过程。
凡是发生过的事件都会留下痕迹,而数据的作用则是将这些痕迹记录下来。每天,当我们生活在社区、工作在办公区、娱乐在电影院、锻炼在健身房、消费在购物中心、出行在高速公路,享受着数据化生活的便利时,一切都显得那么自然。每一个动作都被流量的数据和无尽的网络串联起来,随时随地都能看到数据的身影。
数据(Data)是指对客观事件进行记录并且可以鉴别的符号,是对客观事物的性质、状态以及相互关系进行记载的物理符号或者组合,以文字、数字、图像等多种形式存在。数据是未经加工的原始素材、主体对客体进行观察和表达的结果、对事实的逻辑归纳。
在计算机科学中,数据是所有能够输入计算机并且被程序处理的符号介质的总称。这些符号介质是具有一定意义的数据、字母、符号和模拟量等,以二进制信息单元0、1的形式表示和存储。计算机处理的对象十分广泛,表示对象的数据也变得越来越复杂。
在多数人的理解中,数字就是数据。其实不然,数据的范畴要大得多,包括数字、文字、图像、声音、视频,甚至是动作、行为。数据的范畴随着社会和经济的发展不断演进,例如以前的文字和语言并不被认为是数据,而在计算机出现后,已经成为通信、翻译等重要领域的核心数据。
数据分类就是把相同属性或者特征的数据划分到一起,形成不同的类别,以便通过不同的类别对数据进行查询、识别、使用和保护;当然更多的是从管理业务的维度出发,例如数据的来源、产业、事务、开放、共享等。
“数据是信息的载体,信息是数据的含义。”随着数据的不断增长,经过大量积累之后就形成数据资源。在数据资源中把蕴含的价值线索提取出来,即经过加工处理后得到另一种形式的结构化数据就是信息。例如,每个人看过一部电影后都有自己的感受,电影就是数据,而经过每个人大脑处理后的感受,就是信息。
信息是带有判断的表达,数据是反映事实的记录。对于数据和信息的评价是有区别的:数据可以用准不准,而信息要用对不对。数据的表达通常只是有偏差,而信息表达很可能完全背离本质。
数据是存在于计算机系统中的介质符号;信息是自然界、人类社会及人类思维活动中存在和发生的现象;知识是人们在实践中所获得的认识和经验。数据可以作为信息和知识的符号或者载体,但是数据本身并不是信息或者知识。
数据和信息是影响个体情势判断和整体协同行为的基本驱动性因素。信息本来应该并且可以是充分研究和科学论证后的严谨判断,然而由于传递信息的主体无须对信息的对错以及由此造成的负面结果承担责任,社会的各种主体和个体出于不同的目的,总会想把各式各样的信息传递到消费者面前,由此产生“信息混乱”和“信息矛盾”,也使得信息价值大幅度降低。往往由于缺乏足够的、准确的数据来帮助我们评价事物,不得不习惯性使用信息来代替,导致的结果就是为获得的信息所俘获,造成“赶羊效应”(每一个个体就是一只羊,而传递出的信息就是那根赶羊的竿子)。
以色列历史学家尤瓦尔·赫拉利在《未来简史》中写道:“人类将进入数据主义(Dataism)时代,在这个时代,每个人都应该信奉这样一条格言,如果你经历某件事,把它记录下来。如果你记录某件事,把它上传。如果你上传某件事并且分享它。这意味着每个人都成为数据的采集、处理和分享者。这当然是数据从业者所向往的一种理想状态。”
数据在各行各业的影响力正与日俱增,充斥在生产和生活的方方面面,比如金融、医疗、制药、生物信息、公共福利、政府、教育、零售、网络购物、通信、浏览新闻、收听在线音乐、搜索、在网上表达观点。这些行为都会被记录在案,变成一个个字节存储起来。对线上数据和线下数据的采集方式不断革新,人们的日常行为也被“数据化”(Datafication)。
数据化无所不在,从作为实验对象参与到社交媒体实验中,到接受全面调查,再到被人秘密跟踪,这些都是被数据化的典型案例,代表数据化过程中个人意愿从高到低的各种情形。必须尊重他人的意愿——是否自愿与人们分享自己的数据。比如在网上为某个人或者某件东西“点赞”时,人们就算不是故意让自己的行为“被数据化”,至少也清楚自己的行为会被记录下来。有时却不然,比如只是随意浏览一些网站,然而我们的行为却被网站上的cookie记录下来;再如人们只是走在大街上,就会被各种传感器、摄像头监测,或者被谷歌眼镜拍摄,行为被作为数据存储下来,但是这种数据化并非出于个人的意愿。
数据科学是一门新时代的混合交叉学科,使用科学的理论、算法和过程从结构化或者非结构化的数据中获取知识与洞见、发现隐藏的模式,体现应用驱动基础理论创新的特点,成为除实验、理论模型、计算模拟之外的第四大科学发现手段。
数据科学即“数据的科学”和“科学的数据”,包括一整套的技能和技术,即数学、计算、视觉、分析、优化、统计、试验、问题界定、创建假设、选择算法、模型建立、结果检验与可视化等,涉及三个不同的领域,即编程领域(计算机语言知识、语言库、设计模式、体系结构等),数学(代数、微积分等)和统计学领域,数据领域(特定领域的知识,如医疗、金融、工业等)。
数据科学的知识体系主要以统计学、机器学习、数据可视化以及某一领域专业知识为理论基础,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发。
数据产品在数据科学中具有特殊的含义——基于数据开发的产品的统称。数据产品开发是数据科学的主要研究使命之一,也是数据科学区别于其他科学的重要因素。与传统产品开发不同的是,数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。数据产品开发能力也是数据科学家的主要竞争力。
数据科学日益变得有实用性和趣味性,不仅仅是因为数据本身的体量增大,更多的是因为数据本身成为构建实时数据产品的关键要素。在互联网上,有亚马逊(Amazon)的商品推荐系统、脸书(Facebook)的朋友推荐系统,还有其他的电影、音乐等推荐系统;在金融业,有信用评级和筛选系统、交易算法和模型;在教育领域,可以根据学生差别量身定制个性化教学;在政府机构,则意味着以数据为基础去制定和实施公共政策。