购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第1章
活络之水:大数据时代的数据流动

1.1 数据流动时代

网络时代发展到如今,创造了大量的数据。数据与我们日常生活的联系越来越紧密,它是这个世界的记录者。

这些数据可能包括财务电子表格、新产品的设计蓝图、客户信息、产品目录和商业机密等,甚至包括我们日常行走的每一步。QQ、微信等通信软件在跨越时空界限实现网络交流的同时,也生成了大量的数据。当这种生活方式成为社会的常态时,我们已经进入了数字化时代。

2019年的春运被媒体戏称为“世界上最大规模的人口迁徙”,有30亿人次流动。2020年的“双十一”,天猫实时成交额突破3723亿元人民币。截至2021年6月,我国手机网民规模达10.07亿。根据中国信息通信技术研究院于2021年发布的《中国数字经济发展白皮书》,2020年中国数字经济规模已达到39.2万亿元,占GDP的38.6%,居世界第二位。这些数据体现了我们的社会正在进入数字化时代。随着数字化的推进,每天都会产生海量的实时数据,“大数据”(Big Data)的概念由此应运而生。

对于大数据,知名研究机构高德纳咨询公司(Gartner)给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

实际应用中,我们可以将大数据理解为一种极其庞大的数据集合,里面的数据种类繁多(比如文本、图片、音频、视频、定位坐标等多种形式)且杂乱无序(想象一下数以亿计的个体产生的数据混杂在一起的效果),如果不经过有序的采集、分析,其价值信息很难被获取。

基于这种思路,麦肯锡全球研究所对大数据给出了更容易理解的定义:一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据具备的这四类特征,即业内所称的“4V特征”。

1. Volume(海量)

仅截至2012年,人类生产的所有印刷材料的数量便已达到200PB ,而历史上全人类总共说过的话的数据量大约是5EB。当前,个人计算机硬盘的容量普遍为TB量级,一些大企业的数据量则已经接近ZB量级。

若以个人计算机硬盘容量的量级TB为基准,则1PB = 1024TB,1EB = 1024PB = 1024 2 TB,1ZB = 1024EB = 1024 3 TB,若将1ZB量化为数据的话,则相当于全世界海滩上的沙子数量总和,由此可见数据量之大。

2. Velocity(快速)

该特征主要是针对数据处理和分析的时效性,这也是大数据区别于传统数据挖掘的最显著特征。根据中国信息通信研究院2020年12月发布的《大数据白皮书(2020年)》可知,2020年全球数据产生量约为47ZB,预计到2035年,这个数字可能会达到2141ZB。在海量数据面前,处理数据的效率将决定企业的生命力,如果不能快速对大数据进行清洗和分析,则会难以获取其中的价值信息,从而导致商业行为的折损。

3. Variety(多样)

数据的多样性决定了数据可以分为结构化数据和非结构化数据两大类。相对于以往便于存储的以数据库或文本为主的结构化数据,大数据时代产生的非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。各种类型的数据对数据的处理能力提出了更高的要求。

4. Value(低价值密度)

价值密度的高低与数据总量的大小成反比,更大的数据量意味着更低的数据价值,因而从低价值密度的数据中筛选出高价值数据的过程就好比是浪里淘沙,结果弥足珍贵。随着互联网及物联网的广泛应用,信息感知无处不在,虽有海量的信息但价值密度却极低,如何对有价值的数据进行快速“提纯”,已经成为目前大数据领域亟待解决的难题。

因此,如何从大体量、多样化且低价值密度的数据集合中高速转化和获取我们所需要的有价值的信息,便成为大数据时代数据流动的关键问题。

目前,业内进行大数据清洗转化的普遍思路如图1-1所示。

0

图1-1 大数据清洗转化示意图

(1)数据采集

在大数据集合中,各类数据不一而足,企业的业务倾向性也各有差异,因此大数据流动的第一个目标便是从海量数据中获取我们感兴趣的信息,这便是数据采集。根据企业的业务倾向性,有针对性地从海量数据中获取相应的数据类别,以便后续对所采集的数据进行有针对性的优化和提纯。通过该环节,我们可以从海量数据中采集特定的数据类别集合,以获得基础数据。

(2)数据分析

通过数据采集,企业可以从大数据中获得倾向于自身业务偏好的数据子集,但集合中的数据依然处于杂乱无序、缺乏类别属性的混乱状态。为使其成为逻辑有序、分类可辨的数据集合,数据分析应运而生。目前,数据分析指的是通过机器学习等手段对所采集的数据进行自动化分析和归类,识别信息属性,并进行对应的分类或标识操作,从而将杂乱的数据进一步优化为可用易懂的信息。

(3)数据关联

通过数据分析,我们可以获得有明确分类或标识的信息个体,但它们彼此之间可能仍然是孤立的、缺乏联系的。这里以电商购物为例,通过数据采集,我们可以获得所有顾客在全部电商网站上的操作数据。通过数据分析,我们可以将这些数据识别为每个顾客个体在电商网站的购买历史、浏览历史等,而数据关联分析则能从大量数据中发现项集之间的有趣关联。在这一过程中,对顾客放入购物车中的不同商品进行关联,我们便可以分析顾客的购买习惯。对顾客频繁购买的某类商品信息进行分析,我们可以发现其中的关联,从而帮助零售商制定相应的营销策略。数据关联分析的应用还包括价目表设计、商品促销、商品的摆放和基于购买模式的顾客划分等。通过这样的关联分析,我们所拥有的信息便从一个个单点的“孤岛”贯穿成了一整条“线索”,可作为知识和情报,为企业发挥最大的价值。本章后续部分将对上述三个环节分别进行有针对性的详细介绍,并阐述数据质量与数据价值。 pJmZ4dtbeWVt6XL/ua8o5n8+66CPvtnFkm6x78rfu5MWe5uQhuphztUqoNTpU17Y

点击中间区域
呼出菜单
上一章
目录
下一章
×