购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
大数据概述

2022年11月,生成型预训练变换模型(ChatGPT)软件火爆全球,美国开放人工智能公司(OpenAI)推出的这款产品,具有强大的文字、图像、音频、视频等处理能力,最新版的生成型预训练变换模型更能完成并通过四大会计行业执业资格考试。生成型预训练变换模型的强大应用能力引发了全球新一轮关于人工智能的研发热潮,百度、腾讯、360等互联网公司纷纷跟进并发布类似产品,生成型预训练变换模型、人工智能、数据处理、深度学习成为2022年年末到2023年年初的互联网热词。随着移动互联网的普及和5G技术的广泛应用,人工智能、云计算、机器学习、数据挖掘、大数据等词语频繁进入人们视野,冲击人们的大脑,被人们所熟知所理解,并渗透到人们生活的方方面面。

一、大数据的基本概念

1.大数据就在身边

当你登录淘宝、京东、拼多多等购物平台时,平台首页推送给你的商品是不是你都非常感兴趣的?或者曾经浏览过的?当你登录抖音、快手等短视频软件时,软件首页推送给你的短视频是不是你非常感兴趣的?或者曾经观看过类似的主题?当你登录新闻软件浏览新闻时,软件首页推送给你的新闻是不是你非常感兴趣的?或者相关主题的?这些现象的背后都是大数据算法根据用户的兴趣、习惯自动推送的结果,是商家经过提取用户数据,通过分析转化为有意义的信息,并对推送内容进行优化后推送提供给用户,是商家优化商业服务的结果。

亚马逊、谷歌、推特、脸书等互联网企业,除了商业模式创新,其成功的背后都是基于卓越的大数据分析技术和分析能力,有着基于大数据先进的算法技术做基础。阿里巴巴、京东、抖音、快手、美团、百度等互联网企业,除了基于国情的商业模式创新,其成功的背后也是基于卓越的大数据分析技术和分析能力,如抖音的短视频算法推送技术成为其迅速发展的重要支撑。

脸书、抖音、微博等软件可以为用户提供类似“也许你还认识这些人”的提示,这种提示是非常精准的,这种精准提示正是对用户的社会关系数据进行分析后得到的结果。亚马逊、淘宝、京东、拼多多等电商巨头基于用户习惯的数据分析,精准推送“猜你喜欢”的商品,大大减少了用户的搜索时间和浏览商品的购买转化率,提高了电商巨头的销售率、增加了销售数据。传统行业如麦当劳、沃尔玛等企业也纷纷拥抱大数据,通过运用大数据,麦当劳、沃尔玛等企业的销售额和销售业绩持续增长。

2009年,谷歌公司通过分析5 000万美国人最频繁检索的关键词,并将其和美国疾病中心2003—2008年公布的美国季节性流感传播时期的数据进行比较,建立了一个特定的数据模型,最终谷歌公司成功预测了美国2009年冬季流感的传播,其预测可以精准到特定的州和地区

2012年8月,时任美国总统奥巴马选举期间运用大数据技术对选民进行精准画像,分类施策引导选民意向,大大提高了选举效率和选举成功率,几乎左右了整个大选

2020年年初至2023年年初的新冠疫情期间,中国基于大数据技术的个人健康码和行程码管理对疫情防控和管理做出了巨大贡献,有力地控制了疫情扩散,保护了人民健康,也为其他国家的疫情防控提供了有益借鉴。

综上,大数据已经渗透到人们生活的方方面面,正以前所未有的速度颠覆人们探索世界的方式,引起商业、金融、通信、医学、交通、传媒娱乐、工业制造、环境监测、教育、科研、国防、军事等领域的深刻变革。当前,世界各经济强国都高度重视大数据的管理、运用和发展,基于大数据应用的数字经济已经成为驱动各国发展的新引擎,世界主要国家都纷纷出台大数据发展规划,将其提升到国家发展战略高度做出详细部署。

2.大数据的概念

关于大数据的概念,目前国内外科技界、学术界还没有一个令所有人都信服的统一的概念,在大数据发展过程中,不同机构和学者都给出过不同的概念。

维基百科将大数据定义为:“没有办法在允许的时间里用常规的软件工具对内容进行抓取、管理和处理的数据集合。”

美国麦肯锡咨询公司在其关于大数据的报告中将大数据定义为:“大数据是指大小超出常规数据库工具获取、存储、管理和分析能力的数据集。”但它同时强调,并不一定是超出一定TB值的数据集才能算是大数据

国际数据公司将大数据定义为:“大数据一般涉及2种或2种以上的数据形式。它要收集超过100 TB的数据,并且是高速、实时数据流;或者是从小数据开始,但是每年会增长60%以上。”

亚马逊公司的大数据科学家John Rauser认为:“大数据是任何超过了一台计算机处理能力的数据量。”

美国商业研究机构高德纳公司(Cartner)认为:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。”

美国学者托马斯·埃尔、瓦吉德·哈塔克、保罗·布勒认为:“大数据是一门专注于对大量的、频繁产生与不同信息源的数据进行存储、处理和分析的学科。”

国内学者李楠、张凯认为:“大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”

二、大数据的单位进制

大数据最小的基本单位是bit,下面按顺序列出数据的所有单位,分别是bit ( Binary Digit )、 B ( byte字节)、 KB ( Kilobyte千字节)、 MB(Megabyte兆字节)、 GB (Gigabyte吉字节)、1 TB (Trillionbyte太字节)、PB (Petabyte拍字节)、 EB (Exabyte艾字节)、 ZB (Zettabyte泽字节)、YB (YottaByte尧字节)、 BB (Brontobyte )、 NB (NonaByte )、 DB (DoggaByte)

每个单位之间的进率如下:

1 B (Byte字节)=8 b (bit位)

1 KB ( Kilobyte,千字节)=1 024 B

1 MB ( Megabyte,兆字节)=1 024 KB

1 GB ( Gigabyte,吉字节,千兆)=1 024 MB

1 TB ( Trillionbyte,万亿字节,太字节)=1 024 GB

1 PB ( Petabyte,千万亿字节,拍字节)=1 024 TB

1 EB ( Exabyte,百亿亿字节,艾字节)=1 024 PB

1 ZB (Zettabyte,十万亿亿字节,泽字节)=1 024 EB

1 YB ( Yottabyte,一亿亿亿字节,尧字节)=1 024 ZB

1 BB ( Brontobyte,千亿亿亿字节,千字节)=1 024 YB

1 NB (NonaByte,一百万亿亿亿字节)=1 024 BB

1 DB (DoggaByte,十亿亿亿亿字节)=1 024 NB

三、大数据的特征

1.“3V”特征

2001年,美国商业研究机构高德纳公司的分析师道格·莱尼首先提出大数据的Volume (数据容量)、 Velocity (数据速度)、 Variety (数据种类)特征,即“3V”,得到广泛认同

Volume即数据容量。大数据首先考虑数据的容量问题,2023年全球互联网网民为85亿人次,每天产生的数据以EB计,预计2025年人类每天将产生491 EB的数据。全球每天产生的数据储存和处理需求,推动了相关行业和技术的快速发展,云计算、人工智能、搜索技术、数据算法等数据分析处理技术的更替为互联网海量数据的准备、恢复、管理等提供了可能。

Velocity即数据速度。大数据时代,全球每秒就能聚集起大量的数据,一辆新能源汽车一天能产生450 TB的数据,这对大数据相关企业的数据存储、读取、分析等技术提出了更高要求。

Variety即数据种类。人类每天生活的方方面面都会产生数据,数据的种类繁多,消费购物产生数据、坐车出行产生数据、网上冲浪产生数据、社交网站和购物网站等每天会产生海量数据、各种物联网每天也会产生大量数据,等等。

2.“4V”特征

美国的国际数据公司( IDC)从四个方面对大数据进行定义,即Volume (数据容量)、 Velocity (数据速度)、 Variety (数据种类)、 Value(数据价值),其在道格·莱尼(2001)的基础上增加了Value (数据价值)

Value (数据价值)是指数据对政府、企业、社会组织等的有用性,数据的真实性与数据的价值性相关联。数据的真实性越强,数据的价值性就越高;数据的时效性越强,数据的价值性就越高。

3.“5V”特征

美国学者托马斯·埃尔、瓦吉德·哈塔克、保罗·布勒认为,大数据具有Volume (数据容量)、 Velocity (数据速度)、 Variety (数据种类)、Value (数据价值)、 Veracity (数据真实性)5个方面的特征,在美国国际数据公司4个特征的基础上增加了Veracity (数据真实性)

Veracity (数据真实性)是指数据的质量和保真性,进入大数据环境的数据需要确保质量,使数据处理过程中可以消除不真实的数据和噪音,因为数据本身在数据收集的过程中可能是信号,也可能是噪音,噪音无法转化为信息与知识,不具有价值,信号可以转化为价值。信噪比越高的信息,价值越高。

4.“5V+1C”特征

刘鹏提出,国内工业界公认大数据具有“5V+1C”的特征,即Volume(数据容量)、 Velocity (数据速度)、 Variety (数据种类)、 Value (数据价值)、 Veracity (数据真实性)和Complexity (数据复杂性),在“5V”基础上增加了Complexity (数据复杂性)

Complexity (数据复杂性)是指数据的结构化特征非常明显,传统的数据方式无法处理,数据处理分析的难度大。

5.“6V+1C”特征

王莉、宋兴祖、陈志宝提出大数据具有Volume (数据容量)、 Velocity(数据速度)、 Variety (数据种类)、 Value (数据价值)、 Veracity (数据真实性)、 Variability (数据可变性)和Complexity (数据复杂性)特征,在“5V+1C”基础上增加了Variability (数据可变性)

Variability (数据可变性)是指数据本身具有分散性和扩散性,在大数据处理过程中数据过于分散和扩散都会影响数据处理效率和数据有效管理等。

综上,可以把大数据的特征概括为Volume (数据容量)、 Velocity (数据速度)、 Variety (数据种类)、 Value (数据价值)、 Veracity (数据真实性)、 Variability (数据可变性)、 Complexity (数据复杂性)。大数据的特征是开放的、发展的,随着人们对大数据特征认知的深化,未来会有更多特征被归纳和认知。

四、大数据的结构

我们生活的世界每天都会产生大量的数据,其中既有人为产生的数据,也有机器等产生的数据,这些数据会以不同的格式呈现,主要的数据类型有国际国内经济贸易、商业零售等为代表的结构化数据,电子邮件等为代表的半结构化数据,文本数据、图像数据、视频数据、音频数据等为代表的非结构化数据

1.结构化数据

结构化数据是指遵循一个标准的模型或者模式,能够用二维表结构或者统一的结构加以表示的数据,如数字、符号等 。企业资源计划(ERP)、客户关系管理(CRM)等企业应用信息系统会频繁产生结构化数据。结构化数据在储存和处理过程中不需要做特殊的考虑,这类数据的例子包括银行交易信息、发票信息和消费者记录,等等

2.非结构化数据

非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库 。其既可以处理结构化数据,如数字、复核等信息,也可以处理非结构化数据,如全文文本、图像、声音、影视、超媒体等信息。根据美国国际数据公司的一项调查显示,非结构化数据越来越成为数据的主要部分,目前企业中80%的数据都是非结构化数据,这些数据按每年60%的速度增长

3.半结构化数据

半结构化数据是指介于结构化数据和非结构化数据之间的数据 。可扩展标记语言(XML)、超文本标记语言(HTML)文档就属于半结构化数据。由于文本化的本质及某些层面上的结构化,半结构化数据比非结构化数据更好处理 2nqfxcxMgWx8emuaIkffzga7fxn0eeVPPbAroGAaweAwhOr5qh1eUb7WeABtmUh1

点击中间区域
呼出菜单
上一章
目录
下一章
×