购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第五章
数据处理和可视化表达

一、认识大数据

1.大数据

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

2.大数据的特征

①从互联网产生大数据角度来看,大数据具有“4V”特征:_____________、_____________、 _____________、_____________。

②从互联网思维角度来看,大数据具有三个特征:_________________、_________________、_________________。

③从大数据存储与计算角度来看,大数据具有两个特性:_________________和_________________。

3.大数据对日常生活的影响

(1)积极影响

大数据使人们日常生活更为便捷:方便支付、出行、购物与产品推介、看病与诊病等。

(2)消极影响

大数据对人们日常生活产生的负面影响:个人信息泄露、信息伤害与诈骗。

二、数据的采集

1.数据采集的方法

数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。

(1)系统日志采集法

在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。

(2)网络数据采集法

网络数据采集是指通过网络爬虫或网站公开____________等方式从网站上获取数据信息。网络爬虫从一个或若干初始网页的URL(统一资源定位符)开始抓取网页中需要的数据,直到满足系统的一定停止条件。该方法可以将非结构化数据从网页中抽取出来,将其以结构化的方式存储为统一的本地数据文件。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

(3)其他数据采集法

对于企业生产经营或科学研究等保密性要求较高的数据,可通过与企业或研究机构合作,使用特定系统接口等相关方式收集数据。

2.数据的存储和保护

(1)数据的存储

存储数据主要有两种方式,一种是____________,另一种是____________。云存储是把各类数据存储在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放置的众多服务器中,为用户提供统一、灵活、安全的“云存储服务”。

(2)数据的保护

数据安全保护是指数据不被破坏、更改、泄露或丢失。安装杀毒软件和防火墙只能降低数据安全隐患,而采用拷贝、备份、复制、镜像、持续备份等技术进行数据保护才是更为彻底、有效的方法。

为了防止他人对机密的数据、数据库进行非法访问、删除、修改、拷贝等操作,可以采用对数据进行加密等方法,保护数据在存储和传递过程中不被修改或泄漏。选择何种加密算法、需要多高的安全级别、各算法之间如何协作等,都是进行数据加密要考虑的因素。

加密技术通常分为对称式加密和非对称式加密两大类。对称式加密指加密和解密用的是同一密钥。非对称式加密指加密和解密用的是两个不同的密钥,必须配对使用,否则不能打开加密数据。

大数据时代,数据发布变多了,信息范围扩大,信息传播和共享速度加快,若不加以控制,其所含的商业信息或私密信息就可能被泄露。解决办法有三个:一是____________,常用的隐私保护措施有:①数据收集时进行数据精度处理;②数据共享时进行访问控制;③数据发布时进行人工加扰;④数据分析时进行数据匿名处理。二是____________________________。三是____________________________。

三、数据的分析

数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。数据分析一般包括____________、____________、____________、____________等。

1.特征探索

数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。

2.关联分析

关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。关联分析的基本算法如下:

①扫描历史数据,并对每项数据进行频率次数统计。

②构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。

③对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1。

④对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集。

3.聚类分析

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析的算法有很多,其中____________算法是一种经典的自下而上的聚类分析方法。____________的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。

聚类分析的基本算法如下:

①从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。

②对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。

③重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。

4.数据分类

数据分类是数据分析处理中最基本的方法。数据分类通常的做法是基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特定类别的功能。数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。

贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称为分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。

四、数据的可视化表达

数据可视化是指________________________________________________,以更好地理解数据。

1.数据可视化表达的方式

数据可视化可以让人们能够非常直观地将数据分析的结果表示出来,它的特点是简单、直观、清晰、明了。从常用和实用的维度,数据可视化的呈现类型主要分为____________和____________两种不同的类型。前者可以帮助人们发现数据背后的价值,而后者则把数据简单明了地解释给人们。按照处理数据类型的不同,可视化呈现的主要方式有:趋势分析、比例分析、关系分析。

2.数据可视化表达的工具

数据可视化呈现的形式千变万化,实现的工具众多。在Python中,除前面我们经常用到的绘图工具模块Matplotib外,专业的数据可视化工具模块还包括Seaborn和Bokeh等。

Seaborm主要关注统计模型的可视化。例如,直方图既可以总结数据,也可以描绘总体分布。Seaborm基于且高度依赖于Matplotib。

Bokeh也是一个很好的可视化库,可实现交互式可视化。与其他库相反,Bokeh是独立于Matplotlib的。Bokeh的重点在于交互性,且是通过浏览器以数据驱动文档的风格呈现。

随堂练习

一、单项选择题

1.下列事件中,一般不需要使用大数据的是(  )。

A.高一二班英语测验成绩分析

B.旅游网站绘制假期景区热力图

C.购物网站向用户智能推荐商品

D.网页上的广告推送

2.从互联网思维的角度来看,大数据具有的特征是(  )。

A.“4V”特征:大量、多样、低价值密度、高速

B.样本渐趋于总体,精确让位于模糊,相关性重于因果

C.分布式存储,分布式并行计算

D.没有特征

3.下列关于网络爬虫的说法正确的是(  )。

A.网络爬虫是一种病毒

B.可以利用网络爬虫采集数据

C.只有Python才可编写网络爬虫

D.爬虫爬取的数据一定是正确的

4.交通电子眼的拍照过程属于(  )。

A.数据整理

B.数据可视化表达

C.数据分析

D.数据采集

5.用网络爬虫在网上获取研究所需要的原始数据,这种数据采集方法是(  )。

A.网络数据采集法

B.实验数据采集法

C.系统日志采集法

D.实地采访采集法

6.以下对数据保护理解不正确的是(  )。

A.目前已经有绝对安全的数据保护手段

B.移动终端中的数据需要采取安全防范措施

C.加密、校验都是保护数据的方法

D.数据安全已上升至国家战略层次

7.百度公司根据某时段在某区域内“感冒症状”“治疗”等关键词的搜索量急剧增长,成功预测了甲流的暴发时间、地域。这主要体现了大数据分析理念中的(  )。

A.在数据规模上强调相对数据而不是绝对数据

B.在分析方法上更注重相关分析而不是因果分析

C.数据在分析效果上更追究效率而不是绝对精确

D.在数据基础上倾向于全体数据而不是抽样数据

8.抖音对用户观看内容的记录进行处理,继而为用户推送其感兴趣的内容。其算法对数据进行处理的过程属于(  )。

A.数据分析

B.数据采集

C.数据分类

D.数据可视化表达

9.根据贝叶斯定理,当A属于红色的概率为P1,属于蓝色的概率为P2,且P1>P2,则A应当被归为(  )类。

A.红色

B.绿色

C.蓝色

D.黑色

10.如图所示是对文本数据进行处理生成的“词云”图。图中的词语显示有大有小,显示较大的是因为这个词(  )。

A.比较重要

B.比较关键

C.出现频次较多

D.比较流行

二、判断题

11.在大数据分析理念中,在分析方法上更注重因果分析而不是相关分析。(  )

12.从互联网产生大数据角度看,大数据具有数据量大、数据类型少、价值密度低、变化速度快等特征。(  )

13.数据分析的目的就是挖掘隐藏在数据中的价值。(  )

14.在信息社会里,人人都在产生大数据,也可合法利用大数据。(  )

15.人们用数据记录自然现象与社会发展,数据只能用来描述同一事物的特征。(  )

16.云存储是一种网上在线存储的模式,即把数据存放在通常由第三方托管的多台虚拟服务器,而非专属的服务器上。(  )

17.对离散变量的预测称为分类,对连续变量的分类称为回归。(  )

18.K-平均算法属于数据分类方法。(  )

19.聚类分析就是关联分析。(  )

20.Seaborm是一个很好的可视化库,可以实现交互可视化。(  )

三、应用题

21.重庆市教科院需要分析近几年高中学生学业水平考试的成绩情况,于是通过大数据采集的方法,从各个区县调取了大量的考试数据进行分析,下图为该数据的一小部分。

(1)在拿到数据之前,需要对数据中存在错误或异常或者没有值的数据进行处理,这个步骤称为_________________。

(2)分析人员发现一些记录中的成绩字段缺失,他们通常采用_________________的方法处理这些丢失数据的记录。

(3)分析人员希望将学生的各科成绩分为四个层次进一步分析,他们可以采用(  )的方法对数据进行分类。

A.关联分析

B.聚类分析

C.数据分类

D.数据可视化

(4)分析人员将数据分析完毕以后,他们可以采用(  )的方式,展示分析结果。

A.关联分析

B.聚类分析

C.数据分类

D.数据可视化

22.关于大数据的采集和云计算,完成下列题目。

(1)采集网络信息时,我们可以合法使用(  )对网络数据进行自动采集。

A.系统日志

B.数据挖掘

C.网络爬虫

D.问卷调查

(2)通过网络使用每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散存储在各个角落的磁盘中,这种存储方式称为(  )。

A.分布式存储

B.本地存储

C.移动存储

D.磁带存储 g3Bf6/ifSuaeRqBNB4GlrqokhABbDEORTvasTYLqQf1cENSjnal+njLGSQf2YZg5

点击中间区域
呼出菜单
上一章
目录
下一章
×