购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第6章
数据工程

知识体系构建

全新考情点拨

根据考试大纲,本章知识点多涉及单项选择题,偶尔出现案例分析题,预计分值2~3分。本章内容属于基础知识范畴,考查的知识点大多来源于教材,考生需理解和掌握易考知识点。

第1节 数据采集和预处理

知识点1 数据采集

1.数据类型

(1)__________是以关系型数据库表管理的数据。

(2)____________是指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、E-mail等。

(3)____________是指没有固定模式的数据,如所有格式的办公文档、文本、图片、HTML代码、各类报表、图像和音频/视频信息等。

2.数据采集方法

数据采集的方法可分为__________、____________、________和其他数据采集等。

知识点2 数据预处理

1.数据预处理的步骤

数据预处理的3个步骤:________、________、________。

2.数据预处理方法

·__________:缺失值样本占整个样本比例相对较小时,可以将有缺失值的样本直接丢弃。

·__________:把数据分成几个组,再分别计算每个组的均值,用均值代替缺失数值。

·__________:采用相似对象的值进行数据填充。

第2节 数据存储及管理

知识点1 数据存储

1.存储介质的类型

存储介质的类型主要有____、____、____、____、闪存、云存储等。

2.存储的形式

存储的三种形式是________、________和________。

知识点2 数据归档

基础知识

(1)数据归档过程是___________的,即归档的数据可以___________到原存储介质中。

(2)数据归档注意事项:数据归档一般______________执行;数据归档之后,将会_______生产数据库的数据,将会造成________;如果数据归档影响了线上业务,一定要________。

知识点3 数据备份

数据备份分类

(1)________:每次都对需要进行备份的数据进行全备份。会占用___________资源。

(2)________:每次所备份的数据只是相对上一次完全备份之后发生变化的数据。备份时间短、___________存储空间、数据恢复___________。

(3)________:每次所备份的数据只是相对于上一次备份后改变的数据。备份时间短、___________存储空间、数据恢复___________。

知识点4 数据容灾

基础知识

(1)________是数据容灾的基础。

(2)数据容灾的关键技术主要包括________技术和______________技术。

第3节 数据治理和建模

知识点1 元数据

元数据是关于__________。其实质是用于描述信息资源或数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。

知识点2 数据标准化

1.数据标准化的内容

数据标准化的主要内容包括____________、____________、数据模式标准化、数据分类与编码标准化。

2.数据标准化的过程

数据标准化阶段的具体过程:_____________、_____________、_____________、____________。

知识点3 数据模型

数据模型的分类

·___________________:也称为信息模型,它是按用户的观点来对数据和信息建模。

·___________________:是在概念模型的基础上确定模型的数据结构。

·____________________:是在逻辑模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放。

知识点4 数据建模

数据建模的过程包括____________、____________、____________、____________。

第4节 数据仓库和数据资产

知识点1 数据仓库

1.数据仓库的特点

数据仓库是一个__________、_________________、____________、包含汇总和明细的、稳定的________集合。

2.数据仓库的构成

(1)数据仓库的构成包括_________________、_________________、______________、________。

(2)____________是数据仓库系统的_________,是整个系统的数据源泉,通常包括企业的内部信息和外部信息。

(3)________________是整个数据仓库系统的________。

(4)______________________________对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并________。

(5)________主要包括各种查询工具、报表工具、分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

知识点2 数据资产管理

在数字时代,数据是一种重要的生产要素,把数据转化成可流通的数据要素,重点包含__________、__________两个环节。

第5节 数据分析及应用

知识点1 数据挖掘

数据挖掘的流程

数据挖掘流程包括____________、________、________、______________。

知识点2 数据服务

数据服务的内容

数据服务主要包括____________、________________________、____________。

知识点3 数据可视化

数据可视化分类

数据可视化分为7类:_______________、_______________、_______________、______________、______________、______________和______________。

第6节 数据脱敏和分类分级

知识点1 数据脱敏

1.数据的5个等级

L1____、L2____、L3____、L4____、L5____。

2.数据脱敏的方式

数据脱敏方式包括______________与________两类。

3.数据脱敏的原则

数据脱敏原则主要包括____________________、________________、__________________、________________、__________________、__________________。

知识点2 数据分类

数据分类有________、________两个要素。

知识点3 数据分级

(1)________:对国家安全造成________、______________,对公共利益造成严重危害。

(2)________:对国家安全造成轻微危害,对公共利益造成________、________。

(3)________:对__________的合法权益无危害或者造成轻微危害、一般危害、严重危害。 TUiGRdvqHBBBFXjF02JIMUVbtOVeTPuaAymMpyZZGsx6ZBvPuiDZLvA5cs2O1ONf

点击中间区域
呼出菜单
上一章
目录
下一章
×