大数据分析与处理：实践者的研究方法最新章节_车海莺著

第3章
大数据的预处理

无论在实际数据分析或是理论模型构建中，所依据的都是实际生活中搜集而来的数据，而其中有价值的部分则被杂乱无章的数据掩埋，直接加以分析难度过高，因此数据预处理便尤为重要。好的预处理过程能够有效清除无用的重复数据，提高数据价值，减少数据规模，为后续工作减少计算开销。

3.1 数据预处理概述

数据预处理是指在正式分析前对获取到的数据进行一定处理，例如通过数据清洗、转换等方法对原始数据进行适当处理。采集得到的大量数据可能包括图片、视频、文字等多种形式，由于其复杂且无用信息较多，需对其预先处理以避免数据分析时影响结果的有效性和准确性。

本节围绕数据预处理这一概念展开介绍，论证了数据预处理的实际意义，同时简要概括几种数据预处理方法，对方法的详细介绍将在后续展开。

3.1.1 数据预处理的意义

数据预处理环节有利于提高大数据的一致性、准确性、真实性、可用性、完整性、安全性和价值性等方面质量，从而显著提高数据的总体质量。而预处理中的相关技术是影响大数据过程质量的关键因素。

3.1.2 数据预处理的方法

数据清理主要针对采集得到的脏数据、无用数据等进行处理。通过制定相关标准来规范数据采集过程，在源头方面对脏数据的产生加以控制：

1）优化系统设计。

2）统一不同数据源的属性值，同时编码尽可能清楚地给出对应明确的属性名称和属性值。

3）避免人工操作对数据集产生影响。

4）确保数据重要属性足够明显，可设置为必填项，便于寻找并修改异常值。

即使遵循上述标准获取数据，在大量采集的过程中仍难以避免该类问题。比如一组螺丝数据，包括螺丝孔径、加工工艺、螺纹钢材等许多相关数据记录在表中，容易造成数据重复记录，同时其无用属性过多。

数据预处理旨在解决采集数据产生的所有问题，主要包括数据清洗、数据转换以及数据归约等处理方式。

1）数据清洗：数据清洗主要处理冗余数据、残缺数据以及噪声数据方面的问题。对不同问题采用不同处理方式，如缺失数据可以选择删除或用近似值代替。

2）数据转换：在进行数据分析时通常需要对多个数据源的数据进行转换，使得多个数据源的数据在集成时具有符合要求的描述、定义和格式等属性，从而形成集中、统一的数据库、数据立方体等，这一过程有利于提高大数据的完整性、一致性、安全性和可用性等方面质量。

3）数据归约：数据归约是用于解决采集数据维度过高问题，在不损害分析结果准确性的前提下降低数据集规模，使之简化，进而降低数据规模，减少处理数据的运算时间。数据归约包括维归约、数量归约、数据压缩与变换等技术，这一过程有利于提高大数据的价值密度，即提高大数据存储的价值性。

3.2 数据质量

大数据采集过程中通常有一个或多个数据源，这些数据源包括同构或异构的数据库、文件系统、服务接口等，易受到噪声数据、数据值缺失、数据冲突等因素影响，因此需首先对采集到的大数据集进行预处理，用以分析其数据质量和价值。

数据质量可以从六个维度进行衡量，根据检查的复杂程度由低到高排列，这六个维度如表3-1所示。

表3-1 数据质量维度

数据质量的好坏直接影响实际结果。通常进行数据分析、挖掘的目的是企图发现数据中隐藏的知识和信息，从而对实际业务或产品进行优化。如果数据集本身质量不佳，自然很难得出有用的结论，甚至可能得到错误的结果。所以，进行科学、客观的数据质量评估是非常必要且十分重要的。常见的数据质量问题可以根据数据源的多少和所属层次进行划分。

3.2.1 单一数据源数据质量问题

单一数据源指数据采集过程中数据来源单一，比如仅从一个数据库获取数据。单一数据源的数据质量问题可以分为模式层问题和实例层问题。

单一数据源模式层问题：对于单个数据源而言，模式层问题很大程度上依赖于设计模式对数据的完整性约束。数据库的完整性约束决定了哪些数据值是可以被接受的。例如数据表示日期时，需要约束日期的格式和类型，确保数据库所有日期数据的格式统一。如dd/mm/yyyy；yyyy/mm/dd；mm/dd/yyyy。

单一数据源实例层问题：对于单个数据源而言，实例层问题是模式设计层面无法避免的，例如数据输入出现拼写错误、空白数值、重复数据以及噪声数据等。实例层质量问题出现在属性内部、记录内部和数据源内部。

1）属性内部：仅限于单个属性值错误，例如年龄值错误输入为2000。

2）记录内部（属性之间）：同一条记录中不同属性值不一致，例如年龄和生日无法对应。

3）数据源内部（记录之间）：同一数据源不同记录之间不一致，例如同一个ID的姓名不一致。

3.2.2 多数据源数据质量问题

多数据源指数据采集过程中数据来源多样，例如来自不同数据存储。多数据源数据质量问题可以分为模式层问题和实例层问题。

多数据源模式层问题：多数据源模式层的主要问题是命名冲突和结构冲突。

1）命名冲突是指对不同的数据对象采用相同的名字命名，或者对同一数据对象采用不同的名字命名。

2）结构冲突存在很多不同的情况，通常指采用不同的方式表示不同数据源中的同一个数据对象。比如同一个对象在不同数据集中，根据不同的属性粒度、不同的组成结构、不同的数据类型、不同的完整性约束等，对同一个实体有不同称呼（比如昵称和姓名）、对同一种属性有不同定义（字段长度不一致、字段类型不一致等）。

多数据源实例层问题：多数据源实例层的问题包括数据的维度不一致（比如存储时容量记录为GB或TB，或统计时时间区间不一致）、数据重复、拼写错误等。数据实例层面的冲突是指：

1）具体数据的冲突。在单数据源中存在的数据质量问题，在不同数据源中可能表现为不同形式，比如记录重复、记录冲突。即使不同数据源之间具有相同的属性名字和数据类型，也可能存在不同的数据值表示，比如对性别的描述，可以表示为男、女，也可以表示为M、F。

2）数据值的不同解释。不同数据源提供的信息可能聚合在不同层次，比如，某个数据源中单条记录描述的是某个产品的销售信息，而另一个数据源中的单条记录描述的是一组同类产品的销售信息。

3.3 数据清洗技术

数据清洗是指发现并纠正数据文件中可识别的错误的一系列过程，包括检查数据一致性、处理无效值和缺失值等。并不是所有采集到的数据都是有价值的，有些数据并非研究所关心的内容，有些甚至是完全错误的干扰项。因此要对数据过滤、去噪，从而提取出有效的数据。数据清洗是保证数据质量的重要手段之一。

数据清洗大致可分为以下三个阶段：

1）数据分析，定义错误类型。尽管已有一些数据分析工具，但仍以人工分析为主。将错误类型分为两大类：单一数据源与多数据源，并将它们再细分为结构级与记录级错误。这种分类非常适合于解决数据仓库中的数据清理问题。

2）搜索识别错误记录。有两种基本的思路用于识别错误：一种是挖掘数据中存在的模式，然后利用这些模式清理数据；另一种是基于数据预定义的清理规则查找不匹配的记录。后者用得更多。

3）修正错误。某些特定领域能够根据发现的错误模式编写程序，或借助外部标准源文件、数据字典在一定程度上修正错误；对于数值字段，有时能根据数理统计知识自动修正，但经常需要编写复杂的程序或借助于人工干预完成。

数据清洗一般针对具体应用，因而难以归纳统一的方法和步骤，但是根据不同数据问题可以给出相应的数据清洗方法。下面将介绍残缺数据处理、冗余数据处理和噪声数据处理。

3.3.1 残缺数据处理

残缺数据指缺失部分属性的数据，在采集得来的数据中，有很大一部分问题都来自数据缺失。由于设备异常无法记录某个状态对应的数据，或是人工操作时的疏忽，导致数据属性缺失或整体缺失。

对于这部分数据，如果是缺省值较多或者损失了重要属性的元组，由于难度或工作量较大，可以选择删除法，直接忽略该条数据。

如果缺失部分较少，通常可以根据推断重新添加数值，比如同一工厂的同一批螺丝，如果部分数据缺失，虽然实际数据各有差异，可以选择属性平均值或者初始默认值代替缺失部分。

3.3.2 冗余数据处理

除数据缺失问题，重复记录也是数据采集过程中难以避免的问题。通常由以下两种原因造成：在整合多个数据源的数据时出现重复；在输入时，重复记录某些数据。

冗余数据处理相较于残缺数据更为复杂。数据库中某些元组的某一属性值或许相同但分属于不同区间，所以在处理重复数据前需要加以判断。通过对比两条记录的相关属性，根据每个属性的相似度和属性的权重，加权平均后得到记录的相似度，如果超过某一阈值，则被认为是重复记录。

对于冗余数据的处理方法与残缺数据较为类似，如果两条记录完全重复，则将其删除。如果在整合多个表时出现数据重复，也可以选择增加额外属性（比如更新时间）加以区分。

3.3.3 噪声数据处理

噪声数据是一组测量数据中由随机错误或者偏差引起的孤立数据，它和缺失数据一样都属于脏数据，是数据清理的主要对象。噪声数据往往会导致数据超出规定的数据域，对后续的数据分析或模型训练造成不良影响。但噪声数据不同于缺失数据，它是被测量变量的随机误差或者方差。

目前处理噪声数据主要通过分箱、聚类和回归算法。

1.分箱算法

分箱算法将需要的数据按照一定规则放入一些箱子内，并检查每个箱子内的数据，用一定的方法分别处理箱子里的数据。这里所提到的箱子也就是一个区间范围，按照属性值分割区间。如果某个属性值在某个子区间范围内，则称将该属性值放入该子区间所代表的“箱子”中。分箱需要处理的主要问题有：如何划分箱子和数据平滑法。

（1）如何划分箱子

目前划分箱子的方法主要有等深分箱、等宽分箱、用户自定义分箱。

等深分箱法：等深分箱法根据数据记录行数进行划分，每个箱子中的记录数据条数相同，其中箱子中的记录数称为箱子的权重，也称为箱子的深度。

例如，学生奖学金排序为：800，1000，1200，1500，1500，1800，2000，2300，2500，2800，3000，3500，4000，4500，4800，5000（单位：元）。等深分箱结果如图3-1所示。

图3-1 等深分箱结果示意图

这里共有16条记录，箱子深度为4，分箱后有4个箱子，每个箱子包含4条记录。

等宽分箱法：等宽分箱法是将箱子均匀分布在整个区间上，即每个箱子的属性取值区间范围是一个常数，称为箱子宽度。例如对上面的例子设置区间范围（箱子的宽度）为1000元，结果也是4个箱子，箱子内的记录数量和内容则与等深分箱方法不同。等宽分箱结果如图3-2所示。

图3-2 等宽分箱结果示意图

用户自定义分箱法：用户自定义分箱法则是根据用户自己定义的深度或者区间范围进行分箱。

（2）数据平滑法

数据平滑法旨在对每个箱子内的数据进行平滑处理，所用的方法决定了每个箱子用什么值来代表。

分箱优点在于提高模型的稳定性与鲁棒性、防止过拟合、加快模型训练速度等，在很多分类问题上都会有分箱操作。在分箱完成后需要对数据进行平滑处理，通常使用数据的近邻来平滑数据；对于分到同一个箱子中的数据，可以用箱子中数据的平均值来替换所有数据，即平均平滑；也可以取箱子中数据的中位数来替换所有数据。

2.聚类算法

聚类算法是按照某个特定标准（如距离）把一个数据对象的集合分割成不同的类或簇，使得同一个簇内的数据对象尽可能相似，同时不在同一个簇中的数据对象尽可能不同。即聚类后同一类的数据尽可能聚集到一起，不同类的数据尽量分离。聚类算法的特点是无须任何先验知识，直接形成簇并描述簇。通过聚类分析可以发现异常数据，当数据聚合形成簇后，这些簇之外的数据对象被认为是异常数据。

聚类算法的一般过程为准备数据、特征选择、特征提取、聚类以及结果评估。其中聚类方法也多种多样，下面介绍其中三种方法。

1）划分式聚类方法：事先指定簇或类的数目或者聚类中心，通过反复迭代，直至最后达到“簇内的点足够近，簇间的点足够远”的目标。经典的划分式聚类方法有 k -means算法及其变体 k -means++、bi -k means、kernel k -means等。

2）基于密度的聚类方法： k -means算法对于凸数据具有良好的效果，能够根据距离来将数据分为球状的簇，但对于非凸的数据点就无能为力了。此时就需要用基于密度的聚类方法，该方法需要定义两个参数 ε 和 M ，分别表示密度的邻域半径和邻域密度阈值，DBSCAN就是该方法的典型。

上述几种算法确实可以在较小的复杂度内获取较好的结果，但是这几种算法却存在链式效应的现象，比如：A与B相似，B与C相似，那么在聚类时便会将A、B、C聚合到一起，但是如果A与C不相似，就会造成聚类误差，严重时这个误差可以一直传递下去。为了降低链式效应，需要用到层次化聚类方法。

3）层次化聚类方法：将数据集划分为一层一层的簇，后面一层生成的簇基于前面一层的结果。层次化聚类方法也分为两类：凝聚式（agglomerative）层次化聚类（自底向上）和分裂式（divisive）层次化聚类（自顶向下）。

3.回归算法

分箱算法是通过局部有序数据进行平滑，而回归则可以理解为对全局数据进行平滑处理，使用一个函数来拟合平滑数据，常用的如线性回归。线性回归即使用直线建模，将两个变量视作线性函数，例如 y = ax + b ，其中 a ， b 为回归系数，可通过最小二乘法计算得出。

3.4 数据转换

数据转换是将数据进行合并、清理和整合，通过转换将数据从一种表现形式变为另一种表现形式，并能够使不同的源数据在语义上保持一致。由于数据量不断增加，必然会出现原先的数据框架不能满足现阶段各方面要求的情况，此时就会面临从软件到数据库的全面升级。由于每个软件背后的数据库框架与数据存储形式都是不同的，会导致从数据库更换到数据结构更换，再到随后对数据本身进行转换。

出于各种原因，实际应用中可能会有转换数据的需求，比如希望部分数据转换后能与其他数据兼容、需要将部分数据移动到另一个系统、与其他数据连接、聚合数据中的信息等。

本节将围绕数据预处理中的数据转换技术展开介绍，包括数据集成与数据变换，并介绍了两种技术的处理方式及应用。

3.4.1 数据集成

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为后续工作提供全面的数据共享。在企业数据集成领域，已经有了很多成熟的框架可以利用。通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统，这些技术在不同的着重点和应用上解决数据共享问题并为企业提供了决策支持。

在大数据领域中，数据集成技术也是实现大数据方案的关键组件。大数据集成是将大量不同类型的数据原封不动地保存在原地，而将处理过程适当地分配给这些数据。这是一个并行处理的过程，在这些分布式数据上执行请求后，需要整合并返回结果。

狭义上讲，大数据集成是指如何合并规整数据；广义上讲，数据的存储、移动、处理等与数据管理有关的活动都被称为数据集成。大数据集成一般需要将处理过程分布到源数据上进行并行处理，并仅对结果进行集成。因为如果预先对数据进行合并会消耗大量的处理时间和存储空间。集成结构化、半结构化和非结构化数据时需要在数据之间建立共同的信息联系，这些信息可以表示为数据库中的主数据或者键值对、非结构化数据中的元数据标签或者其他内嵌内容。

数据集成过程着重解决三个问题：模式匹配、数据冗余、数据值冲突。

1）模式匹配：由于来自多个数据集上的数据在命名上往往存在差异，相同的实体常具有不同的名称。因此需要对不同的数据集进行模式匹配。如在实体识别问题中，从不同的数据源识别现实世界的实体并将它们映射在一起。例如：A.cust_id=B.customer_no。

2）数据冗余：冗余问题是数据集成中经常出现的另一个问题。若一个属性可以从其他属性中推演出来，那这个属性就是冗余属性。数据冗余可能源于数据属性命名不一致，在解决数据冗余的过程中，可以利用皮尔逊积矩相关系数来衡量数值属性，绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的相关性。

3）数据值冲突：对于现实世界的实体，其来自不同数据源的属性值可能不同，比如在表示方式、尺度或者编码上有差异。数据值冲突主要表现为来源不同的同一实体具有不同的数据值。例如成绩评判的百分制与十分制；重量属性的公制系统（使用千克）与英制系统（使用磅）；相同价格属性使用不同的货币单位（美元、英镑、人民币）。

3.4.2 数据变换

数据变换处理包括基于规则或元数据的转换、基于模型与学习的转换等技术，可通过转换实现数据统一，这一过程有利于提高大数据的一致性和可用性。可通过以下几种方式实现。

1）平滑：可以使用分箱、聚类和回归等平滑方法来消除噪声。也可以离散化连续数据，如图3-3所示，以增加数据粒度，减少进一步分析的数据量。

图3-3 离散化连续数据示意图

2）聚合：对数据进行汇总来构建数据立方体。如通过日销售数据计算月和年的销售数据。常用聚合函数包括avg（），count（），sum（），min（），max（）。例如，对日销售额（数据）进行合计操作可以获得月或年的销售总额，可以使用聚合后数据构建数据立方体，如图3-4所示。

图3-4 销售额（数据）构建数据立方体示意图

3）泛化：通过用更抽象（更高层次）的概念来取代低层次或数据层的数据对象。如地址中的街道属性，可以将其泛化到城市或者省市。对于数值型的属性，可以将其泛化到更高层次，例如具体年龄可以映射成青年、中年和壮年，如图3-5所示。

4）数据规范化：将数据按照一定比例进行缩放，通常用于将数据规范至某一特定区间内，如图3-6所示，从而消除因数值属性大小不同而导致的分析结果的偏差。

图3-5 年龄概念泛化示意图

图3-6 数据规范化示意图

5）属性构建：利用已有的属性集构造新的属性并将其添加到已有的属性集中，有助于挖掘更深层次的模式知识，提高挖掘结果的准确性。例如，根据宽度和高度属性，可以构造一个新的属性：面积。

3.5 数据归约

数据归约是从数据库或数据仓库中选取并建立使用者感兴趣的数据集，然后从数据集中过滤掉一些无关、偏差或重复的数据。如图3-7所示，使用数据归约（减法）技术，有助于从原始庞大的数据集中得到一个精简的数据集，并使这个精简的数据集保持原始数据集的完整性，显然这样对精简数据集进行数据分析效率更高，且分析结果与使用原始数据集得到的结果基本一致。

图3-7 数据归约示意图

数据归约标准：

1）用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。

2）归约得到的数据比原数据小得多，但可以产生相同或几乎相同的分析结果。

数据归约主要方法包括：维归约、数量归约、数据压缩与变换等，下面将详细介绍这三种方法。

3.5.1 维归约

维归约是减少需要考虑的属性个数，该方法将源数据投影到更小的空间内。主要介绍三种方法：属性子集选择、小波变换与主成分分析。

1.属性子集选择

属性子集选择通过删除与分析目的不相关或冗余的属性，使得分析目的更容易实现或理解。所以如何选择最优子集是需要重点考虑的问题，通常使用统计的显著性检验来确定最佳子集，此处不详细描述假设检验，只提供四种子集选择方法。

1）向前选择法。该过程从空属性集开始，每次迭代将原属性中最好的属性加入集合，最终选择最优属性集合。

维归约中采用向前选择法选择相关属性子集的步骤如下，如图3-8左侧图所示：

从一个空属性集（作为属性子集初始值）开始。

每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。

直到无法选择出最优属性或满足一定阈值约束为止。

2）向后删除法。和向前选择相反，该过程从全集开始，每次迭代从原属性中选择最差的属性从集合中删除，最终留下的即为最佳属性集合。

维归约中采用向后删除法选择相关属性子集的步骤如下，如图3-8右侧图所示：

从一个全属性集（作为属性子集初始值）开始。

每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中删除。

直到无法选择出最差属性或满足一定阈值约束为止。

图3-8 属性子集向前选择法和向后删除法步骤示意图

3）向前选择和向后删除组合法。该过程就是前面两种方法的组合，每一次迭代选择最优的属性加入集合，同时从集合中删除最差的属性。

4）决策树归纳法。决策树最开始的目的是分类，它可以在每个节点上选择最好的属性，将数据进行分类，所以可以将出现在树中的属性归约为属性子集。利用决策树归纳方法对初始数据进行分类归纳学习，获得一个初始决策树，所有没有出现在这个决策树上的属性均认为是无关属性，因此将这些属性从初始属性集中删除，就可以获得一个较优的属性子集。

2.小波变换

小波变换是一种信号处理技术，可以用于多维数据变换，它的主要思想是通过留存一些最强的小波系数，保留近似的压缩数据。如用户设定一个阈值，大于这个阈值的小波属性予以保留，小于该阈值的属性值置0，如此可以得到更为稀疏的数据，在小波空间内计算就变得更高效。该方法不仅可用于数据归约，由于它可以平滑数据，所以还可以用于数据噪声处理。

3.主成分分析

主成分分析（Principal Component Analysis，PCA）属于泛因子分析的一种（主成分分析中主成分是原始变量的线性组合，因子分析中原始变量是新因子的线性组合），它搜索 k 个（ k ≤ n ）最能代表数据的 n 维正交向量，如此，就把原属性投影到一个更小的属性空间上，实现维归约。该方法与子集选择不同的是，它会创建一个替换原属性集的新属性集，而不是直接在原属性集上选择子集。其主要过程如下。

规范化输入数据，主要目的是避免较大属性在整个选择过程中权重过大；

计算 k 个标准正交向量（正交可以理解为低维空间中的垂直），作为规范化输入数据的基，这些向量就是主成分，输入数据是这些主成分的线性组合；

主成分充当了数据的新坐标系，提供了方差信息，理论上当 k = n 时，就能代表全部信息；

对左右成分按照重要性排序，去掉比较弱的成分，保留下来的就是主成分。

3.5.2 数量归约

数量归约是使用较小的数据来替换原数据，使用的方法有参数方法和非参数方法。参数方法是使用模型来估计数据，使得最终只需要存储模型参数，而并非实际数据。非参数方法并不使用参数来表示原数据，而是通过对数据进行一些特殊的划分以减少原数据。下面介绍一些常用的非参数方法。

1） 抽样。 抽样是最常用的方法，其方式有很多，比如有放回抽样、无放回抽样、簇抽样、分层抽样等。抽样很高效，它的复杂度为 O （ n ）。

2） 直方图。 直方图以对数据分箱的方式来进行数据归约。确定箱子和属性值的划分涉及两种规则，分别是等宽（每个箱子的宽度区间一致）和等频（每个箱子的频度粗略估计为一个常数），但是它的复杂度是指数级别的。

3） 聚类技术。 聚类技术也可以用于数据归约，每个簇内的对象彼此相似（和直方图中的箱子类似），而与其他簇相异。不过用簇代替实际数据比较依赖数据的性质，比如数据在拓扑结构上能组织成簇，那聚类就会比较有效。当然，如果数据本身非常离散，不具有局部相似的结构，基本上也难以取得效果较好的数量归约。

3.5.3 数据压缩与变换

数据压缩是通过数据变换对原数据进行归约或压缩，前两小节中的维归约和数量归约都可以理解为数据压缩的一种。

数据压缩技术可以分为无损压缩和有损压缩。

1） 无损压缩。 无损压缩（lossless compression）可以不丢失任何信息地还原压缩数据，它有广泛的理论基础和精妙的算法，常见的如字符串压缩。

2） 有损压缩。 有损压缩（lossy compression）则是重新构造原数据的近似表示，有时可以在不解压整体数据的情况下，重构某个片段。例如生活中常用到的视频/音频压缩。

数据变换的目的则是将数据加工成易于分析挖掘的形式。目前常用的规范化方法有归一化和标准化。前者在固定的0～1区间内进行分析，如图3-6所示，类似前面介绍主成分分析时，为了避免数值较大属性对维归约的影响，就会对原数据进行归一化处理。归一化计算公式如式（3-1）所示，其中 x′ _i 是归一化之后的数据。

后者则是利用正态分布的相关参数进行标准化。

除规范化外，还有数据平滑、特征工程、数据分组和离散化等。如前面提到的分箱、回归都是在进行数据平滑。特征工程的内容很丰富，此处不做详细说明。离散化则是将属性值（连续值）域的范围划分为若干个区间来减少属性值（连续值）的数量。

总结

本章从大数据预处理的实际意义出发，探究了几种常见的数据预处理问题，详细介绍了几种不同的数据预处理方法，如数据清洗、数据转换、数据归约等。针对不同问题使用不同方法，在保证数据质量的同时，减少数据规模或维度，实现对数据的初步处理。

习题

1.【单选】以下哪些属于单一数据源模式层问题？（　　）

A.工厂记录2月31日运输一批货物

B.购物记录中用户姓名拼音拼写错误

C.甲乙两家施工方对对接部分分别称为“连接点”和“对接桥梁”

D.多家学校共同搭建图书平台时出现各自容量记录不同的情况

2.【多选】以下哪些是数据变换的处理方法？（　　）

A.数据平滑

B.小波变换

C.数据泛化

D.属性构建

3.简述数据清洗的三个阶段。

4.数据压缩有哪几种技术？

5.简述数据集成中的三个问题。

第3章 大数据的预处理