购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.4 实体消解过程

为了克服前文提到的挑战,基本的实体消解过程可分为4个连续的步骤:

1.数据标准化

2.记录分块

3.属性比较

4.匹配分类

完成匹配分类后,可能需要进行额外的后处理:

● 聚类

● 规范化

我们依次简要介绍这些步骤。

1.4.1 数据标准化

在比较记录之前,需要确保数据结构的一致性,以便对属性之间的等价性进行测试。我们还需要确保属性的格式是一致的,这一处理步骤通常包括拆分字段、删除空值和多余字符。针对不同源数据集,数据标准化步骤通常是定制的。

1.4.2 记录分块

为了应对数据量太多、比较量太大的挑战,通常使用分块加以处理。不是将每条记录与所有其他记录进行比较,而是基于某些属性,先从全部记录中选定部分记录,对其进行比较。通过这种过滤方法,集中精力消解最可能成功匹配的记录。

1.4.3 属性比较

随后,对于由分块过程选定的记录,比较记录的各条属性。可以基于属性之间是否精确匹配,或根据相似度函数,判定等价程度。属性比较过程会生成关于记录对的等价值结果。

1.4.4 匹配分类

实体消解过程的最后一步是,通过评估各属性之间的总体相似度判定两条记录是否匹配,即解析二者是否指向同一真实实体。可以根据一组手动定义的规则做出判定,或者基于机器学习的概率方法做出判定。

1.4.5 聚类

完成匹配分类后,就可以根据匹配对,将记录分组成相关的簇。记录对是否包含在某个簇中,可能由另一个参数,即匹配信度阈值决定。小于此阈值的配对记录将形成独立的簇。如果匹配标准支持不同的等价性标准,那么簇可能是不可传递的,即记录A可能与记录B配对,记录B与记录C配对,但记录C可能不与记录A配对。因此,簇可能高度相连或松散耦合。

1.4.6 规范化

消解完成后,可能需要确定用哪些属性值来表示实体。如果使用近似匹配技术确定等价性,或者针对配对或簇中未被用于匹配过程的其他可变属性,则可能需要判定哪个属性值最具代表性。最后,在后续计算中使用结果中的规范属性值描述消解实体。

1.4.7 示例

我们将以上步骤应用于示例中的数据。首先,对数据进行标准化,拆分姓名属性,标准化出生日期,并删除出生地和手机号字段中的多余字符。表1-6展示了清洗(即数据标准化)后的记录。

表1-6:第一步—数据标准化

在这个简单的示例中,我们只需要考虑一对属性,因此不需要应用记录分块。我们将在第5章讨论记录分块。

接下来,比较各个属性以进行精确匹配。表1-7展示了每个属性的比较结果,标记为“匹配”或“不匹配”。

表1-7:第三步—属性比较

最后,我们应用第四步,判定整体是否匹配。一个简单的规则是:如果大多数属性匹配,则认为整体记录是匹配的,就像本例一样。

我们也可以考虑各种匹配属性的组合是否足以判定匹配性。对于这个示例,要判定匹配性,可以使用下面两种组合:

● 姓名匹配并且(出生日期或出生地匹配)

● 姓名匹配并且手机号码匹配

我们可以更进一步为每个属性比较分配相对权重。比如,手机号码匹配的权重可能是出生日期匹配权重的两倍。结合权重,生成一个总匹配分数,并根据给定的信度阈值进行考量。

在第4章中,我们将更深入地研究如何用统计方法和机器学习确定相对权重的值。

正如示例所示,在判定是否匹配时,不同属性的作用可能具有不同的权重。之前,我们尝试对常见姓名与罕见姓名进行比较,以判断是否匹配。例如,在英国,相比于两个人都姓Smith,两个人都姓Shearer提供的信息更多,这是因为姓Shearer的人比姓Smith的人少。因此,用常见姓氏进行比较,匹配的可能性较低(先验概率较低)。

对于取值有限的类别属性而言,当某些属性值出现频率显著高于其他值时,概率方法的效果尤为出色。如果考虑将城市属性纳入英国地址匹配数据集,则由于伦敦的出现频率可能远高于巴斯,因此伦敦可能会被赋予较低的权重。

注意,我们尚未判定示例中哪个出生日期是正确的,因此还面临规范化的挑战。 t3yWYxd5dEdOk6lZQBbjI6E4idNxRaIg4lk5KDTTkTD6elQK5JC3toHBql3m4/ZQ

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开