实体消解指南：使用Python进行数据匹配最新章节_迈克尔·希勒著

1.5 评估结果

统计方法能对线索进行评估和组合，进而比较属性，但是如何判定线索组合是否足够好呢？如何设置信度阈值来判定匹配性呢？这取决于线索的重要性，以及如何使用匹配结果。

如果更注重找出所有可能的配对，即使配对过程中出现了错配也没关系。对于这种情况，可使用召回率进行衡量。或者，即便遗漏了正确的配对，也不在错误的匹配上浪费时间。对于这种情况，使用精确度进行衡量。

在比较两条记录时，会呈现四种不同场景。表1-8列出了匹配决策与真实情况的不同组合。

表1-8：匹配分类

如果召回率很高，则表示假阴性相对较少，即当我们在判定时，很少忽视正确的候选对象。如果精确度很高，则表示做出的判定几乎总是正确的。

在极端情况下，假设我们将每一对候选记录都判定为匹配，则假阴性为零，召回率是1.0，这表示不会忽视任意的配对。当然，这样会导致精确度非常差，因为我们会错误地将许多非匹配判定为匹配。另一种情况是，如果我们只在理想情况下，即每个属性完全相同时才判定匹配，则永远不会判定错误，精确度为1.0，但这样做的代价是召回率非常差，因为许多正确的匹配会被错过。

当然，理想情况下，我们希望同时拥有高召回率和高精确度，也就是匹配结果既正确又全面。但这很难实现！第6章将更详细地介绍原因。