



统计方法能对线索进行评估和组合,进而比较属性,但是如何判定线索组合是否足够好呢?如何设置信度阈值来判定匹配性呢?这取决于线索的重要性,以及如何使用匹配结果。
如果更注重找出所有可能的配对,即使配对过程中出现了错配也没关系。对于这种情况,可使用召回率进行衡量。或者,即便遗漏了正确的配对,也不在错误的匹配上浪费时间。对于这种情况,使用精确度进行衡量。
在比较两条记录时,会呈现四种不同场景。表1-8列出了匹配决策与真实情况的不同组合。
表1-8:匹配分类
如果召回率很高,则表示假阴性相对较少,即当我们在判定时,很少忽视正确的候选对象。如果精确度很高,则表示做出的判定几乎总是正确的。
在极端情况下,假设我们将每一对候选记录都判定为匹配,则假阴性为零,召回率是1.0,这表示不会忽视任意的配对。当然,这样会导致精确度非常差,因为我们会错误地将许多非匹配判定为匹配。另一种情况是,如果我们只在理想情况下,即每个属性完全相同时才判定匹配,则永远不会判定错误,精确度为1.0,但这样做的代价是召回率非常差,因为许多正确的匹配会被错过。
当然,理想情况下,我们希望同时拥有高召回率和高精确度,也就是匹配结果既正确又全面。但这很难实现!第6章将更详细地介绍原因。