购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.5 评估结果

统计方法能对线索进行评估和组合,进而比较属性,但是如何判定线索组合是否足够好呢?如何设置信度阈值来判定匹配性呢?这取决于线索的重要性,以及如何使用匹配结果。

如果更注重找出所有可能的配对,即使配对过程中出现了错配也没关系。对于这种情况,可使用召回率进行衡量。或者,即便遗漏了正确的配对,也不在错误的匹配上浪费时间。对于这种情况,使用精确度进行衡量。

在比较两条记录时,会呈现四种不同场景。表1-8列出了匹配决策与真实情况的不同组合。

表1-8:匹配分类

如果召回率很高,则表示假阴性相对较少,即当我们在判定时,很少忽视正确的候选对象。如果精确度很高,则表示做出的判定几乎总是正确的。

在极端情况下,假设我们将每一对候选记录都判定为匹配,则假阴性为零,召回率是1.0,这表示不会忽视任意的配对。当然,这样会导致精确度非常差,因为我们会错误地将许多非匹配判定为匹配。另一种情况是,如果我们只在理想情况下,即每个属性完全相同时才判定匹配,则永远不会判定错误,精确度为1.0,但这样做的代价是召回率非常差,因为许多正确的匹配会被错过。

当然,理想情况下,我们希望同时拥有高召回率和高精确度,也就是匹配结果既正确又全面。但这很难实现!第6章将更详细地介绍原因。 jkoyEBU4fyyO3FaCuntgQQPNbts6Jxn/kxVAef2Hru9D0pU7g5z5gVNOObk122F4

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开