正如第1章讨论的,要成功匹配或进行去重,需要确保数据以一致的方式呈现,并删除或纠正所有异常值。我们使用数据标准化一词,描述将数据集转换成一致格式并清理数据,以移除可能干扰匹配过程的无用额外字符的过程。
在本章中,我们将动手操作,通过真实案例学习数据标准化。我们将搭建工作环境,获取所需的数据,清理数据,然后执行简单的实体消解,做一些简单的分析。最后,评估数据匹配的结果,并分析如何改进匹配。
首先,我们会对案例做简要介绍,并分析为什么需要进行实体消解。 wGpShbnNgMc28mWK4awrmXlwBkm+x/mltARVXpWYn33bWvwpz4alZqTEQdCUACyk