购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章
数据标准化

正如第1章讨论的,要成功匹配或进行去重,需要确保数据以一致的方式呈现,并删除或纠正所有异常值。我们使用数据标准化一词,描述将数据集转换成一致格式并清理数据,以移除可能干扰匹配过程的无用额外字符的过程。

在本章中,我们将动手操作,通过真实案例学习数据标准化。我们将搭建工作环境,获取所需的数据,清理数据,然后执行简单的实体消解,做一些简单的分析。最后,评估数据匹配的结果,并分析如何改进匹配。

首先,我们会对案例做简要介绍,并分析为什么需要进行实体消解。 wGpShbnNgMc28mWK4awrmXlwBkm+x/mltARVXpWYn33bWvwpz4alZqTEQdCUACyk

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开