



全球各地的人们正以前所未有的速度收集和存储海量数据,每天新增的数据量更是惊人。这些数据不仅记录了我们所生活的世界,还记录了人、地点和事物的属性及其变化趋势。
在全球化的数据处理体系中,不同的组织各自收集了关于同一实体的大量信息,这些信息往往是重复的。并且,每个组织都有自己独特的数据整理和分类方式。
公司和机构试图从原始数据中提炼出有价值的信息。人们开发出先进的分析技术,以发现数据中的规律、提取有价值的信息,甚至尝试预测未来。算法的性能取决于输入数据的质量和丰富程度。通过结合多个组织的数据,通常可以创建出更丰富、更完整的数据集,从而得出更有价值的结论。
本书将指导读者连接不同来源的数据集,以创建更丰富的描述世界的数据集。连接数据集的过程有多种术语,包括名称匹配、模糊匹配、记录关联、实体对齐和实体消解。本书使用实体消解描述解析过程,即将涉及真实实体的数据进行关联的过程。