



我们通过案例展示数据实体消解过程中的常见挑战,以及为什么第一步的数据清洗非常重要。
假设我们研究的是决定英国下议院(英国议会的下院)成员是否连任的可能影响因素。我们推测,那些活跃在社交媒体上的政治家更可能成功连任。在本案例中,我们将重点考虑Facebook,因此我们查看上一次英国大选,分析保留席位的政治家中有多少人拥有Facebook账户。
维基百科有一个网页,其中列出了2019年大选当选的议会成员(议员),包括他们是否连任,但该页面缺少议员的社交媒体信息。幸好,TheyWorkForYou网站记录了现任议员的信息,包括其Facebook账户。因此,如果合并这些数据集,就可以对假设(即连任与社交媒体存在关联)进行验证。
TheyWorkForYou
TheyWorkForYou成立的目标是使议会更加开放和负责。TheyWork-ForYou由mySociety运营,这是一家英国慈善机构,它借助数字工具和数据使更多人参与管理。
如何将这两个数据集合并起来呢?尽管两个数据集都包括每位议员所代表的选区名称,但我们不能使用选区名作为共同的关键字。这是因为自2019年大选以来,已经进行了多次补选,选出了新的议员
。这些新议员可能拥有Facebook账户,但不应该作为连任人群,因为这可能导致分析出现偏差。因此,我们需要通过匹配两组记录中的议员姓名合并数据集,即消解实体,为每位议员创建单独的合并记录。