实体消解指南:使用Python进行数据匹配
实体消解指南:使用Python进行数据匹配
机械工业 | 迈克尔·希勒
6.2万字
计算机

内容简介:在数据驱动时代,实体消解技术是打通数据孤岛的核心利器。本书以Python为工具,系统讲解从数据清洗到云端大规模部署的全流程技术: ·基础原理:解析实体消解5大步骤(数据标准化、分块、属性比较、匹配分类、聚类),直面姓名模糊、数据缺失、跨源匹配等实战难题; ·算法攻坚:详解编辑距离、Jaro-Winkler相似度等文本匹配技术,结合贝叶斯定理、期望zui大化算法构建概率匹配模型; ·工具实战:基于Splink实现企业级数据消解,通过谷歌云平台扩展至百万级数据集; ·前沿拓展:引入隐私增强技术(PSI),平衡数据利用与合规风险。 全书配套GitHub代码库,以英国公司注册署、海事署等真实数据演示跨领域(金融风控、供应链管理)场景应用,助力读者构建可复用的数据资产整合方案。

...

目录 92章查看目录

免费版权信息 免费O'Reilly Media,Inc.介绍 免费译者序
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

同类好书

加入书架
免费试读
全本购买
×