网络告诉我们,有时候将不同的数据连接在一起,比将它们合并到几个僵化的表格中能更好地完成任务。它还告诉我们,连接本身就是一种信息形式。关系类型很多:父子、购买者-产品、朋友等。正如Berners-Lee所观察到的,我们可以从连接中获得某些含义。当我们知道某个人为人父母时,我们可以推断出他具有某些特定的生活经历和关注点。我们还可以对父母和孩子之间将如何相互影响做出有根据的猜测。
然而,网络只是强调了一个一直以来就存在的事实:在表示数据和分析数据时,数据关系至关重要。图比表格更能体现关系的信息内容,这种信息丰富的数据格式可以更好地表示复杂的信息,当涉及分析时,它会产生更有洞察力的结果。面向业务的数据分析人员喜欢将关系可视化为直观的图,数据科学家发现,信息越丰富,越能产生准确的机器学习模型。此外,在处理多级连接(或多跳)搜索任务时,图数据库通常比关系数据库执行得更快。
谷歌的创始人认识到,互联网将会变得过于庞大,以至于任何人都无法掌握,因此我们需要用工具来帮助我们搜索和推荐页面。谷歌早期成功的关键因素之一是PageRank算法,该算法将互联网视为一组相互连接的页面,并仅基于它们的连接模式来决定哪些是最有影响力或最权威的页面。
多年来,搜索引擎已经变得越来越擅长从查询语句中推断出我们真正的意图以及我们认为有用的东西。谷歌为此使用的一个工具是知识图谱(Knowledge Graph),它是一个集合,把在网络中获取并经过分类和标记的事实和概念连接起来。在分析用户的查询语句,理解了表面词义以及其隐含的查询类别和目标之后,谷歌会搜索其知识图谱来找到与之最匹配的事实,并以清晰易读的格式在侧边栏中呈现。只有图才具有这种灵活性和表现力,更方便让人们理解这一大堆事实。
Facebook最初是一款面向大学生的社交网络应用,如今已发展为全球最大的在线社交网络。我们可以清晰地看到,Facebook非常关注网络和图。从每个用户的角度来看,每个用户都是一个个体,都有自己的朋友圈。即使我们以个体行动,人们也往往自然而然地聚集成社区,这些社区就像有生命一样不断进化并逐渐具有影响力。社区对我们所接收的信息以及我们形成自己观点的方式有着强大的影响。企业利用社区行为来推广产品,人们也利用社交网络来推动社会活动。了解这些社区对于理解社会动态至关重要,尽管这些社区无法在列表视图中直接看到。
同样的信息可以以表格或图的形式呈现,但图能够展示表格无法表达的内容。请想一想家谱图。虽然我们可以在表中列出所有亲子关系,但这样的表格可能无法捕捉到横跨多个关系的重要模式,比如家庭、孙辈、表亲等。
另一个不太明显的例子就是金融交易图。金融机构和供应商寻找可能存在欺诈或洗钱活动的特定交易模式。其中一种模式是闭合循环:大量资金从一方转移到另一方,且很高比例的资金又返回到了原资金转移方。图1-2展示了这样的循环,它来自第5章中的金融欺诈案例,这个循环是从包含数百万笔交易的图数据库中提取出来的。其他模式可以是线性的或Y形的,任何可能性都存在。采用何种模式取决于数据的性质和人们的兴趣点。
图1-2:一组闭合循环交易的搜索结果图
模式不仅取决于形状,还取决于顶点和边的类型。图1-2有两种类型的顶点:账户和交易(交易是顶点,而不是边)。如果我们愿意,还可以将人和账户分成不同的实体。一个人可以与多个账户关联。此举拆分了实体,使分析能够聚焦于个人行为而非单纯的账户行为。将关键概念建模为顶点类型,可以进一步丰富搜索和分析能力,在后续章节中我们将深入探讨这一点。