无须明确的定义,在本章开头的白板场景里,我们已经见识到了所谓的“图思维”。
当我们阐述数据可能看起来像一张图这种认识时,我们就是在重新创造图思维的能力。它是如此的直截了当:当你意识到理解数据中关系的价值时,图思维包含了你的经验和认识。
图思维将问题域理解为相互连接的图,并使用图技术来描述领域动态以解决领域问题。
能够看到数据中的图与识别领域中的复杂网络是一样的。在复杂网络中,你会发现需要解决的最复杂的问题。大多数极具价值的商业问题和机会都是复杂问题。
这也是为什么数据技术创新的下一阶段会从关注效率转移到关注提取价值上,尤其是通过应用图技术。
我们在没有明确定义复杂问题之前已经使用了很多次这个术语。复杂问题指的是复杂系统中的网络。
复杂问题
复杂问题指的是可以在复杂系统中被观测和度量的单个问题。
复杂系统
复杂系统是指一个由多个独立组件构成的系统,这些组件通过多种方式相互连接,使得整个系统的行为不是单一组件行为的简单聚合(也称为“突现行为”,emergent behavior)。
复杂系统描述真实世界构造的各独立组件之间的关系、影响、依赖和交互。简单来说,一个复杂系统可以描述多个组件之间交互所产生的任何事物。复杂系统的例子可以是人的认知、供应链、交通或通信系统、社会组织、全球气候甚至整个宇宙。
大部分高价值业务问题都是复杂问题,需要图思维。本书将教会你四种主要的模式——邻接点、层次、路径和推荐——用图技术来解决世界上各种业务中的复杂问题。
数据已经不再仅仅是业务的副产品。数据正日益成为我们经济中的战略资产。在此之前,我们需要用最便利的方式、最低的成本来管理数据,从而支撑业务运营。而现在,它变成了一种能够产生回报的投资。这需要我们重新思考处理和对待数据的方式。
例如,在NoSQL时代后期,我们见证了微软收购领英和GitHub。这些收购为解决复杂问题的数据价值给出了明确的衡量标准。具体来说,微软斥资260亿美元收购了营收仅为10亿美元的领英。而GitHub的收购价格定在了78亿美元,而其营收仅为3亿美元。
领英和GitHub都拥有其各自的网络图。它们的网络分别是关于职场和开发者的图。这使得对一个领域的复杂系统建模的数据价值放大了26倍。这两起收购开始彰显领域图数据的战略价值。拥有一个领域图会在公司估值上产生巨大的回报。
我们不想用这些统计数字来歪曲我们的意图。看到快速增长的初创公司的高倍收入并不是什么新鲜事。我们把领英和GitHub特别提出来作为例子是因为这两家公司发现并变现了数据价值。由于数据资产,这些公司的收入数倍于类似规模和增长的初创公司的估值。
通过应用图思维,这些公司可以展示、访问和理解其领域内最复杂的问题。简而言之,这些公司为一些最大规模、最困难的复杂系统构建了解决方案。
那些在重新思考数据战略方面处于领先地位的公司,同时也在为建模其领域最复杂的问题而创造技术。具体来说,谷歌、亚马逊、联邦快递、Verizon、Netflix和Facebook的共通点是什么?除了成为当今最具价值的公司以外,它们中的每一个都拥有其领域最大、最复杂的复杂问题的建模数据。每家公司都拥有构建领域图的数据。
仔细想一下。谷歌拥有全部人类知识的图。亚马逊和联邦快递有着全球供应链和运输经济的图。Verizon的数据构建了当今世界上最大的电信图。Facebook拥有全球社交网络的图。Netflix有娱乐产业的图,建模方式如图1-2所示,实现方式参见第12章。
图1-2:一种用图建模Netflix数据的方式,及本书中实现的最后一个示例——大规模协同过滤
展望未来,那些对数据架构进行投资,以建模其领域的复杂系统的公司将有望加入这些巨头的行列。对复杂系统建模技术的投资和从数据中提取价值同等重要。
如果你想从数据中获取价值,那么首先要看的是它的互连性。你要寻找的是数据所描述的复杂系统。在此基础上,你的下一个决策将围绕存储、管理和提取这种互连性的正确技术进行。