虚拟现实与媒介的未来最新章节_薛亮著

第三节
大数据、宏数据与数据湖

一、大数据（Big Data）

数字世界每时每刻都在飞快地产生大量不同格式的数据。物联网的出现只会加速这个趋势。数据大爆发使得微信、微博等软件应用及谷歌、亚马逊（Amazon）和脸书等大型网络公司不断开创新方法，利用计算机产业去处理和分析这些巨量数据，数据就是他们的“原材料”。所有人都在关注实时执行分析数据的能力。因此，大数据的概念也就应运而生。

大数据是指无法在可承受的时间范围内（几乎与信息交换同时进行）用常规程序（甚至是数据引擎）进行捕捉、管理和调度的数据集合。

可用的数据量以不同的格式快速增长，但数据存储成本却在下降，技术发展为数据存储和数据管理开拓了新视野，由于巨大的容量以及微小的数据结构，我们可以用不可思议的低成本存储一切东西，因此巨量数据的存储越来越容易。但是，不管是数量还是格式，巨量数据的处理仍然面临许多问题。这便是大数据所关注的重点，而“宏数据”（后文详解）更关注分析维度、价值密度以及公司决策过程中的大数据整合。我们应当将大数据看作是一种新的数据源头，而不是一个能够代替现有商业智能框架的概念。公司必须对其进行整合，与现有数据建立联系。不管是出于战略目的或运营目的，为了帮助公司更好地做出决策，大数据应当被纳入公司处理、利用、传播数据的方案之内。在派生价值方面的一个难题来自存储过程中未经处理的数据“噪音”（冗余数据最终会“杀死”数据），这是消极的一面。但是，积极的一面是“原始”数据的存储让我们得以从“源”数据中寻求新发现。如果数据在存储时就已经被处理或过滤的话，这一点就无法做到。

二、大数据的“4V”特点

（一）海量

2018 年，全世界有超过 40 亿的互联网用户通过使用IP地址在超过 60 亿个设备上连接网络。IP地址也叫因特网协议，是允许某个联网设备进行身份确认的唯一识别器，只有通过识别，用户才能进行网络交流，它主要用于智能手机、平板电脑和台式电脑。仅 2014年就产生了 8 艾字节的数据（10 的 18 次方＝百亿亿字节）。字节是一个八比特序列（比特Bit是计算的基本单位，用 0 或 1 表示），是信息数字化的条件。随着联网设备的出现（电视、摄像头等日常生活中的物品都将连接互联网），在不远的将来，我们大概会有 500 亿这样的物品，每年可产生超过 4000 艾字节（40 万亿字节）的数据！显然，互联网是烦琐复杂的，几乎每一分钟就会发生几十亿个事件。有些事件对于公司来说具有价值，有些事件意义重大，有些事件则无足轻重。但是，为了做出决策，我们必须对它们进行浏览、分类。简而言之，我们需要通过存储、过滤、组织和分析来“减少”这些数据。

（二）多样

一直以来，我们通常只需要处理交换系统当中高度结构化的数据，一旦被提取并转化，这些数据便会存入所谓的决策数据库。这些数据库的主要区别在于数据模型、数据存储方式或是数据之间的关系。

交换数据模型：在这个数据存储和操作结构的模型当中，阅读、撰写和修改数据的执行速度是重点，其目的是减少交换的持续时间，增加并行操作（例如，在无须访问历史数据的条件下，一个电商网页必须能够支持几千名网络用户通过选择标准在线同时浏览产品和价格目录）。我们将它称为“标准化”数据模型，一种按类型或实体组织的数据结构（例如将消费者数据储存在一个与产品数据或发票数据不同的数据结构中），这将减少甚至解决数据冗余问题；但是，我们必须管理这些实体之间纷繁复杂的关系（这要求我们掌握数据模型的相关知识。由于太过复杂，这些操作经常是透过一些应用程序执行，商业分析人员很少会亲自执行）。总之，标准化模型可以提高交易活动的效率，但执行此数据模型下的商业智能框架就会变得困难，除了操做报告以外（缺乏分析空间）。

决策数据模型：在这个模型当中，分析和建模是重点，需要大量的历史信息，以年为计量单位，数据的范围也更大（例如所有季节的所有产品等）。因此，关系数据模型不太适用于此（关系数据模型包含实体之间的联系和关系，与数量有关，会大大影响请求的执行时间）。这个问题的解决办法就是执行标准化数据模型。这些模型的结构更为简单（通常是“星星”或“雪花”的形状，“雪花”相当于按维度拼接的一组星星），原始数据被存储在包含所有实体的单一结构当中。例如，消费者、产品、价格以及发票信息都储存在同一个表格（也叫事实库）当中，通过分析存取，从而形成一个星星的形状（这也是名字的由来）。这个数据模型可以轻易存取（除了访问维度表格需要的链接以外，几乎没有链接），随后形成顺序存取（尽管已经加了索引）。但是，这会造成数据冗余，原因在于信息存储在“事实库”的方式。公司需要处理半结构化（甚至无结构）信息，比如短信、博客、社交网络、网页日志、电影、图片等。这些新型数据需要特殊处理（分类、挑选）才能整合至公司的决策框架当中。

（三）高速

永不停息的互联网及其数十亿的用户每天都会产生不间断的活动流，所有的这些活动（包括商业、社交、文化等）都是由诸如电商网页、博客和社交网络等软件代理载体进行管理，而这些软件也在不断地产生数据流。公司必须“实时”处理这些数据。我们总是很难定义“实时”这个词，但在互联网的背景下，我们可以说，这个时间必须与用户会话的短暂性保持一致。公司必须能够采取行动，及时应对，在任何时候都能为消费者提供内容、产品和价格等信息，这样才能在激烈的竞争中站稳脚跟。消费者并不属于（或不再属于）某个公司或品牌，忠实的概念越来越模糊。最后，公司或品牌只能拥有消费者愿意赋予他们的时间。在这些情况下，满足消费者的期望应该放在第一位。

（四）价值

我们能从大数据中挖掘什么价值？这才是关键。适用于大数据的东西对所有数据都有用。没有价值的数据只会消耗成本（处理和储存等成本）。因此数据的价值在于其用途。应充分意识到，仍有相当多的数据等着去挖掘。全球化和数字化更加凸显了这点，因此挖掘数据价值的竞争越来越激烈，机会越来越多，所以优势在于是否有先发之力。大数据遵循着同样的规则，我们应该将它看作是信息（结构化和非结构化）的额外源头，不管是从技术还是人力角度，都将丰富战略决策。这就是一个“炼丹炉”，由此，大数据开始向宏能数据转化。

三、数据湖

数据湖是一种整理与储存数据的新方法，与当前的大数据结构相关。数据湖的理念就是存储任何格式和尺寸的数据，无论是“原始数据”还是变换数据。数据湖的目的不是将数据分析限制在一个预先定义的格式或机构当中（比如现有的分析数据库），而是允许分析人员和数据消费系统（自主分析过程）无须任何“过滤器”就能获取源数据。简而言之，其目的是提高实施不同数据项目或方案的灵活性，增加效率。目前流行的数据湖程序是“云”。

数据湖与传统数据存储之间最主要的差别在于，二者的数据库结构不同。传统数据存储拥有预先定义的数据模型，即必须遵循的存储方案，这些数据模型主要用于存储预先设定格式（比如指标和维度等）的变换数据，并且在构建数据库模型期间形成物理格式。因此在这种情况下，数据在“写入”目标数据库的当下就形成了结构。而没有进入目标数据库的源数据就无法被用户（消费数据的分析人员和系统）获取。当然，这种数据结构的局限以及所有的新数据调用、分析和处理需求都要由技术团队进行烦琐的操作。在新的目标数据模型要求恢复历史数据时，这一局限就暴露无遗。每一次改变数据都要大规模重复。用户事实上任由数据存储供应商“摆布”。

对数据研究、创新和灵活性，迫使工程师们重新思考数据存储的方式——如何适应一个瞬息万变的数字化环境才是关键。要求数据存储的时间越来越短，甚至必须进行实时交互。这是传统数据存储服务做不到的，因为数据湖不仅可以通过数据报告创造价值，还能利用数据进行交互操作，比如交易互动（人工智能便是一个极佳的例子）。

数据湖与传统数据存储的区别在于，数据的结构化与数据读取几乎同时发生，因此分析人员和分析系统必须在读取数据之前明确自己想要的数据。打个比方，在数据湖中，渔网和网格的大小决定了鱼的大小。这种读取即结构的方法仅适用于数据使用期间，它允许源数据以原始状态保存，从而保留其分析潜能。其缺陷在于，我们需要培养使用工具的技能，更多地了解相关知识（显然，这里指的是更技术化的工具，对于源数据的理解要更“敏锐”）。数据湖管理平台的丰富性让数据科学家可以更好地利用数据，快速构建分析方案。这其中也经常涉及机器学习过程，因为机器学习的目的就是利用所有可用数据去构建一个内在联系、自主学习的分析方案。很多情况下，公司总是在现有的分析设施出现问题时才会考虑执行数据湖管理。商业部门需要简化可用性、集中资源、加速创新循环，以更好地利用数据。

出于消费者交互分析目的，媒体和营销产业率先实施数据湖管理，整合数据湖的数据管理平台（Data Management Platform）因此诞生。这些数据随后整合了机器学习和标准分析流程，允许我们在联系或购买环节采取行动及做出回应。从物联网、可追溯性以及安全性来说，该应用领域正在日益扩大。由数字化带来的巨大采集量和信息量为新技术开拓了新的应用领域，这有助于我们掌握巨量的数据，使其用途自动化，也标志着“宏数据”登上了历史舞台。

四、宏数据（Mega Data）

宏数据也是智能数据，这是一切的前提。宏数据指的是不同数据来源（包括大数据）为了进入决策和行动进程而采取的调整、关联、分析的方法。从数量和速度来说，很多数据虽然“大”，但有多少是“宏”（对公司具有价值）的呢？

我们必须将宏数据看作是一套技术、流程以及能够帮助我们从数据中提取价值的相关组织（比如商业智能运营中心）。商业智能是宏数据的基础，宏数据是商业智能的基本核心之一（不管是分析还是运营）。在商业智能“2.0”的推动下，宏数据具备新的特点，比如，它融入商业流程的方式更为正式。在当前的商业流程中，必要信息必须传达至公司各级部门，决策必须与执行紧密结合。商业管理和优化指标需要与决策和执行流程保持一致。过去，运营部门会快速拨款给这个新一代的工具，将其操作方法而非分析方法纳入考量。通过设立普遍可衡量的指标和目标（关键绩效指标），公司上下层的管理就更容易保持一致。商业智能组织，例如商业智能运营中心（BICCS），就是采用这种方法发展起来的。全球化使决策去中心化，世界日益数字化，决策和执行流程变得刻不容缓。随着交易型解决方案的出现，不同世界之间的关系更为强大。互联网改变了决策和执行的格局，交易流程的数字化（例如电商网站）加速了交易世界（运营活动）和决策世界（分析活动）之间的流动融合。这种对接迫切要求减少“决策”循环的持续时间，包括数据捕捉、转化、存储、分析与发行（为了供给决策执行循环）。

下面以电子商务为例，来说明宏数据。例如电商网页的推荐引擎。在交易背景下，数据分析得到扩充，基于这些数据分析，软件代理进行实时交互，为用户做出推荐（在交易过程当中，网站可以为用户推荐不同的产品和价格，这取决于用户的导航轨迹或是对用户偏好的掌握）。在执行规则方面，推荐引擎将会使用：区段、分数、偏好等偏好型数据；交易背景数据、导航路径；事件通知，如果某个事件发生，可以快速通知用户（比如物流跟踪），甚至可以自动激活与事件相关的某些行动。

在支付保障方面，防欺诈算法保证了实时信用卡交易的有效性，消除了未付款风险。规则／推荐引擎将交易事件同决策数据相互结合，有效地规避了风险。Wi－Fi和 4G等高效网络不断涌现，通过永久连接无线通信（或公司内部）互联网，平板电脑和智能手机等新设备的流动性和暂时性已经成为这种新型“信息时空”的重要特征。信息及其消费者（战略运营决策制定者或网络用户）之间的联系永远不会断掉，这可以帮助他们在正确的语境、正确的时间内做出正确的决策。这种信息必须适应新格式，因而出现了反应型或适应型设计，让信息内容具备适应不同设备技术局限的能力。数据处理（捕捉、分析、恢复）的暂时性必须和信息指向的商业流程中的暂时性保持一致，这非常重要，因为它包含商业流程的优质信息。这种新的操作模式要求通过城市化改变信息系统（IS），管理系统部件之间的通讯，允许“实时”信息处理。信息系统城市化模式也是事件导向型架构，目的在于使数据“城市化”，向实时信息消费系统前进。

随着分析的自动化，互联网从没有停止运转（网络活动是永恒的，世界上总有地方日日都是白昼）。现有工具和分析循环不得不适应这种新的时间框架。在过去，公司总是利用“非活动”时期，即夜晚时段进行数据处理，更新决策支持系统。但是在当今的互联网时代，这种操作模式的效率越来越低。数据的分析、模拟、分割已经自动化：它们已经可以自主学习，整合并获取新信息，并通过规则或推荐引擎被运用于交易过程当中。

分析过程分为以下步骤：

●支持交易框架的操作分析具有自动处理分析的特点。人为干预仍然局限于控制和监督规则的正确应用，通过分析平台的工具确保模型的一致性。久而久之，交易信息（例如网页访问、产品或价格查询、购买等）就会丰富规则／推荐引擎的数据库和模型内容。

●探索性分析（结构、研究等）：这是一个更为传统的分析模式，分析人员和统计人员通过分析数据得出新的结论，从而扩充操作分析的内容。这两个模式具有互补性。探索性分析关注模型的发现和构建（例如购买行为、顾客分类、匹配分数等）。这些模型随后也会被实时运用，在操作分析期间，其内容也会更丰富。

●组织维度：为了实施和开发大数据和智能数据，公司应该有一个完善的商业智能结构。该结构负责执行和支持公司的商业智能战略。商业智能运营中心提供组织支持，其目标就是突破传统需求和商业智能解决方案的“粮仓式”结构，成为一个横向的、包含以下三大资料的组织结构，其中“技术资料”能够确保执行、支持、数据处理管理质量的技术维度（工具、数据库等）；“分析资料”确保商业需求下，对数据的分析；“商业资料”则用于确保公司战略和商业需求之间的关联。

●技术资料：确保执行、支持、数据处理管理质量的技术维度（工具、数据库等）；分析资料：确保商业需求、数据分析、商业数据分析训练的分析和撰写；商业资料：确保公司战略和商业需求之间的关联性。

●组织指标与商业流程的一致性，以及工具流程等管理上的变化：确保商业智能计划的实施和监督，实行与公司运营需求和战略需求一致的年度规划，预测商业智能工具和趋势的发展，设立监督单位。

●优化决策项目的投资，确保商业智能项目的连贯性，整合技术和人力资源；确保数据管理项目的实施与监督：设立商业智能标准规范，为用户提供工具或数据培训。

大数据追求实时、高速地产生大量交易数据（例如购物活动、浏览网页等）。为了保持高速性，数据处理必须有所限定。系统不可能在短短几秒内捕捉、处理并模拟来自几千个在线用户的网页导航数据，并根据实时交互（在用户会话背景下）做出推荐。另一方面，从每一次交易或导航中提取必要的数据进行实时分析（例如通过浏览轨迹或网页上的标签提取原产国、已咨询的网页或产品、访问次数等信息）将允许推荐和规则管理等流程自动检索来自宏数据（行为或购买模式、消费者区分等）的正确信息，从而优化行动策略（例如推荐替代产品等）。

最后，把上述消费方面的宏数据做一梳理，不仅可以得出与消费相关的有效信息，更重要的是还可以将其延伸至人口、年龄、消费习惯、安全性、个人价值取向、行为模式乃至——预测个人行为。这是宏数据的终极任务，也就是说，掌握了宏数据，就相当于掌握了大众的行为模式，而这又关乎整个国家的各方面，包括政治、经济和国家安全。

第三节 大数据、宏数据与数据湖