大数据革命——理论、模式与技术创新最新章节_赵勇著

5.2 数据创新理论及其10项考量指标

以数据为生产要素的新一代信息化建设，简单地说，就是离开数据成分就不能进行正常的生产。数据时时产生，处处需要。但我们面临的数据生产现状却是“春天的繁花似锦，却不能在秋天有所收获”。机会很多，陷阱也很多。我们必须有先有后，有轻有重，做好顶层化、前置化、市场化的有机融合。如果只做“处处开花”的概念化、空心化、孤岛化的信息化建设和智慧产业，往往事倍功半，快速老化，甚至是竹篮打水，劳民伤财。如何将信息化建设作为创新驱动的推动力，实现数据生产要素化和半生产要素化，是数据创新理论的核心。我们建议用以下指标对数据创新理论进行界定和量化。

5.2.1 基础指标类

基础指标包括以下5项：价值密度、基础约束度、投资收益度及公益度、市场接受数据的颗粒度与敏感度以及数据的全量度与实现应用的速度。从事某个行业的数据创新，基础指标要尽全力满足，这是成功的基础。如果这5项指标不能全部满足，不能说绝对会失败，但路漫漫其修远兮，上下求索的时间不可估量。

1.价值密度

产业链上单位时间内创造的产值往往决定能否承受信息数据化初期的成本和风险，产值越大，密度就越高，数据创新所承担的风险度也就越高，成功的可能性就相对较大。这就是价值密度。

例如，金融证券等行业，在很短的时间内产生的交易产值往往很高，这就是单位时间的价值密度高，对数据的依赖性大。随着产业的不断发展，金融已经发展到离开数据就会崩盘的地步，也说明在金融业基本实现了数据生产要素化。大数据的挖掘应用之所以率先在金融业实现，就是价值密度高使然。这也是为什么美国的金融精算师是全球最好的原因。

相反，许多行业对数据的应用还没有达到金融业这样严谨和亲密的程度，可以大致分为半数据生产要素化行业（如国内的电力、铁路、民航等领域）和未数据生产要素化行业（如国内的传统服务业、大部分的农业等）。

价值密度计算方式为：产值或消费（万元）/（人·单位时间）。这个数据要结合国家权威部门和行业协会的统计数据进行比例量化。

2.基础约束度

基础约束是指体制、机制、政策、资本等约束，常常是能否实施的关键。

数据兼具主动流动性和被动流动性。主动流动性，比如基因数据的传承，是不以个人的意愿改变而改变的。被动流动性是指外界的强力干扰，比如各个行业和领域的数据常常不能互通，这就是我们所提到的基础约束问题。约束越大的领域，数据的作用越小，所带来的创新和变异就越少，信息化推广和建设的阻力就越大。

我们可以把法律约束度系数设置为5，把国家部委和行业法规约束度系数设置为4，把各个省级法规约束度系数设置为3，把文化、理念、人文约束度系数设置为2，以此类推，将所有的约束度都量化出来，大体就能比较出实现行业数据创新的难易度。

3.投资收益度及公益度

如果投资收益好，企业积极性就高，如果公益性好，政府扶持力度就大，二者如能结合则最佳。数据创新是逐利性和公益性并存的，其逐利性不仅表现在经济利益上，也表现在社会认可上。没有好处和回报，谁都不会求变。

公益度系数可以设置为：

公益度系数= ×100%

投资收益度系数可以设置为：

投资收益度系数= ×100%

公益度与投资收益度的权衡系数为：

公益度与投资收益度的权衡系数= ×100%

这个系数值不能太大也不能太小。如果系数太大，或者说明投资收益度太高，极易引起竞争者的关注和社会的反对，或者说明收益人群占总人口的比例太低，只是小众市场，不能产生蔓延式的发展。如果系数太小，或者说明投资收益度太低，影响投资者的创新激情；或者说明公益度系数太高，投资收益度无法支撑其长期发展，需要政府扶持或另行寻求合理的商业模式，以权衡系数控制在合理的区间内。

抽样的试验数据表明，在产品上市的几年内，公益度与投资收益度的权衡系数在10～200这个区间是合理的，这类数据创新的产品生命力都很强。需要注意的是，若投资收益度里的总收入是在互联网的模式下，应该将远期估值计算为增值收入一并计入总收入里面，否则会出现负数，这样改变后计算出的结果才是合理的。我们正在用更多的企业财务数据来修正这个系数的计算公式，以便细化出更合理的规律曲线，获得更准确的评估结果。

4.市场接受数据的颗粒度与敏感度

颗粒度指的就是粗糙度，粗糙就是颗粒度大，精细就是颗粒度小。如果很粗糙的数据也有人埋单，就意味着对数据的敏感度弱。比如中国的教育，只要说出对孩子有帮助，就会有大量的消费人群，这就是标准的颗粒度大、敏感度弱的数据应用场景。这种场景往往有很大的市场，而且是买方市场，符合“人傻钱多速来”的要求。再以医疗为例，病急乱投医也是这个情况，明显的颗粒度大、敏感度弱。但它不如教育，原因是有很大的基础约束度在限制它的发展，基础约束度就是我们国家医疗行业管理上的条条框框和与人的生命相关的法律法规，以及在这些条条框框下形成的利益链。医疗行业的数据创新原本是可以大有作为的，但是因为固有利益链的阻力，所以就变得难以实现，或者说不能全面展开，我们可以寻找最薄弱的切入点进行试点，比如社区医疗和保健等。当然，不是说这些条条框框是完全的障碍，医疗业的行业管理在中国必须是非常严格的，原因是我们国家的诚信体系和法律体系尚不健全，做假的成本很低，必须以政府管理为主导进行改革，逐步实现市场化。这也说明了为什么美国的医疗大数据要比我们先进，其诚信体系和法律法规体系健全而已。再分析教育，教育行业的数据与医疗行业的数据不同，教育行业并不关联生死或医疗事故，即使数据有误，也会用开卷有益来解释，所以教育的数据颗粒度之大、敏感度之弱就可想而知了。总之，数据粗糙度和敏感度同市场需求息息相关，仔细把握，商机无限。

颗粒度的量化可描述为数据的真伪性比例系数和数据的全量比例系数。

真伪性比例系数= ×100%

全量比例系数= ×100%

敏感度的量化描述为：年、月、日或每次在数据需求上的消费支出以及在这个时间段内的消费次数。

5.数据的全量度与实现应用的速度

可以肯定地说，现在人们对互联网和移动互联网的发展速度都十分惊讶，甚至都觉得不可思议。所以说在这个信息技术同社会经济、生产生活紧密融合的时代，比的不仅仅是谁更聪明，也比谁更快，谁覆盖的更广，谁更有执行力和实现力。此时速度决定了这个创新能否成功，对于创新型企业来讲就是生死时速。互联网有一句话，老大活得很好，老二活得一般，老三老四举步维艰经常要饭，老五以后的兄弟们就没有活路。

但实现的速度和数据采集的全量度会产生矛盾，关注了数据的全量度，就势必影响实现的速度，反之亦然。怎么样实现这两个指标的协调统筹，往往成为成败的关键。建立全量度这个概念，就可以解释腾讯、百度、微软、Facebook等企业为什么会发疯一样地采集每个人的一手数据，烽烟四起地抢占数据接口的现象，这也说明一手数据的全量度是实现数据为王的关键。

全量度的衡量指标与前面全量比例的定义基本相似。

速度的衡量指标应该定义为：

速度与质量衡量系数= ×100%

速度与进程完成度系数= ×100%

这两个系数是矛盾的，和全量系数也是矛盾的。解决好这些系数之间的平衡关系，是数据创新得以实现的关键因素。最好的答案当然是三个系数尽可能地都接近100%，控制在80%以上。

5.2.2 重要指标类

重要指标类可以允许缺失，但也要争取满足，尽量不缺失。

重要指标包括5项：用户群与地理区域覆盖度、行业技术门槛高度、社会经济发展支撑度、行业关联、渗透与应用维度以及原有行业规模与竞争激烈程度。重要类指标很重要，可能会让数据创新以爆炸式发展的模式进行扩张。但是在局部指标缺失的情况下同样也可以实现这样的效果。

1.用户群与地理区域覆盖度

该指标指的是市场和数据覆盖得越广，周旋空间和转型路径就越多，企业和产品就越安全。

这种战略纵深往往是数据创新所依存的最广阔肥沃的土壤。即使暂时没有很好的盈利模式，也可以先存活下来，等待时机，或者等待技术发展，或者等待方向和模式的明确。这种现象目前还很盛行，如社交化网站、移动互联网等。

覆盖度的指标可以设置为：

用户群覆盖度= ×100%

地理区域覆盖度= ×100%

将这两个指标的交集标红，就是数据创新产品的重点主攻目标和区域。两个系数相乘越接近于100%，越能凸显其重要性，可以在这个范围内进一步细化子用户群覆盖度和子地理区域覆盖度，做到精确创新目标。

2.行业技术门槛高度

技术与人力资源的要求，不是基本约束条件，但是要慎重考虑是否可跨越这道门槛。一旦选择了以技术为主要突破口，就等于选择了“一招鲜吃遍天”的打法。如果有突破，追随者一时难以赶上，前途一片光明；如果没突破，就要小心了，可以当成沉淀，择机转型。但就怕沉下去就浮不上来，沉淀成了基石和历史，这是最悲催的局面。但一般失败得不会很惨，可以积蓄下很多经验，为后来发展作铺垫，这些铺垫往往还是VC和PE们的利好衡量指标。需要注意的是，即使技术突破了，也要注意当前的技术发展周期已经大大缩短，一两年内就会有竞争对手和替代品的出现，要时刻做好技术储备和几年内的发展规划，并实时关注技术方向和模式演变，进行必要的调整。

技术门槛高度指标衡量系数界定如下。

（1）专业领域的发展深度和技术把握度整体系数。

专业技术领军人物系数设置为 a =1，关键技术成果系数设置为 b =1，关键团队系数设置为 c =1，专业领域的发展尝试和技术把握整体系数设置为 a × b × c =1。

专业技术骨干人物系数设置为 a =0.8，重要技术成果系数设置为 b =0.8，关键团队系数设置为 c =1，发展深度和技术把握度整体系数设置为 a × b × c =0.64。

以此类推，将参与的技术人员进行分级分类量化处理，在整体系数小于60%时，就要考虑风险性是否可以承受，能否用别的要素进行补充和转化。

（2）关联领域的发展深度和技术把握度整体系数。

可参照发展深度和技术把握度系数进行关联领域的系数设置，将几个重要关联领域的把握度系数加权平均，得出的系数尽量要高些，实验数据表明，技术创新的公司这个系数基本要大于70%。

（3）集成创新与思维置换的把控度系数。

这个把控度的执行者是整体项目的牵头人或发起人。系数设置为：

集成创新与思维置换的把控度系数= ×100%

原则上这个系数要大于50%。

（4）人力资源后备系数。

系数设置为：

人力资源后备系数= ×100%

原则上这个系数要大于200%。

（5）资本投入的支撑度系数。

系数设置为：

资本投入的支撑度系数= ×100%

原则上这个系数要大于50%。

以上5个系数中的后4个系数相加为总控制系数，原则上要大于370%，才能基本把控技术整体集成的成功概率。

由于整体集成的技术创新是一个多因素影响的系统工程，还有许多因素没有量化，如技术难度系数、竞争系数等，需要实施者在具体进程中进行微调甚至颠覆性重置。

3.社会经济发展支撑度

社会经济发展支撑度是指经济发展的程度，往往代表人们信息消费的力度，但可以采取适当的跨越式发展。这一点我国的地方政府需要注意，信息消费和数据创新是以基础产业和人口素养为根基的，让人均产值仅有几千元的地区建立一个数据中心消费4G，是很荒唐的。

可以把当地的人均消费水平、人均收入和人均受教育的程度这3个指标作为衡量社会经济发展支撑度的指标，其中：

人均消费水平= ×100%

人均收入可查询国家和当地政府公布的数据，平均受教育的程度（以受到正规教育的年数为计量单位）可查询政府公布的相关数据。因此可以得出社会经济发展支撑度衡量指标为：

社会经济发展支撑度= × ×100%

我们可以把这个系数视为最基础的信息消费系数，但需要对多个省市县的区域经济数据进行计算修正，如有必要再加上其他变量。目前样本数据表明，这个系数在20%～25%区间内，应该是一个很利好的数据。

4.行业关联、渗透与应用维度

行业内应用维度的多少和行业外渗透关联力度的大小，往往是爆发式增长的前提和保障，这也是此维度的重要性。

数据创新往往首先从一个行业先行切入，待到逐渐成熟后再向关联行业渗透。如果这个行业关联和渗透的维度很多，就会得到迅猛发展。例如，阿里首先关注的是江浙一带的中小企业的商贸环节。虽然五花八门，林林总总，但关联的行业和机会很多，可四处腾挪，选择出击，生机也就很多。到后来发展到全国乃至全球，现在已经覆盖了几乎所有的行业和领域，甚至造成对“高大上”的金融的冲击。所以说，尽力选择多维度的行业，是保证后续发展和成长的基础。如果马云当时将这个理念做到农业技术推广上去，看起来广阔天地大有作为，但方向的维度太少，价值密度太低，作物的生长周期又往往是一年一开花，一年一结果，那就很难知其现在如何了。

虚拟世界中的数据交易平台，其属性就像现实生活中的大型商场一样，最理想的商业状态是使尽可能所有行业和领域的产品都能在平台上展示和交易，所以一般都会将价值密度最高的、人群最集中的交易环节作为突破口。但是这样尚不足以细化数据的分类和数据的双向互动，故线下的商场会提供区域功能和产品档次的分类，甚至是贵宾服务，以增强数据的双向互动性。事实结果是由于客观条件的限制，双向互动性依然不好。虚拟世界已经将这个问题较好地解决了，甚至是超额完成了任务，这就是社交网站和知识分享等网站。他们实现了“物以类聚，人以群分”，将数据的效率性、准确性和双向互动性都提到了一个前所未有的高度。此时，我们可以界定行业关联、渗透与应用维度衡量系数这个概念了。这个系数同产品的平台性好坏紧密相关，此系数有4个基础关联概念：

（1）本行业的价值密度：见价值密度概念的界定。

（2）最紧密关联的3个行业的价值密度。

（3）最紧密关联的3个目标人群的消费与收入占比。

（4）社会消费中平均的价值密度：此密度值可以年人均消费额替代。

结合以上基础关联概念，可以得出关联、渗透与应用维度综合系数为：

关联、渗透与应用维度综合系数=

×60%+ x最紧密关联的3个目标人群的消费与收入占比

将 N 种数据创新的不同产品，用以上公式进行计算和比对，即可比较出哪个产品能更迅速地产生效益，哪个能更快地实现增长，特别是哪个更能实现多维度、多空间的发展和转型，将创新的风险降到最低。

5.原有行业规模与竞争激烈程度

竞争越激烈，模式和内容的创新需求就越强烈，切入的机会就越大，形成的效果就越显著。

可以把本行业的投入产出率和全行业平均投入产出率设为比较指标，行业规模与竞争激烈程度衡量系数为：

行业规模与竞争激烈程度= ×100%

这个系数越低，用户的消费热情就越高，就越有可能进行数据的协同创新。但由于有可能受到价值密度的影响，会产生一定的创新风险，此时要结合行业数据规模考虑，规模越大，风险越小。用行业规模提升数据创新中的价值密度，是一个转化风险的办法。

行业规模量化系数的两个比对公式为：

行业规模化系数 A = ×100%

行业规模量化系数 B = ×100%+ ×100%

系数 A 越大，说明价值密度加大的可能性越高，有规避创新风险的可能。

系数 B 越大，说明市场竞争度越高，数据创新的可能性越大。

权衡 A 、 B 两个系数之间的关系，就能基本掌握好对这个竞争性激烈行业进行数据创新的尺度。

这一点对传统行业的技术升级、结构调整和产业转型异常重要。我们将在后期结合经济学和管理学，进一步深化和丰富这个方面的研究与应用。

上述内容纲要性地定义了5个基础类指标和5个重要类指标，为了更形象地展示每个指标与整体指标的权重平衡，我们可以建立一个初步量化的平衡展示图，量化指标可以暂时为虚拟的量值。由于篇幅所限，我们仅以蜘蛛网状的重心图作为例子，如图5-1所示，以便大家根据本行业的维度虚拟值，用量化计算后的图形标注重心，这样就大体可以知道有多大偏差，并运用几何和物理的知识，推理出需要调整哪几个指标，把偏失的重心重新调整到几何和物理稳定结构。

图5-1 稳定性结构蜘蛛网图示例

这个模型反映了各个指标之间的相互转化与相互渗透的辩证关系，可以为我们提供多种方案并进行比对和调整，能起到综合考虑和发散思维的作用。

如果我们将上述指标同目前成功和失败的案例做一下对比，忽略运营失误等个别因素，会发现成功者绝大多数都符合这些指标，其蜘蛛网图都结构稳定，十分漂亮。如谷歌、Facebook、腾讯、百度、阿里巴巴等。

作者曾经对蜘蛛网图形不理想的两三个企业进行了细致分析，基本能推断出他们面临的问题是什么。当尝试着去询问他们的员工和管理层时，发现情况基本属实，这证明我们的推断是科学的。

继2008年金融危机以来，传统行业各项指标就一直下滑，十分不景气，行业的同类质竞争十分严重，产能严重过剩，各国政府和企业家们都迫切需要创新和转型。在局部领域科技创新成本逐渐加大、消费严重下滑的形势下，依托信息数据技术进行数据协同创新的呼声日益升高，这使得数据创新有了极大的发展动力。比如，精密制造、三网融合及近来各国都在试水的第三次工业革命，都将信息化与数据应用提到了空前的高度，这是我们数据创新的最好契机。但怎么理解大数据和云计算，怎么能做好数据创新，怎么理解互联网产业的爆炸式发展，怎么将传统支柱产业植入新的活性基因，乃至怎么管理好这个越来越复杂的社会体系，成为各个国家政府和行业专家的热点话题。我们希望用探究出的这些粗浅的理论和方法论，尽到自己应尽的责任，为我们国家转变经济发展模式，调整产业结构，促进产业升级，顺应民意、改善民生，尽些绵薄之力。如能起到抛砖引玉的作用，实乃幸运之至。