大数据时代情报分析不仅在于拥有更加多源、规模更加巨大的情报数据,更为重要的是需要通过人工智能、云计算、大数据等分析技术,对规模巨大、类型多样、价值密度低的海量情报数据进行分析处理,进而更加快速有效地得到有用的情报信息和高价值的情报产品。大数据时代的情报分析技术问题研究,不仅是情报工作理论创新的内在需要,更是积极应对情报大数据分析领域的挑战的必然趋势和内在要求。对于大数据时代的情报分析工作,谁能更好地掌握、分析和利用数据,谁就能占得先机和夺取制高点。大数据时代的情报分析在拥有数据来源、分析技术和方法等便利的同时,也面临着更大的挑战。
大数据的首要属性是数据规模巨大。随着信息化技术的发展与推广应用,人类所产生的数据正在飞速激增,各种互联网络、计算机终端、传感器、线上交易和媒体社交正在产生着实时海量的数据,并呈现指数级爆炸增长的趋势。据有关资料统计,阿里巴巴的淘宝网站每天交易量多达数千万条,其数据量超过50TB;百度公司的搜索引擎每天需要处理大约60亿次的用户搜索请求,将产生高达几十PB的数据。一个8bit/s的摄像头每小时产生的数据量能够达到3.6GB。如果一个城市安装有几十万个交通、安防等摄像头,则每个月所产生的数据量将高达几十PB。据有关资料显示,美军随着作战理论、作战概念等的变化,在过去10年中其作战飞机、运输机、坦克等武器平台数量减少了11%,但与情报、监视和侦察平台相关的装备平台数量却增加了近3倍。以阿富汗战场为例,美军的情报、监视和侦察平台每天所产生的数据量超过了53TB。军事、经济、医疗、科研、娱乐等行业领域都正在产生着实时的海量数据。根据国际数据中心的“数字宇宙”研究报告,2011年全球的数据存储量约为1.8ZB,2015年的数据存储量超过8ZB,而2020年达到40ZB,10年时间的全球数据存储量增长已超过20倍。
面对越来越大的实时海量数据,如何高效地进行数据处理已成为情报分析面临的巨大挑战。情报数据本身并不是有价值的情报成果和情报产品,有些时候还会成为情报分析负担,甚至会使情报分析人员陷入“数据迷雾”。只有对海量的情报数据进行及时有效的情报分析,才能真正挖掘发现情报数据的价值。据国际数据中心的数据统计,2012年如果能够对全球所产生的数据进行有效分析和标记,其中约23%的数据将会变为有效数据(约为643EB),但实际上只有3%的数据被进行了有效标记,大量的数据并没有被有效利用,造成了极大的浪费和损失;2020年如果能够对全球所产生的数据进行有效分析和标记,其中约33%(数据总量约为13000EB)的数据将会变成有效数据。大量的数据背后所隐藏的知识并没有得到有效的挖掘、发现和利用。如何有效挖掘大数据所隐藏的知识、提高大数据的价值已经成为大数据的关键技术挑战,也是情报分析所需要突破的关键技术和不得不面对的问题。另一类重要应用是基于海量数据构建模型,进而能够进行相关预测。传统的数据处理技术更加注重记录历史、关注状态、统计分析和生成报表,而大数据是不断更新、流动和累积的,具有典型的数据流特征,在记录历史的同时,也能够反映未来的发展趋势。过去,由于数据规模偏小,基于数据挖掘知识、解决问题并没有得到充分的重视和发展;现在,随着数据的不断产生和积累,基于数据寻找规律、探寻关联、推断因果、预测未来和辅助决策已越来越受到重视。
传统的情报分析工作主要依靠人力完成,但面对如今实时海量的情报数据,仅依靠人力已很难完成。这种通过人工方式进行分析、归纳和演绎的情报分析模式,不仅无法对所拥有的情报数据进行全面分析造成资源浪费,而且分析结果很容易受主观因素影响造成误读。随着情报大数据时代的来临,情报分析在拥有更多海量数据资源的同时,也使得情报分析工作更多地需要信息技术手段的支撑。“用数据说话”已经成为情报分析的必然要求和突出特点。
大数据的另一属性是数据类型多样、复杂多变。传统的数据处理随着时间的推移和业务数据的不断累积,数据规模变得非常庞大,但这些数据往往是便于分析的结构化数据。结构化数据由于是事先定义的,并且进行了一定的抽象和忽略了部分信息,因此非常便于计算机存储、处理和查询。处理和分析此类结构化的数据,可以根据业务需要,事先分析数据的构成和属性。由于结构化数据都以表格的形式进行记录,数据都有统一的表示和存储格式,所以对于随后产生的数据只需要根据数据的属性进行取值,就可以方便地存储和进行后续的处理、分析、查询和管理等操作。结构化数据一般不需要因为数据量的增加而修改数据处理分析方法。结构化数据处理主要受限于计算速度、存储空间等资源,其处理复杂度随着数据量的增加一般呈线性增加。随着互联网络技术的发展和普及,产生了大量非结构化数据。非结构化数据不具备统一的表格结构和属性描述,因此在对数据进行记录时,除了需要记录数据数值,同时还需要记录其数据结构,这样就极大地增加了数据存储、处理的技术难度。经统计,目前非结构化数据在数据总量中的占比已达到75%,且非结构化数据比结构化数据的规模增速快10~50倍。在非结构化数据规模激增的同时,其类型也在不断发展,并呈现复杂、多样的趋势,这样的非结构化数据已经无法使用传统的结构化数据的方式进行记录、存储、管理和分析使用。
信息技术飞速发展的同时,情报分析工作也更加趋于综合,所要分析的数据更加多源,分析的要素更加多样,分析的手段更加先进,为基于先进信息技术的多源情报数据相互补充印证提供了可能。DRC公司高级技术主管帕特里克·德伦赫说:“各种系统都在生产各种类型的数据,并将其存储在数据竖井中。要想使用数据并应用分析法来开发一幅统一的作战空间视图,就必须能够从时间和空间上对所收集的数据进行规范和协调。”大数据背景下情报数据分析往往需要用到多种不同类型的数据,并且需要更加先进的情报分析技术,以进一步提高情报分析的总体科学性、手段先进性和结论准确性,这已成为情报分析工作的时代要求,也将是情报分析技术发展的趋势。
综合利用来源广泛、类型众多、结构各异的情报数据面临着诸多挑战,数据的整编融合就是其中之一。所谓数据整编融合,是指对来自不同数据源、不同采集方式、不同数据结构的大量情报数据进行信息汇聚处理,形成具有统一格式表达、能够支持多种应用需求的数据集合。如何对多源情报数据进行处理分析和综合利用,并通过相互补充印证,获取对同一事物、事件更加客观、本质、深刻的认识,是情报数据整编融合需要解决的重要问题。
数据整编融合是决定情报信息价值的关键。在大数据背景下,美军认为影响数据融合的壁垒主要有以下两个方面。
一是部门壁垒。受国家政府机构和军队部门设置的影响,大量的数据通常按部门单独保存,无法进行集中统一管理。美军自20世纪60年代开始,先后对国防部范围内的数据实施统一、集中和“以网络为中心”式的数据管理,以实现信息系统的互连、互通与互操作。其情报机构经过多次调整,也成立了相对集中的情报部门,但随着国家安全向非军事领域延伸,军民之间的门户壁垒始终无法破除。美国政府的《设计数字化未来》报告认为,确保美国国家安全和国土安全的大数据至少应涉及国防部、情报界、执法机构、国土安全部4大部门。这些部门虽然有共同的目标,但其使命任务不同,利用网络技术的方式方法不同,导致始终无法打造这些部门机构彼此联通的共同技术和数据基础。
二是格式壁垒。传统的情报数据的表现形式多为文本、数字、表格等,而随着网络技术的飞速发展,网页浏览、微信社交、传感器网络等已经成为新的情报数据重要来源,视音频、图片、用户点击等非结构化数据也成为主要的数据形式,而这些数据的属性特征、分析模式、分析技术和分析需求等都差别很大。
随着互联网络、传感器等技术的飞速发展普及,数据的产生、采集、管理变得更加便利,数据产生的途径也更趋多样,数据以爆炸的形式快速增长,数据规模不断增长并呈现了海量特征,而且往往是TB、PB、ZB数量级的。数据规模在飞速增长的同时,还呈现了不断流动的特征,并且这种流动数据的价值随时间推移而迅速降低。如果不能对海量数据进行及时有效的处理,大量数据的价值就无法得到充分挖掘和利用。此外,现实中的很多业务本身就需要能够实时处理不断产生的大量数据,如电子商务在线交易网站,就具有很强的海量数据处理时效性要求,业务数据以数据流的形式快速产生、快速流动、快速消失,并且数据的流量、流速通常呈现不平稳状态,某些特定时段会突然激增,而某些时段又会下降很多,这就要求具备快速、持续的实时处理能力。因此,如何及时有效地处理实时海量数据,也成了情报分析技术需要突破的关键技术。
著名的战略管理大师亨利·明茨伯格认为战略具有深思熟虑、动态应急两大特征,在某种程度上这也是情报分析工作的两大需求。在传统的情报分析环境中,必须有充足的分析时间作为保证,才能提供更加准确可靠的情报产品和参考决策。在大数据背景下,情报分析工作面临实时海量情报数据分析的挑战。因此,只有通过快速有效的处理分析技术手段支撑,才能更加有效地挖掘和利用这些数据,否则不断激增的数据不仅不能为情报分析带来优势,反而会成为情报分析、形成情报产品和辅助用户决策的负担。
美军认为,其当下的指挥信息系统只能每小时处理10TB的数据,所收集的数据还有2/3没法处理。这些数据洪水,使他们无法做出正确的预测结果,甚至不能提供有益的分析结论。滞后的分析往往对作战起不到积极的支持作用。在伊拉克战争和阿富汗战争中,美军通过大量情报、侦察和监视系统的使用,加之各种地面传感器,其雷达、光电、声音、影像侦察能力已实现对战场的全覆盖,在24个小时内可以产生53TB的数据,收集的数据被全部存入数据库。尽管美全军约有8万人不间断地进行空间及空中侦察图像数据分析,但只是穷于应付,对这些数据进行分析需要数年时间。毫无疑问,这种滞后的数据处理形式根本达不到情报实效性的要求。
美国总统行政办公室、总统科技顾问委员会2010年提交的《设计数字化未来》报告认为,面对指数级增长的大数据,对数据加以收集、管理和分析是网络与信息技术研究中日益关注的事项。数据挖掘、机器学习等自动分析技术的发展,为数据向知识、知识向行动的转变提供了更好的支撑。大数据的处理模式主要有流处理、批处理两类。其中,流处理是对数据直接进行处理的;批处理需要对数据先存储然后进行处理。指挥信息系统的处理能力决定数据信息的时效性。而现实问题是,数据流量正在不断增加,预计10年之后连接到网络上的终端数量将是50多亿,实现10倍的增长;同时,数据流量将会出现飞跃性的发展,未来10年移动数据流量会增长1000倍。网络数据流量的激增给信息网络运行带来了巨大挑战,必然要求提高对数据信息的处理能力。美军通过开发智能软件,解决了数据信息实时处理的难题。其作战人员助手人工智能软件,可自动搜寻各类文本交谈工具,探测士兵之间有关敏感目标的对话信息,提前将其反馈给未来指挥所的通用作战图。例如,当某部队的士兵发现地雷场后,通常会在各类信息系统上人工输入相关信息,该软件能够自动提取地雷场的网格坐标,将其自动输入未来指挥所系统,提前15~20分钟,在通用作战图上生成相关信息。在人工智能技术、作战理论与战术知识数据库的驱动下,“作战人员伴侣”将能够完成清理未来指挥所显示屏、突出重要信息、提供警告和建议等辅助用户决策和执行正确的行动方案的功能。
价值是大数据的终极意义所在。随着社会信息化程度的不断提高、数据存储量的不断增加、数据来源和数据类型的不断多样化,数据正成为新型资产,是情报分析的重要基础。然而,大数据的价值虽然巨大,但其价值密度很低。以战场数据为例,随着大数据技术的应用,战场上各种传感器、武器平台、作战单元、人工情报信息交叉重叠,特别是在复杂电磁环境和信息对抗激烈的作战背景下,破损、伪装和欺骗数据大量存在,而通过多维空间采集的大量视频信息中,有的视频信息可能仅有一两秒,有价值的视频信息被深深埋藏在大量的视频信息之中。
大数据价值密度低是大数据关注的非结构化数据引起的。传统的结构化数据,依据特定的应用,对事物进行了相应的抽象处理,每一条数据都包含该应用需要考虑的信息,而大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始数据,保留了数据的原貌,且通常不对数据进行采样,直接采用全体数据。不对数据进行采样和抽象处理,可以呈现所有数据和全部细节信息,从而可以分析更多的信息,但也引入了大量没有意义的信息,甚至是错误的信息。因此,相对于特定的应用,大数据关注的非结构化数据价值密度偏低。以当前广泛应用的监控视频为例,在连续不间断的监控过程中,大量的数据信息被存储下来,许多数据信息可能是无用的,对某一特定的应用,如获取犯罪嫌疑人的体貌特征,有效的数据信息可能仅有一两秒,大量不相关的视频信息增加了获取有效的一两秒数据信息的难度。但是,大数据价值密度低是指相对于特定的应用,有效的信息相对于数据整体是偏少的,且信息有效与否也是相对的,例如,对某些应用是无效的信息,而对另一些应用则成为最关键的信息。数据的价值也是相对的,有时一条微不足道的细节数据可能造成巨大的影响,例如,网络中的一条几十个字符的微博信息,就可能通过转发而快速扩散,导致相关的信息大量涌现,其价值不可估量。因此,为了保证对于某些应用有足够的有效信息,通常必须保存所有数据,这样就一方面使数据的绝对数量激增,另一方面使数据包含有效信息量的比例不断减少,从而使数据价值密度偏低。
因此,往往需要对海量的数据进行挖掘分析,才能得到真正有用的信息,为情报分析提供服务。广义的数据挖掘指整个知识发现的过程,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、潜在有用的信息和知识的过程。它涵盖了数据分析和知识发现的任务,从数据特征化与区分,到关联和相关性分析、分类、回归、聚类、离群点分析、序列分析、趋势和演变分析等,吸纳了统计学、机器学习、模式识别、算法、高性能计算、可视化、数据库和数据仓库等领域的技术,并可以用于任何类型的数据,包括数据库、数据仓库等基本类型,也包括数据流、序列数据、文本数据、Web数据、图数据等其他类型。
从数据挖掘的含义看,数据挖掘与情报研究有着天然的联系;从数据挖掘的方法看,数据挖掘有特定的含义和实现过程,可以有效地解决情报分析研究的问题。例如,情报研究可以借鉴关联规则发现的成功案例——超市的“啤酒+尿布”,尝试用关联规划来分析研究主题的相关性,从科技论文与专利的关联中发现科技的转换关系等。但从目前的情报研究成果看,许多还仅仅停留在简单的频率统计、共词计算层次上,在知识发现的过程中,这些仅仅是数据挖掘的数据准备工作,还有待于更为深入的数据挖掘工作。可见,数据挖掘能够也应该应用于情报分析研究领域,这不仅是数据挖掘应用扩展的结果,也是情报分析研究自身发展的需要。此外,由于较少有专门针对情报分析领域研发的数据挖掘工具,现有情报分析通常借助于其他工具,不同工具的功能不同,这就导致常常同时使用好几个分析工具,例如,在使用SPSS进行聚类分析的同时,还使用Ucinet分析社会网络。这带来的问题是,分析缺乏完整性,社会网络和其他信息之间可能有关联,但数据挖掘工具的分割性导致潜在模式的丢失。因此,研发适用于情报分析的挖掘工具是必要的,也是紧迫的,尤其面对大数据的挑战(要智能化地辅助分析人员,以减少他们的认知压力)更是如此。