购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

大数据战略资源储备

美国数字情报联合体的第二层解读是:美国数据情报联合体以其经济、科技、人才实力,建立超大存储规模数据中心,研发超级计算能力计算机,积极推进大数据战略资源储备。

2013年6月17日下午,中国国防科技大学科研人员自主推出的天河二号超级计算机,以峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次双精度浮点运算的优异性能,问鼎第41届世界超级计算机500强榜首。

据媒体报道,2010年,天河一号在国家超级计算天津中心投入使用后,构建形成了石油勘探、生物医药、动漫与影视特效渲染、高端装备制造和地理信息五大高性能计算应用平台,天河二号的推出增强现有的计算能力,会进一步拓宽应用服务的领域。以500人规模的全基因组信息关联性分析为例,华大基因利用天河二号计算机把原来需要1年时间做完的任务在3个小时内完成。再比如,成百次的新车碰撞试验,在天河二号的帮助下,也减至3~5个小时。

亿亿次的计算能力如何理解呢?从数量上看亿亿为10 16 ,属于10P的级别。在这里笔者可以简单介绍一下日常生活很难接触到的大数量级的计量单位。M(百万)、G(10亿)大家已不陌生,而T、P、E、Z、Y、B这些单位见得较少,但最近也开始慢慢出现在更多的网页上。

美国思科公司曾发表一份报告,称全球互联网流量在2010年至2015年间将增加3倍,达每年966EB。谷歌前CEO埃里克·施密特曾估计,从文明之初到2003年,人类社会的所有信息不过5EB。2011年,全球有超过20亿人使用互联网,2015年,这一数字将增至27亿。

详细看一下“E”这个数量单位,中文译作“艾”,1EB表示1024×1024×1024×1024兆字节,即2 60 ,或者10 18 (百亿亿字节)。我们手机上一般的内存卡在几个GB的容量,1EB=1024PB,1PB=1024TB,1TB=1024GB,1E相当于1024 3 级别的手机内存,即将近10亿部智能手机,这个数字恰恰和IDC此前给出的2012年全球智能手机出货量6.86亿相当。换个角度,1E=1024P,1P字节≈11.3亿本500页书籍的数据量,1E相当于为全球大于15岁、小于70岁的每个人建立一份相当于200000页16开页面大小的数据档案。

做了这么多铺垫性的文字只为说明一个问题,大数据时代已经来临。而美国数字情报联合体超强的大数据存储能力和超级计算机未公开的计算能力,目标直指互联网用户数据监控,这让全球大数据未来的发展充满战争味道。

超大容量数据中心

棱镜门事件之后,《连线》杂志曝出的美国犹他州的在建数据中心的存储能力在“1024×1024E”级别,即1000000000000000GB(尧:百亿亿兆数量级),堪称“无底洞”的数据库。这个数据中心位于威廉姆斯营地的National Guard基地,靠近布拉夫戴尔小镇。根据德国《明镜周刊》的说法,这个中心能储存全球网民今后100年的通信数据。

美国国家安全局的大部分数据中心运营都在米德堡进行,米德堡也是美国网络司令部所在地。2007年,NSA曾宣布在德克萨斯州的圣安东尼奥地区建设了第二个数据中心,该机构是当时世界第二大情报收集中心。

犹他州这个已投入使用的数据中心,始建于5年前,是美国国家安全局(NSA)的第三个数据中心。与此同时,美国陆军工程兵部队在2013年4月开始在马里兰州米德堡投资8.6亿美元破土新建另一个高性能计算中心,中心预计将在2016年完成,只有犹他州数据中心的一半,占地约为60万平方英尺,其中有7万平方英尺的技术空间。目前尚缺少这又一新数据中心的详细资料。

当2009年得知奥巴马政府将在犹他州建超级数据中心时,《华盛顿邮报》报道曾指出“因为国家安全局可能利用这个来监听美国普通民众,侵犯隐私。”没想到4年后斯诺登让这一猜测彻底验明真身。

这个耗资20亿美元的“超级数据中心”,专门用来拦截、存储、分析和破译世界各地的通信,不论是各国政治、军事、外交机密,还是个人的电子邮件、谷歌搜索记录甚至购书清单,所有一切都是被监控和破译的目标。

美国情报联合体监控全球互联网数据的构想离不开拥有超大容量存储空间的超大数据中心的物理支撑。而位于犹他州的这一数据中心号称迄今为止美国最大、最昂贵的数据中心,有4个25000平方英尺的大厅将用来存放服务器,还有90万平方英尺的建筑物将用来做行政管理中心。

根据公开资料,美国国家安全局在全球有75000人的窃听队伍、12颗绕地球旋转的卫星、20架经过改装以进行电子窃听的飞行器,以及每一架美国攻击式潜艇上都有美国国家安全局的拦截人员进行电子监控。据说这么庞大的情报收集渠道每天收集到未经编辑的原始数据达到P级别,能填满4个美国国会图书馆。

该数据中心采用的解码系统将需要200兆瓦的电力能源,每年的运转费用将达4000万美元。为保证数据中心应对冲撞威胁,建设人员采用特制的围栏,可以缓冲重量为15000磅且以50英里时速行驶的汽车的冲击力。

电力供应方面,该“数据中心”临近盐湖县与图埃勒县交界处,此地正好有两条主力电线经过,美国国家安全局选择了这个位置从而不必搭建复杂的输电系统。

另外数据中心有充足的燃油储备,可为后备发电机连续提供3天的燃油,还拥有水及废水处理厂、电源、煤气供应、备用电池、访问式控制设备、汽车检测站以及周边安全系统。

超级计算机

海量数据采集和存储是第一步。在田纳西州美国正在打造迄今所知世界上最强大的计算机。超级计算机也属于NSA的数据中心计划,根据美国会的文件,其任务是“取得在盟友中的决定性信息优势”。该计划最早于2004年推出,其目标是将计算机的速度成千倍地提高,创造出每秒可执行亿亿次运算的计算机。该计划的执行地就是美国田纳西州的“橡树岭国家实验室”。在2009年11月,“橡树岭国家实验室”推出的捷豹超级计算机成为世界上运算速度最快的计算机。但这个头衔不久就被日本的超级计算机夺走。

“橡树岭国家实验室”在2012年宣布将在当年底部署超级计算机Titan(泰坦),其将配备299008个内核和600TB的内存,可提供每秒1万万亿次运算以及每秒2万万亿次运算峰值性能。而2013年美国国家安全局新建造的数据中心采用运行速度超过一百亿亿次(艾级别)的超级计算机,比最快的超级计算机快100倍。这个当时“最快”显然是参照美国“红杉”、“泰坦”等往届超级计算机冠军的数据,因为和天河二号相比也就超不多20倍的差距。

根据2013年国际超级计算机大会TOP 500组织的最新榜单,在前10中,美国占6席,中国占据2席,其余由日本和德国各占据1席。

超级数据挖掘能力

“无底洞”般的数据存储空间,配上每秒百亿亿次计算能力的超级计算机,利用美国从互联网各级通信光缆上截取的数据信息,如果想完整地“拼出一个人的一生”,最后的一步就是使用一种简单、实用、高效的分析算法了。

事实上,中国复旦大学的沈逸教授曾在一次棱镜项目研讨会上指出,斯诺登曝出的NSA监控全球互联网数据的内部并不让他大惊小怪,但有一点,在公开的被收集的十类信息中“Videos”引起了他的注意,“这是否表明美国已经具有海量视频数据内容分析能力,尚不知晓……如果美国具备这一实力”,那将是很可怕的。因为哪怕是你出现在电影群众演员里,仅仅闪过一个镜头,都可能被美国NSA锁定并分析出你的特征信息等。

美国数字情报联合体实际上已经具备超级数据分析与挖掘能力,但还有更多细节我们不知道而已。

2012年,美国国安局官员威廉姆·宾尼在意识到这个“星风”计划的可怕之后,离开了国安局。此前,宾尼的职责主要是破译密码,并设法将全球范围内的私人电话和电邮等信息导入NSA数据库。宾尼说,“星风”计划将电话、银行、网络等各个领域贯穿起来,通过抽取每个领域的资料,例如,随着他的银行交易、旅游行程、上网记录等信息源源不断地汇入,美国国安局几乎有能力描绘出这个人所有的生活细节。

Accumulo开源数据库

Accumulo是一套由安全局方面创建的开源数据库,旨在保存和分析大规模数据。Adam Fuchs作为一家销售数据库系统商业版本名为Sqrrl的企业CTO,对于Accumulo非常了解。他认为,美国安全局工作的绝对核心、一切数据分析机制的运作依托于Accumulo。

NSA在2007年希望通过自动分析机制追踪并发现新的恐怖活动嫌疑人,本打算模仿谷歌著名的BigTable数据库存储体系,但其在扩展性、可靠性以及安全性方面都达不到安全局方面的要求,于是Accumulo数据库诞生。根据Fuchs的说法,美国安全局的数据中心内“拥有数以千计的节点规模”。整套体系拥有多个实例,其中每一个都保存着数十PB(100万GB)数据。Accumulo擅长分析万亿规模级别的数据,并以此建立大量直观图形,帮助工作人员理解数据之间的关联强度,而且能处理多种数据格式(在数据库领域,这种特性被称为“无模式”机制),这意味着将来自不同来源的数据存储在数据库中并在几天甚至几小时内可实现添加新的分析功能。

一旦分析出违法活动的前兆,政府方面需要决定对通话双方展开进一步调查,探询通话双方有无从事恐怖活动的可能性;一旦决定将这种可疑情况与其他信息加以比照,就需要收集更多情报,并进一步开展预测工作,这时就要轮到PRISM出场了。NSA利用从谷歌、Facebook以及苹果等产品平台上直接收集到的数据,将姓名、网络账户与电话号码匹配起来,如果证明某些对象真的具有犯罪倾向,那么他的社交圈子就能够说明一些问题。

电邮挖掘能力

上文提到威廉姆·宾利认为美国国家安全局现在存储着所有在美国境内已发送电子邮件的副本,以便政府日后详查。我们使用美国邮件服务器提供的谷歌、微软等邮箱服务,同样被美国备份。

宾利说,美国国家安全局通过一个电子邮件数据库可以输入“字典选项”来查询,就像使用谷歌搜索一样。他说,在“9·11”事件后,“政府曾表示美国国家安全局没有设立搜索网。这倒是真的,它根本就不需要,因为所有情报都已是它的囊中之物。”

通话内容挖掘

除了电邮,通话信息也在美国国家安全局的监控之内。前美国国家安全局高级官员威廉·布尼表示,美国国家安全局拥有超强的Narus系统,当搜索者把目标人物的名字输入到这个系统内,这个人的所有通话信息将会被搜索出来。布尼表示,犹他州布拉夫戴尔数据中心投入使用之后,所有的这些信息将会在那里储存并分析。

据悉,“棱镜”计划实施6年中,效果很不错,目前美国国安局约1/7的情报依赖该项目提供原始数据。因此,这也成为奥巴马“每日简报”最重要的机密情报来源。

“强加密”能否逃过一劫

美国数字情报联合体获取情报的步骤离不开密码破解。如果计算机破解密码的尝试时间非常漫长,则基本上可以算是成功抵御了破解风险。从理论上讲,若通过“暴力手段”破解一个128位的强加密密码,反复试验的次数将达到340涧(1涧等于10的36次方)。一涧等于1E×1E,目前最快的天河二号稳定运行速度还不到1/20E,短时期破解128位强加密密码的可能性不大。

面对日益进化的计算技术,美国国安局不会知难而退。在技术上,破解强加密信息可以从两方面改良,首先是动用运算速度惊人的超级计算机,其次就是获得尽可能多的数据供分析,因为相关信息越多,就可以避免不必要的试错尝试。

从这个角度看,国安局建造布拉夫戴尔数据中心,通过与大型互联网企业数据中心的合作,把网民方方面面的数据收集上来,其意图已经非常明显:先不管三七二十一留下你的所有网络痕迹,等待挖掘出有用的信息,即使现在有些密码无法破解,总有一天不论是依靠速度还是依靠逻辑,总能破解任何人的秘密。

看来“强加密”算法未来也不靠谱。 3gUJtMUcEuo8E68bLSl1hnzBVSDaYjuCBc3f29sG0o4Zl6ujrgKsicEhmVOsBmRd

点击中间区域
呼出菜单
上一章
目录
下一章
×