购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.6 如何开展大数据研究与应用

对大数据的研究和应用,不是简单的数据采集和分析,尤其是站在国家发展战略和企业决策的层面上,需要形成理论、实践和创新体制。我们认为需要有以下几方面的循环互动。

1.系统科学的方法论

大数据的研究和应用离不开科学理论的指导。如前所述,数据科学横跨多个学科领域,要形成对数据的洞察,在数据源及属性的选取,数据模型的选择,所采用的分析及验证方法,都需要系统、科学的理论指导和方法论。

2.标准体系的建立

大数据处理得最多的就是多源多格式的数据关联分析,在理论指导的基础上,对于数据的表示、存储、处理、交换、共享、展现等都需要建立标准体系。只有建立在开源、开放的平台上,有相应的数据访问标准及接口,才能真正促进数据的互联互通,发挥大数据的威力。目前在云计算和大数据领域,相关的标准建立都还在起步阶段。美国的国家标准与技术研究院NIST成立了一个大数据工作组 ,致力于大数据的标准制定 [9] 。同时由欧盟委员会、美国政府及澳大利亚政府发起组织的研究数据联盟(Research Data Alliance)也在进行数据方面的标准制定。中国计算机学会的大数据专家委员会也是致力于大数据标准制定的专业组织。

3.合理的人才和知识储备

数据科学的研究及应用都离不开数据科学家和数据相关的从业人员的参与和贡献。数据科学家是21世纪全球抢手和紧缺的人才,因此人才、知识的储备、教育、培养和培训就尤为重要,只有掌握了人才和知识才能在“数据为王”的新时代占领制胜高点。美国政府推出的面向高级工程专业的移民政策吸引了世界上一大批优秀人才,各大高校也在纷纷开设数据科学专业及课程。我国也应在数据科学相关专业人才的政策引导方面进一步加强,在高校课程及专业设置及建设方面进一步优化。企业更是要创造良好的人才及培训环境,只有这样才能在大数据浪潮中不被淘汰。

4.典型应用场景的分析

由于大数据是在现实生产场景中遇到的切实问题,因此大数据的应用不能走主观、脱离实际的道路。要到生产一线中去发现问题,分析实际应用场景中已经不能解决或急需解决的大数据问题。只有积极实践问题,才能驱动大数据的技术应用和技术创新。例如城市的交通视频监控方面,一个中等规模的城市每天产生的视频数据就达十几TB,在数据的存储以及实时分析方面就面临巨大的问题,如果将大数据应用于这些领域,就能马上产生价值。

5.核心关键技术的研究

当前得到普及应用的大数据技术还是以Hadoop为主的开源技术,开源技术在大数据生态中将占主导地位,也对行业作出了巨大贡献。但基于开源技术带来的挑战,是技术门槛降低和激烈的竞争,当前IBM、微软、Intel、Oracle、HP等IT巨头都推出了基于Hadoop的大数据集成产品。因此在大数据行业中,还是要形成企业自己的核心关键技术,同时加强技术运营、维护及服务,才能提高企业的竞争力,在大数据市场中占领一席之地。

6.自主可控的产品

中国的信息化建设长期处于被国外先进产品和技术垄断的状态。大多数政府及企业的信息化架构都是基于IOE三驾马车,即IBM的服务器、Oracle的数据库和EMC的存储。采用国外成熟先进的产品本也无可厚非,但确实对国产自主的软件开发及行业发展造成极大的阻碍。随着大数据的爆发,这些大公司的产品本身对大数据的处理能力都存在很大的局限,加上在国家信息安全方面的考虑,目前全国“去IOE化”的呼声越来越高。在大数据时代,由于还没有占据市场垄断地位的大数据公司和产品,同时开源技术也很普及,因此抓住时代机遇,加强我国自主的关键技术研究,形成自主可控的大数据产品,将使我们有机会实现弯道追赶,打破国外技术垄断,在国际市场中与他们一较高低。

7.开放的创新体制

大数据需要开源、开放的数据、标准和平台,形成开放的实践和创新体制。在此基础上可以集众人之智,采众人所长,形成新技术、新产品、新模式、新服务,促进科技创新和发展。也只有基于开放的体系,才能鼓励和推动创新,促进大数据产业的良性发展。 OYai1FxpHehHAzgWOE+nqrp8Jhj7lKvUtXb1L1RlL8UcbfVSBpCmynn0p3EMHTSD

点击中间区域
呼出菜单
上一章
目录
下一章
×