就现如今的发展趋势而言,大数据技术的发展如火如荼。在各个领域都得到了广泛的应用,而且就其目前的发展情况来看,大数据技术具有十分良好的发展前景。现在社会的大数据公司主要可以分为三类,分别是技术型、创新型、数据型,不论是哪一种类型的大数据公司,都是现代社会不可或缺的。人们熟悉的技术型的大数据公司通常是IT公司,这些公司十分看重数据的处理这一模块。创新型的大数据公司需要一些非常有想象力的人,于相同的数据,他们往往有不同的见解,并发现其中的不同。
而数据型的大数据公司,人们了解的比较多,如新浪、百度、网易、搜狐、淘宝等,这些也是与人们的日常生活密切相关的,或者是一些零售的连锁企业、市政公司、金融服务公司等,这些公司自身拥有较多的数据,也正是因为涵盖的数据较多,因而容易导致有价值的信息被忽略。在这三种不同的大数据公司中,技术型的大数据公司未来的发展将会使得技术趋向于多元化,制造出越来越多样的技术。不论是从哪个方面来说,大数据技术今后的发展都会越来越好。以下就大数据的技术发展前景和实用发展前景两个方面来对大数据的发展进行探讨。
(一)开源软件得到广泛的应用
近几年来,大数据技术的应用范围越来越广泛。在信息化的时代,各个领域都趋向于智能化、科技化。大数据技术研发出来的分布式处理的软件框架Hadoop、用来进行挖掘和可视化的软件环境、非关系型数据库Hbase、MongoDb和CounchDB等开源软件,在各行各业具有十分重要的意义。这些软件的研发,与大数据技术的发展是分不开的。
(二)不断引进人工智能技术
大数据技术主要是从巨大的数据中获取有用的数据,进而进行数据的分析和处理。尤其是在信息化爆炸的时代,人们被无数的信息覆盖。大数据技术的发展显得十分迫切。实现对大数据的智能处理,提高数据处理水平,需要不断引进人工智能技术,大数据的管理、分析、可视化等都是与人密切相关的。现如今,机器学习、数据挖掘、自然语言理解、模式识别等人工智能技术,已经完全渗透到了大数据的各个程序中,成为其中的重要组成部分。
(三)非结构化的数据处理技术越来越受重视
大数据技术包含多种多样的数据处理技术。非结构化的处理数据与传统的文本信息存在很大的不同,主要是指图片、文档、视频等数据形式。随着云计算技术的发展,各方面对这类数据处理技术的需求越来越广泛。非结构化数据采集技术、NoSQL数据库等技术发展得越来越快。
(四)分布式处理架构成为主要模式
大数据要处理的数据成千上万。数据的处理方法也需要不断地与时俱进。传统的数据处理方法很难满足巨大的数据的需求。随着人们的不断探索,在大数据技术的各个处理环节,分布式处理方式已经成为主要的数据处理方法。这也是时代发展的必然。除了分布式处理方式,分布式文件系统、大规模并进行处理数据库、分布式编程环境等技术都得到了广泛的应用。
(五)数据分析成为大数据技术的核心
数据分析在数据处理过程中占据十分重要的位置,随着时代的发展,数据分析也会逐渐成为大数据技术的核心。大数据的价值体现在对大规模数据集合的智能处理方面,进而在大规模的数据中获取有用的信息。要想逐步实现这个功能,就必须对数据进行分析和挖掘。而数据的采集、存储和管理都是数据分析步骤的基础,通过进行数据分析得到的结果,将应用于大数据相关的各个领域。未来大数据技术的进一步发展,与数据分析技术是密切相关的。
(六)广泛采用实时性的数据处理方式
在现如今人们的生活中,人们获取信息的速度较快。为了更好地满足人们的需求,大数据处理系统的处理方式也需要不断地与时俱进。目前大数据的处理系统采用的主要是批量化的处理方式,这种数据处理方式有一定的局限性,主要是用于数据报告的频率不需要达到分钟级别的场合,而对于要求比较高的场合,这种数据处理方式就达不到要求。传统的数据仓库系统、链路挖掘等应用对数据处理的时间往往以小时或者天为单位。这与大数据自身的发展有点不相适应。
大数据突出强调数据的实时性,因而对数据处理也要体现出实时性。如在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级,要求极高。在一些大数据的应用场合,人们需要及时对获取的信息进行处理并进行适当的舍弃,否则很容易造成空间的不足。在未来的发展过程中,实时性的数据处理方式将会成为主流,不断推动大数据技术的发展和进步。
(七)基于云的数据分析平台将更加完善
近几年来,云计算技术发展得越来越快,与此相应的应用范围也越来越宽。云计算的发展为大数据技术的发展提供了一定的数据处理平台和技术支持。云计算为大数据提供了分布式的计算方法、可以弹性扩展、相对便宜的存储空间和计算资源,这些都是大数据技术发展中十分重要的组成部分。此外,云计算具有十分丰富的IT资源、分布较为广泛,为大数据技术的发展提供了技术支持。随着云计算技术的不断发展和完善,发展平台的日趋成熟,大数据技术自身将会得到快速提升,数据处理水平也会得到显著提升。
(八)开源软件的发展将会成为推动大数据技术发展的新动力
开源软件是在大数据技术发展的过程中不断研发出来的。这些开源软件对各个领域的发展、人们的日常生活具有十分重要的作用。开源软件的发展可以适当地促进商业软件的发展,以此作为推动力,从而更好地服务于应用程序开发工具、应用、服务等各个不同的领域。虽然现如今商业化的软件也是发展十分迅速,但是二者之间并不会产生矛盾,可以优势互补,从而共同进步。开源软件自身在发展的同时,为大数据技术的发展贡献力量。
(一)可视化推动大数据平民化
“可视化”已连续三次人选大数据发展十大趋势,最近几年,“大数据”概念深入人心。民众看到的大数据更多的是以可视化的方式体现的。可视化极大地拉近了大数据和普通民众的距离,即使对IT技术不了解的普通民众和非专业技术的常规决策者也能够很好地理解大数据及其分析的效果和价值,使得大数据可以从国计和民生两方面充分发挥其价值。
可视化是通过把复杂的数据转化为可以交互的图形,帮助用户更好地理解分析数据对象,发现、洞察内在规律。数据是人类对客观事物的抽象。人类对数据的理解和掌握是需要经过学习训练才能达到的。理解更为复杂的数据,必须越过更高的认知壁垒,才能对客观数据对象建立相应的心理图像,完成认知理解过程。好的可视化能够极大地降低认知壁垒,使复杂未知数据的交互探索变得可行。
可视化技术的进步和广泛应用对于大数据走向平民化的意义是双向的。一方面,可视化作为人和数据之间的界面,结合其他数据分析处理技术,为广大使用者提供了强大的理解、分析数据的能力。可视化使得大数据能够为更多人理解、使用,使得大数据的使用者从少数专家扩展到更广泛的民众。另一方面,可视化也为民众提供了方便的工具,可以主动分析处理和个人工作、生活、环境有关的数据。大约在10年前,可视化领域已经开始讨论为民众服务的可视化(visualization for mass)技术。在今天大数据的背景下,可视化将进一步推动大数据平民化。在这一过程中,急需更为方便、适合民众使用需要的可视化方法、工具。可视化也将进一步和个人使用的移动通信设备相结合。我们预测,在这一过程中,将有更多面向民众的大数据可视化公司涌现。
(二)多学科融合与数据科学的兴起
大数据并不是简单的“大的数据”。在近年对大数据的阐述中,至少有两种典型的提法:一种是点出“小数据”的重要性;另一种是去掉“大”字而强调“数据”本身,强调数据科学、数据技术、数据治理、数据产业等。
大数据技术是多学科多技术领域的融合,涉及数学、统计学、计算机类技术、管理类等;大数据应用更是与多领域交叉融合。这种交叉融合催生了专门的基础性学科——“数据学科”。基础性学科的夯实,使学科的交叉融合更趋完美。
在大数据领域,许多相关学科研究的方向表面上看来大不相同,但是从数据的视角来看,其实是相通的。随着社会数字化程度的逐步加深,越来越多的学科在数据层面趋于一致,可以采用相似的思想进行统一的研究。从事大数据研究的不仅仅是计算机领域的科学家,也包括数学等方面的科学家。
很多数据相关的专门实验室、专项研究院所相继出现,《数据学》等著作也纷纷出版。大家认为数据科学的雏形已经出现了。
(三)大数据安全与隐私令人忧虑
每次大数据发展趋势预测,安全和隐私都会出现在十大趋势中。这一条代表了人们对于大数据所带来问题的深刻忧虑。
(1)大数据的安全问题十分严峻。这里指当大数据技术、系统和应用聚集了大量有价值的信息的时候,必将成为被攻击的目标。虽然影响巨大的针对大数据的攻击还没有见诸报端,但是可以预见,这样的攻击必将出现。
(2)大数据的过度滥用所带来的问题和副作用,最典型的就是个人隐私泄露。在传统采集分析模式下,很多隐私在大数据分析能力下变成了“裸奔”。类似的问题还包括商业秘密泄露和国家机密泄露。
(3)心理和意识上的安全问题,包括两个极端,一是忽视安全问题的盲目乐观,另一个是过度担忧所带来的对大数据应用发展的掣肘。比如,大数据分析对隐私保护的副作用,促使我们必须对隐私保护的接受程度有一个新的认识和调整。
大数据受到的威胁、大数据的过度滥用所带来的副作用、对大数据的极端心理,都会阻碍和破坏大数据的发展。
(四)新热点融入大数据多样化处理模式
大数据的处理模式依然多样化。大数据处理模式不断丰富,新旧手段不断融合,比如流数据、内存计算成为新热点。内存计算继续成为提高大数据处理性能的主要手段。以Spark为代表的内存计算逐步走向商用,并与Hadoop融合共存。与传统的硬盘处理方式相比,内存计算技术在性能上有了数量级的提升。批处理计算、流计算、交互查询计算、图计算等多种计算框架使数据使用效率大大提高。
很多新的技术热点持续地融人大数据的多样化模式中,目前还没有一个统一的模式。从2015年中国大数据技术大会的众多技术论坛的安排也可以看出这样的态势。技术各有千秋,将形成一个更加多样平衡的发展路径,满足大数据的多样化需求。这样的态势还会持续下去。
(五)大数据提升社会治理和民生领域应用
基于大数据的社会治理成为业界关注的热点,涉及智慧城市、应急、税收、反恐、农业等多个民生领域。在最易获得大数据应用成果的互联网环境之后,大数据走进国计民生成为必然。未来,大数据与民生有关的应用将成为热点。涉及民生的国计将是快速发展的热点中的热点,比如反恐、医疗健康等。
(六)深度分析推动大数据智能应用
在学术技术方面,我们认为深度分析会继续推动整个大数据智能的应用。这里谈到的智能强调涉及人的相关能力的延伸,比如决策预测、精准推介等,涉及人的思维和反射的延展,人的能力(智能和本能)的延展,这些都会成为大数据分析、机器学习、深度学习等学术技术发展的方向。
(七)数据权属与数据主权备受关注
数据权属与数据主权被高度关注。大数据问题从个人和一般机构层面来看是数据权属问题、从国家层面来看是数据主权问题。大数据凸显了数据的巨大价值。而数据的权属问题并不是传统的财产权、知识产权等可以涵盖的。数据成为国家间争夺的资源,数据主权成为网络空间主权的重要形态。
数据成为重要的战略资源。人口红利、地大物博、经济实力、文化优势等都纷纷体现为数据资源储备和数据服务影响力。而数据资源化、价值化是数据权属问题和数据主权问题的根源。
(八)互联网、金融、健康保持热度,智慧城市、企业数据化、工业大数据是新增长点
我国大数据应用领域最早获得成果的是互联网应用,如电商。而持续受到高度关注的还有金融和健康领域。互联网、金融、健康可以称为大数据应用领域的“老三样”。而智慧城市、企业数据化、工业大数据则成为新的增长点。这“新三样”其实就是城市、企业、工业的数据化,或者说是城市生活、企业贸易和管理、工业生产过程的数据化和大数据应用。“新三样”是一种更广泛的、覆盖更全的应用领域。
“最令人瞩目的应用领域”和“将取得应用和技术突破的数据类型”这两项调研投票的结果,印证了对“老三样”和“新三样”的判断。
(九)开源、测评、大赛催生良性人才与技术生态
大数据是应用驱动,技术发力。技术与应用一样至关重要。决定技术的是人才及其技术生产方式。开源系统将成为大数据领域的主流技术和系统选择。以Hadoop为代表的开源技术拉开了大数据技术的序幕,大数据应用的发展又促进了开源技术的进一步发展。开源技术的发展降低了数据处理的成本,引领了大数据生态系统的蓬勃发展,同时也给传统数据库厂商带来了挑战。对数据处理的能力、性能等进行测试、评估、标杆比对的第三方形态出现并逐步成为热点。相对公正的技术评价有利于优秀技术占领市场,驱动优秀技术的研发生态。各类创业创新大赛纷纷举办,大赛为人才的培养和选拔提供了新模式,完善了人才生态。技术生态是一个复杂环境。在未来,技术开源会一如既往占据主流,而测评和大赛将有突破性进展。