大数据资源催生大数据产业,逐渐形成了庞大的产业链结构。大数据从产生到应用,经历了数据采集、数据清洗、数据存储、数据分析和挖掘、数据可视化过程。每一个阶段都具有重要的作用,聚集了大量的资本,创造着新颖的、革命性的技术和产品,诞生了许多专业性、创新性企业。
数据采集是大数据产业链的起点,是一切大数据研究、应用、服务的源头。大数据的来源十分广泛,从类型可分为政务型数据、行业型数据、自然资源数据、社会资源数据等。政务型数据大多分散存储在政府的各个部门,开放、流通、共享成为大数据时代的主题。行业型数据与具体的应用领域有关,包括农业、工业、服务业及其包含的具体产业。行业数据的特点是来源于实际生产过程,反映生产的实际状况,因而数据所蕴含的规律对生产过程具有指导意义。自然资源数据是人们对物理世界自然存在的对象的描述,即人们通过感官或者各种传感器获取这些数据,如温度、压力、湿度、颜色、形状。自然资源数据在矿产资源、农业、动植物资源、中医药、疾病、基因、天文中广泛存在,分类和关联分析是其两个主要的任务。社会资源数据是与人类生活、生产息息相关的数据,如朋友圈、买菜信息、旅游信息、生活缴费、医疗信息、社交信息、浏览信息等。利用社会型数据可以为人们提供更好的服务,如企业缴税服务、个人缴纳水电费服务、滴滴打车、神州租车、同城快递。通过收集更多的外延性社交数据,如踪迹、偏好、情绪、相貌等扩展信息,还可以开展更深层次的数据挖掘,实现精准营销、舆情监控、趋势预测。
从内涵上,大数据可分为基础性数据和外延性数据。基础性数据表现为结构简单、属性单一、关联性低、单位数据包含的信息量小,一般采用统计分析技术汇总、计算参数,发现统计分布规律,但是很难从中挖掘出具有深刻价值的信息,如学生成绩信息、人口统计数据。基础数据之外的外延性数据是根据实际需要,从应用场景中特意提取出来的数据,如共享单车除了采集用户的姓名、账号等基本信息之外,还会收集用户的行走路线、位置等外延信息。外延数据包含了更多的有价值的信息,为深层理解对象的行为提供了依据。例如,网上商城除了拥有客户注册的基本信息之外,还可以通过购买记录研究用户的地区、偏好,区分客户群体,预测客户性格和兴趣。在工业生产中,外延信息提高了精准服务的能力,促进了产业的升级改造,如航空配件的定制化生产、上门家政服务。因为许多政务数据缺乏外延性数据,如计划生育数据、人口数据,导致更深层次的挖掘无法执行。因此,在一些政务开放数据中人们挖掘不了更有价值的信息,这也是目前“有数据、无应用”的内在原因。
无论是哪一类数据,数据本身作为一种战略性的资源,是各个国家竞相发展的重点。数据资源催生了许多相关产业,如数据管理和交易平台、物联网、云存储平台、数据备份。比如,数据堂是北京一家新兴的数据资源公司,为用户提供了各类原始数据、数据共享平台服务,曾获得多次融资,发展势头迅猛。贵阳大数据交易所是国内第一家大数据交易平台,定义了数据交易的规范、方式和价格,为数据资源的公开、透明交换提供支撑。上海数据交易中心从事数据商品交易及相关服务等。
据业内专家估计,数据处理中70%~80%的工作在于数据预处理,处理的好坏直接影响着数据挖掘的结果。数据清洗是提升数据质量的一系列过程,包括数据补齐、数据离散化、数据光滑、消除噪声、数据规范化、数据变换、一致性处理、冗余消除、数据脱敏等。每一类原始数据或多或少存在一些问题,每一种处理过程都可以采用不同的技术实现,依需而定。目前,大多数的数据清洗工作集成在软件的ETL模块或者单独的ETL工具之中,如Oracle Data Integrator(ODI)、Informatica Data Quality、IBM WebSphere DataStage、Pentaho Kettle、Microsoft的Data Transformation Service(DTS)。它们作为市场的成熟产品得到了广泛的应用。在产业化方面,数据质量管理作为数据加工的初级阶段,也催生了一些技术性初创企业,在大数据需求庞大的地区具有广阔的市场。
数据存储是大数据生产的重要环节,由三部分组成:基础通信设施、数据中心(云平台)、灾备中心。一、基础通信设施是信息高速公路,承接着数据的交换、传输和共享的功能。通讯能力的高低直接影响着数据服务的效率。积极发展基础通讯能力,增加网络带宽,提高网络覆盖范围,提升网络传输质量,有利于保障正常的大数据服务功能。二、数据中心本身虽然不产生废物、废料,却是极大的耗能设施。因此,通常建设在电厂和水源的附近,环境具有适宜的温度。三、灾备中心是大数据体系的重要组成部分,保障数据中心的正常运行,防止意外造成的数据丢失、破坏。异地灾备是较为常见的方式。
无论是哪个方面的设施建设,一定是结合实际发展需求,从长远的发展眼光进行规划和设计。一味地模仿和盲目地建设数据中心,极有可能造成巨大的资源浪费,因为数据中心的投入需要庞大的物资,并时刻消耗着大量的能源。
数据分析和挖掘是大数据应用的核心,在互联网领域得到充分的发展,如文本检索(百度)、新闻推荐(今日头条)、商品销售(京东商城)、软件技术(Apache开源平台)、智慧物流(顺丰)、朋友圈(腾讯)等。可以看出,数据挖掘一定要和领域、应用相结合,才能提升服务品质和用户体验。数据挖掘的结果一定要为企业、政府、公众或者社会带来价值,否则就是无用之物。所以,在大数据的发展之中,以应用需求为驱动,行业数据为基础,探索价值缺一不可。
无论在哪个产业,数据挖掘始终是应用上的难题,这是由实际问题的多样性和大数据挖掘技术的复杂性所导致的。想将应用和技术巧妙结合,并不是跟随热点、编程技术就能够解决的,而是在经验丰富的技术人员引导下的深度思考活动的结果。在市场上,企业的功能在于制造数据挖掘工具或者提供数据挖掘服务,因而在市场的细分热点行业诞生了许多特色的数据挖掘公司。
数据可视化是成果展示的技术手段,本身并不产生数据价值。“一图胜千言”,数据可视化的作用在于将繁杂的发展规律通过直观的形式展现,简化人们思考、决策的过程。大数据的可视化工具、可视化软件都可以成为创新企业的软件产品,集成在大数据平台之中。当前,无论是行业应用、交易平台,还是政府服务,可视化技术得到了广泛的应用,已经成为大数据服务平台的标配。
另一方面,人们在关注可视化的同时,往往忽视了画面背后的数据价值。不可否认,数据可视化的作用很大,然而,也需要注意到,可视化技术应用也带来了一些假象,似乎只要有漂亮的可视化界面就意味着成功的数据分析项目。俗话讲,“外行看热闹,内行看门道”,创造可视化技术的本质是展现数据的价值,理解数据的内涵,反映业务规律。