随着互联网的发展,尤其是移动互联网产业在软硬件上的创新和突破,网络宽带提速、智能终端普及带来了数以亿计的数据流量,而存储技术的进步和单位数据存储成本的降低为数据的海量积累创造了条件。当然,这里的“积累”主要指海量数据(起始单位PB级)的形成,单机可处理的数据、纸质材料等数据虽然也需要积累,但它们在数据形式、数据结构、处理技术、数量级等方面存在差异,难以催生出大数据产业的萌芽。
就生产和积累数据来说,基于数据本身的公司主要采用两种产业类型:内生型价值模式、外生型价值模式。它们的区别在于数据的产生方式、主要用途不同。内生型价值模式的企业积累数据是被动的,多用于企业自身营销、为客户服务,数据的产生往往和实体产品相关,例如淘宝、Amazon等电商;外生型价值模式的企业积累数据则较为主动,它们提供数据即是提供服务,积累数据是服务的基础,主要以授权、租赁方式将数据交付其他企业或独立部门使用,例如腾讯、Twitter、Google、百度。
数据挖掘包含多个方面,例如顾客交易数据分析、多媒体数据挖掘、隐私保护数据挖掘、文本数据挖掘、Web挖掘、社交媒体挖掘。数据挖掘取决于实践应用的需求,价值即体现在需求里面。由于大数据的价值密度低,传统的数据分析工具难以处理,要想从大数据中提取先前未知的、潜在的有用信息和价值,必须以算法、工具和平台为支撑,以具体的应用数据为原料,以实际需求为目标导向和检验标准。数据挖掘和机器学习算法的设计和开发,需要基于数据本身和应用需求的匹配,而算法的实现离不开高效的处理工具和平台。
Twitter作为全世界最流行的微博服务,由Dorsey于2006年3月创办并在当年7月启动的。Twitter用户每天会发表近10亿条推文,Twitte每天处理约20亿的网络搜索请求。Twitter文本情感分析一直备受关注。早期人们对于如何用Twitter中的文本检测情感做了大量研究,包括利用博文特征以及词的元信息检测Twitter中的情感,监督式的分类方法识别情感、微博中的情感分类技术等。2008年后逐渐投入到具体情境中。2008年美国大选演讲辩论时,依靠Twitter数据分析选民情感;2008年Bollen等通过Twitter文本分析公众情绪,从而预测股市;2009年德国联邦选举时,利用Twitter数据分析博文在政治方面的倾向性。
在Twitter数据进行股市预测情境中,Bollen等通过提取Twitter上的关键词分析公众情绪,再将情绪曲线与道琼斯工业指数进行对照,分析股票市场。从心理学,行为金融学的研究说明了公众情绪可以推动股市价值。为验证这个想法,Bollen等研究了大规模Twitter信息源产生的集体情绪状态的测量值是否与道琼斯工业平均指数(DJIA)随时间的价值相关。Bollen等收集了2008年2月28日到2008年12月19日提交给Twitter服务的文本内容(约270万用户发布了9853498条微博)对于每个文本内容做基本文本处理,并将在同一日期提交的所有推文分组,且只考虑那些包含作者情绪状态的明确表述的推文,然后预测分三个阶段进行。在第一个阶段,将每日Twitter的收集置于2个情绪评估工具中:(1)Opinion Finder,它从文本内容中测量正面和负面情绪;(2)GPOMS,它从文本内容中测量6个不同的情绪维度。这导致共有7个公众情绪时间序列,一个由OpinionFinder生成,六个由GPOMS生成,每个代表了特定日期公众情绪的潜在不同方面。此外,从Yahoo!中提取了每日道琼斯指数收盘价的时间序列。在第二阶段,研究了用gpoms和opinionfinder测量的公众情绪预测未来道·琼斯指数值的假设。并使用因果关系分析将道·琼斯指数值与gpoms和过去n天的值关联起来。在第三阶段,对“公众情绪的测量可以提高DJIA预测模型的预测精度”假设进行验证。研究结果表明,在一定的情绪维度下,标准股票市场预测模型的预测精度得到了显著提高,而其他预测模型的预测精度则没有显著提高。
大数据对于互联网信息的把握是十分强大的,企业根据用户搜索、浏览、购物等行为能够发现新的市场需求,进行精准营销,带来销量和利润的提升。
对于一个传统产业的大企业来说,从原材料的购置、产品的生产和存储,到最终的销售变现,少不了高额的数据管理和维护成本。基于物联网下的大数据技术,例如文本分析、实时物流管理,能够有效地降低企业内部信息不对称的程度,优化生产管理,降低运营成本,从而达到企业利润的进一步增长。
大数据加速向传统产业渗透,会驱动生产方式和管理模式变革,例如电信、金融、交通等行业利用已积累的丰富数据资源,积极探索客户细分、风险防控、信用评价等应用,加快服务优化、业务创新和产业升级步伐。
大数据产业对传统行业的影响是贯穿整个产业链的,因此具有颠覆性。企业高层应提早布局,拥有大数据战略思维,为企业长期发展做好决策。
大数据产业的发展对于国家发展也有特殊的意义。数据被誉为“二十一世纪的石油”,可见数据对当今经济发展的重要作用。假如数据泄露到敌对势力手中、被不法分子利用,我们谈何安全?另一方面,假如国家能推动大数据产业成为新发展动力,重点布局大数据区域和行业,或将带来新一轮的产业革命。合理利用互联网大数据进行舆情监测,有助于引导民意表达,为社会的和谐稳定保驾护航。
2016开始实施精准脱贫工程,国务院扶贫开发领导小组办公室发布会表示将以户政数据、就业收入数据、农业数据、医疗数据、社保数据、企业经营数据等为基础,按照国家制定的统一扶贫对象识别办法,以县为单位,规模控制、分级负责、精准识别、动态管理为原则搭建扶贫大数据平台,开展扶贫行动,实施精准扶贫工程。调动各方面力量,完成对贫困村、贫困户的准确识别,并逐一建档立卡,建立扶贫信息网络系统。
甘肃省围绕“精准扶贫、精准脱贫”的总体要求,在全国率先出台了“1+17”的精准扶贫系统性工作方案。“1+17”大数据平台以医疗数据、交易数据、金融数据、物资数据、经济数据、地理数据等为数据源,运用语义引擎、可视化分析、数据挖掘、模型构建等方法进行数据分析,分析结果运用到扶贫贷款、阳光医疗、政策法规、物流监控、发展规划等场景。“1+17”大数据平台整合了医疗、教育、农牧等所有与扶贫相关的职能部门,针对贫困户“量体裁衣”,释放了政策叠加效应。目前平台初步形成了信息采集、统计、分析、管理功能,下一步将不断完善平台功能,加强信息采录管理,尽早实现与行业部门间的数据对接共享,更好地发挥大数据平台精准分析、精准管理的作用。
贵州省以贫困人口信息为数据源,建设扶贫云,通过大数据技术,扩大信息采集的渠道,提高数据加工能力和效率,深度挖掘数据的价值,为扶贫工作提供真实可靠、及时全面的决策数据。识别出已落实和未落实的贫困人口分布,关联显示帮扶的人或单位等相关信息。通过帮扶情况分析,清晰了解省、市州、县、镇、村贫困人口的实际帮扶情况,协助帮扶任务的落实。
青海海西州以省、州“两线合一”的安排部署,精准识别确定海西蒙古族藏族自治州的贫困人口。对识别出的扶贫对象以县为单位进行网络实名公示,并将贫困户信息录入建档立卡管理系统,按照有进有出的动态管理机制,建设完成海西州扶贫攻坚大数据平台,实现了扶贫对象电子信息档案的集中管理,为推进精准扶贫、精准脱贫提供了决策依据。