大数据工程的实施一般需要经过如下宏观过程,如图1.7所示。一、企业根据客户或者自身的需要设定问题范畴,描述潜在的需求,咨询可获得的数据及其特性。例如,企业关心如何从海量简历中找到适合岗位的候选人;婚介平台关注如何从海量的单身男女中寻找合适的对象。二、定义软件可实现的目标和计划。分析需求中可以软件化的过程,制定数据分析目标和实施的步骤。三、为数据分析应用搭建软硬件基础平台。平台的性能和规模取决于数据量的大小和问题的复杂性。四、在平台上实施数据挖掘过程,开发制定化的数据分析工具。结合客户的业务需求,选择合适的软件模型和挖掘算法,开发应用软件。五、通过用户交互和可视化,直观展现数据蕴含的深刻规律和模式。直观展示数据分析结果有利于用户的认可,提高对数据内蕴规律的认识,更全面评价当前业务。
图1.7 大数据应用的实施步骤
在许多情况下,中小型大数据企业无力构建自有的数据中心或者硬件平台,这时可以选择大型企业提供的公有云,如微软云、阿里云、腾讯云等,根据需要选择PaaS或者SaaS服务,不利之处在于企业信息可能完全被别人掌控。而混合云架构有利于解决企业隐私和平台搭建问题。不具备大量的数据资源的科技企业,可以选择构建企业私有云,这样可以更加安全、可靠、稳定。