商务数据分析与应用（第2版）最新章节_杨凤著

任务1-2 商务数据采集与分析

任务导入

任务了解商务数据采集

实训情境：

商务数据越来越丰富，个人与企业对数据的需求也日益增加，如何利用数据进行决策支持也成为普遍的需求。利用数据进行预测与优化分析，可以有效地增加效益与防范风险，因此，数据采集能力也成为诸多岗位的必备技能。此时，网络爬虫就成为需要用户进行大量学习才能掌握的高成本学习技能。

数据采集器是进行数据采集的机器或工具，用于实现自动从大批量网页上采集数据、抓取网站信息，同时对图片、文字等信息进行采集、处理及发布。采集器可以大幅度降低数据的获取门槛。

根据岗位实训内容，我们可提炼出典型实训活动，具体如下：

（1）熟知数据采集的方法；

（2）了解常用的数据采集工具；

（3）了解后羿采集器的优劣势。

学习目标：

知识目标：

（1）掌握数据的概念；

（2）理解数据的分类和数据结构。

技能目标：

（1）针对各类数据源的不一致配置不同的采集任务，实现所需数据的抓取；

（2）针对数据源内各类情况分别做出应对；

（3）将数据源内各类数据形成结构化数据存储于指定位置，可用于数据处理和分析。

思政目标：了解我国大数据需求及获取途径和要求。

学习导图：

实训任务

实训任务书

任务名称：_______________

任务功能：_______________

典型实训任务：_______________

注意事项：

1.请严格按照实训任务内容要求实践，不得随意更改实训流程。

2.完成实训内容后，请进行清单检查，完成请打钩。

学生签名：

情境描述

某影视公司要了解用户对电影作品的需求问题。请利用后羿采集器工具采集线上电影数据，提取正在上映的电影名称、评价及图片等信息，提取的结果以文件形式保存。

实训计划

对企业典型工作活动进行提取，并辅以理论知识点，组成有效实训计划。

实训流程图如图 1.6 所示。

（备注：实训流程图上方为该环节所需知识点，下方为项目实践活动。）

图1.6 实训流程图

典型实训活动一：环境准备

实训要点 1：下载安装采集器工具包

实训要点 2：找到并确认数据源

实训任务：准备数据采集工具并安装，找准数据源。

典型实训活动二：抓取分析

实训要点 1：输入并打开数据源

实训要点 2：制作采集任务、运行任务排错

实训任务：分析页面抓取信息、运行任务排错。

典型实训活动三：完成连接

实训要点 1：提取信息

实训要点 2：数据导出

实训任务：形成结构化数据并存储于指定位置。

学习目标

本实训的学习目标如表 1.2 所示。

表1.2 学习目标

知识讲解

任务掌握商务数据分析

一、大数据认知

当今社会，我们已经将通信、交际、闲暇时光、开展业务转移到了互联网上。互联网已经渗透我们的手机、我们的家园和城市中的设备以及工厂中。其导致的数据爆炸正改变着我们的世界。

互联网、移动互联网、物联网、云计算的快速兴起，以及移动智能终端的快速普及，使当前人类社会的数据增长比以往任何一个时期都要快。数据的爆炸式增长出乎人们的想象。2020 年，全球以电子形式存储的数据量是 2009 年的 40 倍。

与此同时，伴随着物联网、移动智能终端和移动互联网的快速发展，移动网络中数据流量的增长速度也非常迅猛。从 2011 年开始，全球移动数据流量年增长率保持在50％以上，并处于一个稳定增长的态势。到 2016 年，全球移动数据流量达到 2011 年全球移动数据流量的 18 倍，为 129.6 EB。

数据的疯狂增长，使得适应和应对数据增长成为整个社会关注的焦点。“大数据”的概念正是在这一背景下应运而生的。图 1.7 所示为大数据系统概览。

图1.7 大数据系统概览

（一）大数据的定义

大数据（big data）又称为巨量资料或海量数据，是指传统数据处理应用软件不足以处理的大量的或复杂的数据集的术语。大数据也可以定义为具有各种来源的大量非结构化或结构化数据。

（二）大数据的发展历程

自从古代有过第一次计数以来，数据收集和分析便成为社会功能改进的根本手段。17—18 世纪的微积分、概率论和统计学所提供的基础性实训，为科学家提供了一系列新工具，用来准确预测星辰运动，确定公众犯罪率、结婚率和自杀率。这些工具常常带来惊人的进步。

19 世纪，约翰·斯诺（John Snow）博士运用近代早期的数据科学绘制了伦敦霍乱爆发的“群聚”地图。霍乱在过去被普遍认为是由“有害”空气导致的，斯诺通过调查被污染的公共水井进而确定了霍乱的元凶，奠定了疾病细菌理论的基础。

今天，数据比以往任何时候都更加深入地与我们的生活交织在一起。我们期待着用数据解决各种问题、改善福利以及推动经济繁荣。数据的搜集、存储与分析技术水平不断提升，这种提升看上去正处于一种无限的向上轨迹之中。它们的加速是因为处理器能力的增强、计算与存储成本的降低以及在各类设备中嵌入传感器的技术的增长。这些趋势还将持续下去，我们只是处在所谓的“物联网”（internet of things）的相当初级的阶段。在物联网中，我们的各种应用设备、运输工具以及持续增长的“可穿戴”技术产品将可以彼此交换信息。

大数据的发展历程：第三次浪潮→大数据应用→大数据时代→云计算助力→国内规模化。

在2014 年 12 月 12 日电商的促销期，淘宝网推出“时光机”——一个根据淘宝买家几年来的购买商品记录、浏览点击次数、收货地址等数据编辑制作的“个人网购志”，记录和勾勒出让人感怀的生活记忆，如图 1.8 所示。其背后，是基于对 4.7 亿淘宝注册用户网购数据的分析处理，这正是大数据的典型应用。

随着传统互联网向移动互联发展，全球范围内，除了个人电脑、平板电脑、智能手机、游戏主机等常见的计算终端之外，更广阔的、泛在互联的智能设备，如智能汽车、智能电视、工业设备和手持设备等都连接到网络之中。基于社会化网络的平台和应用，数以百亿计的机器、企业、个人随时随地都可以获取和产生新的数据。

图1.8 大数据的应用——淘宝“时光机”

互联网搜索引擎是大数据最为典型的应用之一。百度日处理数据量达到数十PB，并呈现高速增长的态势。如果一张光盘容量为 1 GB，这相当于垒在一起的几千万张光盘。微软Bing（必应）搜索引擎，一周需要响应 100 亿次量级的搜索请求。其通过和Facebook的合作，每天有超过 10 亿次的社交网络搜索请求通过Bing来处理。

简单地讲，大数据就是那些超过传统数据库系统处理能力的数据。但是，大数据的问题并不仅仅是规模，数据产生的速度以及数据的多样性同样是大数据不可忽略的两个基本特性。根据摩尔定律，计算能力每一年半到两年的时间将增加一倍。可是，现有的网络带宽并没有以同样的速度增加。因此，如此之迅猛的数据洪流的产生，正在给电信运营商的网络运营带来极大的挑战。

（三）大数据的特征

1.体量大

体量大（volume）是指大数据巨大的数据量与数据完整性。 IT界所指的数据，诞生不过 60 多年。而一直到个人电脑普及前，由于存储、计算和分析工具的技术与成本限制，许多自然界和人类社会值得记录的信号，并未形成数据。

以前，气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业，但那时 90％以上采用的是存储模拟信号，难以通过计算设备和软件进行直接分析。拥有大量资金和人才的政府和企业，也只能把少量最关键的信号进行抽取、转换并装载到数据库中。

尽管业界对达到怎样的数量级才算是大数据并无定论，但在很多行业的应用场景中，数据集本身的大小并不是最重要的，是否完整才最重要。

（1）根据IDC做出的估测，数据一直都在以每年 50％的速度增长，即两年增长一倍。

（2）人类在最近两年产出的数据量相当于之前产生的全部数据量。

（3）人类生产的所有印刷材料的数据量是 200 PB。

（4）历史上全人类说过的所有的话的数据量大约是 5 EB（1 EB ＝ 1024 PB）。

（5）典型个人计算机硬盘的容量为TB量级。

（6）一些大企业的数据量已经接近EB量级。

2.种类繁多

种类繁多（variety）意味着要在海量、种类繁多的数据间发现其内在关联。在互联网时代，各种设备通过网络连成了一个整体。进入以互动为特征的Web 2.0 时代，个人计算机用户不仅可以通过网络获取信息，还可成为信息的制造者和传播者。这个阶段，不仅是数据量开始了爆炸式增长，数据种类也开始变得繁多。这必然促使我们对海量数据进行分析、处理和集成，找出原本看来毫无关系的那些数据的“关联性”，把似乎没有用的数据变成有用的信息，以支持我们做出的判断。

数据的数量正在快速增长，它的格式也越发多样，来源也越发广泛。有些数据是“天生数字化的”（born digital），意思是说它就是被特别创造出来用于计算机和数据处理系统的。这些例子存在于电子邮件、网页浏览或GPS定位之中。其他数据是“天生模拟的”（born analog），这是说它从物理世界中发散出来，但可以不断被转化成数字格式。模拟数据的例子包括手机、相机或摄像设备录制的语音或可视信息，或者还有通过可穿戴设备监测到的身体活动数据，如心率或排汗量。“数据融合”（data fusion）能够将分散的数据源整合在一起，随着这种能力的提升，大数据可以带来一些远见卓识。

（1）科学研究：基因组、地球与空间探测。

（2）企业应用：交易记录、应用日志、文档、文件。

（3）互联网：文本、图像、视频、查询日志、点击流。

（4）物联网：传感器、监测设备。

3.处理速度快

处理速度快（velocity）可以理解为更快地满足实时性需求。数据的实时化需求正越来越清晰。对普通人而言，开车去吃饭，会先用移动终端中的地图查询餐厅的位置，预计行车路线的拥堵情况，了解停车场信息甚至是其他用户对餐厅的评论。吃饭时，人们会用手机拍摄食物的照片，编辑简短评论发布到微博或者微信上，还可以用LBS（基于位置的服务）应用查找在同一间餐厅吃饭的人，看有没有好友在附近等。

如今，通过各种有线和无线网络，人和人、人和各种机器、机器和机器之间产生了无处不在的连接，这些连接不可避免地带来数据交换。而数据交换的关键是降低延迟，以近乎实时（这意味着小于 250 毫秒）的方式呈献给用户。

数据采集与分析的执行速度越来越接近即时时间，这意味着对一个人就其周边环境或生活所做的决定产生即时的影响而言，大数据分析有着越来越大的潜力。高速数据的例子包括记录使用者在线与网页互动活动的点击流数据，即时追踪定位的移动设备获得的GPS数据，以及得到广泛分享的社交媒体数据。客户与公司希望通过分析这种数据使其即刻获益的要求越来越高。事实上，如果手机定位应用不能即时准确地确认手机位置，它根本就不会有什么用处，并且，在确保我们的汽车安全运行的计算机系统中，实时操作至为关键。从数据的生成到消费，时间窗口非常小，可用于生成决策的时间也非常少。

4.价值密度低

比前面 3 个“V”更重要的，是价值密度（value），它是大数据的最终意义——获得洞察力和价值。大数据的崛起，正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下，呈现的这么一个过程：将信号转化为数据，将数据分析为信息，将信息提炼为知识，以知识促成决策和行动。

就大数据的价值而言，就像沙子淘金，大数据规模越大，真正有价值的数据相对就越少。所以大数据系统不是越多越好，而是越少越好。开始数据要多，最后还是要少，把ZB、 PB最终变成一个比特，也就是最后的决策。这才是最关键的。以视频为例，一部 1 小时的视频，在连续不间断的监控中，有用的数据可能仅有一两秒，价值密度低，商业价值高。

“卖数据”称为直接赢利模式，如淘宝推出的“数据魔方”收费标准为 300 元/月，直接创造经济价值。

数据采集、存储与处理成本的下降，连同像传感器、相机、地理位置及其他观测技术提供的新的数据来源，意味着我们生活在一个数据采集几乎无处不在的世界中。采集与处理的数据量是空前的。从基于网络的应用、可穿戴技术与先进传感器，到监测生命体征、能源使用状况与慢跑者跑步速度的监测仪，由此带来的数据爆炸将增加人们对于高性能计算技术的需求，并推动针对最复杂数据的管理能力的提升。

若使用得当，大数据分析能够提高生产效率，改善客户与政府的服务体验、挫败恐怖分子并且拯救生命。例如，大数据与不断发展的“物联网”使得人们将产业经济与信息经济进行整合成为可能。又如，喷气式发动机和运货卡车现在能够装配许多传感器以监控上百个数据点，并且在需要维护时自动报警。这就使得整个系统更加扁平化，减少了维护成本，并同时增强了安全性。再如，美国医疗保险和医疗补助服务中心（the centers for medicare and medicaid services，简称CMS）已经开始在要求支付前用预测分析软件来标示看似报销欺诈的凭据。欺诈预防系统有助于实时甄别高风险医疗保健提供者的欺诈、浪费与滥用行为，它已经终止、阻止或确认了 1.15 亿美元的欺诈性支付，在该程序上花的每 1 美元带来了 3 美元的成本节约。

（四）大数据的数据结构

（1）10％为结构化数据，通常存储在数据库中。

（2）90％为非结构化数据，格式多种多样。

（3）企业数据，目前已有超过 80％的数据以非结构化的形式存在。

（4）互联网领域，非结构化数据占到整个数据流比例的 75％以上。

（5）非结构化数据年增长速度约为 63％，远超过结构化数据增长速度（32％）。

（五）大数据应用领域

大数据的应用领域非常广泛，具体包含政府、电商、金融、交通、制造、教育、医疗、能源等，如图 1.9 所示。

图1.9 大数据的应用领域

不论是零售、电商、金融等商业领域，还是制造、能源等工业领域，大数据在各行各业中都发挥着非常重要的作用。

比如政府大数据，可能会涉及安防、征信、智慧城市等业务。在前几年张学友的演唱会中，警方逮捕了很多逃犯。一场演唱会规模很大，通常有数万人参与，并且多数演唱会于晚上举行，灯光昏暗。在这样的条件下警方能抓获逃犯，主要得益于AI技术和大数据技术在安防领域的应用。系统首先拍摄每个人的图像，识别得到每个人的面部信息，再将面部信息与后端的数据库进行比对，若遇到逃犯，系统会自动报警，提醒公安人员有犯罪嫌疑人出现。

二、商务数据分析基础

（一）数据分析与决策流程

（1）明确目标：确定核心指标、明确分析思路。

（2）指标分解：拆解核心指标、剔除虚荣指标。

（3）获取数据与数据预处理：数据采集、数据集成、数据清洗、数据加工。

（4）数据分析：量化分析、趋势分析、对比分析、关联分析、因果分析。

（5）数据可视化：评估描述、编制统计图表、确定展现形式、撰写数据报告。

（6）采取行动：结果输出、验证、评估、分析迭代改进、优化、延展分析。

（二）明确目标

供应方在与需求方有效沟通后，在了解业务的基础上，明确切入角度和核心指标，如图 1.10 所示。

图1.10 根据需求方确立数据分析目标

（三）指标分解

供应方确定核心指标后，可以根据业务逻辑，结合不同的数据分析方法论，遵循MECE原则，从不同的角度对指标进行拆分。

（四）确定模型或方法

分析模型的方法有AARRR模型（拉新—促活—留存—转化—传播）、4P营销理论、5W2H分析法等。

时间维度：根据时段（如每天中的各时点）、日期间隔（如次日/3 日/7 日/30 日等）、周期（如周一、周六等）等对数据指标进行细分。

渠道维度：通常可以分为线上和线下渠道，线上渠道主要有自媒体投放、百度推广、官方自有渠道等；线下渠道主要有户外广告、地推活动、纸质媒体等。

用户维度：根据用户登录情况，用户可分为活跃用户、流失用户（长期不活跃）、忠实用户（长期活跃）、回流用户（曾经长期不活跃，后来再次成为活跃用户的群体）等；根据用户付费情况，用户可分为付费用户、未付费用户等。

（五）明确数据分析流程

1.获取数据—数据采集

数据来源包括WEB端、 App端、传感器、数据库、第三方。

2.获取数据—数据集成

数据集成：对来自不同数据源的数据，进行合并并整理，形成统一的数据视图。

需要考虑的问题：

（1）识别和匹配相关实体及数据：从核心信息开始，逐步匹配扩展到其他相关信息；

（2）统一的元数据定义：表名、字段名、类型、单位（量纲）等；

（3）统一的数据取值：通过映射规则（mapping）进行转换，保持数据一致性；

（4）冗余数据处理：对重复数据进行删除，对相关性大的数据进行适当处理。

3.数据预处理

（1）大数据预处理技术—数据清洗。

数据清洗：针对原始数据，对出现的噪声进行修复、平滑或剔除，包括异常值、缺失值、重复记录、错误记录等；同时过滤掉不用的数据，包括某些行或某些列。

噪声数据处理：

①异常值：箱线图、删除、当作缺失值、忽略。

分箱发：箱均匀、箱中位数或箱边界、平滑数据。

②缺失值。

统计值填充：均值、众数、中位数。

固定值填充：填充指定值。

最接近记录值填充：与该样本最接近的相同字段值。

模型拟合填充：填充回归或其他模型预测值。

插值填充：建立插值函数，如拉格朗日插值法、牛顿插值法等。

（2）大数据预处理技术—数据变换。

数据变换：对数据进行变换处理，使数据更适合当前任务或者算法的需要。

常见的变换方式：

①使用简单函数进行变换：方根和乘方变换、对数和指数变换、插值和比例变换。

②数据规范化：归一化、标准化、中心化。

③连续值离散化：分裂法、合并法。

（3）数据预处理技术—数据归约。

数据归约：在尽可能保持数据原貌的前提下，最大限度地精简数据量。其主要包括属性选择和数据抽样两种方法。

①属性选择。它是指通过减少属性特征的方式压缩数据量，通过移除不相关的特性，提高模型效率。

②数据抽样。

简单随机抽样：每个样本被抽到的概率相等，随机从总体中获得指定个数的样本数据。

系统抽样：也叫等距抽样，整体按某种顺序排列后，随机抽取第一个样本，然后顺序抽取其余样本。

分层抽样：将总体分成多个不交叉的群，随机抽取若干个群。

连续抽样：先抽样，基于样本分析，根据分析结果决定要不要继续抽样。

多阶段抽样：抽样分阶段进行，每个阶段使用的抽样方法可以不同。

Bootstrap重抽样：样本量不足时，有回放的重复抽样。

4.数据分析—分析方法

（1）描述型分析：发生了什么？

（2）诊断型分析：为什么会发生？

（3）预测型分析：可能发生什么？

（4）指令型分析：下步怎么做？

5.数据可视化

（1）数据可视化：利用计算机图形学和图像处理技术，将数据转换为图形或者图像在屏幕上显示出来进行交互处理的理论方法和技术。数据可视化旨在借助于图形化手段，清晰有效地传达与沟通信息。

（2）商务数据展现形式：预警分析、进度分析、差异分析、纵向对比（时间序列）、横向对比、同环比、其他对比。

6.得出结论—数据报告

这是指根据数据分析的原理和方法，运用数据来反映、研究和分析某项事物的现状、问题、原因、本质和规律，并得出结论，提出解决办法。

这种文体是决策者认识事物、了解事物、掌握信息、搜集相关信息的主要工具之一，数据分析报告通过对事物数据全方位的科学分析来评估其环境及发展情况，为决策者提供科学、严谨的依据，从而降低决策风险。

7.采取行动

只有对数据分析结果采取行动，才能产生价值。具体流程如下：数据分析结果输出，数据分析结果验证，数据分析结果评估，分析迭代改进、优化，延展分析，系统落地。

案例解析

安客诚的“人网合一”

网络营销存在一个巨大问题，即如何获知在网上使用几个不同名称的人是否为同一个人？安客诚推出了一种名为“观众操作系统”的技术方案解决了这个问题。它允许市场营销者与“数字人物”绑定，即使你换了名字，它也照样能够解答那个已经换了地址或者电话号码的人是否为同一个人的问题。

AOS可以汇集不同数据库中的信息，这些数据或离线或在线，是公司可能在不同场合针对个人而收集的。通过使用AbiliTec——一种Acxiom也拥有的数字化“身份识别”技术——AOS将客户信息删繁就简，得到单一的结果。

AOS帮助安客诚的广告客户使用它们的数据在Facebook上找到投放目标用户。

总而言之，大数据不做个别判断，主要适用于关联分析。很多关联分析并不需要复杂的模型，只需要有大数据的意识。很多机构都有数据废气，数据不是用完就是被舍弃，它的再利用价值也许我们现在不清楚，但在未来的某一刻，它会迸发出来，化废为宝，让公司的事业变得光明。

回顾总结

知识总结：

本节课的知识梳理汇总成流程图，如图 1.11 所示。

图1.11 本节知识流程图

思维导图：

整理本节课所学知识点，补充下方思维导图（如图 1.12 所示），管理你的知识。

图1.12 本节知识思维导图

实训作业

活动数据挖掘环境配置

实训目标

通过此活动的实践，学生应当能够：

●下载并安装数据挖掘插件；

●配置SQL SERVER，完成在Excel的环境配置。

实训实施流程

实训实施流程如图 1.13 所示。

图1.13 实训实施流程

活动要求

1.学生根据实践任务要求，找到适合Excel工具的SQL插件并运行安装。

2.在实训实施过程中，学生可自由查阅资料或向老师求助。

3.在规定时间内完成任务，超时则视为未完成任务，不予评分。

请先下载“参考资料”，根据实训步骤演示，在“答题卡”中完成任务。

任务实践

请根据活动步骤流程，配置Excel数据挖掘环境，并将完成过程体现在下方表格中。

检查清单（见表 1.3）

表1.3 检查清单

任务评价（见表 1.4）

表1.4 任务评价表

项目检测

一、单项选择题

1.下面属于分类算法的是（）。

A.Kmeans

B.逻辑回归

C.决策树

D.关联规则

2.以下不属于数据管理文件的格式是（）。

A.∗.xls

B.∗.xlsx

C.∗.ppt

D.∗.txt

3.以下不属于数据挖掘方法的是（）。

A.分类分析

B.回归分析

C.聚类分析

D.销售分析

4.以下不属于数据管理软件的是（）。

A.Excel

B.POWER BI

C.SQL SERVER

D.WORD

5.以下不是常见数据类型的是（）。

A.逻辑型

B.日期型

C.文本型

D.空值

二、多项选择题

1.以下是常用的数据结构的是（）。

A.逻辑结构

B.存储结构

C.计算结构

D.顺序结构

2.以下属于数据分类原则的是（）。

A.稳定性

B.系统性

C.兼容性

D.可扩容性

E.综合实用性

3.以下属于算法设计原则的是（）。

A.正确性

B.可读性

C.健壮性

D.高性价比

4.以下是数据的特性的是（）。

A.变异性

B.实效性

C.规律性

D.唯一性

5.商务数据分析的流程包括（）。

A.数据收集

B.数据处理

C.数据分析

D.数据报告

三、简答题

1.简述数据的作用。

2.简述数据分析在商务分析中的作用。