边缘计算方法与工程实践最新章节_张骏著

2.1.2 边缘计算和大数据

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中快速获得有价值信息的能力。适用于大数据的技术包括大规模并行处理（MPP）数据库、数据挖掘网络、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据具有4个基本特征：

（1）数据体量巨大。百度资料表明，其新首页导航每天需要提供的数据超过1.5PB（1PB=1024TB），这些数据如果用A4纸打印出来，将超过5000亿张。有资料证实，到目前为止，人类生产的所有印刷材料的数据量仅为200PB。

（2）数据类型多样。现在的数据类型不仅是文本形式，更多的是图片、视频、音频、地理位置信息等多种类型的数据，个性化数据占绝大多数。

（3）数据处理速度快。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。

（4）数据价值密度低。以视频为例，在不间断的监控过程中，时长为一小时的视频中可能有用的数据仅有一两秒。

1.大数据分析方法理论

只有通过对大数据进行分析才能获取很多智能的、深入的、有价值的信息。如今，越来越多的应用涉及大数据，而这些大数据的属性包括数量、速度、多样性等都呈现了大数据不断增长的复杂性。所以，大数据的分析方法在大数据领域就显得尤为重要，可以说是判断最终信息是否有价值的决定性因素。基于此，大数据分析普遍存在的方法理论有：

（1）可视化分析。大数据分析的使用者有大数据分析专家和普通用户，但是二者对于大数据分析最基本的要求都是可视化分析。因为可视化分析能够直观地呈现大数据的特点，同时非常容易被读者接受，就如同看图说话一样简单明了。

（2）数据挖掘算法。大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式，才能更加科学地呈现出数据本身具备的特点。也正是因为这些统计方法，我们才能深入数据内部，挖掘出公认的价值。另外，也正因为有了这些数据挖掘的算法，才能更快速地处理大数据。

（3）预测性分析。大数据分析最重要的应用领域之一是预测性分析。预测性分析是从大数据中挖掘出信息的特点与联系，并科学地建立模型，之后通过模型导入新的数据，从而预测未来的数据。

（4）语义引擎。非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统地分析和提炼数据。语义引擎需要具备人工智能，以便从数据中主动地提取信息。

（5）数据质量和数据管理。大数据分析离不开数据质量和数据管理，有了高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实性和价值。

2.大数据的处理方法

对大数据的处理有采集、导入和预处理、统计分析和挖掘四种方法。

（1）采集。大数据的采集是指利用多个数据库接收客户端（Web、App或传感器形式等）的数据，并且用户可以利用这些数据库进行简单的查询和处理。例如，电商会使用传统的关系数据库存储每一笔事务数据；除此之外，非关系数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时会有成千上万的用户进行访问和操作。例如，火车票售票网站和淘宝网，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。如何在这些数据库之间进行负载均衡和分片，需要深入地思考和设计。

（2）导入和预处理。虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，应将这些数据导入一个集中的大型分布式数据库，或者分布式存储集群中，并且可以在导入基础上做一些简单的数据清洗和预处理工作。也有一些用户会在导入时使用Twitter的Storm对数据进行流式计算，来满足部分业务的实时计算需求。

导入和预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆甚至千兆级别。

（3）统计分析。统计分析主要利用分布式数据库或分布式计算集群对海量数据进行分析和分类汇总等操作，以满足大多数常见的分析需求。在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储数据库Infobright等。而一些批处理，或者基于半结构化数据的需求可以使用Hadoop来满足。

统计分析的主要特点和挑战是涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

（4）挖掘。与统计分析过程不同的是，数据挖掘一般没有预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而达到预测的效果，实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-means、用于统计学习的SVM和用于分类的NaiveBayes，使用的工具主要有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

现在，大多数请求被大规模离线系统处理，云服务商也正开发新的技术以便适应这种趋势。持续的大数据处理不仅缩短了磁盘的使用寿命，而且还会降低云服务器的整体工作寿命。常规Web服务器硬件组件的使用寿命达到4～5年，而与大数据相关的组件和云服务器的生命周期不超过2年。引入边缘计算将帮助解决这个问题，在采集端将信息过滤，在边缘做预处理和统计分析，仅把有用的待挖掘信息提交给云端。

基于云的大数据分析非常强大，给系统提供的有用信息越多，系统就越能对问题提供更好的答案。例如，在零售环境中，面部识别系统收集的消费者画像统计数据可以添加更详细的信息，让商家不仅知道销售了什么，还知道谁在购买这些商品。此外，在制造过程中，测量温度、湿度和波动等信息的物联网传感器有助于构建运维配置信息，预测机器何时可能发生故障，以便提前维护。

以上情景的困难在于，在大多数情况下，物联网设备生成的数据数量非常惊人，而且并非所有数据都是有用的。以消费者画像统计信息为例，它基于公有云的系统，物联网摄像机必须先收集视频，再将其发送到中央服务器，然后提取必要的信息。而借助边缘计算，连接到摄像机的计算设备可直接提取消费者画像统计信息并将其发送到云中进行存储和处理。这大大减少了收集的数据量，并且可以仅提取有用的信息。

同样使用物联网传感器，是否有必要每秒发送一次测量数据进行存储呢？通过在本地存储数据和计算能力，边缘设备可以帮助减少噪声、过滤数据。最重要的是，在人们担心安全和隐私的时代，边缘计算提供了一种负责任和安全的方式来收集数据。例如，消费者画像统计信息案例中没有私人视频或面部数据被发送到服务器，而是仅仅发送有用的非个性化数据。

大数据分析有两种主要的实现模式：数据建模和实时处理。数据建模有助于提供业务洞察和大局，实时数据可让用户对当前发生的事情做出反应。边缘人工智能提供了最有价值的实时处理。例如在面部识别和消费者画像统计方面，零售商可以根据屏幕前客户的喜好推断定制显示内容或者调整报价，吸引更多的观看者，从而提升广告关注度和购买转化率。传统的方式会将视频流发送到云，对其进行处理，然后显示正确的商品，这样非常耗时。使用边缘计算，本地可以解码人物画像统计信息，然后在短时间内调整显示内容或商品报价。