深度学习之模型优化：核心算法与案例实践最新章节_言有三著

1.2.2 数据获取

优质数据集的建立是深度学习成功的关键，数据的形式通常包括图片、文本、语音、视频及一些结构化数据。

虽然有很多的公开数据集，但在实际项目中，开发人员常常需要进行专门的数据收集和标注工作。所谓数据收集，就是针对所需要的任务尽可能从多个渠道收集相关的数据，而数据标注就是对收集的数据进行标注。一般对于图像任务来说，标注包括分类标注、边框标注、点标注和区域标注等。只有经过标注和清洗后的数据才能真正产生价值，才能用于训练网络。

以前述的图像分类任务为例，我们需要通过各种渠道获取两类数据：一类是微笑的人脸，另一类是没有微笑的人脸，大多数时候只需要关注嘴唇部位的状态就行。

下面介绍常用的数据收集和标注平台。

1.数据收集平台

通过第三方的数据收集平台进行数据收集，对于企业来说是比较高效的方式，目前已经有一些这样的平台。

阿里众包是基于阿里巴巴平台的大数据众筹平台（见图1.5），提供了从数据收集到数据标注的完整链条。由于用户基数大，其收集效率高，可在72小时内收集2万人的声音、图片、文本语料和视频等数据。同时，任务结果提交后，其会同步进行质量检测，不合格的结果即时自动重新投放。人像照片、采集自拍、特定表情和特定动作等都是非常简单的，一条数据价格为1～3元，适合大公司与小团队的数据收集工作。

图1.5 阿里众包平台示意

国内还有其他类似的众包平台，如百度众包、京东微工等。

阿里众包提供了一个众包平台，服务对象包括千万个提供数据的个体和需要收集数据的个人或组织，如果需要收集数据的一方并不想关注数据收集的过程而只想要最终结果，则可以直接找一些数据收集机构来完成任务。比较典型的如Basic Finder，其服务范围覆盖金融行业、医疗行业、家居行业和安防行业等，同时提供标注服务。

2.爬虫

爬虫是建立大数据集必须使用的方法，ImageNet等数据集的建立，就是通过WordNet中的树形组织结构的关键词来搜索并爬取数据的。

爬虫工具足够满足小型项目第一批数据集的积累要求，在实际项目中，善用爬虫工具可以大大提高工作效率，获得丰富的多媒体数据资源。例如，当项目中需要的是图片或语音数据时，我们不仅可以直接爬取语音或图片，还可以在各网站上寻找视频，然后将其按时间帧切分成图片或提取语音，最后进行清洗等工作。