1.简介
Cloud AutoML( https://cloud.google.com/automl )是一套机器学习产品,通过利用Google最先进的元学习、迁移学习和神经架构搜索技术,使机器学习专业知识有限的开发人员也能根据业务需求训练高质量模型。Cloud AutoML主要提供以下3个领域的AutoML服务:图像分类、文本分类以及机器翻译。在图像分类领域,谷歌提供了大量标注良好的人类图像供开发者使用,同时提供了标注工具允许开发者自行对图像进行标注。
2.使用方式
谷歌Cloud AutoML系统提供了图像用户界面,以及Python API、Java API和Node.js API等使用方式。
首先来看看图形用户界面(见图2-7),它按照数据准备、训练、评估、预测等步骤进行组织,使用者只需要按照规定执行一步就可以完成整个过程。
图2-7 Cloud AutoML图形用户界面
再来看看通过API的方式进行接口调用,以Python为例,如图2-8所示。
图2-8 Cloud AutoML的API调用
使用者可以根据自身的习惯和需要,选择图形界面方式或者API方式并使用自己熟悉的语言去完成整个流程,从而保证该平台的通用性。从这个角度而言,该平台既可以有效服务入门级使用者,也可以服务专家级算法工程师并与大型项目对接。
Cloud AutoML中重要的一环Cloud AutoML Vision代表了深度学习去专业化的关键一步。企业不再需要招聘人工智能专家来训练深度学习模型,只需要有简单基础的人通过Web图像用户界面上传几十个示例图像,点击一个按钮即可完成整个深度神经网络的构建与训练,同时完成后可以立即部署于谷歌云上进入生产环境。
3.迁移学习与元学习的运用
Cloud AutoML利用了元学习与迁移学习。元学习与迁移学习可以有效利用过去的训练经验与训练数据,这意味着用户不再像过往那样需要提供海量的数据进行模型训练,而只需要提供较少的数据就可以完成一个图像分类器的训练并应用于特定场景。这背后是谷歌大量的基础训练数据源和训练经验与记录的支撑。
另外,迁移学习与元学习的应用涉及用户数据隐私与平台性能的权衡问题。如果Cloud AutoML可以将用户的数据与训练经验都积累起来并提供给其他用户使用,那么该平台的底层数据积累便会越来越雄厚,其使用效果也会越来越好。但是,大多数客户都不会希望自己的数据被泄漏,因此上述的美好愿景也不一定能实现。
1.简介
不同于传统意义上的AutoML,EasyDL是一个专门针对深度学习模型训练与发布的平台。在EasyDL之前,百度就已经有了深度学习计算引擎PaddlePaddle。PaddlePaddle是一个类似于谷歌TensorFlow的专业级计算平台,目标群体是有一定计算机与算法基础的专业AI算法工程师。
除此之外,百度还有百度AI开放平台,用户可以通过平台提供的API付费调用百度的AI算法能力实现自己的需求。但是AI开放平台的算法模型很多时候难以覆盖全部的场景,因此对于很多企业而言,还存在着大量等待被满足的定制化需求。
EasyDL平台的出现是为了解决AI赋能行业的这个痛点,以一种便捷高效的方式满足这些定制化深度学习模型需求以及伴随而来的其他需求。用户上传自己的数据,在平台上进行数据标注、加工、训练、部署和服务,最终得到云端独立的REST API或一个离线SDK,从而方便地将模型部署到自己的业务场景中。
目前该平台提供图像识别、文本分类、声音分类等服务分类(见图2-9)。图像识别领域支持图像分类以及物体检测,文本分类领域支持广泛的文本分类,而声音分类领域提供音频定制化识别服务。
图2-9 EasyDL的3个主要服务领域
目前EasyDL的各项定制能力在业内得到广泛应用,用户累计过万,在零售、安防、互联网内容审核、工业质检等数十个行业都有应用落地,并提升了这些行业的智能化水平和生产效率。
2.使用方式
由于目标群体主要为没有相关专业知识但又想要利用AI进行行业赋能的外行使用者,EasyDL提供了一个流水线式的可视化界面(见图2-10)。其功能分为数据中心与模型中心:数据中心负责数据集的管理与标注,模型中心负责训练与部署。
使用者基本上无需机器学习的专业知识,只需要对过程有简单的了解,跟随界面的流程执行模型创建—数据上传—模型训练—模型发布等流程,中间的过程平台会通过迁移学习、自动化建模技术等方式完成。
3.自动化建模技术
在自动化建模上,EasyDL平台有两种不同的方法:一种是基于迁移学习的Auto Model Search,另一种是基于神经架构搜索的模型自动生成方法。
图2-10 EasyDL的可视化界面
基于迁移学习的Auto Model Search方法是针对用户数据集的类型,在适用于该类型数据集的过去被证明优秀的预训练模型中进行搜索,如Inception、ResNet、DenseNet等,并结合不同的超参数组合进行训练与选择;每一个模型都会结合其配置的超参组合进行训练,这个过程可以通过百度的workflow等高性能底层计算平台进行并行加速。
对于某些对性能需求更高的用户而言,上述方式不一定能够把模型性能推到极致;因此还需要基于神经架构搜索NASNet的方法,该方法能够针对用户的数据集从零开始生成一个最适配的模型,从而确保性能可以达到最优,但是相对的计算成本也会更高;在本书的后续章节会对NASNet等神经架构搜索方法进行讲解。
这些过程都是在底层自动完成的,用户完全不需要操心中间的细节问题。
1.简介
阿里云机器学习PAI(Platform of Artificial Intelligence)是一款一站式的机器学习平台,包含数据预处理、特征工程、常规机器学习算法、深度学习框架、模型的评估以及预测这一整套机器学习相关服务(见图2-11)。
2.面向大规模计算与多场景多业务的产品架构
PAI包含数据预处理、特征工程、机器学习算法等基本组件;所有算法组件全部脱胎于阿里巴巴集团内部成熟的算法体系,经受过PB级别业务数据的锤炼。阿里巴巴内部的搜索系统、推荐系统、蚂蚁金服等项目在进行数据挖掘时,都是依赖机器学习平台产品。如图2-12所示,PAI平台的业务十分广泛,支持多种计算框架。算法层不仅包含数据预处理、特征工程等基本算法,也涵盖各种机器学习算法、文本分析和关系网络分析等。
图2-11 阿里云PAI工作流程图
图2-12 阿里云PAI产品架构图
3.丰富的机器学习模块库
阿里云可以快速搭建数据预处理、特征工程、算法训练、模型预测和评估的整个链路,提供百余种机器学习算法组件,深耕深度学习计算架构,底层支持GPU分布式集群计算,功能可覆盖数据导入与处理、数据特征工程、机器学习深度学习、商品推荐、金融数据预测与风控、文本分析、统计分析、网络图分析等常见场景。
4.拖曳式可视化建模——PAI Studio
PAI提供了3种不同的模式:为新手设计的可视化PAI Studio模式、为高级使用者设计的PAI Notebook模式,以及专门针对生产部署的PAI EAS模式。
PAI Studio可视化模式允许客户通过拖曳组件的方式完成整个机器学习的流程(见图2-13),用户无须过多关注底层的代码和算法,简单使用与测试即可。
图2-13 阿里云PAI拖曳式组件
数据导入:首先将数据存入阿里云的MaxCompute系统中,接着就可以轻松导入数据。
数据预处理与建模全流程:全流程都可以通过拖曳完成,拖曳后简单设置一下相应的参数与属性即可。图2-14是一个简单的建模流程示例。
图2-14 阿里云PAI建模流程示例
5.工业级机器学习自动调参与部署服务
PAI提供了从模型自动调参到一键部署,再到线上的流式计算服务等一条龙的工业级模型部署方案;打通了从模型调参到部署的环节,通过自动化的手段大幅提高各个环节与阶段的生产效率。
PAI-AutoML支持几种调参方法,如自定义参数、网格搜索、随机搜索以及进化算法等,也支持不同情况下的调参需求。
PAI自动调参功能对于资深算法工程师以及入门者都有很大价值。针对入门用户,该类用户不清楚算法原理,因此无法高效调参,所以自动调参可以快速帮助这部分用户解决这个困扰。针对资深算法工程师,尽管其对于调参有一定经验,但是这种经验往往只能在大方向上指导调参,对于一些细节参数仍需要不断重复尝试,而自定义调参功能可以代替这部分重复性劳动。
在生成模型后,可以在PAI平台一键将模型发布成API服务。只要点击部署按钮,就会列出当前实验可部署的模型,选择需要的模型就可以一键完成部署,图2-15所示的是一个心脏病预测案例的模型在线部署示例。
图2-15 阿里云PAI模拟在线部署示例图
1.简介
探智立方是一家开发人工智能相关技术和解决方案的科技公司,公司主要基于AutoML理念,开发人工智能模型自动设计平台DarwinML,降低人工智能的应用门槛,让各行业的IT人员、行业专家能更便捷地将人工智能相关技术落地于各种适合并需要的场景中,解决广大企业面临的人工智能人才及能力不足的问题。
DarwinML是以机器学习及基因演化理论为基础的人工智能模型自动设计平台,是一种基于进化算法的神经架构搜索方法。谷歌在2018年发表的一篇基于进化算法的论文证明了采用进化算法也可以取得超越专家工程师的效果,本书后续章节也会有相关内容的介绍。
图2-16为探智立方的roadmap规划。
图2-16 探智立方roadmap规划图
由于该公司没有AI开放平台与试用产品,因此无法提供使用调研信息。
2.进化架构搜索
进化架构搜索是基于进化算法一代又一代进行搜索与升级的方法,如图2-17所示。每一次模型的生成都会从最简单的网络开始,逐渐通过交叉与变异等算子形成复杂的大型网络。
3.统计进化
DarwinML还采用了基于统计分析的进化算法的元学习思路,在不断的模型演化过程中,可以保存发现的好的模型基因和高效的模型演化路径形成基因库。有了这些经验与积累,平台的算法能力就会不断提高,进而提高模型演化的效率和演化出模型的质量。
图2-17 进化架构搜索图
1.简介
AI Prophet AutoML是一款覆盖了机器学习全流程的自动化产品,帮助企业低门槛、规模化拥有自主可控的AI能力,从而在广告营销、风险控制等高价值、高难度决策类场景中拥有出色的决策能力。AI Prophet AutoML通过简洁、易理解、易操作的方式覆盖了从模型调研到应用的机器学习全流程,打通了机器学习的闭环。用户只需“手机行为数据、手机反馈数据、模型训练、模型应用”4步,无须深入理解算法原理和技术细节,即可实现全流程、端到端的AI平台构建。在降低门槛的同时,其构建编码方式也与传统人工智能方法不同,AI Prophet AutoML提供了“傻瓜式”的交互界面,即让企业免去编码定义建模的过程,将开发AI应用的周期从以半年为单位缩短至周级别。
2.应用场景与数据处理
AI Prophet AutoML还展现出了比较高的模型水准。在疾病预测、金融反欺诈、互联网推荐、广告营销、风险控制等高价值、高难度的决策类场景测试下,该平台做出了接近甚至超过顶级数据科学家的模型数倍的效果,让AI拥有出色的决策能力。另外,模型可一键上线,生成预测API,也可根据需求自动上线。系统支持资源自动弹性伸缩。
在数据管理方面,该产品针对AI应用设计数据治理流程,包括数据自动推断、自动清洗、预处理、自动标记等,由此将数据分为行为数据与反馈数据的管理,更符合AI应用的场景,有目的性地让数据为AI服务。
在企业数据方面,从历史数据的利用到模型上线后新产生数据的自动回流,再到新数据的自动训练,一系列的过程使得企业数据变为活水,不断产生与使用,常用常新,越来越精准。如图2-18所示,是一个在线广告投放的案例,该企业的过程数据不仅可用于投放在线广告,还可以实现个性化推荐和实时反欺诈功能。
第四范式致力于提供通用的平台能力,降低AI应用的门槛,为企业打造一套自动化、流程化的工具。AutoML平台,是第四范式在先知系统的基础上进一步降低企业AI落地应用门槛和TCO成本,拓展衍生平台专业应用能力和生态产业链的成果。
图2-18 企业数据应用
1.简介
智易科技通过一站式的AI研发与应用云服务平台,帮助零售、制造、金融、教育、医疗等各行各业的企业更加简单便捷地进行AI应用的开发与部署,低成本拥有人工智能,从而获得更大的商业价值。智易深思平台可以帮助任何企业用户快速开发出可应用与实际生产环境的AI模型,用户只需要将数据导入并选择预测目标,平台即可给出最优模型。如图2-19所示,深思平台定位零门槛和全程可视化的人工智能应用开发平台,用户不需要掌握任何AI相关的理论和知识,就可以轻松上手。
图2-19 智易深思平台架构图
2.平台介绍
深思平台是一个庞大的系统集合,包括底层的分布式集群、云基础设施;上层的AI模型研发、分布式训练架构以及大数据引擎,如Hadoop、Spark等;同时拥有ETL层,可对数据进行处理,有可视化和BI等功能;并在面向前端用户时,搭建了基于浏览器的可视化操作页面,大幅降低了使用门槛。AutoML是深思平台中的关键技术之一。目前,深思平台主要应用在金融业、零售业以及工业中,支持结构化数据和图像数据,可以帮助客户完成反欺诈、销量预测以及产品缺陷检测等一系列AI应用。平台具有应用门槛低、高度自动化的工具链、多场景模型训练支持、大规模的分布式系统管理等优点。