如果说深度学习目前是人工智能领域最火爆的技术,那么强化学习的热度也当仁不让地紧随其后。
机器学习的过程中通常会利用概率论、统计学、计算机科学等知识,从训练数据中识别特征模式、学习规律,以此对未来数据进行分类、预测。强化学习属于机器学习的一种方式。
虽然在2017年被评为十大突破性技术,但强化学习实际上并不是新鲜产物,它已经有几十年的历史了。它的基本思想是,学习在不同环境和状态下哪种行为能把预期利益最大化。然而,这种方法一直无法推广到现实世界中的复杂问题上,其中最主要的原因是,现实中可能遇到的情况错综复杂,无法进行枚举。不过,近年来随着设备计算速度的提升,以及深度学习架构的兴起,强化学习得到了真正意义上的成长。深度学习在解决复杂模式识别问题上有了突破性的进步。当深度学习与强化学习结合后,对现实情况的枚举就换成了首先对现实情况做模式识别,然后对有限的模式进行枚举,这就大大减少了计算量和存储代价。这种学习方式也更接近人类思维的模糊判断的特点,被认为是人工智能领域接下来的几年里最值得关注的技术。
Google的DeepMind以围棋高手AlphaGo一战成名,Google也是最早将深度学习与强化学习进行结合的公司之一。DeepMind将深度学习、强化学习和蒙特卡洛树搜索等方法相融合,开发了一个叫作AlphaGo的围棋程序。2016年,AlphaGo以4:1大胜围棋顶尖棋手李世石,受到全世界瞩目,也让深度强化学习走入人们的视野。
当时,主要的深度学习方法是监督式学习,也就是必须对训练数据进行标注。这项工作通常需要人力完成,而深度学习所需的数据量又十分巨大,所以标注数据的获得经常成为深度学习方法的一大瓶颈。强化学习在一定程度上避免了这个问题,因为它的学习过程不依赖于标注,而是由一个奖励函数来主导。这和人类在大多数情况下的学习方式是一致的,因为多数时候人类的学习过程并没有监督和标注,而是根据产生的结果好坏来调整,如婴儿学习走路的过程。因此,学术界有不少人认为,强化学习是未来机器学习的发展方向。
但是,在目前的情况下,强化学习要达到深度学习的广泛应用程度还有很大的距离。2017年,在旧金山举行的人工智能大会上,人工智能著名专家Andrew Ng就公开表示,强化学习目前的热度与它带来的商业价值完全不成正比,更像是一种过分宣传。强化学习是一种优势和劣势都十分明显的技术。与深度学习的结合让它在计算上优势显著,但是其劣势也十分突出,就是所需要的数据比其他的机器学习方式都要大得多。
这种数据上的“饥渴”其实在很多领域都是难以满足的。比如,在药物研发的应用中,训练数据的获得往往涉及从大批人群中进行组织采样,费用高、耗时长,进行一次算法训练的代价是巨大的,而研发过程中还需要不断地迭代训练。在未来,如何将强化学习高效地应用于现实世界,训练数据将会是研究者需要解决的重要问题。而在选择强化学习的应用时,扬长避短才能最大限度地发挥它的商业价值。强化学习方法的工业应用目前还不算多,主要用于那些能够提供大量数据的领域,例如自动生产机器人和自动驾驶汽车。
虽然还有自身限制的问题没有得到解决,但强化学习已经崭露头角,热度一直居高不下。更多以强化学习为主的创业公司和学术研究小组相继涌现,业内不少人都很有信心。接下来的几年我们就应该能看到强化学习的更多商业应用了。