科技之巅3：《麻省理工科技评论》100项全球突破性技术深度剖析最新章节_麻省理工科技评论著

强化学习，人机围棋大战机器的胜利

如果说深度学习目前是人工智能领域最火爆的技术，那么强化学习的热度也当仁不让地紧随其后。

机器学习的过程中通常会利用概率论、统计学、计算机科学等知识，从训练数据中识别特征模式、学习规律，以此对未来数据进行分类、预测。强化学习属于机器学习的一种方式。

虽然在2017年被评为十大突破性技术，但强化学习实际上并不是新鲜产物，它已经有几十年的历史了。它的基本思想是，学习在不同环境和状态下哪种行为能把预期利益最大化。然而，这种方法一直无法推广到现实世界中的复杂问题上，其中最主要的原因是，现实中可能遇到的情况错综复杂，无法进行枚举。不过，近年来随着设备计算速度的提升，以及深度学习架构的兴起，强化学习得到了真正意义上的成长。深度学习在解决复杂模式识别问题上有了突破性的进步。当深度学习与强化学习结合后，对现实情况的枚举就换成了首先对现实情况做模式识别，然后对有限的模式进行枚举，这就大大减少了计算量和存储代价。这种学习方式也更接近人类思维的模糊判断的特点，被认为是人工智能领域接下来的几年里最值得关注的技术。

Google的DeepMind以围棋高手AlphaGo一战成名，Google也是最早将深度学习与强化学习进行结合的公司之一。DeepMind将深度学习、强化学习和蒙特卡洛树搜索等方法相融合，开发了一个叫作AlphaGo的围棋程序。2016年，AlphaGo以4:1大胜围棋顶尖棋手李世石，受到全世界瞩目，也让深度强化学习走入人们的视野。

当时，主要的深度学习方法是监督式学习，也就是必须对训练数据进行标注。这项工作通常需要人力完成，而深度学习所需的数据量又十分巨大，所以标注数据的获得经常成为深度学习方法的一大瓶颈。强化学习在一定程度上避免了这个问题，因为它的学习过程不依赖于标注，而是由一个奖励函数来主导。这和人类在大多数情况下的学习方式是一致的，因为多数时候人类的学习过程并没有监督和标注，而是根据产生的结果好坏来调整，如婴儿学习走路的过程。因此，学术界有不少人认为，强化学习是未来机器学习的发展方向。

但是，在目前的情况下，强化学习要达到深度学习的广泛应用程度还有很大的距离。2017年，在旧金山举行的人工智能大会上，人工智能著名专家Andrew Ng就公开表示，强化学习目前的热度与它带来的商业价值完全不成正比，更像是一种过分宣传。强化学习是一种优势和劣势都十分明显的技术。与深度学习的结合让它在计算上优势显著，但是其劣势也十分突出，就是所需要的数据比其他的机器学习方式都要大得多。

这种数据上的“饥渴”其实在很多领域都是难以满足的。比如，在药物研发的应用中，训练数据的获得往往涉及从大批人群中进行组织采样，费用高、耗时长，进行一次算法训练的代价是巨大的，而研发过程中还需要不断地迭代训练。在未来，如何将强化学习高效地应用于现实世界，训练数据将会是研究者需要解决的重要问题。而在选择强化学习的应用时，扬长避短才能最大限度地发挥它的商业价值。强化学习方法的工业应用目前还不算多，主要用于那些能够提供大量数据的领域，例如自动生产机器人和自动驾驶汽车。

虽然还有自身限制的问题没有得到解决，但强化学习已经崭露头角，热度一直居高不下。更多以强化学习为主的创业公司和学术研究小组相继涌现，业内不少人都很有信心。接下来的几年我们就应该能看到强化学习的更多商业应用了。