



深度学习是神经网络的一种,其定义很明确。接下来的解释稍微有些专业,但涉及核心部分,请耐心读下去。
首先,作为最古典的神经网络,感知机的结构非常简单,如同一块三明治,由输入层、中间层和输出层3层组成,中间层夹在输入层和输出层之间,大概可以理解为“提问(输入)→思考(中间)→回答(输出)”的形式。
相对而言,深度学习更加复杂,其特征是像千层酥一样,具有5层以上的多重结构。举个例子,假如在一个系统中输入猫的照片,它回答“这是猫”,那么除了输入层和输出层之外,它至少具有3个中间层,人们将此类层层重叠、具备“深层结构”的AI的学习叫作深度学习。目前,拥有超过100层的深层结构的AI屡见不鲜,我的研究室设计的深度学习模型也不例外。
深度学习的图像识别的优越之处在于,它不需要“概念”。此前的AI在识别“猫”这种事物时,必须学习猫的特征,人们将“耳朵呈三角形”“眼睛是圆的”“全身有毛”“有尾巴”“靠四条腿活动”等各种各样的特征告诉AI,也就是说把“猫”的概念教给AI。
但是,深度学习模型只需要观看大量猫的图像即可,没有解释说明,不论顺序前后,甚至连一句“地球上有一种叫作猫的动物”都不告诉它,仅仅一味地让它看图像。严格说来,人们没有“教”它。
深度学习与以往的学习方法南辕北辙,仔细想一下,它反而和人类婴儿的学习方式相同。婴儿生来没有知识储备,五官暴露在五花八门的信息中,渐渐注意到狗、勺子等事物的存在,然后周围的人才教他们“那是小狗狗”之类的话。
同理,在深度学习中,AI沉浸在数量众多的图像中学习,结果自然而然地察觉到某种事物的存在,然后人类告知它该事物的名称,如“那是猫”。学过一次后,即便是初次见到的图像,只要画面中出现了猫,它就能推测出图中有猫。猫不一定位于图像的中心位置,哪怕只在画面的一角显露出一小部分身影,它也会反馈猫的存在。
人们进一步优化上述过程,向AI发出指令:“我想要猫的图片。”AI便提供相应的图像:“这是你要找的东西。”这样的AI就是生成式AI。
当然,AI实际上并不知道在人类世界里生活着一种动物叫作“猫”。看到图像时AI回答“这是猫”,那不是AI本身有意识的回应。
说来话长,计算机的本质只不过是处理数字而已,它不知道“猫”这个词。换句话说,看见猫的图像时,它并未认识到“这是猫”,仅仅做出了抽象的回答,比如“这是编码238”。
无论图像中是什么品种的猫,计算机都会给出238这组数字,人类进而教给计算机“你所说的238在人类语言中叫作‘猫’”,AI才能回答那张图里是猫。
总之,计算机只负责数字的罗列,它仅仅判断“图像中显示了属于编码238的物体”,人类为其贴上“猫”的标签后,编码才获得了现实意义。像这样,为数字的罗列赋予意义的工作叫作“标注”(annotation)。离开了标注,AI就是一台普通的计算机,这一点至关重要。
人类教给AI意义,AI才能成为对人类有用的东西,而并不是说AI本身可以自动地对人类有用。只有人类与AI协同工作,AI的好处才能体现出来,否则AI将没有价值,这在接下来的讨论中不容忽视。