解决了数据和算力问题,剩下的就是算法。2010年前后,辛顿和他的两名学生伊利亚·苏茨克维、亚历克斯·克里泽夫斯基一起,专注于深度神经网络在计算机识别方面的应用研究。经过无数次的尝试和优化,他们终于成功设计出一个具有8个中间层、包含400多万个参数的深度神经网络。
为了训练这个模型,他们使用了两张GTX 580显卡。在2012年的那个夏天,这两张显卡满负荷运转,经过大约一周的训练,模型逐渐收敛,性能也不断提升。与今天动辄上千亿参数的大模型相比,400万个参数的模型确实显得微不足道,但在当时,那却是最先进的图像识别神经网络。
AlexNet在当年的ImageNet大规模视觉识别挑战赛中横空出世,以压倒性的优势击败了其他传统算法,将图像识别的错误率从26%大幅降低至15%。
比赛主办者李飞飞对此回忆道:当卷积神经网络AlexNet以巨大的优势赢得冠军时,那就像一辆本田思域打破了路上最快行驶纪录,且像每小时比原纪录快100公里一样令人惊异。
AlexNet的横空出世彻底解冻了学术界对神经网络的研究。当这个“古老”的工具在最先进的视觉识别比赛中复活时,它对学术界产生的影响无疑是一次大地震。在该届比赛后,所有的冠军模型无一不是以神经网络为基础的,可见其影响力之深远。
AlexNet的成功也拉开了深度学习时代的序幕。从算法的角度来看,AlexNet引入了多项创新技术,如ReLU激活函数解决了梯度消失问题,Dropout技术防止了过拟合,这些技术为后续深度学习模型的发展奠定了坚实的基础。
以大数据、大参数、大算力为标配的大模型雏形在AlexNet问鼎的一刻初露峥嵘。