购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

自注意力机制点燃大模型时代

不过从任何意义来说,AlexNet都不能算作大模型,它只是大模型的“火种”,而非“火炬”,但AlexNet点燃了“大数据—大参数—大算力”的链式反应,为大模型奠定了技术基础(见图2-6)。

理论突破—工程化验证—社会扩散是现代社会普遍遵循的创新扩散模式,以明斯基和辛顿为代表的先贤走完了第一步,AlexNet接力走完了第二步,接下来就是企业界在竞争中大显身手了。

图2-6 大模型在人工智能中的定位及相应关系

图片来源:阿里云研究院。

2015年是人工智能领域的又一个里程碑之年。

这一年,微软亚洲研究院开发的152层残差网络(ResNet)以3.57%的错误率在ILSVRC图像识别竞赛中折桂,首次突破人类视觉识别的平均错误率(5.1%)。这一里程碑式突破不仅宣告机器在图像识别领域首次实现了对人类的超越,更验证了深度神经网络架构的巨大潜力。其创新的残差连接设计成功解决了深层网络训练难题,为后续大模型的层数扩展奠定了工程基础。

同年,硅谷创投圈敏锐捕捉到深度学习技术的革命性潜力。萨姆·奥尔特曼、埃隆·马斯克等科技领袖共同创立了OpenAI。伊利亚·苏茨克维,作为深度学习三巨头之一的杰弗里·辛顿的高足曾主导AlexNet的研发,他从谷歌人工智能实验室离职,以创始科学家身份加盟这家新兴机构,成为其核心技术的引路人。这位深度学习领域的青年才俊带来的不仅是ImageNet冠军团队的技术积累,更带来了对通用人工智能的前沿思考,为OpenAI后来居上的技术突破埋下伏笔。

还是在这一年,约书亚·本吉奥(Yoshua Bengio)、德米特里·巴赫达瑙(Dzmitry Bahdanau)以及赵京勋(Kyunghyun Cho)在论文《基于联合学习(以)对齐和翻译的神经机器翻译》(Neural Machine Translation by Jointly Learning to Align and Translate)中首次将注意力机制引入神经网络翻译任务,帮助模型动态聚焦于输入序列的关键部分。

2016年,谷歌的人工智能程序AlphaGo在围棋比赛中击败了围棋世界冠军李世石,这标志着AI在复杂战略游戏中的巨大突破。虽然这与语言模型或大模型的应用无关,但它展示了深度学习在处理极其复杂任务方面的巨大潜力,并使AI技术应用得到了广泛关注。

2017年谷歌团队率先发力,一篇名为《你只需要注意力机制》(Attention Is All You Need)的文章横空出世,与该文同时发布的还有以自注意力机制为基础的Transformer架构。

Transformer架构完全摒弃了传统的循环神经网络(RNN)和长短期记忆网络(LSTM)。通过自注意力机制,Transformer架构能够高效地捕捉序列中各个元素之间的关系,尤其在处理长序列时,相较于RNN和LSTM,它更具优势。

Transformer架构的提出,标志着自然语言处理(natural language processing,NLP)领域的革命。自然语言处理才是人工智能领域的桂冠之一。回顾图灵测试的含义,机器只有能够生成以假乱真的人类语言,才有望通过图灵测试。所以,如今几乎所有的大模型都是基于Transformer架构的,在这个意义上,大模型真真切切地诞生了。

那为什么自注意力机制才是Transformer架构的基础?这要从1999年一场著名的心理学实验说起。

“看不见的大猩猩”是心理学史上经典的实验之一,由丹尼尔·西蒙斯和克里斯托弗·查布利斯于1999年设计完成(见图2-7)。实验要求受试者观看一段篮球比赛视频,专注于统计某队球员的传球次数。视频中途,一名装扮成大猩猩的人会出现在画面中央,捶打胸膛后离开。令人惊讶的是,约50%的受试者完全没有注意到这只“大猩猩”的存在,即使它明显处于画面中央且停留了数秒。

图2-7 “看不见的大猩猩”实验视频截图

图片来源:Daniel J.Simons。

这可以解释生活中的“视而不见”现象,即人类注意力有时如同聚光灯,只能聚焦于特定目标,其他信息会被过滤。当受试者全神贯注于计数任务时,大脑自动屏蔽了无关的视觉刺激,这就是选择性注意(selective attention)。

即使刺激(如“大猩猩”)处于视野范围内,若未被注意到,人们也可能“视而不见”。实验中,未注意到“大猩猩”的受试者并非视力有问题,而是受到注意力分配的影响,这就是无意视盲(inattentional blindness)。

而出现这些现象的根源则是高级视皮层处理信息的能力有限,需要依赖注意机制筛选关键信息。当注意力集中于传球计数时,大脑优先处理相关视觉信号,抑制了对“大猩猩”的有意识感知。任务复杂度越高(如精确计数),认知资源越被挤占,就越容易导致对意外刺激的敏感度下降。

“看不见的大猩猩”是心理学中的一个实验,旨在展示人类注意力的局限性;而“自注意力机制”是机器学习中的一种技术,主要用于让模型在处理输入数据时动态地调整关注点。尽管它们分属不同领域,但都围绕着一个关键议题,即如何分配注意力。

人的视觉系统通过选择性注意来过滤不重要的信息,并将注意力集中在关键区域,从而节省认知负担。在自注意力机制中,模型也通过计算不同词语之间的关系,给每个词语分配不同的权重,进而决定哪些词语对当前任务更为重要。

通过在语言处理中为不同词语分配不同的注意力权重,模型可以更高效地处理信息,就像人脑通过选择性注意来减少认知负担一样。自注意力机制确实可以通过调整权重来集中计算资源,避免对所有词语进行等量处理,从而提升效率和节省算力。

如果前面的例子还不够直观,那么下面是由DeepSeek生成的一段话,这段话极尽可能地模拟了一个说话抓不住重点的人:

今天这个天气,哎呀,可真是冷得够呛!你瞧瞧这风,呼呼地往脖子里灌,跟冰刀子似的,树叶都打旋儿飘,天灰蒙蒙的,连太阳都躲得严严实实。昨儿个还暖和得能穿单衣呢,今早一睁眼,嗬,温度计上的数字直往下蹦,吓得我赶紧把柜子底下的厚毛衣、羽绒服全找出来了。这季节转换得比翻书还快,早穿棉袄午穿纱都不够用,早晚出门得裹成粽子才行!对了,你瞅瞅我这手,刚在外头站了五分钟就冻得通红,跟胡萝卜似的,鞋底子也凉飕飕的,得赶紧换双加绒靴。哎呀,可千万别嫌穿得多,这年头感冒了可麻烦,药费贵不说,还得遭罪。你听我的,围巾、手套都捂严实喽,领口、袖口别漏风,秋裤也得套上,甭管臃不臃肿,保命要紧!

这是即便人看了也要很长时间才能总结出重点的一段话。可想而知,如果没有合理的注意力分配,每个字都拥有同样的权重会是怎样的算力灾难。自注意力机制的作用就是让模型像人一样智能地选择重要的信息,从而提高处理效率,避免计算上的浪费。

当然,自注意力机制能做的不只如此,它还能够处理输入数据中远距离的信息依赖问题。例如,在句子中,某个词与句子中其他较远位置的词之间可能有重要关系,传统的卷积神经网络和循环神经网络在捕捉这些长距离依赖时会面临一定的挑战。而自注意力机制允许模型直接计算任意一词与其他所有词之间的关联(通过权重),不受距离限制,从而能够更好地捕捉长距离依赖。比如,在句子“我喜欢这个项目,它很有意义”中,“它”指的是“项目”,这两者并非紧临,传统模型可能难以捕捉到这种依赖,而自注意力机制能直接关联这两个词。

循环神经网络处理输入序列时每个步骤依赖前一个步骤,无法并行化,导致训练效率较低。与传统的循环神经网络不同,自注意力机制能够并行处理整个输入序列,而不依赖于序列的顺序。而且,自注意力机制通过一次性计算所有词之间的关系,使得训练进程大幅加速。比如:在处理一个句子时,循环神经网络需要逐个处理每个词,并依赖上一个词的状态;而自注意力机制可以同时计算所有词之间的关系,从而加速计算。

自注意力机制允许每个词根据整个句子的上下文来动态地调整其表示。换句话说,每个词的表示不再是固定的,而是根据整个输入序列中的其他信息进行更新,这使得模型能够学习到更丰富和精确的语义表示。比如:在句子“他喜欢苹果”中,“他”和“苹果”的关系是由自注意力机制动态调整的,最终帮助模型理解“他”指的是谁以及“喜欢”的动作指向何物。

除此之外,自注意力机制还能增强灵活性和可解释性,提升性能,增强信息融合,等等。无怪乎,大模型的诞生首先是以自注意力机制的突破为契机的。 JpNIgx8oaboh+gmTnUfVeS7ZCcqNOqsWZv683+gsFXMaFiOCvka5i500h01VX1NV

点击中间区域
呼出菜单
上一章
目录
下一章
×