AIGC革命：Web3.0时代的新一轮科技浪潮最新章节_杨爱喜著

05　多模态大模型：升级内容创作能力

多模态技术能够使得文字、图片、音频、视频等不同形式的信息进行更加自如的转换，比如将文字“花朵”与花朵的图像相关联。基于该技术，AIGC应用具有更强的通用性，相关的内容生态也更加丰富多元。近年来，深度学习理论的发展推动深度神经网络技术不断取得突破，这为AIGC技术突破提供了条件，这些突破主要表现在大模型和多模态两个方向，如图2-2所示。

图2-2 AIGC技术突破的两大方向

（1）视觉大模型：提升AIGC感知能力

随着网络信息技术的发展，以图像、视频为代表的视觉数据成为信息的重要载体，人工智能只有具备理解这些视觉信息的能力才能获得与人类相似的认知，并基于人类的需求开展交互活动、创造活动。

以当前比较流行的Vision Transformer（ViT）模型为例，它最初是针对自然语言处理提出的，后来被运用到计算机视觉领域，在视觉任务中表现出了良好的性能。加上该模型可扩展性强、计算的高并行性等特点，以该模型为基础开发出能够完成多种感知任务的AIGC学习模型成为目前的主要研究方向之一。

（2）语言大模型：增强AIGC认知能力

语言是人类文明成果的重要载体，也是人们进行交流沟通、信息传递的主要手段。人工智能是否具备理解人类语言、挖掘文本数据信息的能力，是人工智能能否替代人类进行内容创作的关键之一。

传统的自然语言处理对人工的依赖程度较高，主要思路是结合人工定义特征和标注数据来建立机器学习系统，随着社会发展，需要处理的信息更为复杂、信息规模呈爆炸式增长，原有模式已经无法再适应信息处理需求。后来，研究者把目光转向深度学习大模型的开发，并将互联网上海量无须标注的文本作为模型训练数据，从而赋予了大模型在多种场景中理解语言、生成语言的能力。

虽然现在运用的主流模型算法是由国外学者提出的，但国内相关领域的科技企业、机构也积极参与，一些企业依托自身技术优势、场景优势和数据积累，已逐渐成长为AIGC产业发展的引路人。

以科大讯飞为例，由科大讯飞和中国科学技术大学承建的认知智能国家重点实验室，立足于人机智能交互、多语言无障碍沟通和中国社会的教育、医疗等多方面的人工智能服务需求，积极开展智能机器翻译、智能语音、OCR（Optical Character Recognition）文字识别等多个领域的专项研究活动，并取得了一系列成果，在国际上处于领先地位，且部分成果已经大规模投入产业实践应用中。

科大讯飞在智能语言技术研究方面取得了多项关键技术突破，实现了60多个语种的机器高质量翻译，获得了相关翻译专业资格（水平）测试的合格认证。同时，语音合成、语音识别、图文识别等智能技术也在全球居于领先地位。应用方面，科大讯飞是国内头部金融企业运营商和国有商业银行智能客服底层技术的主要供应商，为部分手机、汽车、家电等企业的出口产品提供了重要的技术支撑。

在智慧教育领域，科大讯飞关注全学科智能批改、AI辅助学习机、因材施教等方面的智能应用服务技术。在高考作文和雅思作文的智能评分效率上，智能批改已经超过了人工批改；AI辅助学习机可以基于学生写作的薄弱点，推荐相关例句或素材；依托相关算法，智能应用可以为学生建立涵盖知识、能力、逻辑思维、沟通等维度的综合素质评价系统，并结合大数据进行潜力分析，辅助实现因材施教。

在智慧医疗领域，科大讯飞研发的“智医助理”系统早在2017年就通过了临床执业医师综合笔试。据报道，至2023年1月，该系统累计覆盖全国380个区县，AI辅助诊断超过5亿次，诊断准确率提升至97%，可以诊断的常见疾病数量超过1400种。“智医助理”可以有效规范诊疗过程，并降低漏诊、错诊和用药错误风险。

（3）多模态大模型：升级AIGC内容创作能力

在文字、图像、音频等单一模态模型下，AIGC的应用场景非常有限，难以实现内容创作方式的革新，而多模态大模型的出现，尤其是自然语言处理模型与其他模态模型的融合，大大拓展了AIGC技术的应用领域。AIGC技术可以将人类脑海中的想法转变为现实作品，实际上已经完成了从知识理解到自主创造输出的过程，这就迈出了通向人工智能的重要一步。

多模态大模型的基础能力包括两个方面，一是寻找并建立不同模态数据之间的联系，例如文字与对应图像的联系；二是基于这种联系，完成不同模态数据的相互转化，例如根据文字描述输出对应的图像。

05 多模态大模型：升级内容创作能力

（1）视觉大模型：提升AIGC感知能力

（2）语言大模型：增强AIGC认知能力

（3）多模态大模型：升级AIGC内容创作能力

05　多模态大模型：升级内容创作能力