人工智能是关于知识的科学,每个时代都有各自不同的知识表达方法,均对知识表达的边界和知识表达的能力有深刻的理论认知,人工智能旨在了解人类智能的本质,并创造出能模仿人类智能做出反应的智能机器。人工智能有运算智能、感知智能和认知智能三个层次,以快速计算、存储为目标的运算智能已基本实现;在深度学习推动下,视觉、听觉、触觉等感知智能成果丰硕;认知智能则是人独有的能力,让机器具备认知能力是人工智能的重要研究和发展目标。
认知智能的核心能力是“理解”和“解释”,体现在机器能够理解数据、理解语言进而理解现实世界的能力,体现在机器能够解释数据、解释过程进而解释现象的能力,体现在推理、规划等一系列人类所独有的认知能力上。 认知智能强调对人类感知、思考、理解和推理能力的模拟,是人工智能研发重要发展方向。知识图谱、自然语言处理、深度学习等技术的突破及相互促进是实现认知智能的基础和关键。对于数据的强依赖以及无法利用先验知识,让深度学习存在明显局限,知识图谱与深度学习的结合有助于赋予机器认知智能。
2022年是人工智能的分水岭,ChatGPT,DALL.E和Lensa等发布模仿人类创造过程的生成式大语言模型发布应用,将人工智能从“赋能者”提升为(潜在的)“协作者”。 在人工智能领域,ChatGPT大规模地找到并运用隐藏在自然语言文本中的监督指令。人类的语言中存在许多监督指令,比如,当我们说“good morning在中文中的意思是早上好”,其中“在中文中的意思”就是一条监督指令。通过大规模、无人工标注的语言模型进行训练,实现了小模型、单任务人工智能不可及的能力涌现。当一个实体被观察到具有其所有组成部分本身没有的属性时,涌现(emergence)就出现了,这些属性或行为只有当各个部分在一个更广泛的整体中相互作用时才会涌现。涌现是复杂系统领域的核心问题,由于真正的涌现属性是不可还原的,所以它们不可能被摧毁或分解——只能出现或消失。语言文字是人类智慧的载体,ChatGPT、GPT-4所涌现出的泛化能力,使其从语言模型上升为认知模型。百度、阿里、华为、商汤、科大讯飞等中国人工智能头部企业也先后推出了各自大模型生成式人工智能产品,抢占高地。大语言模型的落地应用给教育带来新冲击。大语言模型可以进行对话式学习,让每个学生都有私人学习“顾问”;可以应用于科学研究,尝试探索科学未知;可以生成文字、图片、视频、3D模型等,提升学习与教学效率,但也会生成不准确或深度造假信息,被假借进行学术作弊,带来学生价值观养成的错乱等诸多新问题。教育应如何应对ChatGPT,在国际上存在着争论与分歧。奥地利、新加坡等国家允许学校有效利用,法国、德国等在密切关注其潜在用途,美国纽约市、澳大利亚的一些州则禁止公立学校使用。
人工智能对科学研究日益重要。随着人工智能性能的跃进,人工智能可以预测蛋白质结构,模拟星系碰撞,设计优化核聚变反应堆,识别物理规律等,AI+Science范式近年来成为发展趋势。通过人工智能识别数据中的异常,找出科学文献中的意外,提取新的概念,甚至自主地获得新的科学理解,帮助科学家做出科学新发现。集智俱乐部2022年初至2023年初近一年来,收集一些顶级学术期刊关于科学学的相关论文,对探讨人工智能如何促进科学理解、帮助做出科学发现进行了汇总分析。
科学理解关注科学家是如何做出预测的,这是科学的主要目标之一。 Nature Reviews Physics 上的论文讨论以人工智能为代表的计算工具,如何能够促进新的科学理解或自主地获得科学理解。该文绘制出计算机辅助科学理解的三个维度,分别是计算显微镜、灵感的来源、理解主体。具体的应用场景包括:(1)识别数据中的异常;(2)找出科学文献中的意外;(3)通过检查模型找到出人意料的概念;(4)探测人工主体的行为;(5)从可解释的解决方案中提取新的概念;(6)自主地获得新的科学理解。
机器学习方法已经重新发现了许多已知的基本物理规律,包括对称性、守恒律、经典力学定律等,然而人工智能生成的理论(AI-generated theory)仍很难获得科学界的信任和支持。发表于《自然评论物理学》的一篇文章梳理了近期人工智能对物理规律“新洞察”和“重新发现”。该文指出机器学习算法似乎遵循格式塔心理学的一些规律,例如人工智能重新发现对称性、守恒律、动力学。目前当人工智能为物理学提供了另类的见解时,我们可能不会立即认识到,且需要时间来充分认可它的重要性,但这还是有希望实现的。
DeepMind团队在 Nature 杂志上发表的一项最新研究中,人们成功地让人工智能与人类数学家合作,利用机器学习从大规模数据中探测模式,然后数学家尝试据此提出猜想,精确表述猜想并给出严格证明。这意味着未来机器学习可能会被引入数学家的工作中,不使用机器学习直接生成猜想,而是专注于帮助指导数学家高度专业的直觉,可让人工智能和数学家的合作产生既有趣又深刻的结果。
科学的认识是从外在物完整的表象出发,以概念作为逻辑起点,消除掉事物丰富的感性特征,把共性提取到自己的观念里的过程;科学工作者使用一整套科学上的逻辑方法去开发、去精炼,以构成一个对应于感性事物系统的规律系统或理论体系,这套理论体系能够指导人们有效地变革事物达到预期的目的。20世纪著名的科学哲学家托马斯·库恩提出了“科学范式”(scientific paradigm)的概念和理论,对现代科学研究和知识进化的过程产生了深刻影响。2007年,计算机图灵奖得主吉姆·格雷(J.Grey)在美国国家研究理事会的报告中提出了科学研究的“第四范式”,即以数据密集型计算为基础的科学研究范式。无论是哪种科学研究的范式,都为人类认知世界提供了良好的工具。
库恩认为范式就是一种公认的模型和模式,是常规科学所赖以运作的理论基础和实践规范,是研究者群体在从事科学研究时所共同遵守的世界观和行为方式,是他们所共同接受的一组假说、理论、准则和方法的总和。范式的演变则表示科学研究的一套方法及观念被另一套方法及观念所取代。科学范式是科学研究的基础和主导思想,它规定了科学研究的目标、方法和标准,不仅包括具体的理论框架和实验技术,还涉及学科内部的观念、价值和共识等方面。 科学范式的演化不是线性的、简单的积累和替换,而是一个复杂的、动态的过程,需要不断地进行尝试、失败、重建和改进。
科学范式的演化过程可以分为以下三个阶段:
这个阶段指的是某个学科领域在没有明确科学范式或者存在多个竞争性范式的情况下的早期研究。在这个阶段中,研究者们主要关注现象的观察、记录和描述,探索各种可能的解释和理论,但缺乏明确的方法和标准。
这个阶段指的是某个学科领域在经历了大量研究后,最终形成新的科学范式并取得重大突破的阶段。在这个阶段中,一些新的理论框架和范式被提出,并且开始被广泛接受和应用,推动了该领域的快速发展和进步。
这个阶段指的是某个学科领域在形成了明确的科学范式以后,进入了稳定的工作状态的阶段。在这个阶段中,研究者们主要在已有的科学范式框架内进行日常研究和实验,以巩固和扩展已有的知识体系。
库恩的科学范式理论强调了科学研究的社会性和历史性,表明科学知识的生成和演化是一个复杂和动态的过程。同时,库恩也指出,科学范式虽然是科学研究的基础和主导思想,但也不完全是客观和中立的,其内在的观念、偏见和权力结构也会影响到科学研究的进展和结果。
格雷认为:科研第一范式产生于几千年前,是描述自然现象的,以观察和实验为依据的研究,称为经验范式;第二范式产生于几百年前,是以建模和归纳为基础的理论学科和分析范式,可称为理论范式;第三范式产生于几十年前,是以模拟复杂现象为基础的计算科学范式,可称为模拟范式;第四范式今天正在出现,是以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式,数据被一起捕获或者由模拟器生成,被软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据库和文档,可称为数据密集型范式。