临床诊疗人工智能：可解释、可通用的临床决策支持系统最新章节_朱一帆著

2.3 机器学习存在的问题

虽然机器学习在计算机视觉、自然语言处理和语音识别等技术领域取得了丰硕的成果，但该技术本身除上述的过拟合、欠拟合与泛化能力问题外，还存在一些不可避免的问题。

1.算法需要不断更新

机器学习用来预测未来数据的算法是通过训练数据集得出的，但当检测数据集内的数据发生变化时，以前在训练数据集上得到的“准确”算法模型可能不再像以前那样准确。为确保检测效果，鉴于过去的训练数据不再适用，机器学习算法的准确率就会快速降低，这时就需要更新训练数据集重新训练来更新算法，以适应检测数据集中的新数据。这是一个费时、费力的高成本过程，同时也说明了模型的泛化能力不足，数据的算法不具备可通用性。

2.算法黑箱

算法黑箱是指算法得出结论的过程不可理解和不可解释，犹如在黑箱中操作一般。随着人工智能的发展，人们对算法黑箱的诟病越来越多，因为科技的发展不仅是要得到某些结论或结果，更重要的是明了这些结论或结果产生的机制。科技发展的实质往往是通过研究机制产生的成果，如图灵机的发明、蒸汽机的发明、灯泡的发明等。只有对其背后的机制有了深入的了解，研究者才能在原理上有所创新并不断改进。

机器学习算法的形成基于统计学原理，正如2011年图灵奖得主、加利福尼亚大学洛杉矶分校的计算机科学教授朱迪亚·珀尔（Judea Pearl）在他的著作《为什么：关于因果关系的新科学》（ The Book of Why：The New Science of Cause and Effect ）中所说，“统计学唯一关注的是如何总结数据，而不关注如何解释数据”，即统计学不关注数据产生的机制。深度学习通过神经网络处理数据。虽然神经网络的设置是人为的，但是在用数据训练算法时，人类并不知道数据节点和各层之间究竟是怎样具体联络的，形成算法的机制是不可知的，这样的算法在用于检测时得出结论的过程（结论形成的机制）也是不可知的。

算法的不可解释性增加了人工智能的不确定性、不可控的风险性、无法追责性，可造成社会对人工智能的不信任。为避免这些情况的发生，欧盟委员会于2018年12月发布了人工智能开发和使用的道德草案——《可信赖人工智能的道德准则草案》，2020年2月出台了《人工智能白皮书：通往卓越与信任的欧洲之路》，2021年4月通过了《人工智能法》草案，2022年9月通过了《人工智能责任指令》提案。这一系列人工智能产品/产业的管理方案，强调了人工智能的可控性、技术安全性、算法透明和可追溯性、问责制等重要方面。出于同样原因，处于人工智能研究前沿的美国也于2019年12月发布了《人工智能原则：美国国防部关于人工智能道德使用的建议》，强调人工智能应具备负责、公平、可追溯、可靠和可控的品质。2022年9月6日，我国首部人工智能产业专项立法《深圳经济特区人工智能产业促进条例》正式公布（以下简称《条例》）。《条例》提出要设立人工智能伦理委员会，加快推进人工智能伦理安全规范的制定和实施。从这些确立的人工智能管理条例中可以看出，人工智能的安全、可控和可解释性是各国重点关注的内容。

因为临床诊疗关乎人命，责任重大，尤其是那些用于临床诊疗的人工智能必须具备安全性、可控性和可解释性，这样才能将安全问责制贯彻下去，从而取得行业信任，并为医疗事故的发生提供问责依据。

ChatGPT出现后，美国哈佛医学院测试了ChatGPT在临床上的表现。结果显示，它在45个案例中有39个诊断正确，正确率约达87%（超过了现有机器诊断率的51%），并为30个案例提供了适当的分诊建议。这样是不是可以断言，ChatGPT可以取代医生了呢？答案是否定的。目前，ChatGPT所表现的类人对话基于其超大规模的训练数据集（超多的语料），这样的训练可以使其“计算”出对话者的意思，并对超多的语料进行计算来生成合理的回应，是一个可以不断开发与应用的好工具。但是，目前的ChatGPT是通识性的，无法处理复杂冗长或者特别专业的语言结构。对于来自自然科学或医学等专业领域的问题，如果没有进行足够的语料“喂食”，它无法生成适当的回答。因此，ChatGPT还需要用医学的专业语料进行“投喂”训练，才能应用于医疗行业。

ChatGPT是基于统计学原理的NLP技术的应用。从数学或机器学习的角度来看，其语言模型是对词语序列的概率相关性分布的建模，利用已经说过的语句作为输入条件来预测下一个时刻不同语句甚至语言集合出现的概率分布。因此，这样的算法算出的结果不是对语言含义的理解，而是计算的结果，即ChatGPT并不真正懂得它面对的问题和自己回答的含义是什么，它的回答只是概率计算的结果。另外，ChatGPT的算法同样是不可解释的黑箱算法，不是基于医学知识的可解释的逻辑算法，不能满足对人工智能可解释性的要求，不适用于临床决策。

小结

对概率的认知和相应的概率计算技术为机器学习提供了理论基础，这使机器学习成为人工智能的基本技术。但是，正如朱迪亚·珀尔在他的书中所说，尽管现有的机器学习模型已经取得了巨大的进步，但遗憾的是，所有的模型不过是对数据的精确曲线拟合。就这一点而言，现有的机器学习模型只是在上一代的基础上提升了性能，在基本的思想方面并没有任何进步。对于要求准确性和责任制的临床诊疗来讲，机器学习是否适用是一个值得探讨的问题。