专家警告：AI系统的可解释性存在欺骗可能

来源：科技日报 2025-07-30 09:44:41

德国人工智能研究中心（DFKI）研究团队在日前召开的国际机器学习大会上报告称，在可解释人工智能（AI）领域，“X-hacking”是一个此前被普遍忽视的风险，并呼吁批判性和反思性地使用自动化机器学习（AutoML）工具。

如果AI系统作出了正确预测，但却以完全不同的方式解释其得出的这些结果，会发生什么？DFKI数据科学团队介绍了“X-hacking”给AI可信度带来结构性风险的研究成果。

X-hacking一词源于统计学中的P-hacking。所谓P-hacking指的是研究人员可通过一些数据操作技巧，在统计学上得出一个有显著意义的结果，即使这个结果实际上并无意义。这相当于一种数据篡改，可能会导致发布假阳性结果。

相应的X-hacking描述了两种核心机制：一是Cherry-picking，即从众多同样优秀的模型中，精心挑选出解释能力最强、最能支持预期结果的模型；二是定向搜索，AutoML系统不仅能优化预测性能，还能精准地找到具有特定解释模式的模型。但这里面存在的风险往往被低估。

即使模型得出的结果几乎相同，所谓的特征重要性也可能存在巨大差异。这在医学研究或社会科学等应用领域尤为敏感，因为在这些领域，可解释的模型通常构成关键决策的基础。

AutoML代表了开发、选择和优化机器学习模型的自动化流程。软件工具接管了许多以前只有经验丰富的机器学习工程师才能完成的任务，例如选择合适的模型架构、数据预处理和超参数优化等。在医学、工业或社会研究等数据密集型领域，AutoML有望实现更快的开发速度、更低的进入门槛和可重复的结果。

然而，这种自动化使得人们难以理解模型决策的制定方式，这是可解释AI的一个关键问题。因此，DFKI研究团队建议，使用AutoML的学科应该意识到方法的风险，而不仅仅只是信任软件。