一般注意事项

机器学习与近似解释

多年来,人们普遍认为通过训练用机器学习算法创建的复杂难懂的公式都难以解释。尽管近年来已取得很大进展,使这些通常是非线性、非单调以及非连续的机器学习的响应函数更易于理解(Hall 等,2017 年),但是这些函数可能永远不会像更为传统的线性模型那样可直接或普遍地进行解释。

为什么要考虑用于推理的机器学习方法?一般来说,线性模型注重理解和预测平均性能,而机器学习的响应函数通常可以对建模现象更细微的方面做出准确但更难以解释的预测。在某种意义上,线性模型可为近似模型创建非常精确的解释。而此处提供的方法则力求对非常精确的模型做出近似解释。精确模型的近似解释极有可能具有与近似模型的精确解释同等或比之更高的价值和意义。此外,用于推理或预测的机器学习方法并不排斥使用线性模型进行解释(Ribeiro 等,2016 年)。

机器学习中好模型的多样性

众所周知,对于同一组输入变量和预测目标,复杂的机器学习算法可以生成多个准确模型,这些模型具有非常相似但不完全相同的内部架构(Breiman,2001 年)。这本身就对解释造成了障碍,但是当将这些类型的算法用作解释工具或与解释工具一起使用时,务必要记住解释的详细内容会在多个准确模型中发生变化。

对解释方法一致性的期望

  • 决策树替代模型是对 Driverless AI 模型性能的全局非线性描述。此树中显示的变量应该与全局特征重要性图中显示的变量有直接关系。对于某些更线性的 Driverless AI 模型,决策树替代模型中显示的变量也可能在全局 K-LIME 模型中具有较大的系数。

  • K-LIME 解释是线性的,不考虑交互并且可表示局部线性模型截距的偏移量。LOCO 重要性值是非线性的,考虑交互并且不明确考虑线性截距或偏移量。LIME 解释和 LOCO 重要性值预计不会有直接关系,但是可能大致一致,因为两者都用于度量变量对模型预测的局部影响,尤其是在 Driverless AI 模型学习响应函数的更线性区域中。

  • ICE 是一种非线性敏感性分析,与 LOCO 特征重要性值有着复杂的关系。ICE 与 LOCO 的比较只能根据训练数据选定行中实际显示的选定变量值来进行。在比较 ICE 与 LOCO 时,必须考虑此行的预测结果的总值、所选行中变量的值以及 ICE 值与所选行中选定变量的平均预测值之间的差距。

  • 部分依赖性图标准偏差外的 ICE 曲线预计将落入决策树替代模型中不那么密集的决策路径中;部分依赖性图标准偏差内的 ICE 曲线预计将落入更常用的决策路径中。

  • 部分依赖性图会考虑复杂 Driverless AI 模型的非线性但平均的性能,并且不考虑交互。始终具有较高部分依赖性的变量或部分依赖性在输入变量域内大幅波动的变量,将可能具有较高的全局重要性值。输入变量间较强的交互可能会导致 ICE 值偏离部分依赖性值。