Driverless AI 中的变量重要性

全局特征重要性

  • 模型特定特征重要性 :完成实验后,Driverless AI 会报告模型或算法特定的变量重要性。例如,对于基于树的模型,重要性基于增益。也就是说,它计算森林所有树因每个特征而产生的杂质的平均降低量。那些倾向于拆分更接近树根的节点的特征具有更高的重要性值。对于 n 折模型,变量重要性在折叠中取平均值,进行归一化,然后进行报告。对于集成模型,重要性乘以各个模型权重,然后进行归一化。

  • 排列特征重要性 :基于排列的特征重要性是一种 模型不可知 方法。在评估性能或对模型评分后,如果对感兴趣的特征值进行排列(混排),并重新评估模型性能,观察到的性能平均差表示特征的绝对排列重要性。如果特征的预测能力低,混排其值对模型性能的影响应该较小。但如果特征具有很高的预测性,混排其值会降低模块的性能。 ref.

    当特征空间较大时,Driverless AI 在 genetic algorithm 之前应用基于排列的特征重要性进行前置特征选择。

局部特征重要性

  • LIME :局部可解释的模型不可知解释 (LIME) 是一种 模型不可知 技术,旨在解释在特征空间的特定区域中哪些特征是最重要的。LIME 的主旨是计算相关区域的局部替代模型。此替代模型是一个易于解释的模型,例如线性模型或经过训练可模拟更复杂的相关模型的行为的决策树。对于您想要解释的特定预测,LIME 会稍微更改值以创建新的类似数据点。通过将这些干扰数据点输入到复杂模型中,干扰特征与模型预测之间的关系就显现出来,接着替代模型将捕捉到这种关系。

    Driverless MLI 构建 LIME models ,作为模型解释工具包的一部分。

  • Shapley :Shapley 值可用于局部特征重要性。可以使用这些值来解释哪些特征对特定预测的贡献最大,比如欺诈或不欺诈。Shapley 值并不是为了解答 “如果…怎么办” 问题,LIME 的局部替代模型则是为了解答此问题。

    Shapely 起源于对策论,眼前的问题是根据团队中所有参与者的个人能力或表现来确定他们的公平回报。在考虑了所有可能的组合之后,Shapley 值被定义为一名参与者的平均期望边际贡献。边际贡献的定义是,该名参与者作为成员加入时该组的价值减去该名参与者未加入时该组的价值,再减去该名参与者单独工作所创造的价值。

    在大多数具有许多特征的现实模型中,考虑特征的所有可能子集(或组合)在计算上是无法实现的,因此会基于抽样计算 Shapley 值的近似值。Driverless AI 使用 python SHAP 包进行 Shapley 计算。它们可以下载为 experiment artifact ,也可以使用 mojo 或 python 评分管道在生产期间逐行获取。

    Driverless MLI 构建 Shapley ,作为模型解释工具包的一部分。