Driverless AI 中的集成学习

本节介绍 Driverless AI 的集成学习能力。

集成方法

集成是由多个模型组成的分层构成,分层结构中的每个级别都将上一级别的输出用作输入。最简单的集成是一个双层架构,包含单个线性模型(元模型或元学习器),结合了第一层多个模型(基础模型)的预测结果。这就是 Driverless AI 中的默认集成模型,利用其稳健性和线性属性,能让 Shapley 贡献值对集成具有充分可解释性。

元学习器默认为线性混合器,将非负权重(总和为 1)分配给所有基础模型。权重在模型级别进行分配并使用交叉验证获得(避免元学习器的过拟合)。对测试集进行预测时,对所有交叉验证模型的预测结果取平均值。例如,如果 2 个模型集成在一起(例如,一个 LightGBM 模型和一个 XGBoost 模型,每个模型执行 4 折交叉验证),则线性混合器将为所有 4 个 LightGBM 模型分配权重(例如 0.37),并为所有 4 个 XGBoost 模型分配权重(例如 0.63)。所有交叉验证模型将取平均值,因此对于 4 折交叉验证,每个 XGBoost 折模型都有一个有效权重 0.63/4。当 Driverless AI 集成单个模型(级别 1)时,则将直接对交叉验证模型预测结果取平均值(模型本身被分配权重 1)。

集成级别

Driverless AI 有多个集成级别,均与准确度旋钮关联。随着准确度提高,集成级别也会随之提高。

还可使用专家设置面板中模型设置部分的 Ensemble Level for Final Modeling Pipeline 来控制集成级别。以下是每个集成级别的说明:

  • 级别 0:没有集成,只有单个的最终模型。交叉验证仅用于确定模型验证性能。最终模型将基于整个数据集进行训练。

  • 级别 1:对 1 个模型执行交叉验证,并集成 CV 模型的预测结果。

  • 级别 2:对 2 个模型执行交叉验证,并集成 CV 模型的预测结果。例如,Driverless AI 可能会选择集成一个 XGBoost 模型和一个 LightGBM 模型:混合来自于交叉验证 XGBoost 模型和交叉验证 Light GBM 模型的预测结果,从而实现集成。如果 Driverless AI 决定进行 5 折交叉验证,则将集成 10 个模型(XGBoost 模型中的 5 个 CV 模型和 LightGBM 模型中的 5 个 CV 模型)。

  • 级别 3:与级别 2 相同,但是有 3 个模型。

  • 级别 4:与级别 2 相同,但是有 4 个模型。

请注意

  • 可在 集成基本模型折叠评分 项下的实验日志中获取关于最终模型集成的说明。

  • 您可以使用 Ensemble Level for Final Modeling Pipeline 设置在专家设置面板中手动设置集成级别。