自动特征工程

Driverless AI 会执行自动特征工程,并将其作为实验模型构建进程的一部分。通过在数据集各列上进行 transformations 和/或 interactions 以创建新特征。Driverless 选择的默认转换器取决于实验的可解释性设置。对于可解释性更高的模型,应用更简单的转换。可以在实验的预览中看出这一点。可以使用 包括/排除转换器 等特征工程专家设置来控制应用的转换。为了创建特征交互,可使用分箱、目标编码、证据权重、聚类、降维、自动编码器、TensorFlow、NLP bert 模型、滞后、聚合等转换器。

特征的创建和选择本质上是不断演变的(基于之前迭代中的变量重要性),并使用 genetic algorithm 为实验/数据集找到一组最佳的特征转换和模型参数。

可从实验的 Autodoc 中获取实验创建(应用转换)和使用的特征的详细信息。

可从实验专家面板的 特征设置 中控制特征工程工作量和演变。

Features Settings

除了 Driverless AI 内置以外的转换器,您还可上传您自己的 自定义转换器 。可从 Driverless AI 开源 custom recipes 中获取某些开源的自定义转换器。

可从实验专家面板的“插件”选项卡中控制要包括哪些转换器。

Include Transformer

Preprocessing transformers 可用于控制输入至不断演变的转换器层的特征。

您可在已完成实验的 模型操作 中点击 Transform Dataset ,以获取带有(已处理过的)特征的数据集。这将提供实验最佳个体模型的管道。

Transform dataset

Driverless AI 会对管道进行调优,包括通过应用遗传算法的演变策略并在演变周期结束时进行混合和堆叠来同时调优特征工程和模型参数,从而获得最佳评分管道。