Driverless AI 中的插补

此插补特征让您能使用替换值填充缺失值。可根据列的平均值、中位数、最小值、最大值或众数值来插补缺失值。您还可根据特定百分位数或常量值进行插补。

此插补针对所有数据或在管道内进行预先计算(基于训练数据拆分中的内容)。

执行插补时,应遵循以下准则:

  • 对于数值列中的常量插补,常量必须为数值。

  • 对于字符串列中的常量插补,常量必须是字符串。

  • 对于百分位数插补,百分比值必须在 0 到 100 之间。

请注意

  • 此特征是实验性的。

  • 不可插补时间列。

启用插补

默认会禁用插补。通过在 config.toml中设置 enable_imputation=true (适用于本机安装)或通过 DRIVERLESS_AI_ENABLE_IMPUTATION=true 环境变量(适用于 Docker 映像安装)可启用插补。这将启用转换器的插补功能。

运行启用了插补的实验

启用插补后,您将可在运行实验时选择添加插补列。

  1. 点击实验设置页面的 列插补

Columns Imputation
  1. 点击右上角的 添加插补

  2. 选择包含您想要插补的缺失值的列。

  3. 选择插补类型。可用选项如下:

  • 平均值:默认显示列的数值平均值。(数值的默认方法。)

  • 中位数:选择此选项时,默认显示列的数值中位数值。

  • 最小值:选择此选项时,默认显示列的数值最小值。

  • 最大值:选择此选项时,默认显示列的数值最大值。

  • 常量:输入一串字符。(字符串列的默认方法)

  • 众数:选择此选项时,默认显示列的数值众数值。

  • 百分位数:指定一个 0 到 100 之间的百分位数值。(默认为 95。)此外,还可指定数值插补值。

  1. 可选择允许 Driverless AI 在验证过程中计算插补值,而不使用输入的插补值。

  2. 完成后,点击 保存

Add imputation column
  1. 此时,您可以添加其他插补、删除您刚才创建的插补或者关闭此表单并返回至实验。请注意,每一列只能有一个插补。