Driverless AI 中的插补¶
此插补特征让您能使用替换值填充缺失值。可根据列的平均值、中位数、最小值、最大值或众数值来插补缺失值。您还可根据特定百分位数或常量值进行插补。
此插补针对所有数据或在管道内进行预先计算(基于训练数据拆分中的内容)。
执行插补时,应遵循以下准则:
对于数值列中的常量插补,常量必须为数值。
对于字符串列中的常量插补,常量必须是字符串。
对于百分位数插补,百分比值必须在 0 到 100 之间。
请注意:
此特征是实验性的。
不可插补时间列。
启用插补¶
默认会禁用插补。通过在 config.toml中设置 enable_imputation=true
(适用于本机安装)或通过 DRIVERLESS_AI_ENABLE_IMPUTATION=true
环境变量(适用于 Docker 映像安装)可启用插补。这将启用转换器的插补功能。
运行启用了插补的实验¶
启用插补后,您将可在运行实验时选择添加插补列。
点击实验设置页面的 列插补 。
点击右上角的 添加插补 。
选择包含您想要插补的缺失值的列。
选择插补类型。可用选项如下:
平均值:默认显示列的数值平均值。(数值的默认方法。)
中位数:选择此选项时,默认显示列的数值中位数值。
最小值:选择此选项时,默认显示列的数值最小值。
最大值:选择此选项时,默认显示列的数值最大值。
常量:输入一串字符。(字符串列的默认方法)
众数:选择此选项时,默认显示列的数值众数值。
百分位数:指定一个 0 到 100 之间的百分位数值。(默认为 95。)此外,还可指定数值插补值。
可选择允许 Driverless AI 在验证过程中计算插补值,而不使用输入的插补值。
完成后,点击 保存 。
此时,您可以添加其他插补、删除您刚才创建的插补或者关闭此表单并返回至实验。请注意,每一列只能有一个插补。