修改数据集

查看数据集详细信息

若要查看数据集的摘要或预览数据集,可点击数据集或选择您想要查看的数据集旁的 [点击操作] 按钮,然后在显示的子菜单中选择 详细信息 。随后会打开“数据集详细信息”页面,其中提供了数据集的摘要信息,列出了数据集的每一列并显示了列名、特征工程类型(类别、日期、日期时间、ID、数值、文本或图像)、存储类型(整数、字符串、实数、布尔值或时间)、计数、缺失值数量、平均值、最小值、最大值、标准偏差、频率和唯一值数量对应的行。

将鼠标悬停在列上方查看此列前 20 行的摘要。若要查看特定列的信息,请在图表上方字段中输入列的名称。

若要切换视图并预览数据集,点击 UI 右上方的 数据集行 按钮。点击 数据集概述 按钮可返回至原视图。

Dataset details

在此页面中,点击 数据集操作 可获得多种数据集特定操作。它们与 数据集 页面中提供的选项相同。

Dataset actions

更改列类型

Driverless AI 还让您能更改列的类型。如果列的数据类型或分布与您想要在实验过程中处理此列的方式不匹配,则更改 逻辑类型 有助于使此列更好地拟合。例如,可以将一个整数型邮政编码更改为分类型邮政编码,这样此编码便仅能被用于与分类有关的特征工程中。对于“日期”和“日期时间”列,可使用 格式 选项。若要更改列的逻辑类型或格式,可点击 自动检测 右侧的一组方形图标。(将光标悬停在方形图标上时,图标会变亮。)然后为此列选择新的列类型。

Changing Column Type Example

通过自定义数据插件进行修改

此页面还提供通过使用自定义插件修改现有数据集以创建新数据集的选项。通过创建实验可在新数据集上构建评分管道。当您想要更改训练数据但又不想更改正在预测的新数据时,此特征十分有用。例如,您可以将目标列从回归更改为分类,增加权重列可以将特定训练行标记为“更重要”,或者移除您不想模拟的异常值。请参阅 使用插件修改数据集 一节,了解更多信息。

点击 UI 右上方 通过插件修改 按钮,并从以下选项中选择:

  • 数据插件 URL:从 URL 加载自定义插件,以修改数据集。URL 必须指向此文件的 HTML 或原始版本、GitHub 资料库或树或者本地文件。在 driverlessai-recipes repository 中提供了自定义数据插件示例。

  • 上传数据插件:如果在您的本地系统中有可用的自定义插件,可点击此按钮上传。

  • 活动代码 :手动输入自定义插件代码,用于修改数据集。点击 获得预览 按钮以预览此代码对数据集的影响,然后点击 应用 以创建新数据集。要下载输入的代码脚本作为 .py 文件,点击 下载 按钮。

请注意

  • 默认会启用以上选项。通过从 enabled_file_systems 配置选项中移除 recipe_filerecipe_url ,您可以禁用以上选项。

  • 通过插件修改数据集并不会覆盖原始数据集。选择进行修改的数据集将以其原始形式保留在可用数据集列表中,而修改后的数据集将在此列表中显示为新数据集。

  • 通过此功能对原始数据集的更改将不会应用于已评分的新数据。

重命名数据集

在 Driverless AI 中,您可以在“数据集概述”页面重命名数据集。

若要重命名数据集,点击数据集或选择您想要重命名的数据集旁的 [点击操作] 按钮,然后在显示的子菜单中选择 重命名

请注意:如果更改了数据集的名称,则 Driverless AI 中数据集的每个实例都将更改以反映新名称。

Renaming Datasets Example