拆分数据集

Driverless AI 让您能将数据集拆分为两个子集,子集可在建模过程中作为训练数据集和验证/测试数据集使用。当拆分数据集以进行建模时,每个拆分均应有相似的分布,以避免训练集出现过拟合现象。根据用例,您可以 随机 拆分数据集、执行基于 目标列分层抽样 、执行基于 折叠列 的拆分以将属于相同分组的行放在一起,或执行基于 时间列 的拆分以训练过往数据以及验证/测试未来数据。

执行以下步骤以拆分数据集:

  1. 点击数据集或选择您想要拆分的数据集旁的 [点击操作] 按钮,然后在显示的子菜单中选择 拆分

  2. “数据集拆分器”表单随即显示。为每个拆分段指定“输出名称 1”和“输出名称 2”。(例如,您可以将一个拆分段命名为 test,将另一个拆分段命名为 validation.)

  3. 可选择指定目标列(用于分层抽样)、折叠列(用于将属于相同组的行放在一起)、时间列和/或随机数种子(默认为 1234)。

  4. 使用滑块选择拆分比或在 训练/验证拆分比 字段中输入一个值。

  5. 完成后,点击 保存

此过程完成后,拆分后的数据集将在 数据集 页面中显示。

Splitting Dataset Example