Driverless AI 中的实验队列

Driverless AI 支持实验的自动排队,以避免系统过载。您可以同时启动多个自动排队的实验,并在必要的资源变得可用时运行这些实验。

工作线程队列表示正在 CPU 或 GPU + CPU 系统上等待执行的实验数量。像运行实验、作出预测等重要作业与次要任务是区分开来的。下图,“GPU 队列”表示有两个实验正在支持 GPU 的系统上的工作线程队列中等待,而不是两个工作线程正在等待 GPU:

Worker Queue

请注意

  • 默认每个节点一次运行两个实验,由 config.toml file 中的 worker_remote_processors 选项控制。在 config.toml 文件中,也可以配置其他用于控制资源分配的选项。

  • 默认对 Driverless AI 进行相应配置,以便每个实验都会视需要尝试使用系统上的每个 GPU。要限制每个实验的 GPU 数量,配置 num_gpus_per_experiment config.toml setting.

  • 要实现最佳设置,应考虑如何配置以 num_gpus_per 为前缀的 config.toml 选项以及为有 GPU 的工作线程设置的并行任务数量。

  • 如果禁用 GPU,将显示“CPU 队列中的第 1 位”,而不是“GPU 队列中的第 1 位”。

  • 更多关于 Driverless AI 中的多节点训练信息,请参见 多节点训练 (Alpha).