Driverless AI 中的实验队列¶
Driverless AI 支持实验的自动排队,以避免系统过载。您可以同时启动多个自动排队的实验,并在必要的资源变得可用时运行这些实验。
工作线程队列表示正在 CPU 或 GPU + CPU 系统上等待执行的实验数量。像运行实验、作出预测等重要作业与次要任务是区分开来的。下图,“GPU 队列”表示有两个实验正在支持 GPU 的系统上的工作线程队列中等待,而不是两个工作线程正在等待 GPU:
请注意:
默认每个节点一次运行两个实验,由 config.toml file 中的
worker_remote_processors
选项控制。在 config.toml 文件中,也可以配置其他用于控制资源分配的选项。默认对 Driverless AI 进行相应配置,以便每个实验都会视需要尝试使用系统上的每个 GPU。要限制每个实验的 GPU 数量,配置
num_gpus_per_experiment
config.toml setting.要实现最佳设置,应考虑如何配置以
num_gpus_per
为前缀的 config.toml 选项以及为有 GPU 的工作线程设置的并行任务数量。如果禁用 GPU,将显示“CPU 队列中的第 1 位”,而不是“GPU 队列中的第 1 位”。
更多关于 Driverless AI 中的多节点训练信息,请参见 多节点训练 (Alpha).