Driverless AI의 실험 큐잉

Driverless AI는 실험의 자동 큐잉을 지원하여 시스템 과부하를 방지합니다. 실험이 자동으로 대기열에 추가되어 필수 리소스가 가용 상태로 되는 시점에 실행되도록 여러 실험을 동시에 시작할 수 있습니다.

작업자 대기열(queue)은 CPU 또는 GPU + CPU 시스템의 차례를 기다리는 실험의 수를 나타냅니다. 실험 실행 및 예측 생성과 같은 중요한 작업은 사소한 작업과 구별합니다. 다음 이미지에서 〈GPU 열’은 GPU 사용 시스템의 작업자 열에 대기 중인 두 개의 실험이 있으며, 두 작업자가 GPU를 기다리고 있음을 나타냅니다.

Worker Queue

Notes:

  • 기본적으로 각 노드는 한 번에 두 개의 실험을 실행합니다. 이는 config.toml fileworker_remote_processors 옵션으로 제어합니다. 리소스 할당을 제어하는 추가 옵션도 config.toml 파일로 구성할 수 있습니다.

  • 기본적으로 Driverless AI는 각 실험이 필요에 따라 시스템의 모든 GPU를 사용하도록 구성됩니다. 실험당 GPU 수를 제한하려면 num_gpus_per_experiment config.toml setting 을 구성하십시오.

  • 최적의 설정을 위해 num_gpus_per 접두사가 붙은 config.toml 옵션이 구성되는 방식과 GPU가 있는 작업자에 대해 설정된 동시 작업 수를 고려하십시오.

  • GPU를 사용하지 않는 경우 〈#1 in GPU queue’ 대신 〈#1 in CPU queue〉 가 나타납니다.

  • Driverless AI의 멀티 노드 학습에 대한 자세한 내용은 다중 노드 훈련(알파) 을 참조하십시오.