Driverless AI의 앙상블 학습

이 섹션에서는 Driverless AI의 앙상블 학습 기능에 관해 설명합니다.

앙상블 방법

앙상블은 계층에서 모든 수준이 이전 수준의 출력을 입력으로 사용하는 여러 모델의 계층적 구성입니다. 가장 간단한 앙상블은 여러 첫 번째 계층 모델(기본 모델)의 예측을 결합하는 단일 선형 모델(메타 모델 또는 메타 학습기)로 구성된 2계층 아키텍처입니다. 이는 강건성 및 선형 속성 때문에 앙상블에 대해서도 Shapley 기여를 완전히 해석할 수 있는 Driverless AI의 기본 앙상블 모델입니다.

기본적으로 메타 학습기는 모든 기본 모델에 음이 아닌 가중치(합계 1)를 할당하는 선형 블렌더입니다. 가중치는 (메타 학습자의 과적합을 방지하기 위해) 모델 수준에서 할당되고 교차 검증을 사용하여 얻습니다. 테스트 세트에 대한 예측을 수행할 때 모든 교차 검증 모델의 예측이 평균화됩니다. 예를 들어, 2개의 모델이 함께 앙상블되는 경우(예: LightGBM 모델 및 XGBoost 모델, 각각 4폴드 교차 검증 수행) 선형 블렌더는 4개의 LightGBM 모델 모두에 대한 가중치(예: 0.37)와 4개의 XGBoost 모델 모두에 대한 가중치(예: 0.63)를 찾습니다. 모든 교차 검증 모델은 평균화되므로 4폴드 CV의 경우 각각의 XGBoost 폴드 모델은 0.63/4의 유효 가중치를 갖습니다. Driverless AI가 단일 모델(레벨 1)을 앙상블하는 경우 이는 단순히 CV 모델 예측의 평균을 취하는 것입니다(모델 자체에 1의 가중치가 할당됨).

앙상블 레벨

Driverless AI에는 accuracy 노브에 연결된 여러 가지 앙상블 레벨이 있습니다. accuracy가 증가하면 앙상블 레벨이 증가합니다.

또한, 앙상블 레벨은 전문가 설정 패널의 모델 설정에서 Ensemble Level for Final Modeling Pipeline 을 사용하여 제어할 수 있습니다. 다음은 각각의 앙상블 레벨에 대한 설명입니다.

  • level 0: 앙상블은 없고, 최종 단일 모델만 있음. 교차 검증은 모델 검증 성능의 결정에만 사용됩니다. 최종 모델은 전체 데이터 세트에서 학습됩니다.

  • level 1: 한 개의 모델에 대해 교차 검증이 수행되고, CV 모델 예측이 앙상블됩니다.

  • level 2: 2개의 모델에 대한 교차 검증이 수행되고, CV 모델 예측이 앙상블됩니다. 예를 들어, Driverless AI는 XGBoost 모델 및 LightGBM 모델을 앙상블하도록 하는 선택이 가능합니다. 앙상블은 교차 검증 XGBoost 모델과 교차 검증 Light GBM 모델의 예측을 블렌딩하여 수행됩니다. Driverless AI가 5-폴드 교차 검증을 결정한 경우, 10개의 모델이 앙상블됩니다(XGBoost 모델의 5개 CV 모델 및 LightGBM 모델의 5개 CV 모델).

  • level 3: 레벨 2와 같지만 3개의 모델.

  • level 4: 레벨 2와 같지만 4개의 모델.

Notes:

  • 최종 모델의 앙상블에 관한 설명은 Ensemble Base Model Fold Scores 의 실험 로그를 확인하십시오.

  • Expert Settings 패널에서 Ensemble Level for Final Modeling Pipeline 설정을 통해 앙상블 레벨을 수동으로 설정할 수 있습니다.