실험 요약¶
완료된 각각의 실험에 대해 실험 요약이 제공됩니다. Download Summary & Logs 버튼을 클릭하여 h2oai_experiment_summary_<experiment>.zip 파일을 다운로드하십시오.
실험 요약 zip 안에 있는 파일은 Driverless AI UI에 표시되는 그래픽 표현에 대해 문자로 설명을 제공합니다. 각 아티팩트의 세부 내용은 다음과 같이 설명되어 있습니다.
실험 AutoDoc¶
실험 요약에 보고서 파일( AutoDoc) 이 포함됩니다. 해당 보고서는 학습 데이터 및 감지된 분포 변화, 선택된 검증 스키마, 모델 매개변수 튜닝, 특성 진화 및 실험 중에 선택된 최종 특성 집합에 대한 인사이트를 제공합니다. 자세한 내용은 AutoDoc 사용 을 참조하십시오.
실험 아티팩트 개요¶
실험 개요를 제공하는 아티팩트가 실험 요약에 포함되어 있습니다.
preview.txt: 실험 미리보기를 제공합니다(실험 시작 전 UI에 포함된 내용과 같습니다).
summary: 실험 UI의 우측 하단에 나타나는 것과 동일한 요약을 제공합니다(txt 또는 json에서 이용 가능).
config.json: 실험에 사용된 설정의 목록을 제공합니다.
config_overrides_toml_string.txt: config.toml 파일에 적용된 해당 실험에 관한 오버라이드를 제공합니다.
args_do_auto_dl.json: 데이터 세트, accuracy, 시간 및 해석 가능성 설정에 기초하는 Driverless AI 실험에 사용되는 내부 아티팩트입니다.
experiment_column_types.json: 실험에 포함된 각 열에 대한 열 유형을 제공합니다.
experiment_original_column.json: 실험에 사용된 데이터 세트의 사용 가능한 모든 열의 목록입니다.
experiment_pipeline_original_required_columns.json: 실험에 사용된 열의 경우, 여기에는 열 이름과 유형이 포함됩니다.
experiment_sampling_description.json: 데이터 세트에서 수행된 샘플링에 관한 설명입니다.
timing.json: Driverless AI 파이프라인의 각 부분에서 생성된 시기 및 모델의 수입니다.
아티팩트 튜닝¶
Driverless AI 실험 중에 제공된 데이터 세트에 대한 최적의 알고리즘 및 매개 변수 설정을 결정하기 위해 모델 튜닝이 수행됩니다. 회귀 분석 문제의 경우 대상 열을 표현하는 가장 좋은 방법을 결정하기 위해 대상 튜닝도 수행됩니다(대상 열의 로그를 이용해 결과를 개선). 이러한 조정 단계 결과는 실험 요약에서 확인이 가능합니다.
tuning_leaderboard: 모델 및 학습 시간으로부터 생성된 지표와 함께 수행된 모델 조정 테이블(txt 또는 json에서 이용 가능).
target_transform_tuning_leaderboard.txt: 모델 및 학습 시간에 생성된 지표와 함께 대상 열에 적용된 변환 테이블(이진 및 다중 클래스 유스케이스의 경우 비어 있음)
특성 아티팩트¶
Driverless AI는 데이터의 최적 표현을 결정하기 위해 데이터 세트에서 변수 가공을 수행합니다. 최종 모델에 사용된 주요 특성은 GUI에서 확인할 수 있습니다. 최종 모델에 사용된 전체 특성의 목록은 실험 요약 아티팩트에서 확인이 가능합니다.
실험 요약은 또한 기존의 특성 목록과 추정 feature importance를 제공합니다. 예를 들어, 최종 Driverless AI 모델의 특성이 주어지면, 기존 특성의 feature importance의 추정이 가능합니다.
특성
feature importance
NumToCatWoE:PAY_AMT2
1
PAY_3
0.92
ClusterDist9:BILL_AMT1:LIMIT_BAL:PAY_3
0.90
PAY_3
의 feature importance 계산을 위해 PAY_3
을 사용한 모든 변수에 대한 feature importance의 집계가 가능합니다.
NumToCatWoE:PAY_AMT2
: 1 * 0 (PAY_3
사용 안 됨)PAY_3
: 0.92 * 1 (PAY_3
는 사용되는 유일한 변수임)ClusterDist9:BILL_AMT1:LIMIT_BAL:PAY_3
: 0.90 * 1/3 (PAY_3
은 사용된 세 가지 변수 중 하나임)
추정 feature importance = (1*0) + (0.92*1) + (0.9*(1/3)) = 1.22
Note: feature importance가 상대 feature importance로 변환됩니다. (가장 높은 추정 feature importance를 가진 특성의 상대 feature importance는 1입니다).
ensemble_features: 최종 모델에 사용된 특성 목록, 특성에 대한 설명 및 상대 feature importance입니다. 다양한 모델의 feature importance는 모델의 최종 앙상블과 동일한 가중치를 사용하여 선형적으로 혼합됩니다(txt, table 또는 json에서 사용 가능).
ensemble_features_orig: 최종 모델에 사용된 모든 기존 특성의 전체 목록, 특성에 대한 설명, 상대 feature importance 및 상대 중요도의 표준 편차입니다(txt 또는 json에서 이용 가능).
ensemble_features_orig_shift: 최종 모델에 사용된 기존 사용자 특성 목록 및 최종 모델과 최종 모집단의 해당 feature importance 사이의 상대적인 feature importance의 차이(txt 또는 json에서 이용 가능).
ensemble_features_prefit: 앙상블이 블렌딩을 사용할 경우, 각 모델이 앙상블과 동일한 가중치로 블렌딩 된 최종 모집단에서 최상의 개체가 사용하는 특성 목록입니다(txt, table 또는 json에서 이용 가능)
ensemble_features_shift: 최종 모델에 사용된 특성 목록 및 최종 모델과 최종 모집단의 해당 feature importance 사이의 상대적인 feature importance의 차이(txt, 테이블 또는 json에서 이용 가능).
features: 최상의 개별 파이프라인(유전 알고리즘으로 식별)에서 사용되는 특성 목록 및 각 특성의 상대 중요도입니다(txt, table 또는 json에서 이용 가능).
features_orig: 최상의 개별 파이프라인(유전 알고리즘으로 식별)에서 사용되는 기존 사용자의 특성 목록 및 각 특성의 추정 상대 중요도입니다(txt 또는 json에서 이용 가능).
leaked_features.json: 상대 중요도 및 상대 중요도의 표준 편차와 함께 제공된 모든 유출된 특성 목록입니다(txt, table 또는 json에서 이용 가능)
leakage_features_orig.json: 제공된 유출된 기존의 특성 목록과 최종 모델에서 유출된 기존 특성의 상대 feature importance 추정치입니다.
shift_features.json: 해당 특성의 상대 중요도 및 상대 중요도의 표준 편차 이동과 함께 제공된 모든 특성의 목록입니다.
shifit_features_orig.json: 제공된 기존의 특성 목록과 최종 모델에서 기존 특성의 상대 feature importance 추정치입니다.
최종 모델 아티팩트¶
실험 요약에는 최종 모델을 설명하는 아티팩트가 포함됩니다. 이는 새로운 데이터 세트를 스코어링하고 MOJO Scoring Pipeline을 생성하는 데 사용되는 모델입니다. 최종 모델은 accuracy 설정에 따라 모델의 앙상블이 될 수 있습니다.
coefs: 특성에 대한 계수 및 계수의 표준 편차 목록입니다(txt 또는 json에서 이용 가능).
ensemble.txt: score 목록에 대한 모델, 이득/향상도 테이블, 혼동 행렬 및 최종 모델 지표를 포함하는 최종 모델 요약.
ensemble_base_learner_fold_scores: 최종 모델이 앙상블일 경우, 각 base learner에 대한 내부 검증 스코어링 척도입니다(테이블 또는 json에서 이용 가능). Time Series 실험에는 사용할 수 없습니다.
ensemble_description.txt: 최종 모델에 관해 설명하는 문장(예: 《Final TensorFlowModel pipeline with ensemble_level=0 transforming 21 original features -> 54 features in each of 1 models each fit on full training data (i.e. no hold-out).》).
ensemble_coefs: 앙상블의 각 특성에 대한 계수 및 표준 편차 계수(txt 또는 json으로 이용 가능).
ensemble_coefs_shift: 앙상블의 각 특성에 대한 계수 및 계수 이동(txt 또는 json으로 이용 가능).
ensemble_model_description.json/ensemble_model_extra_description: 모델에 관해 설명하고 모델 예측에 가중치가 부여되는 방식을 앙상블에 대해 설명하는 json 파일.
ensemble_model_params.json: 모델 매개변수에 관해 설명하는 json 파일.
ensemble_folds_data.json: 최종 모델에 사용된 폴드에 관해 설명하는 json 파일. 여기에는 각 데이터 폴드의 크기 및 각 폴드에 대한 최종 모델의 성능이 포함됩니다(폴드 열이 지정된 경우 사용 가능).
ensemble_features_orig: 제공된 기존의 특성 목록과 모델 앙상블에서 해당하는 기존 특성의 상대적인 feature importance 추정치(txt 또는 json에서 이용 가능).
ensemble_features: 모델의 최종 앙상블에 사용된 모든 특성의 전체 목록, 특성에 대한 설명 및 상대 feature importance(txt, table 또는 json에서 이용 가능).
leakage_coefs.json: 유출된 특성에 대한 계수 및 계수의 표준 편차 목록.
pipeline: 실험 파이프라인의 시각적인 표현.
shift_coefs.json: 실험에 사용된 해당 수에 대한 계수 및 표준 편차의 이동 목록.
실험 요약에는 최종 모델 성능에 대한 아티팩트도 포함됩니다.
ensemble_scores.json: 지표 목록에 대한 최종 모델의 지표.
ensemble_confusion_matrix_test: 테스트 데이터가 제공된 경우 테스트 데이터에 대한 혼동 행렬. Time Series 실험에는 사용할 수 없습니다.
ㄹ**ensemble_confusion_matrix_with_validation**: 내부 검증 데이터에 대한 혼동 행렬. Time Series 실험에는 사용할 수 없습니다.
ensemble_confusion_matrix_stats_validation**: 내부 검증 데이터에 대한 혼동 행렬 통계. Time Series 실험에는 사용할 수 없습니다.
ensemble_confusion_matrix_stats_test.json: 테스트 데이터에 대한 혼동 행렬 통계. 테스트 데이터가 제공된 경우에만 사용 가능. Time Series 실험에는 사용할 수 없습니다.
ensemble_gains_test: 테스트 데이터가 제공되는 경우의 테스트 데이터에 대한 향상도 및 이득 테이블(향상도 및 이득의 시각화는 UI에서 확인 가능). Time Series 실험에는 사용할 수 없습니다.
ensemble_gains_with_validation: 내부 검증 데이터에 대한 향상도 및 이득 테이블(향상도 및 이득의 시각화는 UI에서 확인 가능). Time Series 실험에는 사용할 수 없습니다.
ensemble_roc_test: 테스트 데이터가 제공된 경우 테스트 데이터에 대한 ROC 및 Precision Recall 테이블(ROC 및 Precision Recall 곡선의 시각화는 UI에서 확인 가능). Time Series 실험에는 사용할 수 없습니다.
ensemble_roc_with_validation: 내부 검증 데이터에 대한 ROC 및 Precision Recall 테이블(ROC 및 Precision Recall 곡선의 시각화는 UI에서 확인 가능) Time Series 실험에는 사용할 수 없습니다.
fs_normalized_varimp: 정규화된 빈도 변수 중요도 값(테이블 또는 json에서 사용 가능). Time Series 실험에는 사용할 수 없습니다.
fs_unnormalized_varimp: 정규화되지 않은 빈도 변수 중요도 값(테이블 또는 json에서 사용 가능). Time Series 실험에는 사용할 수 없습니다.
individual_scored.params_base: 실험에서 실행된 각각의 반복에 대한 세부 내용(csv, table 또는 json에서 이용 가능).