실험 설정¶
본 섹션에는 총 런타임, 재현성 레벨, 파이프라인 구축, 특성 브레인 제어, config.toml 설정 추가 등과 같은 실험의 사용자 지정에 이용할 수 있는 설정이 포함되어 있습니다.
max_runtime_minutes
¶
Max Runtime in Minutes Before Triggering the Finish Button
실험의 최대 런타임을 분 단위로 지정하십시오. 이것은 지정된 시간 값의 절반이 지나면 Finish 버튼을 누르는 것과 같습니다. 전체적으로 적용되는 런타임은 근사치입니다.
이 값의 기본값은 1440으로, 이는 대략 24시간 전체 런타임과 같습니다. Finish 버튼은 12시간이 지나면 자동으로 선택되고, Driverless AI는 남은 12시간 동안 전체 실험의 완료를 시도합니다. 해당 설정을 사용하지 않으려면, 이 값을 0으로 설정하십시오.
이 설정은 실험별로 적용되기 때문에 리더보드 모델(n)의 빌드 시에는 각 실험에 별도로 적용됩니다(즉, 허용되는 총 실행 시간은 n*24 시간입니다. 이러한 예상 시간은 각 실험을 한 번에 하나씩 순차적으로 실행한다고 가정한 것입니다).
max_runtime_minutes_until_abort
¶
Max Runtime in Minutes Before Triggering the Abort Button
중단 버튼을 트리거하기 전에 실험의 최대 런타임을 분 단위로 지정합니다. 해당 옵션은 추가 아티팩트를 지속해서 생성하면서 요약 및 로그 zip 파일을 위해 생성된 실험 아티팩트를 보존합니다. 기본값은 10,080분(7일)입니다.
이 설정은 실험별로 적용되기 때문에 리더보드 모델(n)의 빌드 시에는 각 실험에 별도로 적용됩니다(즉, 허용되는 총 실행 시간은 n*7일입니다. 이러한 예상 시간은 각 실험을 한 번에 하나씩 순차적으로 실행한다고 가정한 것입니다). 또한, time_abort 를 참조하십시오.
time_abort
¶
Time to Trigger the 〈Abort〉 Button
이때까지 실험이 완료되지 않으면 abort 버튼을 누르십시오. 이것은 리더보드에도 적용됩니다. 즉, 모든 리더보드 실험이 완료되지 않았을 때는 실제 시간이 지나면 전체 리더보드가 중단됩니다. 또한, 실험 abort 시간을 통제하려면 max_runtime_minutes_until_abort 를 참조하십시오.
이것은 time_abort_format(defaults to %Y-%m-%d %H:%M:%S)에 의해 주어진 형식으로 시간을 받아들입니다. 이것은 config.toml(기본값 UTC)의 time_abort_timezone에 의해 설정된 시간대를 가정합니다. 사용자는 1970-01-01 00:00:00 UTC 이후 정수 초를 지정할 수도 있습니다.
이것은 실험을 실행하는 DAI 워커의 시간에 적용됩니다. max_runtime_minutes_until_abort 와 비슷하게, 시간 abort는 요약 및 로그 zip 파일을 위해 지금까지 만든 실험 아티팩트를 보존합니다. 사용자가 이 실험을 복제하여 rerun/refit/restart 하는 경우, 이 절대 시간이 해당 실험 또는 리더보드 실험 세트에 적용됩니다.
pipeline-building-recipe
¶
Pipeline Building Recipe
파이프라인 빌딩 레시피 유형을 지정하십시오(GUI 설정 무시). 다음 중에서 선택하십시오.
Auto: 모든 모델과 특성이 실험 설정, config.toml 설정 및 변수 가공 활동에 의해 자동으로 결정되도록 지정하십시오(기본값).
Compliant: 다음을 제외하고 Auto 와 유사합니다.
해석 가능성은 10으로 설정됩니다.
GLM 또는 부스터를 〈giblinear’ 로만 사용합니다.
Fixed ensemble level 은 0으로 설정됩니다.
Feature brain level 은 0으로 설정됩니다.
Max 특성 상호 작용 깊이는 1로 설정됩니다.
회귀 분석을 위해 대상 트랜스포머가 〈identity’로 설정됩니다.
distribution shift 감지를 사용하지 마십시오.
monotonicity_constraints_correlation_threshold 은 0으로 설정됩니다.
monotonic_gbm: 다음을 제외하고 Auto 와 유사합니다.
monotonicity constraints 활성화
LightGBM 모델만 사용합니다.
대상과 상관없는 특성을 최소 0.01만큼 삭제합니다. monotonicity-constraints-drop-low-correlation-features 및 monotonicity-constraints-correlation-threshold 를 참조하십시오.
앙상블 모델을 빌드하지 않습니다. 즉
fixed_ensemble_level=0
을 설정합니다.feature brain 은 모든 재시작이 같도록 보장하는 데 사용되지 않습니다.
Interaction depth 는 1로 설정됩니다. 즉, 복잡성을 피하기 위해 다중 기능 상호 작용을 수행하지 않습니다.
회귀 분석 문제에 적용되는 대상 변환이 없습니다. 즉 target_transformer 를 〈identity’로 설정합니다. 등가 config.toml 매개변수는
recipe=['monotonic_gbm']
입니다.num_as_cat 특성 변환이 비활성화되었습니다.
included_transformers 목록
〈OriginalTransformer〉, #numeric (클러스터링 없음, 상호 작용 없음, num->cat 없음)〈CatOriginalTransformer〉, 〈RawTransformer〉,〉CVTargetEncodeTransformer〉, 〈FrequentTransformer〉,〉WeightOfEvidenceTransformer〉,〉OneHotEncodingTransformer〉, #categorical(하지만 num-cat 없음)〈CatTransformer〉,〉StringConcatTransformer〉, # 빅 데이터만 해당〈DateOriginalTransformer〉, 〈DateTimeOriginalTransformer〉, 〈DatesTransformer〉, 〈DateTimeDiffTransformer〉, 〈IsHolidayTransformer〉, 〈LagsTransformer〉, 〈EwmaLagsTransformer〉, 〈LagsInteractionTransformer〉, 〈LagsAggregatesTransformer〉,#날짜/시간〈TextOriginalTransformer〉, 〈TextTransformer〉, 〈StrFeatureTransformer〉, 〈TextCNNTransformer〉, 〈TextBiGRUTransformer〉, 〈TextCharCNNTransformer〉, 〈BERTTransformer〉,#문자〈ImageOriginalTransformer〉, 〈ImageVectorizerTransformer〉] #이미지
Monotonicity Constraints in Driverless AI 도 참조하십시오.
Kaggle: 다음을 제외하고 Auto 와 유사합니다.
모든 외부 검증 세트는 대상이 누락된 것으로 표시된 학습 세트와 연결됩니다.
해당 테스트 세트는 학습 세트와 연결되며 대상은 누락된 것으로 나타납니다.
대상을 사용하지 않는 트랜스포머는 학습, 검증 및 테스트 세트 전체에 걸쳐서
fit_transform
을 허용합니다.몇 가지의 config.toml 상세 옵션 개방 제한을 가지고 있습니다.
nlp_model: Pytorch를 기반으로 하는 NLP BERT 모델만 순수 문자의 처리가 가능합니다.
included_models = bert_models [〈TextBERTModel〉, 〈TextMultilingualBERTModel〉, 〈TextXLNETModel〉, 〈TextXLMModel〉,〉TextRoBERTaModel〉, 〈TextDistilBERTModel〉, 〈TextALBERTModel〉, 〈TextCamemBERTModel〉, 〈TextXLMRobertaModel〉]
enable_pytorch_nlp = 〈on〉
더 자세한 내용은 Driverless AI에서의 NLP 를 참조하십시오.
nlp_transformer: 순수 문자를 처리하는 Pytorch 기반 BERT 트랜스포머만 활성화합니다.
included_transformers = [〈BERTTransformer〉]
excluded_models = bert_models
enable_pytorch_nlp = 〈on〉
더 자세한 내용은 Driverless AI에서의 NLP 를 참조하십시오.
image_model: 순수 이미지를 처리하는 이미지 모델 (ImageAutoModel)만 활성화합니다. 자세한 내용은 자동 이미지 모델 을 참조하십시오.
Notes:
이 옵션은 유전 알고리즘 (GA)을 비활성화합니다.
이미지 인사이트는 이 옵션을 선택한 경우에만 사용이 가능합니다.
image_transformer: 순수 이미지를 처리하는 ImageVectorizer transformer만 활성화합니다. 자세한 내용은 임베딩 Transformer(이미지 Vectorizer) 를 참조하십시오.
unsupervised: 비지도형 트랜스포머, 모델 및 스코어러만 활성화합니다. See 를 참조하세요.
gpus_max: GPU 사용 극대화(예: GPUs 에서 실행되는 XGBoost, rapids, Optuna 하이퍼 파라미터 검색 등 사용)
각각의 파이프 라인 구축 레시피 모드는 선택된 후 상세 설정을 사용하여 미세 조정될 수 있습니다. 파이프 라인 구축 레시피를 변경하면 모든 파이프 라인 레시피 옵션을 기본값으로 재설정한 다음 새로운 모드에 대해 특정 규칙을 다시 적용하여 파이프 라인 구축 레시피 규칙의 일부인 상세 옵션의 모든 미세 조정을 취소합니다.
상위 실험에서 신규/계속/리핏/재학습된 실험을 선택하면 레시피 규칙이 다시 적용되지 않고 미세 조정이 유지됩니다. 레시피 동작을 재설정하기 위해 〈auto〉 및 원하는 사이에서 전환할 수 있습니다. 이 방법으로 새 하위 실험은 선택한 레시피에 대한 기본 설정을 사용합니다.
enable_genetic_algorithm
¶
Enable Genetic Algorithm for Selection and Tuning of Features and Models
특성 및 모델의 선택 및 하이퍼파라미터 튜닝에 유전 알고리즘 사용 여부를 지정하십시오.
auto: 기본값은 〈auto’입니다. 순수한 NLP 또는 이미지 실험이 아니면 〈on’과 같습니다.
on: Driverless AI 유전 알고리즘은 변수 가공, 모델 튜닝 및 선택에 사용됩니다.
Optuna: 〈Optuna〉 선택 시, 모델 하이퍼파라미터가 Optuna 로 튜닝되고, 변수 가공에 Driverless AI 유전 알고리즘이 사용됩니다. Optuna의 경우 반복 패널에 표시된 점수는 최고 점수 및 트라이얼 점수입니다. Optuna 모드는 현재 XGBoost, LightGBM 및 CatBoost (사용자 정의 레시피)에만 Optuna를 사용합니다. Pruner 활성 시, 기본적으로 Optuna 모드는 평가 메트릭(eval_metric)의 변형을 비활성화하기 때문에 가지치기는 비교를 위해 트라이얼에 걸쳐서 동일한 메트릭을 사용합니다.
off: 〈off’ 로 설정 시, 기본 변수 가공 및 특성 선택을 사용하여 최종 파이프라인이 학습됩니다.
등가 config.toml 매개변수는``enable_genetic_algorithm`` 입니다.
tournament_style
¶
Tournament Model for Genetic Algorithm
각 반복에서 가장 적합한 모델의 결정 방법을 선택하십시오. 기본적으로 Auto 로 설정됩니다. 다음 중에서 선택하십시오.
auto: accuracy 및 해석 가능성을 기준으로 선택
uniform**: 모집단 내의 모든 개체가 최고가 되기 위해 경쟁합니다(최종 앙상블에서 모두 (예)LightGBM 모델이 될 수 있으며, 다양성 부족으로 인해 앙상블 성능이 향상되지 않을 수도 있습니다).
fullstack: 최적 모델 및 특성 유형에서 선택
feature: 비슷한 특성 유형을 가진 개체들이 경쟁합니다(대상 인코딩, 주파수 인코딩 및 기타 특성 세트가 훌륭한 결과로 이어지는 경우가 좋음)
model**: 동일한 모델 유형을 가진 개체들이 경쟁합니다(여러 모델이 잘 되는 경우가 좋지만 잘 되지 않는 일부 모델도 여전히 앙상블 향상에 기여합니다).
각각의 경우에 대해 round robin approach를 사용하여 선택할 모델 유형 중에서 최고 점수를 선택하십시오.
enable_genetic_algorithm==〉Optuna’인 경우, 모든 개체는 유전 알고리즘 도중에 토너먼트 없이 자체 돌연변이화가 됩니다. 토너먼트는 예를 들어 튜닝 -> 진화 및 진화-> 최종 모델을 위해 개체의 잘라내기에만 사용됩니다.
make_python_scoring_pipeline
¶
Make Python Scoring Pipeline
실험을 위해 Python Scoring Pipeline의 자동 빌드 여부를 지정하십시오. On 또는 Auto (기본값)을 선택하면 실험이 완료될 때 Python Scoring Pipeline을 바로 다운로드할 수 있습니다. Python Scoring Pipeline의 자동 생성을 비활성화하려면 Off 를 선택하십시오.
make_mojo_scoring_pipeline
¶
Make MOJO Scoring Pipeline
실험을 위해 MOJO(Java) 스코어링 파이프라인의 자동 빌드 여부를 지정하십시오. On 를 선택하면 실험 종료 시, MOJO Scoring Pipeline을 바로 다운로드할 수 있습니다. 해당 옵션을 사용하면 파이프라인 생성을 저해하는 모든 기능이 삭제됩니다. Off 를 선택하여 MOJO Scoring Pipeline의 자동 생성을 비활성화하십시오. Auto (기본값)을 선택하여 기능 삭제 없이 MOJO Scoring Pipeline을 생성합니다.
mojo_for_predictions
¶
Allow Use of MOJO for Making Predictions
실험 완료 후 빠른 저지연(low-latency) 예측을 위한 MOJO 사용 여부를 지정합니다. Auto (기본값)로 설정하면 행 수가 mojo_for_predictions_max_rows
에 지정된 값 이하인 경우에만 MOJO를 사용합니다.
reduce_mojo_size
¶
Attempt to Reduce the Size of the MOJO (Small MOJO)
실험 빌드 시, 소규모 MOJO Scoring Pipeline의 생성 여부를 지정하십시오. MOJO가 작을수록 스코어링할 동안 메모리 사용량이 줄어듭니다. 해당 설정은 실험의 최대 interaction depth 를 3 으로 제한하고, ensemble level 을 0 으로 설정하여 즉, 최종 파이프라인에 대한 앙상블 모델이 없고 모델의 maximum number of features 를 200 로 제한하여 mojo 크기를 줄이고자 합니다. 일부 경우 이러한 설정은 변수 가공 및 모델 구축 공간의 복잡성을 제한하기 때문에 전체 모델의 예측 accuracy에 영향을 미칠 수도 있음에 유념하십시오.
기본적으로 비활성화되어 있습니다. 등가 config.toml 설정은 reduce_mojo_size
입니다.
make_pipeline_visualization
¶
Make Pipeline Visualization
실험 종료 시, 스코어링 파이프라인의 시각화 생성 여부를 지정하십시오. 기본적으로 Auto 로 설정됩니다. Visualize Scoring Pipeline 특성은 실험적이고 지원 중단된 모델에는 사용이 불가합니다. 새로 생성된 모든 실험에 시각화를 사용할 수 있습니다.
benchmark_mojo_latency
¶
Measure MOJO Scoring Latency
MOJO 생성 시 MOJO 스코어링 대기 시간의 측정 여부를 지정하십시오. 기본적으로 Auto* 로 설정됩니다. 이 경우, pipeline.mojo 파일 크기가 100MB 미만이면 MOJO 스코어링 대기 시간이 측정됩니다.
mojo_building_timeout
¶
Timeout in Seconds to Wait for MOJO Creation at End of Experiment
실험 종료 시, MOJO 생성 대기 시간(초)을 지정하십시오. MOJO 생성 프로세스의 시간이 초과된 경우에도 GUI 또는 R 및 Python client에서 MOJO를 만들 수 있습니다(시간 제한이 적용되지 않음). 기본값은 1,800초(30분)입니다.
mojo_building_parallelism
¶
Number of Parallel Workers to Use During MOJO Creation
MOJO 작성 중에 사용할 병렬 워커 수를 지정하십시오. 값이 높을수록 MOJO의 생성 속도는 빨라지지만 더 많은 메모리가 사용됩니다. 모든 물리 코어를 사용하기 위해서는 이 값을 -1(기본값)로 설정하십시오.
kaggle_username
¶
Kaggle Username
필요 시, Kaggle 사용자 이름을 지정하여 테스트 세트 예측의 자동 제출 및 스코어링 활성화를 지정하십시오. 해당 옵션이 지정되면 Kaggle Key 옵션값도 지정해야 합니다. Kaggle 계정이 없는 경우 https://www.kaggle.com 에서 가입하십시오.
kaggle_key
¶
Kaggle Key
Kaggle API 키를 지정하여 테스트 세트 예측의 자동 제출 및 스코어링을 활성화하십시오. 이 옵션이 지정되면 Kaggle Username 옵션값도 지정해야 합니다. Kaggle API 자격 증명 획득 방법에 대한 자세한 내용은 https://github.com/Kaggle/kaggle-api#api-credentials 를 참조하십시오.
kaggle_timeout
¶
Kaggle Submission Timeout in Seconds
Kaggle 제출 제한 시간(초)을 지정하십시오. 기본값은 120초입니다.
min_num_rows
¶
Min Number of Rows Needed to Run an Experiment
실험의 실행을 위해 데이터 세트에 포함할 최소 행 수를 지정하십시오. 기본값은 100입니다.
reproducibility_level
¶
Reproducibility Level
다음의 재현성 레벨 중 하나를 지정하십시오. 해당 설정은 실험에서 재현 옵션이 활성화된 경우에만 사용됩니다.
1 = 동일한 O/S, 동일한 CPU 및 동일한 GPU에 대한 동일한 실험 결과(기본값)
2 = 동일한 O/S, 동일한 CPU 아키텍처 및 동일한 GPU 아키텍처에 대한 동일한 실험 결과
3 = 동일한 O/S, 동일한 CPU 아키텍처에 대한 동일한 실험 결과 (GPU 제외)
4 = 동일한 O/S에 대해 동일한 실험 결과(최고 근사치)
기본값은 1입니다.
seed
¶
Random Seed
실험을 위한 랜덤 시드를 지정하십시오. 시드가 정의되고 재현 가능 버튼이 활성화되면(기본 설정 아님) 알고리즘이 결정론적으로 작동합니다.
allow_different_classes_across_fold_splits
¶
Allow Different Sets of Classes Across All Train/Validation Fold Splits
( Note: 멀티 클래스 문제에만 적용이 가능합니다.) 단일 홀드 아웃 분할이 아닌 특성 진화 중에 전체 교차 검증(다중 폴드)을 활성화할지의 여부를 지정하십시오. 기본적으로 활성화되어 있습니다.
save_validation_splits
¶
Store Internal Validation Split Row Indices
내부 검증 분할 행 인덱스 저장 여부를 지정합니다. 여기에는 실험 요약 ZIP 파일의 모든 내부 검증 폴드에 대한 (train_idx, valid_idx) 튜플의 피클(원래 학습 데이터에 대한 numpy 행 인덱스)이 포함됩니다. 디버깅 목적으로 이 설정을 활성화합니다. 이 설정은 기본적으로 비활성화되어 있습니다.
max_num_classes
¶
Max Number of Classes for Classification Problems
분류 문제를 허용할 최대 클래스 수를 지정하십시오. 클래스 수가 많을수록 특정 프로세스에 더 많은 시간이 소요될 수 있습니다. 메모리 요건은 클래스의 수가 증가할수록 커집니다. 기본값은 200입니다.
max_num_classes_compute_roc
¶
Max Number of Classes to Compute ROC and Confusion Matrix for Classification Problems
ROC 및 CM의 계산 시 사용할 최대 클래스 수를 지정하십시오. 이 값을 초과하면, roc_reduce_type
에 의해 지정된 축소 유형이 적용됩니다. 기본값은 200이며 2보다 작으면 안됩니다.
max_num_classes_client_and_gui
¶
Max Number of Classes to Show in GUI for Confusion Matrix
CM용 GUI에 표시할 최대 클래스 수를 지정하여 첫 번째 max_num_classes_client_and_gui
레이블을 표시하십시오. 기본값은 10이지만 6을 초과하면 진단이 시각적으로 절단됩니다. 이 값이 config.toml에서 변경되고 서버가 재시작되면 해당 설정은 클라이언트 -GUI 실행 진단만 수정하게 됩니다. 실험 플롯을 제거하려면 상세 설정 패널에서 이 값을 변경하면 됩니다.
roc_reduce_type
¶
ROC/CM Reduction Technique for Large Class Counts
많은 클래스 수에 사용되는 ROC 혼동 행렬 축소 기술을 지정하십시오.
Rows (Default): 무작위로 행을 샘플링하여 축소
Classes: 클래스를
max_num_classes_compute_roc
에 지정된 값 이하로 절단해서 축소시킵니다.
max_rows_cm_ga
¶
Maximum Number of Rows to Obtain Confusion Matrix Related Plots During Feature Evolution
기능 진화 중에 최대 행 수를 지정하여 혼동 행렬 관련 플롯을 얻습니다. 이는 최종 모델 계산을 제한하지 않습니다.
use_feature_brain_new_experiments
¶
Whether to Use Feature Brain for New Experiments
새로운 실험을 실행하는 경우에도 feature_brain 결과를 사용할지 지정합니다. 기능 두뇌는 실험 설정에 대한 몇 가지 유형의 변경 때문에 위험을 초래할 수 있습니다. 재채점으로 충분하지 않을 수 있으므로 이는 기본적으로 False입니다. 예를 들어 한 실험에서 우연히 training=external validation이고 높은 점수를 얻을 수 있습니다. 그리고 feature_brain_reset_score=〉on’인 경우 이는 다시 점수를 부여할 것임을 의미하지만, 외부 검증 학습 중 이미 이를 보았으며, 이 데이터를 학습의 일부로 유출할 것입니다. False인 경우 feature_brain_level은 사용 가능한 모델을 설정하고 로그/알림을 제공하지만 이러한 기능 브레인 캐시 모델은 사용하지 않습니다.
feature_brain_level
¶
Model/Feature Brain Level
새로운 실험을 위한 유용한 특성 및 모델을 생성하기 위해 이전 실험의 로컬 caching 및 스마트 re-use(체크 포인트)를 가능케 하는 H2O.ai brain의 사용 여부를 지정하십시오. 일시 중지되거나 중단된 실험의 체크 포인트의 제어에도 사용이 가능합니다.
활성 시, 캐시 파일이 아래와 같은 경우 H2O.ai 브레인 캐시를 사용합니다.
비슷한 실험 유형과 매치하는 열 이름 및 유형을 가지고 있음
정확히 매치하는 클래스를 가지고 있음
정확히 매치하는 클래스 레이블을 가지고 있음
매치하는 기본 time series 선택 항목을 가지고 있음
캐시의 해석 가능성이 같거나 낮음
새 실험에 의해 주 모델(부스터)이 허용됨
-1: 브레인 캐시를 사용하지 않음(기본값).
0: 브레인 캐시를 사용하지 않지만 여전히 캐시에 기록. 유스케이스: 차후에 사용할 수 있도록 모델을 저장하고 싶지만 현재 모델이 브레인 모델 없이 구축되도록 하고 싶을 때
1: 최신 최고의 개별 모델의 스마트 체크 포인트. 유스케이스: 최신 매칭 모델을 사용하고자 할 때. 매치가 정확하지 않을 수 있기 때문에 주의해서 사용해야 합니다.
2: 실험이 모든 열 이름, 열 유형, 클래스, 클래스 레이블 및 time series 옵션과 동일하게 매치하는 경우의 스마트 체크 포인트. 유스케이스: Driverless AI가 H2O.ai 브레인 캐시를 통해 재시작할 최적의 모델을 검색합니다.
3: 레벨 #1과 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 불충분한 경우에만 조정합니다. 이것은 단일 반복에서 전체 모집단을 다시 스코어링하기 때문에 첫 반복의 완료에 더 긴 시간이 걸리는 것으로 보입니다.
4: 레벨 #2와 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 불충분한 경우에만 조정합니다. 이것은 단일 반복에서 전체 모집단을 다시 스코어링하기 때문에 첫 반복의 완료에 더 긴 시간이 걸리는 것으로 보입니다.
5: 스마트 체크 포인트는 레벨 #4와 비슷하지만 전체 브레인 캐시의 스캔을 통해 최고 점수를 얻은 개체를 확보합니다. 캐시가 큰 경우 브레인 캐시 스캔 때문에 속도가 느려질 수도 있습니다.
활성 시, H2O.ai Brain 메타 모델 파일이 저장되는 디렉터리는 H2O.ai_brain입니다. 또한 기본 최대 브레인 크기는 20GB입니다. config.toml 파일에서 디렉터리 및 최대 크기 모두 변경이 가능합니다. 기본값은 2입니다.
feature_brain2
¶
Feature Brain Save Every Which Iteration
which_iteration_brain >== 0으로 다시 시작/refit 할 수 있도록 iter_num % feature_brain_iterations_save_every_iteration == 0마다 특성 브레인 반복을 저장하십시오. 기본적으로 비활성화(0) 됩니다.
-1: 브레인 캐시를 사용하지 마십시오.
0: 브레인 캐시를 사용하지는 말고 캐시에 쓰십시오.
1: 이전 experiment_id가 패스된 경우의 스마트 체크 포인트(예: GUI에서 《resume one like this》 실행을 통해)
2: 실험이 모든 열 이름, 열 유형, 클래스, 클래스 레이블 및 time series 옵션과 동일하게 일치할 때의 스마트 체크 포인트.(기본값)
3: 레벨 #1과 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 충분하지 않은 경우에만 조정합니다.
4: 레벨 #2와 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 충분하지 않은 경우에만 조정합니다.
5: 스마트 체크 포인트는 레벨 #4와 유사하지만 가장 높은 점수를 받은 개체의 획득을 위해 모집단의 전체 브레인 캐시(선택 시, 재개된 실험에서 시작)를 스캔합니다.
활성 시, H2O.ai Brain 메타 모델 파일이 저장되는 디렉터리는 H2O.ai_brain입니다. 또한 기본 최대 브레인 크기는 20GB입니다. config.toml 파일에서 디렉터리 및 최대 크기 모두 변경이 가능합니다.
feature_brain3
¶
Feature Brain Restart from Which Iteration
재개된 ID를 통해 feature_brain_level 유형의 재시작 또는 re-fit의 수행 시, 최후의 최선 대신 시작할 반복을 지정합니다. 이용 가능한 옵션은 아래와 같습니다.
-1: 최후의 최선을 사용하십시오.
1: feature_brain_iterations_save_every_iteration=1 또는 기타 숫자로 하나의 실험을 실행하십시오.
2: 재시작 /refit하려는 반복 브레인 덤프를 확인하십시오.
3: 상세 설정에서 which_iteration_brain을 해당 숫자로 설정하여 원래 실험에서 재시작/Refit 합니다.
Note: 튜닝 반복으로부터 재시작하면, 스코어링된 전체 튜닝 모집단을 가져와 기능 발전에 사용하십시오. 기본값은 -1입니다.
feature_brain4
¶
Feature Brain Refit Uses Same Best Individual
refit 수행 시, 동일한 최상의 개체 사용 여부를 지정하십시오. 해당 설정을 비활성화하면 최상의 개체 순서의 재정렬을 통해 향상된 최종 결과를 얻을 수 있습니다. 이 설정을 사용하면 새로운 특성이 하나만 추가된 상태에서 정확히 같은 모델 또는 특성을 확인할 수 있습니다. 기본적으로 비활성화되어 있습니다.
feature_brain5
¶
Feature Brain Adds Features with New Columns Even During Retraining of Final Model
최종 모델의 재학습 수행 시, 새로운 열의 추가 특성을 파이프라인에 추가할지 여부를 지정하십시오. 새로운 데이터 세트의 새로운 열에 관계없이 같은 파이프라인을 유지하려면 해당 옵션을 사용하십시오. 새로운 데이터는 이동 또는 유출 감지로 인해 새로운 특성이 떨어질 수도 있습니다. 데이터 변경 시, 파이프라인이 완벽하게 보존될 수 있도록 열을 새로운 특성으로 추가하지 않으려면 해당 옵션을 비활성화합니다. 기본적으로 활성화되어 있습니다.
force_model_restart_to_defaults
¶
Restart-Refit Use Default Model Settings If Model Switches
재시작 또는 refitting 시, 기존의 모델 클래스를 더 이상 사용할 수 없는 경우 모델 클래스의 기본 설정을 사용할지 여부를 지정하십시오. 비활성화 시, 기존의 하이퍼파라미터가 대신 사용됩니다(이로써 오류가 발생할 수도 있습니다). 기본적으로 활성화되어 있습니다.
min_dai_iterations
¶
Min DAI Iterations
실험을 위한 최소 Driverless AI의 반복 횟수를 지정하십시오. 해당 기능은 점수가 향상되지 않더라도 더 긴 시간 지속하고자 할 때 재시작 시 사용이 가능합니다. 기본값은 0입니다.
target_transformer
¶
Select Target Transformation of the Target for Regression Problems
회귀 분석 문제에 대한 대상 변환의 자동 선택 여부를 지정하십시오. 이용 가능한 옵션은 다음과 같습니다.
auto
identity
identity_noclip
center
standardize
unit_box
log
log_noclip
square
sqrt
double_sqrt
inverse
logit
sigmoid
auto (기본값)로 설정 시, Accuracy 가 tune_target_transform_accuracy_switch
구성 옵션(기본값 5) 이상의 값으로 설정된 경우 Driverless AI가 자동으로 최적의 대상 트랜스포머를 선택합니다. Identity_noclip 을 선택하면 모든 대상 변환이 자동으로 해제됩니다. center, standardize, identity_noclip 및 log_noclip 을 제외한 모든 트랜스포머는 클리핑 수행을 통해 예측을 학습 데이터의 대상의 도메인으로 제한하기 때문에 외삽을 활성화하려는 경우에는 피하십시오.
등가 config.toml 설정은 target_transformer
입니다.
fixed_num_folds_evolution
¶
Number of Cross-Validation Folds for Feature Evolution
특성 진화를 위해 고정된 교차 검증 폴드 수(2 이상인 경우)를 지정하십시오. 허용된 폴드의 실제 수는 지정된 값보다 적을 수 있으며 허용되는 폴드 수는 실험이 실행 시 결정됩니다. 기본값은 -1 (자동)입니다.
fixed_num_folds
¶
Number of Cross-Validation Folds for Final Model
최종 모델을 위해 고정된 교차 검증 폴드 수(2 이상인 경우)를 지정하십시오. 허용된 폴드의 실제 수는 지정된 값보다 적을 수 있으며 허용되는 폴드 수는 실험이 실행 시 결정됩니다. 기본값은 -1 (자동)입니다.
fixed_only_first_fold_model
¶
Force Only First Fold for Models
모델에 첫 번째 폴드만 적용할 것인지의 여부를 지정하십시오. Auto (기본값), On 또는 Off 중에서 선택하십시오. 《on》설정 시, 모델의 첫 번째 폴드만 적용됩니다. 데이터에 관계없이 빠른 실행에 유용합니다
feature_evolution_data_size
¶
Max Number of Rows Times Number of Columns for Feature Evolution Data Splits
특성 진화 데이터 분할에 허용되는 최대 행 수를 지정하십시오(최종 파이프라인이 아님). 기본값은 100,000,000입니다.
final_pipeline_data_size
¶
Max Number of Rows Times Number of Columns for Reducing Training Dataset
최종 파이프라인 학습을 위해 행 수에 열 수를 곱한 상한치를 지정하십시오. 기본값은 500,000,000입니다.
max_validation_to_training_size_ratio_for_final_ensemble
¶
Maximum Size of Validation Data Relative to Training Data
학습 데이터를 기준으로 검증 데이터의 최대 크기를 지정하십시오. 작은 값일수록 최종 파이프라인 모델 학습 프로세스가 더 빨라집니다. 최종 모델 예측과 점수는 항상 제공된 전체 데이터 세트에 제공됩니다. 기본값은 2.0입니다.
force_stratified_splits_for_imbalanced_threshold_binary
¶
Perform Stratified Sampling for Binary Classification If the Target Is More Imbalanced Than This
이진 분류 실험 시, 계층화된 샘플링이 수행되는 대상 열에 대해 소수 클래스 대다수 클래스의 임계값 비율을 지정하십시오. 임계값을 초과하지 않으면 무작위 샘플링이 수행됩니다. 기본값은 0.01입니다. 해당 값을 0으로 설정하여 항상 무작위 샘플링을 수행하거나 또는 이 값을 1로 설정하여 항상 계층화된 샘플링을 수행하도록 선택할 수도 있습니다.
mli_custom
¶
Add to config.toml via toml String
실험에 포함될 config.toml 파일에서 추가 구성 오버라이드를 지정하십시오(실험 중에 오버라이드할 수 있는 옵션을 확인하려면 샘플 config.toml 파일 섹션을 참조하십시오.). 해당 항목을 설정하면 다른 모든 설정이 오버라이드됩니다. 다양한 구성 오버라이드를 \
로 분리하십시오. 예를 들어, 다음은 LightGBM에 대한 포아송 분포를 활성화하고 대상 트랜스포머 튜닝을 비활성화합니다. 해당 예제에서 큰따옴표는 escaped(\" \"
) 처리됩니다.
params_lightgbm=\"{'objective':'poisson'}\" \n target_transformer=identity
또는 큰따옴표를 escaped 하지 않고도 다음과 비슷한 구성 오버라이드 지정이 가능합니다.
""enable_glm="off" \n enable_xgboost_gbm="off" \n enable_lightgbm="off" \n enable_tensorflow="on"""
""max_cores=10 \n data_precision="float32" \n max_rows_feature_evolution=50000000000 \n ensemble_accuracy_switch=11 \n feature_engineering_effort=1 \n target_transformer="identity" \n tournament_feature_style_accuracy_switch=5 \n params_tensorflow="{'layers': [100, 100, 100, 100, 100, 100]}"""
Python client 실행 시, 구성 오버라이드는 다음과 같이 설정됩니다.
model = h2o.start_experiment_sync(
dataset_key=train.key,
target_col='target',
is_classification=True,
accuracy=7,
time=5,
interpretability=1,
config_overrides="""
feature_brain_level=0
enable_lightgbm="off"
enable_xgboost_gbm="off"
enable_ftrl="off"
"""
)
last_recipe
¶
last_recipe
레시피 변경 시, 메모리를 허용하는 내부 도우미
feature_brain_reset_score
¶
Whether to re-score models from brain cache
단계 뇌 모델을 재먼징(re-munging)/재학습/재채점하지 않도록 현명하게 점수를 유지할지(〈auto〉), 모든 뇌 가져오기에 대해 항상 모든 단계를 적용할지(〈on〉), 다시 점수를 부여하지 않을지(〈off〉)를 지정합니다. 〈auto’는 열 변경, 메트릭 변경 등과 같이 현재 및 이전 실험의 차이가 재채점을 수행해야 하는 경우에만 다시 점수를 부여합니다. 〈on’은 스마트 유사성 검사를 충분히 신뢰할 수 없을 때 유용합니다. 〈off’는 최종 모델에 도달하기 전에 다시 점수를 부여할 경우 결과를 변경할 수 있는 기능의 시드 또는 기타 동작을 변경하더라도 최종 모델 리핏을 위해 정확히 동일한 기능 및 모델을 유지하려는 경우에 유용합니다. Off로 설정하는 경우 뇌 수집 중 기능에 제한을 적용하지 않으며, 데이터의 새로운 열을 무시하려는 경우 brain_add_features_for_new_columns를 false로 설정할 수 있습니다. 채점 변경 내용과 관계없이 정확히 동일한 최고의 개체(가장 점수가 높은 모델+기능)을 사용하려는 경우 refit_same_best_individual을 True로 설정할 수도 있습니다.
feature_brain_save_every_iteration
¶
Feature Brain Save every which iteration
모든 iter_num % feature_brain_iterations_save_every_iteration == 0에 대해 기능 뇌 반복 저장 여부를 지정하여 which_iteration_brain >== 0으로 재시작/리핏할 수 있게 합니다. 0으로 설정하여 이 설정을 비활성화합니다.
which_iteration_brain
¶
Feature Brain Restart from which iteration
resumed_experiment_id로 유형 feature_brain_level 재시작 또는 리핏 수행 시 마지막 최고 대신에 시작할 반복부를 선택합니다. -1은 마지막 최고를 사용한다는 의미입니다.
사용:
feature_brain_iterations_save_every_iteration=1 또는 기타 숫자로 하나의 실험을 실행하십시오.
재시작/리핏하려는 반복 브레인 덤프를 확인하십시오.
상세 설정에서 which_iteration_brain을 해당 숫자로 설정하여 원래 실험에서 재시작/리핏합니다.
참고: 튜닝 반복에서 재시작하는 경우 점수가 부여된 전체 튜닝 모집단을 가져와 기능 진화에 사용합니다.
refit_same_best_individual
¶
Feature Brain refit uses same best individual
기능 브레인에서 리핏 수행 시 열이나 기능을 변경하는 경우 리핏에 사용된 개체의 모집단은 최고의 순서를 변경하여 더 나은 결과를 선택할 수 있습니다(False 케이스). 하지만 때로 하나의 기능만을 추가한 정확히 동일한 모델/기능을 보고 싶은 경우 이를 True 케이스로 설정해야 합니다. 즉, 1개의 추가 열만으로 리핏을 수행하고 해석 가능성이 1인 경우 최종 모델은 동일한 기능이 되며, 새로운 원래 기능에 하나 이상의 가공된 기능이 적용됩니다.
restart_refit_redo_origfs_shift_leak
¶
For restart-refit, select which steps to do
기능 브레인에서 실험 재시작 또는 리핏 수행 시 때로 사용자가 데이터를 크게 변경한 다음 기능 선택, 이동 감지 및 누출 감지를 통해 원래 기능 축소를 다시 실행해야 하는 경우가 있습니다. 그러나 다른 경우에 데이터와 모든 옵션이 거의(또는 정확히) 동일한 경우 이러한 단계에서 기능이 약간 변경될 수 있으며(예: 재현 가능한 모드를 설정하지 않은 경우 임의의 씨앗으로 인해) 기능 및 리핏된 모델의 변경으로 이어질 수 있습니다. 기본적으로 재시작 및 리핏으로 데이터 및 실험 설정이 크게 변경되지 않았다고 가정하는 이러한 단계를 피할 수 있습니다. check_distribution_shift가 강제로 켜진 경우(AUTO 대신) 이 옵션은 무시됩니다. 정확히 동일한 최종 파이프라인이 장착되게 하려면 다음도 설정해야 합니다.
brain_add_features_for_new_columns false
refit_same_best_individual true
feature_brain_reset_score 〈off〉
force_model_restart_to_defaults false
선택한 실험 메트릭이 변경되는 경우 점수는 여전히 재설정되지만, 점수를 부여한 모델 및 기능에 대한 변경 사항은 더욱 확고히 유지됩니다.
brain_add_features_for_new_columns
¶
Feature Brain adds features with new columns even during retraining final model
최종 모델을 재학습시키는 경우에도 새 열을 가져와 파이프라인에 추가 기능을 추가할지에 대해 다룹니다. 일부 경우 새로운 데이터 세트가 있지만 새로운 열과 관계없이 동일한 파이프라인만 유지하려고 할 수 있으며, 이 경우 False로 설정합니다. 예를 들어, 새로운 데이터는 이동 또는 누출 감지로 인해 새로운 기능이 삭제될 수 있습니다. 기능 세트의 변경을 방지하기 위해 모든 열 삭제를 비활성화할 수 있지만 False로 설정하여 모든 열을 새 기능으로 추가하지 않도록 하여 데이터 변경 시 파이프라인을 완벽하게 보존합니다.
force_model_restart_to_defaults
¶
Restart-refit use default model settings if model switches
재시작/리핏 수행 후 원래 모델 클래스를 더 이상 사용할 수 없는 경우 보수적으로 해당 모델 클래스의 기본값으로 돌아가십시오. False인 경우 일반적으로 작동하지 않을 수 있는 원래 하이퍼 파라미터를 유지하도록 하십시오.
dump_modelparams_every_scored_indiv
¶
Enable detailed scored model info
점수가 부여된 모든 개인의 모델 매개변수를 csv/tabulated/json 파일에 덤프할지 파일을 생성합니다. 예: Individual_scored.params.[txt, csv, json]
fast_approx_num_trees
¶
Max number of trees to use for fast approximation
fast_approx=True
의 경우 사용할 최대 트리 수를 지정합니다. 기본적으로 이 값은 250입니다.
참고
기본적으로 fast_approx
는 MLI 및 AutoDoc에 대해 활성화되고 실험 예측에 대해 비활성화되어 있습니다.
fast_approx_do_one_fold
¶
Whether to use only one fold for fast approximation
fast_approx=True
의 경우 모든 교차 검증 폴드 중 하나의 폴드만 사용하여 빠른 근사의 속도 향상 여부를 지정합니다. 기본적으로 이 설정은 활성화되어 있습니다.
참고
기본적으로 fast_approx
는 MLI 및 AutoDoc에 대해 활성화되고 실험 예측에 대해 비활성화되어 있습니다.
fast_approx_do_one_model
¶
Whether to use only one model for fast approximation
fast_approx=True
의 경우 모든 앙상블 모델 중 하나의 모델만 사용하여 빠른 근사의 속도 향상 여부를 지정합니다. 기본적으로 이 설정은 비활성화되어 있습니다.
참고
기본적으로 fast_approx
는 MLI 및 AutoDoc에 대해 활성화되고 실험 예측에 대해 비활성화되어 있습니다.
fast_approx_contribs_num_trees
¶
Maximum number of trees to use for fast approximation when making Shapley predictions
fast_approx_contribs=True
의 경우 Shapley 예측 수행 및 AutoDoc/MLI에 대해 GUI에서 〈빠른 근사’에 사용할 최대 트리 수를 지정합니다. 기본적으로 이 값은 50입니다.
참고
기본적으로 fast_approx_contribs
는 MLI 및 AutoDoc에 대해 활성화되어 있습니다.
fast_approx_contribs_do_one_fold
¶
Whether to use only one fold for fast approximation when making Shapley predictions
fast_approx_contribs=True
의 경우 Shapley 예측 수행 및 AutoDoc/MLI에 대해 GUI의 〈빠른 근사’를 위한 모든 교차 검증 폴드 중 하나의 폴드만 사용하여 fast_approx_contribs
속도 향상 여부를 지정합니다. 기본적으로 이 설정은 활성화되어 있습니다.
참고
기본적으로 fast_approx_contribs
는 MLI 및 AutoDoc에 대해 활성화되어 있습니다.
fast_approx_contribs_do_one_model
¶
Whether to use only one model for fast approximation when making Shapley predictions
fast_approx_contribs=True
의 경우 Shapley 예측 수행 및 AutoDoc/MLI에 대해 GUI의 〈빠른 근사’를 위한 모든 앙상블 모델 중 하나의 모델만 사용하여 fast_approx_contribs
속도 향상 여부를 지정합니다. 기본적으로 이 설정은 활성화되어 있습니다.
참고
기본적으로 fast_approx_contribs
는 MLI 및 AutoDoc에 대해 활성화되어 있습니다.
autoviz_recommended_transformation
¶
Autoviz Recommended Transformations
Autoviz 가 권장하는 열 이름 및 변환의 키-값(Key-value) 쌍입니다. Autoviz Recommendation Transformer 도 참조하십시오.