모델 설정¶
enable_constant_model
¶
Constant Models
constant models 의 활성화 여부를 지정하십시오. 이것은 Auto (활성화됨)로 기본설정되어 있습니다.
enable_decision_tree
¶
Decision Tree Models
Decision Tree 모델을 실험의 일부분으로 빌드할지 여부를 지정하십시오. 이것은 Auto (활성화됨)로 기본설정되어 있습니다. 이 경우, 해석 가능성이 decision_tree_interpretability_switch
(기본값은 7) 값 이상이고 accuracy가 decision_tree_accuracy_switch
(기본값은 7) 이하인 경우 Driverless AI는 Decision Tree 모델을 빌드합니다.
enable_glm
¶
GLM Models
실험의 일부분으로 GLM 모델(일반화 선형 모델)을 빌드할지 여부를 지정하십시오(독점적으로 사용되지 않는 한 최종 모델에만 해당). GLM은 기능당 하나의 계수, 절편 항 및 연결 함수를 가진 해석이 가능한 모델입니다. 이것은 Auto 로 기본설정되어 있습니다(accuracy <= 5 및 해석 가능성 >= 6인 경우 활성화됨).
enable_xgboost_gbm
¶
XGBoost GBM Models
실험의 일부분으로 XGBoost 모델을 빌드할지 여부를 지정하십시오(변수 가공 부분과 최종 모델 모두). XGBoost는 훌륭한 정규화 기술과 높은 accuracy 덕분에 최근 몇 년간 크게 성공한 그라디언트 부스팅 방법의 한 유형입니다. 이것은 Auto 로 기본설정되어 있습니다이 때, 행*열 수가 임계값보다 크지 않을 경우 Driverless AI는 XGBoost를 사용합니다. 해당 임계값은 CPU의 경우 기본값은 100M, GPU는 30M으로 구성되어 있습니다.
enable_lightgbm
¶
LightGBM Models
LightGBM 모델을 실험의 일부분으로 빌드할지 여부를 지정하십시오. LightGBM은 기본 모델입니다. 이것은 Auto (활성화됨)로 기본설정되어 있습니다.
enable_xgboost_dart
¶
XGBoost Dart Models
실험용 모델을 빌드할 때, XGBoost’s Dart 방법의 사용 여부를 지정하십시오 (변수 가공 부분과 최종 모델 모두). 이것은 Auto (활성화됨)로 기본설정되어 있습니다.
enable_xgboost_rapids
¶
Enable RAPIDS-cuDF extensions to XGBoost GBM/Dart
XGBoost GBM/Dart에 대한 RAPIDS 확장의 활성화 여부를 지정하십시오. 선택 시, python 스코어링 패키지는 GPU 시스템에서만 사용할 수 있습니다. 등가 config.toml 매개변수는 enable_xgboost_rapids
이며 기본값은 False입니다. dask_cudf 및 xgboost 버그로 인해 dask 멀티 노드 모델에서 비활성화됩니다.
enable_xgboost_rf
¶
Enable XGBoost RF model
조기중단 없는 XGBoost RF 모드의 활성화 여부를 지정하십시오. 전원이 켜져있지 않는 한, 이 설정은 비활성화됩니다.
enable_xgboost_gbm_dask
¶
Enable Dask_cuDF (multi-GPU) XGBoost GBM
XGBoost GBM의 Dask_cudf (다중 GPU) 버전의 활성화 여부를 지정하십시오. 조기중단 없는 최종 단일 모델에만 해당됩니다. No Shapley possible. 등가 config.toml 매개변수는 enable_xgboost_gbm_dask
이고 기본값은 《auto》입니다.
enable_xgboost_dart_dask
¶
Enable Dask_cuDF (multi-GPU) XGBoost Dart
XGBoost GBM/Dart의 Dask_cudf (다중 GPU) 버전의 활성화 여부를 지정하십시오. 전원이 켜져있지 않는 한, 이 옵션은 비활성화됩니다. 조기중단 없는 최종 단일 모델에만 해당됩니다. No Shapley possible. 등가 config.toml 매개변수는 enable_xgboost_gbm_dask
이고 기본값은 《auto》입니다. 다중 gpus에 Dask_cudf의 실행을 권장합니다. 만약 사용자가 디버깅 목적으로 1개의 GPU에서 이것을 활성화하려면 config.toml 설정을 통해 use_dask_for_1_gpu
를 True로 설정합니다.
enable_lightgbm_dask
¶
Enable Dask (multi-node) LightGBM
다중 노드 LightGBM의 활성화 여부를 지정하십시오. 전원이 켜져 있지 않는 한 기본적으로 비활성화됩니다. 등가 config.toml 매개변수는 enable_lightgbm_dask
이고 기본값은 《auto》입니다.
다중 노드 Dask를 활성화하려면, Dask 다중 노드 학습 을 참조하십시오.
enable_hyperopt_dask
¶
Enable Dask (multi-node/multi-GPU) hyperparameter search
하이퍼파라미터 검색의 Dask(다중 노드/다중 GPU) 버전의 활성화 여부를 지정하십시오. 현재 《auto》 및 《on》은 같습니다. 하이퍼파라미터 검색을 위한 Dask 모드는 다음의 경우에 활성화됩니다.
Dask multinode cluster 또는 다중 GPU 노드를 가지고 있고 모델이 각 모델에 대해 1개의 GPU를 사용하는 경우( num_gpus_per_model 참조).
아직 Dask 모델을 사용하지 않는 경우.
등가 config.toml 매개변수가 enable_hyperopt_dask
이고 기본값이 《auto》 인 경우.
num_inner_hyperopt_trials_prefinal
¶
Number of trials for hyperparameter optimization during model tuning only
모델 튜닝 및 진화를 위한 Optuna 하이퍼파라미터 최적화에 대한 시행 횟수를 지정하십시오. RAPIDS 또는 DASK 를 사용하는 경우, 해당 매개변수는 XGBoost GBM/Dart 및 LightGBM 내에서 하이퍼파라미터의 최적화를 위한 시도 횟수를 지정하고 하이퍼파라미터 최적화는 데이터를 GPU 전체 시간에 유지합니다.
0은 시도가 없음을 의미합니다. 작은 데이터의 경우 100이면 충분하고, 큰 데이터의 경우에도 빠른 결과가 필요한 경우 작은 값을 사용하는 것이 합리적입니다. RAPIDS 또는 DASK 사용 시, 하이퍼파라미터의 최적화가 전체 기간 동안 GPU에 유지됩니다등가 config.toml 매개 변수는 num_inner_hyperopt_trials_prefinal
이고 그 기본값은 0 입니다.
이는 내부 모델 fit/predict(즉, 다양한 파일, 프로세스 및 기타 DAI 관리 프로세스)의 외부에 DAI의 하이 오버헤드가 있을 때 유용하기 때문에 해당 오버헤드 없이 튜닝됩니다. 그러나 이는 튜닝 또는 진화 수행 시, 단일 폴드에 과적합할 수 있으며 교차 검증 사용 시 폴드 하이퍼라미터를 평균화하면 의도하지 않은 결과로 이어질 수 있습니다.
num_inner_hyperopt_trials_final
¶
Number of trials for hyperparameter optimization for final model only
최종 모델을 위한 Optuna 하이퍼파라미터 최적화의 시도 횟수. RAPIDS 또는 DASK 를 사용하는 경우, 이것은 XGBoost GBM/Dart 및 LightGBM 내에서 rapids-cudf 하이퍼파라미터의 최적화를 위한 시도 횟수이고, 하이퍼파라미터 최적화는 데이터를 GPU 전체 기간에 걸쳐 유지합니다.
0은 시도가 없음을 의미합니다. 작은 데이터의 경우 100이면 좋은 선택이고, 큰 데이터의 경우에도 빠른 결과가 필요할 때는 작은 값을 사용하는 것이 합리적입니다. 이것은 num_inner_hyperopt_trials=0의 경우에도 최종 모델에만 적용됩니다. 등가 config.toml 매개 변수는 num_inner_hyperopt_trials_final
이고 그 기본값은 0 입니다.
num_hyperopt_individuals_final
¶
Number of individuals in final ensemble to use Optuna on
Optuna 하이퍼파라미터 튜닝으로 최적화할 최종 모델(주어진 기본 모델에 대한 모든 폴드/반복)의 개별 수입니다. 기본값은 -1이며 전부를 의미합니다. 0은 Optuna 시도를 선택하지 않는 것과 같습니다. 앙상블에서 최고의 개별(즉, 값 1) 하이퍼파라미터의 최적화에만 유용할 수 있습니다.
기본값이 -1이며, 전부를 의미합니다. 등가 config.toml 매개변수는 num_hyperopt_individuals_final
입니다.
optuna_pruner
¶
Optuna Pruners
가망 없는 시도의 조기 중단에 사용할 Optuna Pruner 알고리즘(Optuna 콜백을 지원하는 XGBoost 및 LightGBM에 적용 가능). 기본값은 MedianPruner 입니다. 비활성화하려면 None을 선택합니다.
등가 config.toml 매개변수는 optuna_pruner
입니다.
optuna_sampler
¶
Optuna Samplers
검색 공간을 좁히고 최적화하는 데 사용할 Optuna Sampler 알고리즘 (Optuna 콜백을 지원하는 XGBoost 및 LightGBM에 적용 가능). 기본값은 TPESampler 입니다. 비활성화하려면 None을 선택합니다.
등가 config.toml 매개변수는 optuna_sampler
입니다.
enable_xgboost_hyperopt_callback
¶
Enable Optuna XGBoost Pruning callback
Optuna의 XGBoost Pruning 콜백을 활성화하여 가망 없는 실행의 중단 여부를 지정하십시오. 기본값은 True입니다. 학습률 조정 시에는 활성화되지 않습니다.
등가 config.toml 매개변수는
enable_xgboost_hyperopt_callback
입니다.
enable_lightgbm_hyperopt_callback
¶
Enable Optuna LightGBM Pruning callback
Optuna의 LightGBM Pruning 콜백을 활성화하여 가망없는 실행의 중단 여부를 지정하십시오. 기본값은 True입니다. 학습률 조정 시에는 활성화되지 않습니다.
등가 config.toml 매개변수는
enable_lightgbm_hyperopt_callback
입니다.
enable_tensorflow
¶
TensorFlow Models
TensorFlow 모델을 실험의 일부분으로 빌드할지 여부를 지정하십시오(독점적으로 사용되지 않는 한 일반적으로 문자 변수 가공 및 최종 모델에만 해당). NLP 실험을 위해 이 옵션을 활성화합니다이것은 Auto 로 기본설정되어 있습니다(클래스 수가 10을 넘지 않는 한 사용되지 않음).
TensorFlow 모델은 아직 JAVA MOJO에서 지원되지 않습니다(Python Scoring Pipeline 및 C++ MOJO만 지원됨).
enable_grownet
¶
PyTorch GrowNet Models
PyTorch 기반 GrowNet 모델 활성화 여부를 지정합니다. 기본적으로 이 매개변수는 auto 로 설정됩니다. 즉, Driverless는 실험에 대한 알고리즘 사용 여부를 내부적으로 결정합니다. On 으로 설정하여 실험이 GrowNet 모델을 구축하도록 하십시오.
enable_ftrl
¶
FTRL Models
Regularized Leader(FTRL) 모델을 실험의 일부로 따르도록 빌드할지 여부를 지정하십시오. MOJO는 아직 지원되지 않습니다(Python Scoring Pipeline만 해당)FTRL은 범주형 대상에 대한 이항 및 다항 분류뿐만 아니라 연속 대상에 대한 회귀 분석도 지원합니다. 이것은 Auto (비활성화)로 기본설정되어 있습니다.
enable_rulefit
¶
RuleFit Models
RuleFit 모델을 실험의 일부분으로 빌드할지 여부를 지정하십시오. MOJO는 아직 지원되지 않습니다(Python Scoring Pipeline만 해당)RuleFit 모델에 다중 클래스 분류는 아직 지원되지 않습니다. 규칙은 우선 실험 디렉터리의 문자 파일에 저장됩니다. 이것은 Auto (비활성화됨)로 기본설정되어 있습니다.
enable_zero_inflated_models
¶
Zero-Inflated Models
특정 조건을 충족하는 영과잉 대상 값을 가진 회귀 분석 문제에 대해 zero-inflated models 의 자동 추가 활성화 여부를 지정하십시오.
y >= 0, y.std() > y.mean()")
이것은 Auto 로 기본설정되어 있습니다.
enable_lightgbm_boosting_types
¶
LightGBM Boosting Types
LightGBM에 사용할 부스팅 유형을 지정하십시오. 다음 중 하나 이상을 선택하십시오.
gbdt: 부스트 트리
rf_early_stopping: 조기 중단할 수 있는 Random Forest
rf: Random Forest
dart: 조기 중단할 수 없는 드롭아웃 Random Forest
gbdt 및 rf 모두 기본적으로 활성화되어 있습니다.
enable_lightgbm_cat_support
¶
LightGBM Categorical Support
LightGBM 범주형 기능 지원의 활성화 여부를 지정하십시오. 이것은 기본적으로 비활성화되어 있습니다.
Notes:
CPU에 대해서만 지원됩니다.
이것이 활성화되면 MOJO가 빌드되지 않습니다.
enable_lightgbm_cuda_support
¶
LightGBM CUDA Support
OpenCL 대신 LightGBM CUDA 구현 활성화 여부를 지정합니다. LightGBM CUDA는 Linux x86-64 환경에서 지원됩니다.
show_constant_model
¶
Whether to Show Constant Models in Iteration Panel
반복 패널에 상수 모델의 표시 여부를 지정하십시오. 이것은 기본적으로 비활성화되어 있습니다.
params_tensorflow
¶
Parameters for TensorFlow
TensorFlow에 대한 특정 매개변수를 지정하여 Driverless AI 매개변수를 오버라이딩합니다. 다음은 매개변수 지정 방법의 예시입니다.
params_tensorflow = '{'lr': 0.01, 'add_wide': False, 'add_attention': True, 'epochs': 30,
'layers': [100, 100], 'activation': 'selu', 'batch_size': 64, 'chunk_size': 1000, 'dropout': 0.3,
'strategy': 'one_shot', 'l1': 0.0, 'l2': 0.0, 'ort_loss': 0.5, 'ort_loss_tau': 0.01, 'normalize_type': 'streaming'}'
다음은 레이어 구성 방법의 예시입니다.
[500, 500, 500], [100, 100, 100], [100, 100], [50, 50]
TensorFlow 매개변수에 관해 더 자세한 내용은 Keras documentation 에서 확인할 수 있습니다. TensorFlow 매개변수 사용에 대한 다양한 전략은 here . 에서 볼 수 있습니다.
max_nestimators
¶
Max Number of Trees/Iterations
트리 수(GBM) 또는 반복(GLM)에 대한 상한치를 지정하십시오. 기본값은 3,000입니다. accuracy 설정에 따라, 이 한도치의 일부가 사용됩니다.
n_estimators_list_no_early_stopping
¶
n_estimators List to Sample From for Model Mutations for Models That Do Not Use Early Stopping
LightGBM의 경우 다트 및 일반 Random Forest 모드는 조기 중단을 사용하지 않습니다. 이 설정을 사용하면 이러한 모델 유형의 변형에 대해 샘플링할 n_estimators
(포레스트의 트리 수) 목록을 지정할 수 있습니다.
min_learning_rate_final
¶
Minimum Learning Rate for Final Ensemble GBM Models
이것의 기본값은 0.01입니다. 최종 앙상블 GBM 모델의 학습률에 대한 하한치입니다. 일부의 경우, 트리/반복의 최대 수가 최종 학습률에 충분치 않아, 조기 중단이 트리거되지 않고 최종 모델의 성능이 저하될 수 있습니다. 이 경우, 최솟값을 올려 학습률을 높이거나 트리/반복의 최대 수를 늘릴 수도 있습니다.
max_learning_rate_final
¶
Maximum Learning Rate for Final Ensemble GBM Models
최종 앙상블 GBM 모델에 대한 최대(상한치) 학습률을 지정하십시오. 기본값은 0.05입니다.
max_nestimators_feature_evolution_factor
¶
Reduction Factor for Max Number of Trees/Iterations During Feature Evolution
튜닝 및 기능 개선을 위해 max_nestimators 설정에 지정된 값이 감소되는 비율을 지정하십시오. 해당 옵션의 기본값은 0.2입니다. 이에 따라 Driverless AI는 기본적으로 기능 진화 중에 0.2*3000 트리/반복 이하를 생성합니다.
max_abs_score_delta_train_valid
¶
Max. absolute delta between training and validation scores for tree models
트리 기반 모델(LightGBM, XGBoostGBM, CatBoost)에 대한 조기 종료 동작을 수정하여 (홀드아웃이 아닌 학습 데이터에 대한) 학습 점수와 검증 점수가 이 절대값보다 크지 않도록 변경합니다(즉, abs(train_score - valid_score) > max_abs_score_delta_train_valid 인 경우에 트리 추가 종료). 이 값의 의미가 선택한 스코어러 및 데이터 세트에 따라 다름을 명심하십시오(즉, LogLoss의 경우 0.01은 MSE의 경우 0.01과 다름). 이 옵션은 실험적이며 모델 복잡성을 낮게 유지하기 위한 전문가용입니다. 비활성화하려면 0.0으로 설정하십시오. 기본적으로 이 옵션은 비활성화되어 있습니다.
max_rel_score_delta_train_valid
¶
Max. relative delta between training and validation scores for tree models
트리 기반 모델(LightGBM, XGBoostGBM, CatBoost)에 대한 조기 종료 동작을 수정하여 (홀드아웃이 아닌 학습 데이터에 대한) 학습 점수와 검증 점수가 이 상대값보다 크지 않도록 변경합니다(즉, abs(train_score - valid_score) > max_rel_score_delta_train_valid * abs(train_score) 인 경우에 트리 추가 종료). 이 값의 의미가 선택한 스코어러 및 데이터 세트에 따라 다릅니다(즉, LogLoss의 경우 0.01은 MSE 등의 경우 0.01과 다름). 이 옵션은 실험적이며 모델 복잡성을 낮게 유지하기 위한 전문가용입니다. 비활성화하려면 0.0으로 설정하십시오. 기본적으로 이 옵션은 비활성화되어 있습니다.
min_learning_rate
¶
Minimum Learning Rate for Feature Engineering GBM Models
변수 가공 GBM 모델에 대한 학습률 최소치를 지정하십시오. 기본값은 0.05입니다.
max_learning_rate
¶
Max Learning Rate for Tree Models
변수 가공 중, 트리 모델에 대한 학습률 최대치를 지정하십시오. 값이 높을수록 변수 가공의 속도를 높이지만, accuracy가 저하될 수 있습니다. 기본값은 0.5입니다.
max_epochs
¶
Max Number of Epochs for TensorFlow/FTRL
TensorFlow 또는 FTRL 모델을 빌드할 때, 모델을 훈련시킬 최대 에포크 수를 지정합니다(이전에 중지될 수 있음). 기본값은 10입니다. TensorFlow models 및/또는 FTRL models 이 비활성화되면 이 옵션은 무시됩니다.
max_max_depth
¶
Max Tree Depth
최대 트리 깊이를 지정하십시오. Max_leaves
에 해당하는 최댓값은 지정된 값의 두 배입니다. 기본값은 12입니다.
max_max_bin
¶
Max max_bin for Tree Features
트리 기능의 최대 max_bin
을 지정하십시오. 기본값은 256입니다.
rulefit_max_num_rules
¶
Max Number of Rules for RuleFit
RuleFit 모델에 사용할 규칙의 최대 수를 지정하십시오. 기본값은 -1이고 모든 규칙이 사용되도록 지정합니다.
ensemble_meta_learner
¶
Ensemble Level for Final Modeling Pipeline
여러 기본 모델로 구성된 최종 파이프라인을 생성하는 실험에 대해 기본 모델 예측을 결합하는 모델:
블렌더: 1에 추가하는 음수가 아닌 가중치로 선형 블렌드를 생성합니다(블렌딩) - 권장
extra_trees: 기본 모델(스태킹)을 비선형적으로 결합하는 트리 모델을 만듭니다. 이는 실험적이며 cross_validate_meta_learner 를 활성화 상태로 설정하는 것을 권장합니다.
fixed_ensemble_level
¶
Ensemble Level for Final Modeling Pipeline
다음 앙상블 레벨 중 하나를 지정하십시오.
-1 = 자동, ensemble_accuracy_switch에 기초, accuracy, 데이터 크기 등.(기본값)
0 = 앙상블 없음, 유효한 반복/트리 수에 대해 유일한 최종 단일 모델홀드아웃 예측 확률은 사용할 수 없습니다(더 자세한 내용은, FAQ 참조).
1 = 1 모델, 다중 앙상블 폴드(교차 검증)
2 = 2 모델, 다중 앙상블 폴드(교차 검증)
3 = 3 모델, 다중 앙상블 폴드(교차 검증)
4 = 4 모델, 다중 앙상블 폴드(교차 검증)
등가 config.toml 매개변수는
fixed_ensemble_level
입니다..
cross_validate_meta_learner
¶
Ensemble Level for Final Modeling Pipeline
활성화된 경우 교차 검증을 사용하여 메타 학습기 자체에 대한 앙상블을 생성합니다. 편향되지 않은 학습 홀드아웃 예측을 만들기 위해 ensemble_meta_learner=〉extra_trees’에 특히 권장합니다. 이 설정이 활성화된 경우 MOJO가 생성되지 않습니다. ensemble_meta_learner=〉blender’에는 필요하지 않습니다.
cross_validate_single_final_model
¶
Cross-Validate Single Final Model
Driverless AI는 일반적으로 낮은 accuracy 설정에 대해 단일 최종 모델을 생성합니다(보통 5개 미만). Cross-validate single final model 옵션이 활성화되면(일반 실험에 대한 기본값), Driverless AI가 교차 검증을 수행하여 최적의 매개변수를 결정하고 전체 학습 데이터에 대한 최종 단일 모델링 파이프라인을 학습시키기 전에 조기 중단합니다. 최종 파이프라인은 최종 단일 모델에 대해 N-폴드 교차 검증을 사용하여 \(N+1\) 모델을 빌드합니다. 이것은 또한 최종 단일 모델을 사용하는 모든 non-time series 실험에 대한 홀드아웃 예측을 생성합니다.
이 옵션 설정은 time series 실험 또는 유효성 검사 데이터 세트가 제공되는 경우 무시됩니다.
parameter_tuning_num_models
¶
Number of Models During Tuning Phase
진화 전 단계 동안 튜닝할 모델의 수를 지정하십시오. 과도한 튜닝 방지를 위해 더 낮은 값을 지정하고 향상된 튜닝을 수행하려면 더 높은 값을 지정하십시오. 이 옵션의 기본값은 -1입니다(자동).
imbalance_sampling_method
¶
Sampling Method for Imbalanced Binary Classification Problems
불균형 이진법 분류 문제에 대한 샘플링 방법을 지정하십시오. off 로 기본설정되어 있습니다. 다음 옵션 중에서 선택하십시오.
자동: 데이터 및 필요에 따라 두 클래스 모두 샘플링
over_under_sampling: 데이터에 따른 소수 클래스 오버샘플링 및 다수 클래스 언더샘플링.
under_sampling: 클래스 균형에 도달하기 위해 다수 클래스를 오버샘플링함.
off: 샘플링을 실행하지 않음.
이 옵션은 Imbalanced Light GBM 및 Imbalanced XGBoost GBM 모델과 밀접하게 관련이 있으며, 이는 included_models. Specifically: 아래의 Recipes 탭에서 활성화/비활성화할 수 있습니다.
해당 옵션이 ENABLED( off 이외의 값으로 설정)이고 ImbalancedLightGBM 및/또는 ImbalancedXGBoostGBM 모델이 ENABLED인 경우, Driverless AI는 귀하의 목표 불균형 비율을 확인합니다. 목표 비율이 허용된 불균형 임계값을 초과하는 것으로 증명되면 샘플링이 트리거됩니다.
이 옵션이 ENABLED이고 ImbalancedLightGBM 및/또는 ImbalancedXGBoostGBM 모델이 DISABLED인 경우, 특수 샘플링 기술이 실행되지 않습니다. 여기에서 해당 설정은 무시됩니다.
imbalance_sampling_threshold_min_rows_original
¶
Threshold for Minimum Number of Rows in Original Training Data to Allow Imbalanced Sampling
불균형 샘플링을 허용하는 기존 학습 데이터의 최소 행의 수에 대한 임계값을 지정하십시오. 기본값은 100,000입니다.
imbalance_ratio_sampling_threshold
¶
Ratio of Majority to Minority Class for Imbalanced Binary Classification to Trigger Special Sampling Techniques (if Enabled)
불균형 이진법 분류 문제에 대해, 다수 대 소수 클래스의 비율을 지정하십시오. 비율이 지정된 비율 이상일 때 샘플링 기술을 포함한 특수 불균형 모델이 활성화됩니다. 기본값은 5입니다.
heavy_imbalance_ratio_sampling_threshold
¶
Ratio of Majority to Minority Class for Heavily Imbalanced Binary Classification to Only Enable Special Sampling Techniques (if Enabled)
불균형이 심한 이진법 분류 문제에 대해, 사전 샘플링 없이 전체 원본 데이터에서 특수한 불균형 모델만 사용할 수 있도록 다수 클래스와 소수 클래스의 비율 이상으로 지정합니다. 기본값은 25입니다.
imbalance_sampling_number_of_bags
¶
Number of Bags for Sampling Methods for Imbalanced Binary Classification (if Enabled)
불균형 이진법 분류에 대한 샘플링 방법의 가방 수를 지정하십시오. 기본값은 -1입니다.
imbalance_sampling_max_number_of_bags
¶
Hard Limit on Number of Bags for Sampling Methods for Imbalanced Binary Classification
불균형 이진법 분류에 대한 샘플링 방법의 가방 수 한도를 지정하십시오. 기본값은 10입니다.
imbalance_sampling_max_number_of_bags_feature_evolution
¶
Hard Limit on Number of Bags for Sampling Methods for Imbalanced Binary Classification During Feature Evolution Phase
불균형 이진법 분류에 대한 샘플링 방법의 가방 수 한도를 지정하십시오. 기본값은 3입니다. 이 설정은 시프트, 누수, 튜닝 및 기능 진화 모델에만 적용됩니다. 최종 모델을 제한하려면 Hard Limit on Number of Bags for Sampling Methods for Imbalanced Binary Classification 설정을 사용합니다.
imbalance_sampling_max_multiple_data_size
¶
Max Size of Data Sampled During Imbalanced Sampling
불균형 샘플링 중에 샘플링된 데이터의 최대 크기를 데이터 세트의 크기로 지정하십시오. 이 설정은 대략적인 가방 수를 제어하며 《Hard limit on number of bags for sampling methods for imbalanced binary classification during feature evolution phase》 옵션이 -1로 설정된 경우에만 활성화됩니다. 기본값은 1입니다.
imbalance_sampling_target_minority_fraction
¶
Target Fraction of Minority Class After Applying Under/Over-Sampling Techniques
언더/오버 샘플링 기법을 적용한 후 소수 클래스의 목표 비율을 지정하십시오. 값 0.5는 모델/알고리즘에 균형 목표 클래스 분포가 제공됨을 의미합니다. 극도로 불균형한 원래 목표에서 시작할 때 0.1 또는 0.01과 같이 더 작은 값을 지정하는 것이 도움이 될 수 있습니다. 기본값은 -1입니다.
ftrl_max_interaction_terms_per_degree
¶
Max Number of Automatic FTRL Interactions Terms for 2nd, 3rd, 4th order interactions terms (Each)
자동 FTRL 상호작용 항의 수를 이 값 이하에서 샘플링하십시오(두 번째, 세 번째, 네 번째 항 각각에 대해). 기본값은 10,000입니다.
enable_bootstrap
¶
Whether to Enable Bootstrap Sampling for Validation and Test Scores
부트스트랩 샘플링의 활성화 여부를 지정하십시오. 활성화되면 이 설정은 부트스트랩 평균의 표준 오류를 기초로 유효성 검사 및 테스트 점수에 오류 막대를 제공합니다. 기본적으로 활성화되어 있습니다.
tensorflow_num_classes_switch
¶
For Classification Problems with This Many Classes, Default to TensorFlow
활성화 시, TensorFlow를 사용할 클래스 수를 지정합니다. Auto 로 설정된 기타 모델은 이 수를 초과해서 사용되지 않습니다( On 으로 설정된 모델은 계속 사용됩니다). 기본값은 10입니다.
prediction_intervals
¶
Compute Prediction Intervals
홀드아웃 예측을 기반으로 경험적 예측 구간의 계산 여부를 지정하십시오. 기본적으로 활성화되어 있습니다.
prediction_intervals_alpha
¶
Confidence Level for Prediction Intervals
예측 구간에 대한 신뢰 수준을 지정하십시오. 기본값은 0.9입니다.
dump_modelparams_every_scored_indiv
¶
Enable detailed scored model info
점수가 부여된 모든 개인의 모델 매개변수를 csv/tabulated/json 파일에 덤프할지 여부를 파일로 생성합니다. 예: Individual_scored.params.[txt, csv, json]