특성 설정¶
feature_engineering_effort
¶
Feature Engineering Effort
Driverless AI 변수 가공 활동에 대해 0에서 10 사이의 값을 지정합니다. 일반적으로 값이 높을수록 변수 가공에 더 많은 시간(및 메모리)이 소요됩니다. 기본값은 5입니다.
0: 숫자 특성만 유지합니다. 진화 중에만 모델 튜닝.
1: 숫자 특성 및 주파수 인코딩된 범주만 유지합니다. 진화 중에만 모델 튜닝.
2: 1과 유사하지만 텍스트 기능은 없음. 진화하기 전에 일부 특성 조정.
3: 5와 유사하지만 진화 중에만 튜닝. 특성 및 모델 매개변수의 혼합 조정.
4: 5와 유사하지만 모델 튜닝에 조금 더 중점을 둠.
5: 균형 있는 특성 모델 튜닝(기본).
6~7: 5와 유사하지만 변수 가공에 조금 더 중점을 둠.
8: 6~7과 유사하지만 더 빠른 특성 생성 속도 및 높은 해석가능성에도 특성 저하가 없는 변수 가공에 더 중점을 둠.
9~10: 8과 유사하지만 특성 진화 중에 모델 튜닝이 없음.
check_distribution_shift
¶
Data Distribution Shift Detection
:open:
Driverless AI의 학습/유효/테스트 데이터 세트(제공된 경우) 간 데이터 분포 이동 감지 여부를 지정합니다. 학습 및 테스트 데이터 세트가 데이터 분포 측면에서 서로 다를(또는 학습/유효 또는 유효/테스트) 경우 각 행이 학습에 있는지 아니면 테스트에 있는지를 각 행에 알리는 모델을 매우 정확하게 구축할 수 있습니다. 현재 해당 정보는 사용자에게만 제공되며, 이에 대한 조치는 취해지지 않습니다.
이동된 기능은 삭제됩니다. 또는 레이블이나 빈으로 사용하여 더 의미 있는 집계 기능을 생성하도록 합니다.
check_distribution_shift_drop
¶
Data Distribution Shift Detection Drop of Features
높은 이동 특성 삭제 여부를 지정하십시오. 이것의 기본값은 Auto 로 설정되어 있습니다. time series 실험이 Auto로 설정되면 이 특성이 꺼집니다.
drop_features_distribution_shift_threshold_auc and check_distribution_shift 를 참조하십시오.
drop_features_distribution_shift_threshold_auc
¶
Max Allowed Feature Shift (AUC) Before Dropping Feature
특성 삭제 전에 특성에 대해 허용되는 최대 AUC 값을 지정합니다.
학습 및 테스트 데이터 세트가 데이터 분포 측면에서 서로 다를(또는 학습/유효 또는 유효/테스트) 경우, 각 행이 학습에 있는지 아니면 테스트에 있는지의 여부를 각 행에게 알려주는 모델을 빌드할 수 있습니다. 이 모델에는 AUC 값이 포함됩니다. 해당 모델의 AUC, GINI 또는 Spearman의 상관 관계가 정해진 임계값을 초과하는 경우 Driverless AI는 그 상황을 해당 특성을 삭제할 수 있을 정도의 충분히 강력한 이동으로 간주합니다.
기본 AUC 임계값은 0.999입니다.
check_leakage
¶
Data Leakage Detection
각 특성에 대한 데이터 누출 확인 여부를 지정합니다. 일부 특성은 대상 열에 대한 과잉 예측력을 포함할 수 있습니다. 이는 모델 일반화에 영향을 미칠 수 있습니다. Driverless AI는 모델을 실행하여 대상 변수에 대한 각 기능의 예측력을 결정합니다. 그 다음 중요한 변수의 중요성을 가진 각 기능에 대해 간단한 모델을 구축합니다. AUC(분류용) 또는 R2 점수(회귀분석)가 높은 모델이 잠재적 누출로 사용자에게 보고됩니다.
폴드 열이 지정되고 실험이 시계열 실험인 경우에는 항상 비활성화됨에 유의하십시오. 기본적으로 Auto 로 설정되어 있습니다.
등가 config.toml 매개변수는 nfeatures_max
입니다 (drop_features_leakage_threshold_auc 도 참조).
drop_features_leakage_threshold_auc
¶
Data Leakage Detection Dropping AUC/R2 Threshold
Leakage Detection 가 활성화 된 경우, 특성 삭제에 대한 임계값을 지정하십시오. AUC (또는 회귀 분석의 경우 R2), GINI 또는 스피어만 상관 관계가 이 값보다 높을 경우 해당 특성은 삭제됩니다. 기본값은 0.999입니다.
등가 config.toml 매개변수는``drop_features_leakage_threshold_auc`` 입니다.
leakage_max_data_size
¶
Max Rows X Columns for Leakage
유출 검사를 위한 샘플링을 트리거할 최대 수(행 x 열)를 지정하십시오. 기본값은 10,000,000입니다.
max_features_importance
¶
Max. num. features for variable importance
중요성 표에 사용하고 표시할 기능의 최대 수를 지정합니다. 1보다 큰 해석 가능성의 경우 최상위 max_features_importance 기능보다 중요도가 낮은 변환 또는 원래 기능이 항상 제거됩니다. 값이 높으면 성능이 저하되고, 열이 100,000개가 넘는 데이터 세트에 사용되는 디스크 공간이 더 커질 수 있습니다.
enable_wide_rules
¶
Enable Wide Rules
광범위한 데이터 세트를 처리할 수 있는 와이드 규칙을 활성화합니다(즉, 열 수> 행 수). 기본값은 《auto》이며 열 수가 행 수보다 많다는 것이 감지되면 자동으로 와이드 규칙이 활성화됩니다.
《on》으로 설정하면 어떠한 조건에도 상관없이 규칙이 강제로 활성화됩니다. 와이드 데이터 규칙이 활성화되면, 모든 max_cols
, max_orig_*col
및 fs_orig*
tomls를 큰 값으로 설정하고 monotonicity_constraints_dict
가 설정되거나 monotonicity_constraints_interpretability_switch
의 기본값이 변경되지 않는 한 단조성을 비활성화합니다. 또한 이동 감지 및 데이터 유출 검사를 비활성화합니다. 그리고 모델링을 위해 Xgboost Random Forest model 을 활성화합니다.
와이드 규칙을 비활성화하려면 enable_wide_rules를 《off》로 설정합니다. 대부분이 또는 전체적으로 숫자로 이루어진 데이터 세트의 경우, 속도 향상을 위해 〈OriginalTransformer’만 선택하는 것을 권장합니다( included_transformers 참조).
빠른 모델 실행은 Driverless AI의 대량 데이터 세트 를 참조하십시오.
orig_features_fs_report
¶
Report Permutation Importance on Original Features
Driverless AI가 로그 및 보고서 파일의 (선택한 메트릭에서 정규화된 변경 내용으로 표현되는) 원래 특성에 대한 순열 중요도를 보고할지 지정합니다. 이것은 기본적으로 비활성화되어 있습니다.
max_rows_fs
¶
Maximum Number of Rows to Perform Permutation-Based Feature Selection
permutation feature importance 수행 시, (계층화된) 무작위 샘플링으로 감소하는 최대 행 수를 지정하십시오. 기본값은 500,000입니다.
max_orig_cols_selected
¶
Max Number of Original Features Used
feature selection 을 사용하여 기존 열 집합에서 선택될 최대 열 수를 지정하십시오. 기본값은 10,000000입니다. 범주형 열의 경우 범주 및 숫자에 대한 대상 인코딩 (또는 사용 불가 시 빈도 인코딩)이 범주형 도움으로 취급되는 정도에 따라 선택이 결정됩니다. 이것은 최종 모델 복잡성을 줄이는 데 유용합니다. 먼저 특성 선택 방법을 이용해서 최고의 [max_orig_cols_selected]를 찾은 후, 해당 특성을 특성 진화(다른 특성을 도출하기 위함) 및 모델링에 사용합니다.
max_orig_nonnumeric_cols_selected
¶
Max Number of Original Non-Numeric Features
숫자가 아닌 열의 최대 개수를 선택합니다. 그 개수를 초과하면 모든 특성에서 특성 선택을 수행하고, 위와 동일하게 숫자를 범주형(max_orig_numeric_cols_selected)으로 처리하지 않지만, 범주형 열은 예외입니다. 이 값을 초과하면 모든 특성에서 특성 선택이 수행되며 기본값은 300입니다.
fs_orig_cols_selected
¶
Max Number of Original Features Used for FS Individual
실험에서 선택할 최대 특성 수를 지정하십시오. 기본값은 10,0000000입니다. 지정된 값 이상의 추가 열은 기존의 열이 줄어든 특수한 개체를 추가합니다.
fs_orig_numeric_cols_selected
¶
Number of Original Numeric Features to Trigger Feature Selection Model Type
Driverless AI가 특성 선택을 수행하는 원래 숫자 열의 최대 개수입니다. 이것은 기존의 열이 즐어든 특수한 개체에만 적용됩니다. genetic algorithm 의 개별 개체는 원래 기능에 대한 순열 중요성에 따라 기능 선택을 수행하여 생성됩니다. 기본값은 10,000000입니다.
fs_orig_nonnumeric_cols_selected
¶
Number of Original Non-Numeric Features to Trigger Feature Selection Model Type
Driverless AI가 모든 특성에 대해 특성 선택을 수행하는 원래 비 숫자 열의 최대 개수입니다. 이것은 기존의 열이 줄어든 특수한 개체에만 적용됩니다. genetic algorithm 의 개별 개체는 원래 기능에 대한 순열 중요성에 따라 기능 선택을 수행하여 생성됩니다. 기본값은 200입니다.
max_relative_cardinality
¶
Max Allowed Fraction of Uniques for Integer and Categorical Columns
정수 및 범주형 열에 대한 고유 값의 최대 비율을 지정하십시오. 열의 고유 값 비율이 이 값 보다 더 높으면 ID 열로 간주되어 무시됩니다. 기본값은 0.95입니다.
num_as_cat
¶
Allow Treating Numerical as Categorical
일부 숫자 특성을 범주 특성으로 처리할 수 있는지 여부를 지정하십시오. 기본적으로 활성화되어 있습니다.
등가 config.toml 매개변수는 num_as_cat
입니다.
max_int_as_cat_uniques
¶
Max Number of Unique Values for Int/Float to be Categoricals
범주형으로 처리될 정수 또는 실수 열의 고유 값의 수를 지정하십시오. 기본값은 50입니다.
max_fraction_invalid_numeric
¶
Max. fraction of numeric values to be non-numeric (and not missing) for a column to still be considered numeric
비숫자 (및 비누락) 값의 비율이 이 값보다 작거나 같을 때 열을 숫자로 간주합니다. 유형 불일치가 발생할 수 있으므로 생산용으로 권장되지 않는 실험 데이터 품질 문제를 해결할 수 있습니다. Note: 실험 시작 시 비숫자 값을 누락 값으로 대체하여 일부 정보가 손실되지만, 열은 이제 숫자로 처리되므로 도움이 될 수 있습니다. 0보다 작은 경우 비활성화됩니다.
nfeatures_max
¶
Max Number of Engineered Features
모델 당 포함될 최대 특성 수를 지정하십시오(앙상블의 경우 최종 모델 내의 각 모델에 포함됨). 해당 매개변수 값을 기초로 각각 점수를 매긴 후에, 상위 변수 중요도 특성을 유지하고 나머지 특성은 가지치기 됩니다. 최종 앙상블은 제거된 특성을 제외하고 남겨진 특성만을 학습하지만, 다른 데이터 확인(예: 새 클러스터)에 적합하기 때문에 몇 가지 새로운 특성이 포함될 수 있습니다. 최종 스코어링 파이프라인은 가지치기 된 특성을 제외하지만 다른 데이터 확인(예 : 새 클러스터)에 적합하기 때문에 몇 가지 새로운 특성이 포함될 수 있습니다.
기본값 -1 은 내부적으로 정해진 메모리 및 해석가능성 제한을 제외하고 해당 매개변수에 제한이 적용되지 않음을 의미합니다.
참고:
만약,
interpretability
>remove_scored_0gain_genes_in_postprocessing_above_interpretability
( config.toml 참고)이면, 모든 GA(genetic algorithm) 반복 후처리 기능은 스코어링 직후 이 값으로 낮춰집니다. 그렇지 않으면 채점한 개체의 뮤테이션만 (엄격한 제한이 적용되는 최종 모델까지) 잘라냅니다.
Ngenes_max
도 제한받지 않으면, 일부 개체는 돌연변이 또는 최종 모델 준비에 의해 가지치기 전까지 더 많은 유전자와 특성을 갖게 됩니다.예: 일반적으로 모든 반복을 정확히 1개의 특성으로 제한하기 위해서는
nfeatures_max
=ngenes_max
=1 및remove_scored_0gain_genes_in_postprocessing_above_interpretability
= 0으로 설정해야 하지만 유전 알고리즘은 좋은 특성을 찾기가 더 어렵습니다.
등가 config.toml 매개변수는 nfeatures_max
입니다 (nfeatures_max_threshold
in config.toml 도 참조).
ngenes_max
¶
Max Number of Genes
모델마다(및 앙상블의 최종 모델 내의 각 모델마다) 보관되는 최대 유전자(transformer 인스턴스) 수를 지정하십시오. 이것은 특성이 스코어링 되기 전에 유전자 수를 제어하므로 Driverless AI는 가지치기가 발생하면 유전자를 무작위로 샘플링합니다. 특성을 스코어링한 후 제한이 발생하면, 집계된 유전자 중요도가 유전자 가지치기에 사용됩니다. 인스턴스에는 숫자 특성에 대한 기존의 transformer를 포함하여 가능한 모든 transformer가 포함됩니다. -1 값은 내부적으로 결정된 메모리 및 해석가능성 제한을 제외하고 제한이 없음을 의미합니다.
등가 config.toml 매개변수는 ngenes_max
입니다.
features_allowed_by_interpretability
¶
Limit Features by Interpretability
features_allowed_by_interpretability
config.toml 설정에 의해 지정된 대로 Interpretability 학습 설정을 통해 특성 수를 제한할지 여부를 지정하십시오.
monotonicity_constraints_interpretability_switch
¶
Threshold for Interpretability Above Which to Enable Automatic Monotonicity Constraints for Tree Models
XGBoostGBM, LightGBM 또는 Decision Tree 모델에서 자동 monotonicity constraints를 사용할 해석 가능성 설정 값을 같거나 그 이상으로 지정하십시오. 기본값은 7입니다.
monotonic gbm recipe 및 Monotonicity Constraints in Driverless AI 를 참조하십시오.
monotonicity_constraints_correlation_threshold
¶
Correlation Beyond Which to Trigger Monotonicity Constraints (if enabled)
XGBoostGBM, LightGBM 및 Decision Tree 모델에 대해 긍정(부정)의 단조성을 사용할 수 있는 숫자 또는 인코딩된 변환 특성과 위의 대상(부정 아래) 사이의 피어슨 적률 상관계수 임계 값을 지정하십시오. 기본값은 0.1입니다.
Note: 해당 설정은 해석 가능성이 monotonicity_constraints_interpretability_switch 설정으로 지정된 값보다 크거나 같고 monotonicity_constraints_dict 설정이 지정되지 않은 경우에만 활성화됩니다.
monotonic gbm recipe 및 Monotonicity Constraints in Driverless AI 를 참조하십시오.
monotonicity_constraints_log_level
¶
Control amount of logging when calculating automatic monotonicity constraints (if enabled)
monotonicity constraints를 지원하는 모델의 경우, 만약 활성화되었을 때. 대상과의 상관 관계를 기반으로 모델에 들어가는 각 특성에 대해 자동으로 결정된 monotonicity constraints를 표시합니다. 〈low’는 monotonicity constraints의 방향만을 나타냅니다. 〈medium’은 긍정적 및 부정적 제약 특성의 상관 관계를 보여줍니다. 〈high’는 모든 상관 값을 나타냅니다.
monotonic gbm recipe 및 Monotonicity Constraints in Driverless AI 를 참조하십시오.
monotonicity_constraints_drop_low_correlation_features
¶
Whether to drop features that have no monotonicity constraint applied (e.g., due to low correlation with target)
활성화되면, +1/-1 제약 조건이 있는 단조 특성만 모델에 패스되고 monotonicity constraints가 없는 특성(0)은 삭제됩니다. 그렇지 않으면 모든 특성이 모델에 포함됩니다. 해석 가능성 >= monotonicity_constraints_interpretability_switch or monotonicity_constraints_dict이 제공된 경우에만 활성화됩니다.
monotonic gbm recipe 및 Monotonicity Constraints in Driverless AI 를 참조하십시오.
monotonicity_constraints_dict
¶
Manual Override for Monotonicity Constraints
Monotonicity Constraints가 적용되는 max_features_importance에 대한 기능 목록을 지정합니다. 기존의 숫자 기능이 원하는 제약 조건에 매핑됩니다.
1: 긍정 제약조건
-1: 부정 제약조건
0: 제약조건 비활성화
이 목록에 없는 특성에 대해서는 제약조건이 자동으로 비활성화됩니다(0으로 설정).
다음은 해당 목록을 지정하는 방법의 예제입니다.
"{'PAY_0': -1, 'PAY_2': -1, 'AGE': -1, 'BILL_AMT1': 1, 'PAY_AMT1': -1}"
Note: 목록이 제공되지 않은 경우, 해석 가능성이 충분히 높은 설정에서 monotonicity constraints가 활성화된 경우 자동 상관 기반 방법이 사용됩니다.
max_feature_interaction_depth
¶
Max Feature Interaction Depth
대상 인코딩 그룹화, 증거 가중치 및 기타 가능성 추정치와 같은 상호 작용 특성에 사용할 최대 특성 수를 지정하십시오.
특성 상호 작용의 탐색은 향상된 예측 성능을 획득하는 데 중요할 수 있습니다. 상호 작용은 다양한 형식을 취할 수 있습니다(예: feature1 + feature2 또는 feature1 * feature2 +… featureN). 특정한 기계 학습 알고리즘(예: 트리 기반 방법)은 학습 프로세스의 일부로 이러한 상호 작용의 캡처에 효과적이기는 하지만, 여전히 생성하는 것이 향상된 성능을 얻을 수 있는 방법입니다.
변수 가공 프로세스의 복잡성 제어를 위해 상호 작용 수준의 깊이(예: 한 번에 몇 개의 특성을 결합하여 단일 특성을 만들 수 있는지 《up to》)를 지정할 수 있습니다. 값이 높을수록 시간이 오래 걸리며 더 많은 예측 모델을 생성할 수 있습니다. 이 값은 defaults to 8 입니다.
특성 상호 작용 max_feature_interaction_depth=1
을 비활성화하려면 Max Feature Interaction Depth를 1로 설정하십시오.
fixed_feature_interaction_depth
¶
Fixed Feature Interaction Depth
대상 인코딩 그룹화, 증거 가중치 및 기타 가능성 추정과 같은 상호 작용 특성에 사용될 0이 아닌 고정된 특성의 수를 지정하십시오. 각 transformer의 모든 특성을 사용하려면, 해당 값을 열 수와 동일하게 설정하십시오. \(n\) 특성의 50/50 샘플 및 고정 특성 상호 작용 깊이를 수행하려면, 이 값을 -\(n\) 으로 설정하십시오.
enable_target_encoding
¶
Enable Target Encoding
모델 빌드 시, 대상 인코딩 사용 여부를 지정하십시오. 대상 인코딩은 실제 대상 변수의 정보를 활용하여 특성을 표현하는 것을 목표로 하는 다양한 특성 변환(주로 범주 데이터에 중점)을 의미합니다. 이에 대한 간단한 예제는 대상의 평균을 사용하여 범주 특성의 각 고유 범주를 대체하는 것입니다. 이러한 유형의 특성은 매우 예측이 가능하지만, 고유 범주 및 대상 값 매핑 저장이 필요하게 되어 과적합이 되기 쉽고 더 많은 메모리를 필요로 합니다.
cvte_cv_in_cv
¶
Enable Outer CV for Target Encoding
대상 인코딩의 경우, GINI가 부호를 뒤집는 것으로 감지되거나 fit_transform
(훈련 데이터에서) 및 transform
(훈련 및 검증 데이터) 사이의 증거 가중치에 대한 신호가 일치하지 않는 경우, 외부 수준의 교차 폴드 검증의 수행 여부를 지정하십시오. GINI의 부accuracy는 글로벌 룩업 테이블을 사용하는 대신 룩업 테이블의 폴드 평균의 수행에도 사용됩니다. 기본적으로 활성화되어 있습니다.
enable_lexilabel_encoding
¶
Enable Lexicographical Label Encoding
사전식 레이블 인코딩의 사용 여부를 지정하십시오. 기본적으로 비활성화되어 있습니다.
enable_isolation_forest
¶
Enable Isolation Forest Anomaly Score Encoding
Isolation Forest 는 데이터의 이상 또는 outliers의 식별에 유용합니다. Isolation Forest는 특성을 무작위로 선택한 후, 선택한 특성의 최댓값과 최솟값 사이의 분할 값을 무작위로 선택하여 관측치를 분할합니다. 이러한 분할은 포인트의 분할에 소요되는 시간에 따라 다릅니다. 랜덤 파티셔닝은 이상 징후에 대해 굉장히 짧은 경로를 생성합니다. 랜덤 트리 포레스트가 집합적으로 특정 샘플에 대해 더 짧은 길이의 경로를 생성하는 경우, 이상이 있을 가능성이 높습니다.
이 옵션을 이용하면, 각 샘플의 outliers 반환 여부를 지정할 수 있습니다. 기본적으로 비활성화되어 있습니다.
enable_one_hot_encoding
¶
Enable One HotEncoding
원-핫 인코딩 사용 여부를 지정하십시오. 기본 Auto 설정은 소규모 데이터 세트 및 GLM에만 적용됩니다.
isolation_forest_nestimators
¶
Number of Estimators for Isolation Forest Encoding
Isolation Forest 인코딩에 대한 에스티메이터를 지정하십시오. 기본값은 200입니다.
drop_constant_columns
¶
Drop Constant Columns
상수 값을 포함한 열의 삭제 여부를 지정하십시오. 기본적으로 활성화되어 있습니다.
drop_id_columns
¶
Drop ID Columns
ID로 표시되는 열의 삭제 여부를 지정하십시오. 기본적으로 활성화되어 있습니다.
no_drop_features
¶
Don’t Drop Any Columns
열(원본 또는 유도) 삭제 방지 여부를 지정하십시오. 기본적으로 비활성화되어 있습니다.
cols_to_drop
¶
Features to Drop
삭제할 특성을 지정하십시오. 해당 설정을 사용하면 쉼표로 구분된 열 이름 목록(따옴표로 묶음)의 복사 및 붙여넣기가 가능하여 한 번에 여러 특성을 선택할 수 있습니다.
cols_to_force_in
¶
Features to always keep or force in, e.g. 《G1》, 《G2》, 《G3》
강제로 열을 제어합니다. 강제 입력된 기능은 실험 옵션에서 허용하는 가장 해석 가능한 트랜스포머에 의해 처리되며,(모델에서 해당 기능에 0 중요성을 할당하더라도) 대 제거되지 않습니다. 기본적으로 사용되는 트랜스포머에는 다음이 포함됩니다.
숫자형 riginalTransformer,
범주형 atOriginalTransformer 또는 FrequencyTransformer,
텍스트를 위한 TextOriginalTransformer,
날짜/시간을 위한 DateTimeOriginalTransformer,
날짜를 위한 DateOriginalTransformer,
이미지 등을 위한 ImageOriginalTransformer 또는 ImageVectorizerTransformer
cols_to_group_by
¶
Features to Group By
어떤 특성으로 열을 그룹화할지를 지정하십시오. 해당 필드를 비워두면(기본값) Driverless AI가 모든 열을 자동으로 검색합니다(임의로, 또는 변수 중요도가 높은 열을 기반으로 해서).
sample_cols_to_group_by
¶
Sample from Features to Group By
지정된 특성에서 샘플링하여 그룹화할지 또는 항상 모든 특성을 그룹화할지를 지정하십시오. 기본적으로 비활성화되어 있습니다.
agg_funcs_for_group_by
¶
Aggregation Functions (Non-Time-Series) for Group By Operations
그룹화 작업에 사용할 집계 함수의 활성화 여부를 지정하십시오. 다음에서 선택합니다(기본적으로 모두 선택됨).
평균
sd
min
max
카운트
folds_for_group_by
¶
Number of Folds to Obtain Aggregation When Grouping
그룹화 시, 집계를 획득하기 위한 폴드 수를 지정하십시오. 폴드 밖의 집계는 적은 과적합으로 이어지지만, 각 폴드에서 더 적은 데이터만을 분석합니다. 기본값은 5입니다.
mutation_mode
¶
Type of Mutation Strategy
Transformer에서 돌연변이 수행 시, 적용할 전략을 지정하십시오. 다음에서 선택하십시오.
sample: 샘플 transformer 매개변수(기본)
batched: 다양한 유형의 동일한 변환을 함께 수행
full: 위의 전략보다 더 많은 유형의 동일한 변환을 함께 수행
dump_varimp_every_scored_indiv
¶
Enable Detailed Scored Features Info
스코어링된 모든 개체의 변수 중요도(파생본 및 원본 모두)를 csv/tabulated/json 파일로 덤프할지 여부를 지정합니다. 활성화되면 Driverless AI가 《individual_scored_id%d.iter%d*features*》와 같은 파일을 생성합니다. 기본적으로 비활성화되어 있습니다.
dump_trans_timings
¶
Enable Detailed Logs for Timing and Types of Features Produced
스코어링된 모든 폴드의 시점 및 특성 정보를 timings.txt 파일에 덤프할지 여부를 지정합니다. 기본적으로 비활성화되어 있습니다.
compute_correlation
¶
Compute Correlation Matrix
학습, 검증 및 테스트 상관 행렬의 계산 여부를 지정하십시오. 이 설정을 사용하면 디스크에 저장된 테이블 및 heatmap PDF 파일이 생성됩니다. 해당 설정은 현재 단일 스레드 프로세스로 많은 열을 포함한 실험에서는 속도가 느릴 수 있습니다. 기본적으로 비활성화되어 있습니다.
interaction_finder_gini_rel_improvement_threshold
¶
Required GINI Relative Improvement for Interactions
InteractionTransformer에 필요한 GINI의 상대 개선값을 지정하십시오. GINI coefficient가 상호 작용에서 고려된 기존의 특성과 비교하여 지정된 상대 개선값보다 좋지 않으면 상호 작용이 반환되지 않습니다. 데이터에 노이즈가 있고 상호 작용에 명확한 신호가 없으면 이 값을 줄여서 상호 작용의 반환이 가능합니다. 기본값은 0.5입니다.
interaction_finder_return_limit
¶
Number of Transformed Interactions to Make
생성된 트라이얼 상호 작용에서 생성할 변환된 상호 작용의 수를 지정하십시오(제일 잘 변환된 상호 작용은 생성된 트라이얼 상호 작용 그룹에서 선택됩니다). 기본값은 5입니다.
enable_rapids_transformers
¶
Whether to enable RAPIDS cuML GPU transformers (no mojo)
GPU 기반 RAPIDS cuML transformer의 활성화 여부를 지정하십시오. 현재 이 선택 항목에 대해 배포를 위한 no MOJO 가 지원되지만, Python 스코어링이 지원되며 베타 테스트 상태입니다.
등가 config.toml 매개변수는 enable_rapids_transformers
이고 기본값은 False입니다.
varimp_threshold_at_interpretability_10
¶
Lowest allowed variable importance at interpretability 10
기능이 삭제되는 변수의 중요성을 지정합니다(더 나은 대체 항목을 찾을 가능성이 있음). 이 설정은 또한 낮은 해석 가능성 설정에 대한 전체 규모를 설정합니다. 높은 해석 가능성을 선택했지만 약한 기능이 많은 것에 만족하거나 약한 기능이 필요하여 성능이 저하되는 경우 이를 더 낮은 값으로 설정하십시오.
stabilize_fs
¶
Whether to take minimum (True) or mean (False) of delta improvement in score when aggregating feature selection scores across multiple folds/depths
여러 폴드/깊이에 걸쳐 기능 선택 점수를 집계할 때 점수에서 델타 개선의 최소값(True)을 취할지 평균(False)을 취할지를 다룹니다. 점수의 델타 개선은 메트릭을 최대화하는 경우 섞인 기능 프레임의 메트릭을 뺀 원래 메트릭에 해당하고, 최소화하는 경우 이러한 점수 차이의 음의 값에 해당합니다. 순열 중요성에 의한 기능 선택은 기능을 섞은 후 점수의 변화를 고려하고, 최소 연산을 사용하면 폴드에 대해 집계할 때 낙관적인 점수를 무시하고 비관적인 점수를 얻습니다. 트리 방법을 사용하는 경우 여러 깊이가 적합할 수 있으며, 이 경우 이 toml 설정과 관계없이 모든 깊이에 대해 유지되는 기능만 기능 선택에 따라 유지됩니다. 해석 가능성이 fs_data_vary_for_interpretability의 config toml 값 이상인 경우 절반 데이터(또는 fs_data_frac의 설정)가 또 다른 핏(fit)으로 사용되며, 이 경우 이 toml 설정과 관계없이 모든 데이터 크기에 대해 유지되는 기능만 기능 선택에 따라 유지됩니다. 참고: 작은 데이터의 임의 조각이 분리형(disjoint) 기능을 중요하게 만들 수 있으며 집계된 평균 동작에만 신호가 있으므로 작은 데이터에는 사용할 수 없습니다.