해석 상세 설정¶
다음은 MLI page 에서 새로운 해석 설정 시 이용할 수 있는 해석 상세 설정 목록입니다. 각 설정의 명칭 앞에는 config.toml 레이블이 붙습니다. Explainer별 상세 설정에 대한 정보는 Explainer (레시피) 상세 설정 를 참조하십시오.
MLI 탭¶
mli_sample
¶
Sample All Explainers
학습 데이터 샘플에 대한 해석 수행 여부를 지정하십시오. 기본적으로 MLI는 학습 데이터 세트가 10만 행보다 크면 샘플링합니다(등가 config.toml 설정은 mli_sample_size
입니다). 이것은 기본적으로 활성화되어 있습니다. 전체 데이터 세트에 대해 MLI를 실행하려면 이 토글을 끄십시오.
mli_enable_mojo_scorer
¶
Allow Use of MOJO Scoring Pipeline
이 옵션을 사용하여 MOJO Scoring Pipeline을 비활성화하십시오. 스코어링 파이프라인은 기본적으로(MOJO 및 Python 파이프라인에서) 자동으로 선택됩니다. 특정 모델의 경우 MOJO와 Python에서의 선택이 파이프라인의 성능 및 견고함에 영향을 미칠 수 있습니다.
mli_fast_approx
¶
Speed up predictions with a fast approximation
빠른 근사를 사용한 예측 속도 향상 여부를 지정합니다. 이 설정을 활성화하면 트리 또는 교차 검증 폴드의 수를 줄이고 궁극적으로 해석을 완료하는 데 필요한 시간을 줄일 수 있습니다. 이 설정은 기본적으로 활성화되어 있습니다.
mli_custom
¶
Add to config.toml via TOML String
이 입력 필드를 사용하여 TOML 문자열을 포함한 Driverless AI 서버 config.toml 구성 파일에 추가하십시오.
MLI NLP Tab¶
mli_nlp_top_n
¶
Number of Tokens Used for MLI NLP Explanations
MLI NLP 설명에 사용되는 토큰 수를 지정합니다. 사용 가능한 모든 토큰을 사용하려면 이 값을 -1로 설정하십시오. 기본적으로 이 값은 20으로 설정됩니다.
mli_nlp_sample_limit
¶
Sample Size for NLP Surrogate Models
NLP NLP explainer에 사용되는 레코드의 최대 수를 지정합니다. 기본값은 10000입니다.
mli_nlp_min_df
¶
Minimum Number of Documents in Which Token Has to Appear
토큰이 표시되어야 하는 문서의 최소 수를 지정합니다. 정수 값을 사용하여 절대 개수를 표시하고 부동 소수점 값을 사용하여 백분율을 표시합니다. 기본적으로 이 값은 3으로 설정됩니다.
mli_nlp_max_df
¶
Maximum Number of Documents in Which Token Has to Appear
토큰이 표시되어야 하는 문서의 최소 수를 지정합니다. 정수 값을 사용하여 절대 개수를 표시하고 부동 소수점 값을 사용하여 백분율을 표시합니다. 기본적으로 이 값은 3으로 설정됩니다.
mli_nlp_min_ngram
¶
Minimum Value in n-gram Range
n-gram 범위에서 최소값을 지정합니다. 토크나이저는 mli_nlp_min_ngram
및 mli_nlp_max_ngram
으로 지정된 범위에서 가능한 모든 토큰을 생성합니다. 기본적으로 이 값은 1로 설정됩니다.
mli_nlp_max_ngram
¶
Maximum Value in n-gram Range
n-gram 범위에서 최대값을 지정합니다. 토크나이저는 mli_nlp_min_ngram
및 mli_nlp_max_ngram
으로 지정된 범위에서 가능한 모든 토큰을 생성합니다. 기본적으로 이 값은 1로 설정됩니다.
mli_nlp_min_token_mode
¶
Mode Used to Choose N Tokens for MLI NLP
N개의 토큰을 선택하는 데 사용되는 모드를 지정합니다. 다음 중에서 선택하십시오.
top - 상위 토큰 N개 선택
bottom - 하위 토큰 N개 선택
top-bottom - math.floor (N/2)개의 상위 및 math.ceil (N/2)개의 하위 토큰
linspace - 균등한 간격의 토큰 N개 선택
mli_nlp_tokenizer_max_features
¶
Number of Top Tokens to Use as Features (Token-based Feature Importance)
토큰 기반 기능 중요성을 구축할 때 기능으로 사용할 상위 토큰 수를 지정합니다. 기본적으로 이 값은 -1로 설정됩니다.
mli_nlp_loco_max_features
¶
Number of Top Tokens to Use as Features (LOCO)
텍스트 LOCO를 계산할 때 기능으로 사용할 상위 토큰 수를 지정합니다. 기본적으로 이 값은 -1로 설정됩니다.
mli_nlp_surrogate_tokens
¶
Number of Top Tokens to Use as Features (Surrogate Model)
대리 모델을 구축할 때 기능으로 사용할 상위 토큰 수를 지정합니다. 이 설정은 NLP 모델에 대해서만 적용됩니다. 기본적으로 이 값은 100로 설정됩니다.
mli_nlp_use_stop_words
¶
Stop Words for MLI NLP
MLI NLP에 대한 불용어(stop word) 사용 여부를 지정합니다. 이 설정은 기본적으로 활성화됩니다.
mli_nlp_stop_words
¶
List of Words to Filter Before Generating Text Tokens
MLI NLP LOCO 및 대리 모델(활성화된 경우)에 전달되는 텍스트 토큰을 생성하기 전에 필터링할 단어 목록을 지정합니다. 불용어의 사용자 정의 목록을 입력합니다. 예를 들어, ['great', 'good']
를 입력하여 great 및 good 이라는 단어를 필터링할 수 있습니다.
mli_nlp_append_to_english_stop_words
¶
Append List of Custom Stop Words to Default Stop Words
기본 불용어 목록에 대해 mli_nlp_stop_words
로 지정된 불용어 목록의 추가 여부를 지정합니다. 이 설정은 기본적으로 비활성화되어 있습니다.
MLI Surrogate Models Tab¶
mli_lime_method
¶
LIME Method
K-LIME(기본값) 또는 LIME-SUP 중 하나의 LIME 방법을 선택하십시오.
K-LIME (기본값): 전체 학습 데이터에 하나의 글로벌 대리 GLM을 생성하고, 학습 데이터의 k-평균 클러스터에서 형성된 샘플에 많은 로컬 대리 GLM을 생성합니다. k-평균에 사용되는 특성은 Random Forest 대리 모델의 변수 중요도에서 선택됩니다. k-평균에 사용되는 특성의 수는 Random Forest 대리 모델의 변수 중요도에 있는 변수의 상위 25% 중 최솟값이며 k-평균에 사용할 수 있는 변수의 최댓값이며, 이는
mli_max_number_cluster_vars
에 대한 config.toml 설정에서 사용자에 의해 설정됩니다(참고로, 데이터 세트의 특성 수가 6 이하일 경우, 모든 특성이 k-평균 클러스터링에 사용됩니다). config.toml 파일의use_all_columns_klime_kmeans
를true
로 설정하여 k-평균에 대한 모든 특성을 사용할 수 있도록 이전 설정을 끌 수 있습니다. 모든 벌점 GLM 대리는 Driverless AI 모델의 예측을 모델링하도록 학습됩니다. 로컬 설명을 위한 클러스터의 수는 Driverless AI 모델 예측과 모든 로컬 K-LIME 모델 예측 사이의 \(R2\) 가 최대화된 그리드 검색에 의해 선택됩니다. 글로벌 및 로컬 선형 모델의 절편, 계수, \(R2\) 값, accuracy, 예측은 모두 Driverless AI 모델의 행동에 대한 설명의 디버그 및 개발에 사용할 수 있습니다.LIME-SUP: 원변수 측면에서 학습된 Driverless AI 모델의 로컬 영역을 설명합니다. 로컬 영역은 원래 LIME에서와 같이 시뮬레이션 되고 혼란을 주기 위한 관찰 샘플 대신 decision tree 대리 모델의 각 리프 노드 경로에 의해 정의됩니다. 각 영역에 대해 로컬 GLM 모델은 원래 입력값 및 Driverless AI 모델의 예측에 대해 학습됩니다. 그 후, 이 로컬 GLM의 매개변수를 사용하여 Driverless AI 모델에 대한 대략적인 로컬 설명의 생성이 가능합니다.
mli_use_raw_features
¶
Use Original Features for Surrogate Models
:open:
새로운 해석을 위해 대리 모델에서 원래 특성 또는 변형된 기능의 사용 여부를 지정하십시오. 이것은 기본적으로 활성화되어 있습니다.
Note: 이 설정을 사용하지 않으면 K-LIME 클러스터링 열 및 분위수 비닝 옵션을 사용할 수 없습니다.
mli_vars_to_pdp
¶
Number of Features for Partial Dependence Plot
partial dependence plot의 구축 시 사용할 최대 특성 수를 지정하십시오. -1을 사용하여 모든 특성에 대한 partial dependence plot를 계산하십시오. 기본값은 10입니다.
mli_nfolds
¶
Cross-validation Folds for Surrogate Models
사용할 대리 교차 검증 폴드 수를 지정하십시오(0~10). 실험 실행 시, Driverless AI는 학습 데이터를 자동으로 분할하고 검증 데이터를 사용하여 모델 매개변수 튜닝 및 변수 가공 단계의 성능을 결정합니다. 새로운 해석의 경우 Driverless AI는 해석에 기본적으로 3개의 교차 검증 폴드를 사용합니다.
mli_qbin_count
¶
Number of Columns to Bin for Surrogate Models
대리 모델에 대해 bin할 열 수를 지정하십시오. 기본값은 0입니다.
mli_sample_size
¶
Sample Size for Surrogate Models
행의 수가 이 제한 값을 초과하면, 대리 모델을 샘플링합니다. 기본값은 100000입니다.
mli_num_quantiles
¶
Number of Bins for Quantile Binning
Quantile 비닝 수를 지정하십시오. 기본값은 -10으로 설정됩니다.
mli_dia_sample_size
¶
Sample Size for Disparate Impact Analysis
행의 수가 이 제한 값을 초과하면 Disparate Impact Analysis(DIA)에 대해 샘플링합니다. 기본값은 100000입니다.
mli_pd_sample_size
¶
Sample Size for Partial Dependence Plot
행의 수가 이 제한 값을 초과하면, Driverless AI partial dependence plot에 대해 샘플링합니다. 기본값은 25000입니다.
mli_pd_numcat_num_chart
¶
Unique Feature Values Count Driven Partial Dependence Plot Binning and Chart Selection
실험에 의해 특성이 수치형 및 범주형 모두로 사용된 경우, PDP 수치형, 범주형 비닝 및 UI 차트 선택 간에 동적 스위칭의 사용 여부를 지정합니다. 이것은 기본적으로 활성화되어 있습니다.
mli_pd_numcat_threshold
¶
Threshold for PD/ICE Binning and Chart Selection
Mli_pd_numcat_num_chart
가 활성화되고 고유한 특성 값의 수가 임계값보다 큰 경우, 수치형 비닝 및 차트가 사용됩니다. 그렇지 않으면 범주형 비닝 및 차트가 사용됩니다. 기본 임계값은 11입니다.
mli_sa_sampling_limit
¶
Sample Size for Sensitivity Analysis (SA)
행의 수가 이 제한 값을 초과하면 Sensitivity Analysis(SA)에 대해 샘플링합니다. 기본값은 500000입니다.
klime_cluster_col
¶
k-LIME Clustering Columns
k-LIME 해석의 경우 k-LIME 클러스터링을 적용할 열을 선택적으로 지정하십시오.
Note: 이 설정은 config.toml 파일에서 찾을 수 없습니다.
qbin_cols
¶
Quantile Binning Columns
k-LIME 해석의 경우 MLI accuracy에 도움이 되는 십분위수 bin(균등분포)을 생성할 하나 이상의 열을 지정하십시오. 선택된 열은 분위수 비닝 선택을 위해 상위 n개의 열에 추가됩니다. 만약 열이 수치형이 아니거나 데이터 세트(변형된 특성)에 없는 경우, 해당 열을 건너뜁니다.
Note: 이 설정은 config.toml 파일에서 찾을 수 없습니다.