누락 레벨과 보이지 않는 레벨 처리

본 섹션에서는 학습 및 스코어링 중에 각 알고리즘에서 누락되거나 보이지 않는 레벨을 처리하는 방법에 관해 설명합니다.

알고리즘은 학습 중에 결측값을 어떻게 처리하나요?

LightGBM, XGBoost, RuleFit

Driverless AI는 결측값을 기본적으로 처리합니다(즉, 결측값은 특수값으로 처리됩니다.). 사용자가 데이터를 잘 이해하지 못하는 한 실험은 대체 기술에서 혜택을 얻지 못합니다.

GLM

Driverless AI가 자동으로 평균값 대체를 수행합니다(표준화 후 값을 0으로 설정하는 것과 동일함).

TensorFlow

Driverless AI는 config.toml file: tf_nan_impute_value(포스트 정규화)에서 TensorFlow에 대한 대체 설정을 제공합니다. 이 옵션을 0으로 설정하면 결측값이 평균으로 대체됩니다. 예를 들어 +5로 설정하면 분포 평균을 초과하는 5개의 표준 편차가 지정됩니다. Driverless AI의 기본값은 -5이며, 이것은 TensorFlow가 결측값을 스펙트럼의 음의 끝에서 outliers로 처리하도록 지정합니다. 평균 대체를 선호하는 경우 0을 지정하십시오.

FTRL

FTRL에서 결측값은 시점 추정이 가능한 각 열 유형에 대한 고유한 표현을 갖습니다. 이러한 표현은 열 이름과 함께 결측값을 정수로 해시 처리하는 데 사용됩니다. 즉, FTRL은 결측값을 각 열 유형에 대해 동일하고 특수 상수로 바꾼 후, 이러한 특수 상수를 일반 데이터값처럼 처리합니다.

알고리즘은 스코어링중에 결측값을 어떻게 처리하나요 (생성)?

LightGBM, XGBoost, RuleFit

학습 중에 결측치가 있는 경우 이러한 트리 기반 알고리즘은 각 스플릿(왼쪽 또는 오른쪽)에 대해 결측치의 최적 방향을 학습합니다. 그리고 이 최적의 방향은 스코어링 중 결측값에 사용됩니다. 스코어링 중에 결측치가 없는 경우(특정 특성에 대해) 값이 누락되면 주요 경로를 따릅니다.

GLM

결측값은 학습에서처럼 평균값(학습으로부터)으로 대체됩니다.

TensorFlow

결측값은 학습 중에 지정된 것과 동일한 값으로 대체됩니다 (tf_nan_impute_value에 의해 매개변수화 됨).

FTRL

일관성 보장을 위해, FTRL은 스코어링 중에 발생한 결측값을 학습할 때와 동일한 방식으로 처리합니다.

Transformers의 클러스터링

결측값은 각 열의 평균으로 대체됩니다. 이것은 숫자 열에서만 사용됩니다.

Isolation Forest 비정상 지수 Transformer

Isolation Forest는 최댓값을 초과하는 값으로 결측값을 채우는 범위 밖의 대체를 사용합니다.

학습 중에 보이지 않는 범주형 레벨에서 예측을 시도하면 어떻게 되나요?

XGBoost, LightGBM, RuleFit, TensorFlow, GLM

Driverless AI의 변수 가공 파이프라인은 이전에 보여진 값이든 아니든 데이터 상의 모든 범주형 레벨의 수치값을 계산합니다. 빈도 인코딩의 경우 보이지 않는 레벨은 0으로 대체됩니다. Target 인코딩의 경우 Target 값의 전체 평균이 사용됩니다.

FTRL

FTRL 모델은 범주형 값과 숫자 값을 구분하지 않습니다. FTRL이 학습 중에 특정 값을 보았는지 여부에 상관없이 모든 데이터를 행 단위의 숫자로 해시 처리한 후 예측을 수행합니다. FTRL은 데이터 세트에서 가능한 모든 값을 기억하여 학습하는 것으로 생각할 수 있기 때문에 보이지 않는 데이터에 대해 정확한 예측을 할 것이라는 보장은 없습니다. 따라서 학습 데이터 세트가 예측에 사용된 값과 함께 고유한 값의 관점에서 합리적인 《overlap》을 갖도록 하는 것이 중요합니다.

반응에 결측값이 있으면 어떻게 되나요?

반응값이 누락된 경우 모든 알고리즘은 관측치(레코드)를 건너뜁니다.