Driverless AI에서의 대체¶
대체 특성을 사용하면 결측값을 대체 값으로 채울 수 있습니다. 결측값은 열의 평균, 평균값, 최솟값, 최댓값 또는 모드 값을 기초로 대체될 수 있습니다. 특정 백분위 수 또는 상수 값을 기준으로 대체할 수도 있습니다.
대체는 모든 데이터 또는 파이프라인 내에서 사전 계산됩니다(학습/검증 데이터 분리의 내용을 기반으로 함).
대체 수행 시, 다음 지침을 따르십시오.
숫자 열에 대한 상수 대체의 경우 상수는 숫자이어야 합니다.
문자 열에 대한 상수 대체의 경우 상수는 문자이어야 합니다.
백분위 수 대체의 경우 백분율 값은 0에서 100사이의 값이어야 합니다.
Notes:
이 특성은 실험적입니다.
시간 열은 계산을 할 수 없습니다.
대체 활성화¶
대체는 기본적으로 비활성화되어 있습니다. config.toml(Native 설치의 경우)에서 enable_imputation=true
를 설정하거나 DRIVERLESS_AI_ENABLE_IMPUTATION=true
환경 변수 (Docker 이미지 설치)를 통해 활성화할 수 있습니다. 이를 통해 transformers에서 대체 기능을 사용할 수 있습니다.
대체를 통한 실험 실행¶
대체가 활성화되면 실험 실행 시, 대체 열을 추가할 수 있는 옵션을 갖게 됩니다.
실험 설정 페이지에서 Columns Imputation 를 클릭하십시오.
우측 상단에서 Add Imputation 를 클릭하십시오.
대체하려는 결측값을 포함한 열을 선택하십시오.
대체 유형을 선택하십시오. 이용 가능한 옵션은 다음과 같습니다.
mean: 열의 숫자 평균값이 기본적으로 표시됩니다.(숫자 값에 대한 기본 방법.)
median: 선택 시 열의 숫자 중앙값이 기본적으로 표시됩니다.
min: 선택 시 열의 숫자 최솟값이 기본적으로 표시됩니다.
max: 선택 시 열의 숫자 최댓값이 기본적으로 표시됩니다.
const: 문자열을 입력하십시오 (문자열의 기본 방법)
mode: 선택 시 열의 숫자 모드 값이 기본적으로 표시됩니다.
percentile: 0에서 100 사이의 백분위 수 순위 값을 지정하십시오(기본값은 95입니다). 또한, 숫자로 대체된 값을 지정하십시오.
Driverless AI가 입력된 대체 값을 사용하는 대신 검증 도중에 대체 값을 계산하도록 선택적으로 허용합니다.
완료되면 Save 를 클릭하십시오.
이때, 추가 대체 값을 추가하거나 방금 생성한 대체 값을 삭제하거나 이 양식을 종료하고 실험으로 돌아갈 수도 있습니다. 각 열은 단일 대체 값만을 가질 수 있습니다.