Driverless AI에서의 대체

대체 특성을 사용하면 결측값을 대체 값으로 채울 수 있습니다. 결측값은 열의 평균, 평균값, 최솟값, 최댓값 또는 모드 값을 기초로 대체될 수 있습니다. 특정 백분위 수 또는 상수 값을 기준으로 대체할 수도 있습니다.

대체는 모든 데이터 또는 파이프라인 내에서 사전 계산됩니다(학습/검증 데이터 분리의 내용을 기반으로 함).

대체 수행 시, 다음 지침을 따르십시오.

  • 숫자 열에 대한 상수 대체의 경우 상수는 숫자이어야 합니다.

  • 문자 열에 대한 상수 대체의 경우 상수는 문자이어야 합니다.

  • 백분위 수 대체의 경우 백분율 값은 0에서 100사이의 값이어야 합니다.

Notes:

  • 이 특성은 실험적입니다.

  • 시간 열은 계산을 할 수 없습니다.

대체 활성화

대체는 기본적으로 비활성화되어 있습니다. config.toml(Native 설치의 경우)에서 enable_imputation=true 를 설정하거나 DRIVERLESS_AI_ENABLE_IMPUTATION=true 환경 변수 (Docker 이미지 설치)를 통해 활성화할 수 있습니다. 이를 통해 transformers에서 대체 기능을 사용할 수 있습니다.

대체를 통한 실험 실행

대체가 활성화되면 실험 실행 시, 대체 열을 추가할 수 있는 옵션을 갖게 됩니다.

  1. 실험 설정 페이지에서 Columns Imputation 를 클릭하십시오.

Columns Imputation
  1. 우측 상단에서 Add Imputation 를 클릭하십시오.

  2. 대체하려는 결측값을 포함한 열을 선택하십시오.

  3. 대체 유형을 선택하십시오. 이용 가능한 옵션은 다음과 같습니다.

  • mean: 열의 숫자 평균값이 기본적으로 표시됩니다.(숫자 값에 대한 기본 방법.)

  • median: 선택 시 열의 숫자 중앙값이 기본적으로 표시됩니다.

  • min: 선택 시 열의 숫자 최솟값이 기본적으로 표시됩니다.

  • max: 선택 시 열의 숫자 최댓값이 기본적으로 표시됩니다.

  • const: 문자열을 입력하십시오 (문자열의 기본 방법)

  • mode: 선택 시 열의 숫자 모드 값이 기본적으로 표시됩니다.

  • percentile: 0에서 100 사이의 백분위 수 순위 값을 지정하십시오(기본값은 95입니다). 또한, 숫자로 대체된 값을 지정하십시오.

  1. Driverless AI가 입력된 대체 값을 사용하는 대신 검증 도중에 대체 값을 계산하도록 선택적으로 허용합니다.

  2. 완료되면 Save 를 클릭하십시오.

Add imputation column
  1. 이때, 추가 대체 값을 추가하거나 방금 생성한 대체 값을 삭제하거나 이 양식을 종료하고 실험으로 돌아갈 수도 있습니다. 각 열은 단일 대체 값만을 가질 수 있습니다.