데이터 세트 수정

데이터 세트 세부 내용 확인

데이터 세트 요약을 확인하거나 데이터 세트를 미리 보려면 데이터 세트를 클릭 또는 확인하려는 데이터 세트 옆에 위치한 [Click for Actions] 버튼을 선택하고 표시되는 하위 메뉴에서 Details 를 선택하십시오. 이를 통해, 데이터 세트 정보 페이지가 열립니다. 이 페이지는 데이터 세트의 각 열이 나열되고 열 이름, 특색 가공 유형(범주형, 날짜, 날짜/시간, ID, 수치형, 텍스트, 이미지), 스토리지 유형(정수, 문자열, 실수, 부울 또는 시간), 횟수, 누락 값의 수, 평균, 최솟값, 최댓값, 표준 편차, 빈도 및 고유값의 수에 대한 수반하는 행을 표시하는 데이터 세트의 요약을 제공합니다.

해당 열의 첫 20개 행에 대한 요약을 확인하려면 열의 제일 위로 마우스의 커서를 가져갑니다. 특정 열에 대한 정보를 확인하려면 그래프 상단의 필드에 열 이름을 입력하십시오.

보기 전환 및 데이터 세트의 미리보기는 UI 우측 상단에 위치한 Dataset Rows 버튼을 클릭하십시오. Dataset Overview 버튼을 클릭하여 원래보기로 돌아갑니다.

Dataset details

Dataset Actions 을 클릭하여 이 페이지에서 다양한 데이터 세트별 작업을 수행할 수 있습니다. 이는 Datasets 페이지에서 사용할 수 있는 것과 같은 옵션입니다.

Dataset actions

열 유형 변경

Driverless AI를 사용하여 열 유형을 변경할 수 있습니다. 열의 데이터 유형 또는 분포가 실험 도중에 열을 처리하고자 하는 방식과 일치하지 않을 때는 Logical Type 의 변경을 통해 열을 더 잘 맞출 수 있습니다. 예를 들어, 정수로 된 zip code를 범주형으로 변경해서 범주형 관련 특색 가공에만 사용할 수 있습니다. 날짜 및 날짜/시간 열의 경우에는 Format 옵션을 사용하십시오. 열의 논리적 유형 또는 형식을 변경하려면 Auto-detect 단어 우측에 위치한 사각형 아이콘 그룹을 클릭하십시오(커서를 가져가면 사각형에 불이 들어옵니다). 그 후, 해당 열의 새 열 유형을 선택하십시오.

Changing Column Type Example

사용자 정의 데이터 레시피로 수정

사용자 정의 레시피로 기존 데이터 세트를 수정하여 새로운 데이터 세트를 생성하는 옵션도 해당 페이지에서 이용할 수 있습니다. 실험 구축을 통해 새로운 데이터 세트에 스코어링 파이프라인을 생성할 수 있습니다. 이 특성은 예측하려는 새로운 데이터에서 수행할 필요가 없는 학습 데이터를 변경할 경우에 유용합니다. 예를 들어, 대상 열을 회귀 분석에서 분류로 변경하거나 가중치 열을 추가하여 특정 학습 행을 더 중요한 것으로 표시할 수도 있고 모델링하지 않을 outliers를 제거할 수도 있습니다. 자세한 내용은 Recipes로 Datasets 수정 섹션을 참조하십시오.

UI 우측 상단의 Modify by Recipe 버튼을 클릭하고 다음 옵션 중에서 선택하십시오.

  • Data Recipe URL: URL에서 사용자 정의 레시피를 로드하여 데이터 세트를 수정하십시오. 해당 URL은 파일의 HTML 또는 원시 버전, GitHub 저장소 또는 tree 또는 로컬 파일을 가리켜야 합니다. 샘플 사용자 정의 데이터 레시피는 driverlessai-recipes repository 에서 이용할 수 있습니다.

  • Upload Data Recipe: 로컬 시스템에서 사용 가능한 사용자 정의 레시피가 있는 경우 이 버튼을 클릭하여 해당 레시피를 업로드하십시오.

  • Live Code: 데이터 세트를 수정하기 위해 사용할 사용자 정의 레시피 코드를 수동으로 입력하십시오. Get Preview 버튼을 클릭하여 데이터 세트에 대한 코드의 효과를 미리 확인한 후 Apply 를 클릭하여 새 데이터 세트를 만드십시오. 입력한 코드 스크립트를 .py 파일로 다운로드하려면 Download 버튼을 클릭하십시오.

Notes:

  • 이 옵션은 기본적으로 활성화되어 있습니다. enabled_file_systems 구성 옵션에서 recipe_filerecipe_url 의 제거를 통해 비활성화할 수 있습니다.

  • 레시피로 데이터 세트를 수정해도 기존의 데이터 세트를 덮어쓰지 않습니다. 수정하기 위해 선택한 데이터 세트는 사용 가능한 데이터 세트 목록에 기존의 형식으로 유지되고 수정된 데이터 세트는 해당 목록에 새로운 데이터 세트로 표시됩니다.

  • 이 특성을 이용해서 기존 데이터 세트에 대한 변경 사항은 스코어링된 새로운 데이터에 적용되지 않습니다.

데이터 세트 이름 변경

Driverless AI의 데이터 세트 개요 페이지에서 데이터 세트의 이름을 변경할 수 있습니다.

데이터 세트의 이름을 변경하려면 데이터 세트를 클릭하거나 이름을 변경하려는 데이터 세트 옆에 위치한 [Click for Actions] 버튼을 선택한 후 표시되는 하위 메뉴에서 Rename 을 선택하십시오.

Note: 데이터 세트의 이름이 변경되면, Driverless AI에서 데이터 세트의 모든 인스턴스가 새로운 이름을 반영하도록 변경됩니다.

Renaming Datasets Example