로그 변경

버전 1.10.1.2(2021년 12월 22일)

  • 개선 사항:

    • 알림 스크립트를 허용하여 새로운 구성 옵션을 사용하는 기본 서버에서 환경 변수를 상속합니다.

  • 버그 수정:

    • 포함된 Java 패키지 일부의 log4j-2를 버전 2.17.0으로 업그레이드하여 CVE-2021-45105에서 발견한 취약성을 완화합니다.

버전 1.10.1.1(2021년 12월 14일)

  • 버그 수정:

    • 일부 번들 Java 패키지의 log4j-2를 버전 2.16.0으로 업그레이드하십시오. 이는 CVE-2021-44228에서 발견된 임의의 코드 실행 취약점이라는 위험을 완전히 줄이기 위한 것입니다.

버전 1.10.1(2021년 11월 10일)

  • 새로운 기능

    • (실험적) 부스팅 접근 방식(GrowNet)을 기반으로 하는 표로 나타낸 데이터에 대한 PyTorch 기반 딥 러닝 모델.

    • S3에서 사전 학습한 NLP 다운로드 옵션을 추가했습니다.

    • MOJO 크기 추정치를 미리보기에 추가했습니다.

    • config.toml 및 상세 설정을 통해 정확성, 시간 및 해석 가능성에 대한 기본 노브 설정을 제어하는 기능을 추가했습니다.

    • 대상 트랜스포머 튜닝에 포함할 대상 트랜스포머에 대한 제어를 추가했습니다.

    • LightGBM 기반 모델에 수렴 기반 조기 종료를 추가하여 모델 크기를 줄일 수 있습니다.

    • AutoViz 권장 사항 을 이제 실험에 대한 기능 변환으로 사용할 수 있습니다.

  • 개선 사항:

    • OneHotEncodingTransformer의 변환된 기능 이름에 낮은 카디널리티 범주 수준을 표시합니다.

    • 비지연 기반 시계열 레시피는 이제 모든 지연 기반 트랜스포머가 비활성화된다는 점을 제외하고 지연 기반 시계열 레시피와 동일합니다. 검증 분할의 간격을 지원하고 이동 윈도우를 통해 향상된 검증을 제공하고 홀드아웃 예측을 추가합니다.

    • 속도 저하를 방지하기 위해 데이터 세트 크기가 구성 가능한 임계값보다 큰 경우 자동으로 SILHOUETTE 스코어러에 대한 행 샘플링을 수행합니다.

    • 미리보기를 위한 실험 런타임 추정을 개선하였습니다.

    • 미리보기를 위한 열 유형 감지가 개선되어 실험 중 유형 감지와 유사하므로 기능 변환이 미리보기에 더 정확하게 표시됩니다.

    • 미리보기 중 모델 트랜스포머 감지가 개선되어 실험에서 일어날 일을 더 정확하게 반영합니다.

    • 중국어/한국어/일본어 및 UTF8 문자를 사용하는 다른 언어에 대한 텍스트 감지 기능이 향상되었습니다.

    • 시계열에 대한 향상된 변수 가공 및 기능 진화

    • 데이터 세트 열 유형을 카디널리티와 상관없이 범주형(〈cat〉)으로 재정의할 수 있습니다.

    • 검증 점수가 크게 향상되지 않는 경우 LightGBM 조기 종료를 더 일찍 중지하도록 개선했습니다(정확도 다이얼에 따라 다름).

    • 비활성화된 사용자 정의 레시피를 사용자 정의 레시피 관리에서 로드 및 편집하도록 허용합니다.

    • 시스템 라이브러리에 덜 의존함으로써 RedHat 및 다른 플랫폼에 대한 기본 지원을 향상했습니다.

    • 비Python 오류 캡처를 추가하여 지도 또는 비지도 실험의 경우 지원을 위한 서버 로그 공유가 더 이상 필요하지 않습니다.

    • 강한 신호가 있는 대상 인코딩 기능만을 대상으로 하여 더 나은 소규모 데이터 지원을 추가했습니다.

    • (모든 데이터 크기에 대해) 강력한 신호가 있는 기능만 대상으로 인코딩하는 《more_overfit_protection》 파이프 라인 구축 레시피에 대한 지원을 추가했습니다.

    • 허용되지 않는 전역 가져오기(예: XGBoost, LightGBM, Torch, CuPy, cuDF 등)를 확인하기 위해 사용자 정의 레시피 승인 테스트를 개선했습니다.

    • 기본 래퍼가 기본 레시피로 포함된 zip을 통해 사용자 정의 레시피를 지원하며, 하위 폴더에는 지원 파일이 있습니다(예: 래퍼가 하위 폴더를 로컬로 가져오는 경우 Torch를 전역적으로 가져올 수 있음).

    • 문자열 및 큰 정수를 포함하는 열에 대한 잘못된 날짜 및 날짜/시간 감지를 방지합니다.

    • TOML을 검증하고 오류를 더 이상 무시하지 않습니다.

    • 테스트 또는 검증 세트로 사용한 데이터 세트의 감지를 방지합니다.

    • Java를 OpenJDK 10으로 업그레이드했습니다.

    • NVIDIA K80+를 다시 지원하도록 XGBoost를 업데이트했습니다(즉, CUDA 컴퓨팅 기능 3.5+).

    • 모델 레시피가 Python 환경에서 DAI 환경과 독립적으로 실행되도록 허용합니다.

    • Google BigQuery(GBQ) 커넥터를 사용할 때 데이터 세트 위치를 지정하는 기능을 추가했습니다.

    • 여러 일반적인 취약성(CVE 및 PRISMA)을 수정했습니다.

  • 버그 수정:

    • 설치된 패키지를 제한하여 Python 채점를 수정했습니다. 기본 Ubuntu, UBI-8 또는 CentOS 시스템에서 작동합니다. 추가 단계는 설명서를 참조하십시오.

    • 다중 GPU가 있는 시스템에 대해 누락된 이미지벡터라이저 트랜스포머를 수정했습니다.

    • AWS Lambda에 대한 MOJO Cloud 배포를 수정했습니다.

    • Apple macOS 시스템에서 생성된 이미지 아카이브 가져오기를 수정했습니다.

    • 데이터 로깅 수준 익명화를 수정했습니다.

    • 하위 실험에 대한 사용자 지정 레시피 관리 활성화 선택을 수정했습니다.

    • 내부 레시피의 부재를 초래하는 현재의 사용자 정의 레시피를 수정했습니다.

    • 부트스트랩 샘플링 추정치를 수정했습니다.

    • Dask 기반 모델에 대한 Python 채점을 수정했습니다.

    • Native 시스템에서 OpenCL(LightGBM용)을 수정했습니다. 추가 단계는 설명서를 참조하십시오.

    • 실험 중에 모든 트랜스포머로 초기화되지 않도록 사전 트랜스포머 목록을 수정했습니다.

    • 광범위한 규칙 트리거 시 모델이 LightGBM이어야 할 때 표시되는 LightGBMDask를 수정했습니다.

    • Java MOJO 런타임에서 상수 모델에 대한 Shapley value를 수정했습니다.

    • C++ MOJO 런타임에서 날짜 포맷 %Y을 수정했습니다.

    • 인터넷 익스플로러 11의 탭 클릭을 수정했습니다.

    • 기능에 숫자 접미사가 있는 경우 트리 모델에 대한 파이프라인 시각화를 수정했습니다.

    • 이진 사용자 정의 스코어러에 대한 모양 불일치를 수정했습니다.

    • 누락 값을 포함하는 정수 열이 있는 Parquet 파일의 수집을 수정했습니다.

  • 설명서:

버전 1.10.0(2021년 09월 29일)

여기서 다운로드하기

  • 새로운 기능

    • 모든 주요 오픈 소스 패키지의 안정적인 최신 버전을 기반으로 구축했습니다.

      • 더 빠른 피클 프로토콜 5를 지원하는 Python 3.8로 업데이트했습니다.

      • Torch 1.9.0 및 TensorFlow 2.4.2로 업데이트했습니다.

      • GPU 기반 대상 인코딩, UMAP, TSNE, Rf을 지원하는 NVIDIA RAPIDS 21.08로 업데이트했습니다.

      • Ampere 기반 NVIDIA GPU를 지원하는 CUDA 11.2.2로 업데이트했습니다. NVIDIA CUDA 드라이버 470 이상이 필요합니다.

      • XGBoost, LightGBM, datatable, Pandas, scikit-learn 등을 업데이트했습니다.

      • DEB/TAR-SH 배포용 Ubuntu 20.04 및 RPM용 Centos8을 지원합니다.

    • 사용자 정의 레시피 관리

      • 사용자 정의 레시피에 버전이 지정됩니다.

      • 사용자 정의 레시피를 활성화하거나 비활성화할 수 있습니다.

      • 각각의 레시피에 노트를 추가할 수 있습니다.

      • 시각적 코드 에디터를 추가합니다.

      • 이전의 레시피 버전에 액세스할 수 있게 합니다.

    • 실험 내보내기/가져오기

      • 실험을 이진 파일로 다운로드하고 업로드할 수 있습니다.

      • DAI 1.8.x 및 1.9.x에서 새로운 실험 및 마이그레이션 실험을 모두 지원합니다.

      • 사용자 정의 레시피로 실험을 지원합니다.

    • Java MOJO 런타임의 원래 기능에 대한 Shapley value 를 지원합니다.

    • (실험적) 자동 비지도 머신 러닝. 클러스터링, 차원 축소, 이상치 감지 및 사용자 정의 레시피에 대한 전체 지원을 지원합니다. 클러스터링을 위한 자동 하이퍼 파라미터 최적화 및 기능 선택과 중심에 대한 시각화가 포함됩니다.

    • 기능 내 강제 제어. 수정 없이 특정 기능을 모델에 적용 가능 합니다. 자세한 내용은 기능 상세 설정의 cols_to_force_in 을 참조하십시오.

    • 일반 예측에 대한 빠른 근사를 추가했습니다(Shapley value에 대한 빠른 근사에 추가). MLI/AutoDoc의 경우 기본적으로 활성화되며, 다른 클라이언트의 경우 기본적으로 비활성화됩니다. 근사 범위를 완전히 구성/비활성화할 수 있습니다. 일반적으로 부분 의존도 플롯 및 MLI 생성과 같은 대규모 예측 작업의 속도를 크게 향상할 수 있습니다. 자세한 내용은 빠른 근사에 대한 FAQ 질문 을 참조하십시오.

    • 자동으로 분류 문제에 대한 예측을 위해 레이블을 생성 하며, 예측 프레임의 끝에 예측된 레이블 열을 추가합니다.

    • Health API 추가로 시스템 메트릭 및 리소스 활용 개요를 제공합니다.

    • LightGBM의 불균형 다중 클래스 문제에 대한 개선된 지원을 추가했습니다. 혼동 행렬 기반 스코어러가 최적화된 경우(예: MacroF1) 도움이 될 수 있습니다.

    • 분류에 대한 새 메트릭(MacroF1, MacroMCC)를 추가했습니다. 매크로 스코어러는 클래스별 점수의 평균을 구하고 마이크로 스코어러는 행당 점수의 평균을 구합니다. 불균형 다중 클래스 문제에는 기본적으로 MacroF1을 사용하십시오. MacroF1/MCC는 이진 문제에 대한 F1/MCC와 동일합니다.

    • (점수 탭 및 실험 아티팩트에서) 실험 중 피팅한 모든 모델에 대한 정보를 추가했습니다.

    • MLI 기능:

      • UX에 초점을 맞춘 MLI 시계열에 대한 새로운 UI를 추가했습니다.

      • 시계열 모델에 대한 감도 분석을 활성화했습니다.

      • 시계열 모델에 대한 서로 다른 영향 분석을 활성화했습니다.

      • 시계열 모델에 대한 대리 모델을 활성화했습니다.

      • 시계열 모델에 대한 부분 의존도/ICE을 활성화했습니다.

      • 시계열 모델에 대한 원래 기능의 중요성을 활성화했습니다.

      • MLI TS explainer UI에서 변형된 기능에 대한 인간 친화적인 묘사를 추가했습니다.

      • 빠른 근사로 예측 속도를 높이기 위해 MLI 상세 설정 mli_fast_approx 을 추가했습니다.

      • NLP 실험에 대한 Vectorizer + Linear Model (VLM) explainer 를 추가했습니다.

      • TF-IDF에 추가하여 대리 모델에 대한 토큰을 생성하기 위한 수단으로 Vectorizer + Linear Model (VLM)을 사용하는 기능을 추가했습니다.

      • NLP 텍스트 토큰에 대한 부분 의존도 를 추가했습니다.

      • MLI NLP explainers에 대한 다항 지원을 추가했습니다.

      • MLI의 로컬 NLP 설명에 대한 텍스트 샘플 보기를 추가했습니다. 자세한 내용은 NLP 플롯 를 참조하세요.

      • NLP explainers에서 사용하는 MLI NLP 토크나이저 및 토크나이저에 대한 영어 불용어를 추가했습니다.

      • MLI에서 TF-IDF 행렬을 다운로드 하는 기능을 추가했습니다.

    • 설명서:

      • Driverless AI에서 유전 알고리즘 정보를 추가했습니다.

      • Driverless AI에서 변수의 중요성 정보를 추가했습니다.

      • 배포 시나리오 그래프에 대한 정보를 추가했습니다.

      • Driverless AI LTS 릴리스 지원에 대한 정보를 추가했습니다. 자세한 내용은 버전 지원 정보 를 참조하십시오.

      • 간단한 복사/붙여넣기 설정 목록을 추가했습니다.

  • 개선 사항:

    • 실험의 기본 리더보드를 개선했습니다. 더욱 넓은 범위에서 유용한 실험을 다룹니다.

    • 시계열 실험을 위한 또 다른 자동 리더보드를 추가하여 각 예측 기간에 대한 별도의 모델을 생성했습니다(다양한 기본 순위표에 추가).

    • BERT 모델 및 트랜스포머에 PyTorch Lightning 프레임워크를 사용합니다. 이는 더 빠른 학습과 더 나은 메모리 처리로 이어집니다.

    • 다중 GPU 시스템에서 BERTTransformer의 병렬화를 개선했습니다.

    • 텍스트 트랜스포머 메모리 사용을 감축했습니다.

    • wrap_create 데코레이터(Git repo: Any Env)를 사용하여 사용자 정의 레시피를 위한 임의의 격리된 Python 3.6, 3.7, 3.8 환경을 지원합니다.

    • 미리보기는 선택한 트랜스포머-모델 조합에서 다루지 않는 모든 입력 기능을 나타냅니다.

    • 미리보기는 선택한 트랜스포머-모델 조합에서 MOJO 지원여부를 나타냅니다.

    • 영과잉 분포의 자동 처리를 향상했습니다.

    • %Y 및 %Y%m 포맷이 있는 시간 열 처리를 향상했습니다.

    • 이미지가 포함된 데이터 세트에 대한 분할을 개선하여 이제 각 분할에는 참조가 아닌 모든 로컬 이미지의 사본이 있습니다.

    • 기능 진화 알고리즘을 다양하게 개선했습니다.

    • 애플리케이션 전반에 걸쳐 더 많은 설명 툴팁을 추가했습니다.

    • 실험 미리보기에 대한 런타임 추정을 개선했습니다.

    • 기본 실험 설정에 대한 추론적적 접근방식을 개선했습니다.

    • 열 이름 삭제를 개선했습니다.

    • 속도 측면에서 최적화된 MLI 부분 의존도 explainer입니다.

    • MLI Decision Tree 대리 모델의 범주형 처리를 개선했습니다.

    • MLI의 UI/UX 성능을 다양하게 개선했습니다.

    • 많은 작업(실험, MLI 등) 실행 시 서버 성능 및 응답성을 향상했습니다.

    • 실험 실패 없이 사용자 지정 스코어러의 실패를 정상적으로 처리합니다.

    • 보드 전반에 걸친 하드웨어 이용을 개선했습니다.

    • 실험 종료 후 실험 임시 파일 정리를 개선하여 느린 디스크에서 서버 시작 시 긴 정리를 방지할 수 있습니다.

    • 저장소 GRPC 메시지 한도를 구성할 수 있습니다.

  • 버그 수정:

    • 크고 유사한 문자열이 많은 데이터 세트에 대해 파일을 가져오는 중 segfault를 수정했습니다.

    • 광범위한 데이터 세트에 대해 느린 MOJO 생성을 수정했습니다.

    • UTF8 문자용 텍스트 기반 트랜스포머 및 모델의 MOJO를 수정했습니다.

    • max_feature_interaction_depth 상세 설정이 이제 모든 트랜스포머에 적용됩니다.

    • 지수 연결 함수(Poisson/gamma/Tweedie/CoxPH)가 있는 XGBoost 회귀 모델에 대한 Java MOJO 런타임의 부정확한 Shapley 편향 용어를 수정했습니다.

    • XGBoost 및 LightGBM에서 예측에 사용하는 코어 수를 수정하여 채점 중 과도한 코어 사용을 방지합니다.

    • 모든 모델에 One Hot Encoding을 사용할 수 있습니다.

    • 코어의 최대 사용을 위해 격리된 시스템에서 사용하기 위해 exclusive_mode 보통 및 최대 모드를 수정했습니다.

    • 변환 데이터 세트 및 MLI에서 올바르게 사용하도록 런타임 데이터 레시피를 수정했습니다.

    • 모델 튜닝(params_tune) 및 재정의 매개변수 사용을 수정했습니다.

    • 채점하는 동안 정수 열을 문자열 열로 자동 유형 캐스팅하는 문제를 수정했습니다(먼저 부동 소수점으로의 변환 방지).

    • 더 다양한 전문가 선택을 위해 Optuna 유전 알고리즘 선택을 수정했습니다.

    • 범주형이 있는 광범위한 데이터에 대한 기능의 순열 중요성 선택에 따른 기능 선택을 수정했습니다.

버전 1.9.3.1(2021년 8월 5일)

여기서 다운로드하기

  • 새로운 기능

    • 키 저장소에 민감하거나 안전한 구성 정보를 저장하기 위한 지원을 추가했습니다. 자세한 내용은 구성 보안 을 참조하십시오.

  • 개선 사항:

    • 가장(impersonation)과 함께 Kerberos 인증을 사용할 때 Hive 커넥터에 jaas.conf 파일이 더 이상 필요 없도록 개선했습니다. jaas.conf 파일이 제공되면 Hive 커넥터가 이를 사용하고, 그렇지 않은 경우 hive_app_configs 에 제공된 정보를 기반으로 구성 정보를 구성합니다.

  • 버그 수정:

    • 시계열 모델에 대한 분포 이동 감지를 수정했습니다.

    • 영과잉(zero-inflated) 배포의 경우 대상 열에서 개수가 0이 아닌 로그 출력을 수정했습니다.

    • 매우 작은 관측 가중치에 대한 혼동 행렬을 수정했습니다(가장 가까운 정수로 반올림 비활성화).

  • 설명서:

버전 1.9.3(2021년 06월 03일)

여기서 다운로드하기

  • 개선 사항:

    • Google BigQuery(GBQ) 커넥터를 이용할 때 사용할 프로젝트 지정 기능을 추가했습니다.

    • 텍스트 기능에 대한 과도한 메모리 사용을 방지하기 위한 MOJO 배치 채점 개선

    • 잠재적인 FBProphet 패키지 설치 오류를 수정하기 위한 동등한 공개 레시피 저장소 업데이트

    • 텍스트 열에 대한 열 유형 감지 개선

    • 메모리 사용 감소

    • Ubuntu 20.04 LTS 지원 추가

    • IBM Power 지원 추가

  • 버그 수정:

    • 기능 전용 MOJO 파이프라인 생성 수정 (make_mojo_scoring_pipeline_for_features_only=true)

    • MLOps 저장소를 사용할 때 가끔 발생하는 segfault 문제 수정

    • 사용자 정의 Autoviz boxplots의 계산 결과 수정

    • 로컬 나머지 서버 배포 사용 시 라이선스를 찾을 수 없는 문제 수정

    • 인터넷 익스플로러 11 사용 시 로그인 문제 수정

    • UI에서 Lambda 배포 삭제 시 AWS Lambda 리소스가 정리되지 않는 문제 수정

    • Azure Blob Storage 커넥터에서 디렉터리가 비어 있는 폴더를 가져올 때 발생하는 문제 수정

    • 큰 텍스트 필드가 있는 큰 데이터 세트를 가져올 때 가끔 발생하는 JDBC 및 Hive 커넥터의 CSV 쓰기 문제 수정

    • GPU에서 실행 시 행 수가 많은 데이터 세트에 대한 BERTTransformer의 CPU 메모리 과사용 문제 수정

버전 1.9.2.2(2021년 4월 7일)

여기서 다운로드하기

  • 버그 수정:

    • 기능 전용 MOJO 파이프라인 생성 수정(make_mojo_scoring_pipeline_for_features_only=true)

버전 1.9.2.1(2021년 4월 2일)

여기서 다운로드하기

버전 1.9.2(2021년 03월 08일)

  • 새로운 기능

    • 상세 옵션에서 유전자 알고리즘에 대한 선택으로 모델 하이퍼매개변수 튜닝을 위한 Optuna

    • 로그에 가장 큰 트랜스포머 크기 표시

    • 최종 앙상블을 위한 선택적 스태킹 메타 학습 모델(선형 블렌더 대신 《ExtraTrees》 LightGBM 모델), 선택적 교차 검증 포함

    • 폴드 분할 최적화 및 폴드 간 목표 변수에 대한 Kolmogorov-Smirnov 통계 표시

  • 개선 사항:

    • 행보다 열이 더 많은 광범위한 데이터 최적화

    • 회귀 분석 문제에 대한 폴드 분할 향상

    • 해석력이 높은 설정으로 회귀 분석 문제에 대해 튜닝된 대상 트랜스포머 선택 감소

    • 해석력 <= 5 및 accuracy >= 5이 아닌 경우 회귀 분석 문제에 대한 대상 트랜스포머의 자동 튜닝 비활성화(Shapley 값의 해석력 지원)

    • XGBoost 알고리즘에 대해 더 많은 GPU 사용, 메모리 요구사항 추정 향상

    • 특성 진화에 대한 유전자 알고리즘 향상

    • 프로젝트 페이지 뷰 업데이트

    • 상세 설정 항목에 마우스를 올리면 추가 설명 표시

    • PDP / ICE 계산에 MOJO 사용

    • MLI 실험 시작 시 MOJO가 재생성되지 않음

  • 버그 수정:

    • Ampere 기반 GPU에 대해 GPU 기반 NLP 및 이미지 레시피 비활성화(Ampere GPU의 소프트웨어 역호환성의 이유), 이미지 및 BERT 트랜스포머 및 TensorFlow 모델에 대해 CPU로 자동 폴백

    • C++ MOJO segfault 수정

    • AutoReport에 의한 임시 파일 삭제

    • 다양한 버그 수정

버전 1.9.1.3(2021년 2월 27일)

여기서 다운로드하기

  • 새로운 기능

    • Azure 데이터 커넥터에서 Keycloak 인증에 대한 지원 추가

  • 버그 수정:

    • Steam에서 docker 컨테이너를 시작 시 경쟁 조건 수정

버전 1.9.1.1(2021년 2월 21일)

여기서 다운로드하기

  • 새로운 기능

    • H2O.ai 라이선스 관리자(베타) 에 대한 지원 추가

    • MLI partial dependence plot에 미확인 값 추가

    • 에어 gap 설치를 위해 로컬 경로에서 새 Python client를 다운로드하는 기능 추가(UI에서도 다운로드할 수 있도록 새 Python client 표시)

  • 개선 사항:

    • MLI의 UI/UX 개선 사항:

      • MLI 설명자(explainer) 타일 이름에서 약어 삭제

      • MLI의 로컬 설명 및 행 검색 기능 향상

      • MLI 설명자 오류 처리 개선

      • MLI 설명자 로그 레벨을 DEBUG에서 INFO로 변경

    • BERT 마이그레이션에 대한 로깅 개선

    • 다양한 설명서 업데이트

  • 버그 수정:

    • MLI의 《New with same params》 옵션 수정

    • PD/ICE MLI 설명자에 범주형 특성이 포함되지 않도록 수정

    • MLI 설명자 로그 표시가 잘리지 않도록 수정

    • 상위 설명자 아티팩트를 재사용할 수 있도록 MLI 주문형 엔진 호출 수정

    • 다양한 MLI UI 수정

    • 다양한 MLI 설명자 수정

    • Autoviz의 outliers 표시 수정

    • Parquet 파일의 None 값 해석 수정

    • 다양한 패키지 취약성 수정(CVE)

    • 새로 도입된 검증 체계에 대해 너무 작은 time series 검증 분할의 생성 수정( time series 상세 설정)

버전 1.9.1(2021년 1월 15일)

  • 새로운 기능

    • 실험 완료 후 예측에 자동으로 MOJO 사용(현재 사용 가능 및 적용 가능한 경우 예측, MLI, Autoreport, Diagnostic 및 Python Scoring Pipeline에 MOJO Scoring Pipeline 사용)

    • Python Scoring Pipeline 및 GUI/클라이언트 스코어링에 Original Feature의 Shapley 값을 추가(Model Action에 추가)

    • 현재 기본적으로 링크 공간에서 수행되는 앙상블 블렌딩(Shapley 합계의 로지스틱 또는 소프트맥스(softmax)가 확률과 같음). 회귀 분석의 경우 identity_noclip 목표값 변환이 동일함.

    • 기존 숫자 특성에 대한 단조 GBM 의 레시피 포함

    • monotonicity constraints가 활성화된 경우 사용자가 목표값과 상관 관계가 약한 특성을 삭제할 수 있음 monotonicity_constraints_drop_low_correlation_features

    • AutoDoc에 k-LIME 및/또는 Decision Tree Surrogate Explainer를 포함하는 옵션과 함께 MLI 레시피 선택 페이지에서 AutoDoc을 실행하고 구성하는 기능 추가

    • MOJO 시각화로 모든 LightGBM 및 XGBoost 모델의 첫 번째 트리 표시(DecisionTree 뿐만 아님)

    • MOJO 시각화로 트리 모델의 크기 표시

    • 기공된 특성에 대해서만 MOJO 생성 허용, 모델 예측 없이() 파이프라인 변환()만 수행(실험적)

    • 이제 AutoDoc에 Original Features, Monotonicity Constraints, Imbalanced Models에 대한 Shapley 값 정보를 포함하도록 구성 가능

    • 숫자 값이 높은 비율로 포함된 문자열 열 감지 구현, 자동 변환 활성화를 위한 상세 설정 추가

    • 실행 중인 모든 작업을 표시하는 글로벌 태스크 목록 (Resources -> System Info -> Workers Activity -> CPU/GPU Experiments)

    • MLI 기능:

    • Dask/RAPIDS 다중 GPU/다중 노드 학습(베타):

    • Time Series:

      • 단기 forecast horizon에 대한 검증 체계 향상( time series 상세 설정)

      • 백 테스트 홀드아웃 예측 생성 속도의 현저한 향상

      • 날짜/시간 열 간의 시간적 차이에 기반한 자동 변수 가공을 위한 새로운 DateTimeDiffTransformer

      • LagsTransformer에 사용하는 드롭아웃 로직 개선

      • LagsTransformer는 이제 사전에 알려진 특성을 인식합니다. 이를 통해 지연이 한계보다 작아집니다.

      • 다음 유형의 특성 각각에 대한 사용자 제어 가능한 지연 크기 풀 추가: target, 미리 알려지지 않은 비 target(non-target), 미리 알려진 비 target

      • 이제 지연 크기에 대한 상세 설정 값 《[0]》을 사용하여 해당 특성 그룹에 대한 지연을 비활성화할 수 있음

      • 미래에 미확인 값을 피하기 위해 날짜/날짜-시간 변환을 자동으로 선택하는 옵션 추가( time series 상세 설정)

      • 내부 검증 중에 고정된 크기 학습 시간 범위를 사용하는 옵션 추가( time series 상세 설정)

      • 중복성을 방지하기 위해 sub-series별 지연 특성의 시간 불변성 검사 추가

  • 개선 사항:

    • 상당한 성능 향상, 하위 프로세스 통신의 지연 시간 감소, 작은 데이터에 대한 실험 속도 향상

    • MLI의 뚜렷한 UI/UX 개선

    • 사용자 정의 레시피 승인 테스트에 대한 테스트 범위 개선

    • tf–idf 기반 텍스트 트랜스포머의 성능 향상: 메모리 공간 감소, 속도 증가, 용어 크기에 대한 사용자 컨트롤 구현

    • RuleFit 모델의 성능 및 accuracy 향상

    • 자동 time series 리더보드 개선(10개의 실험을 구축하고 반복 실행하여 최적 상세 설정의 상호 작용 획득)

    • PDP 및 ICE 등에 MOJO 사용으로 MLI 성능 향상

    • sensitivity analysis의 잔차가 이제 이항 분류(binomial classification)의 경우 로그 손실 잔차(logloss residual), 회귀 분석의 경우 제곱 잔차(square residual)임

    • 모든 토큰의 해당 열까지 역추적하는 기능을 추가하여 NLP에 대한 MLI 개선

    • 이제 AutoDoc에 Original Features, Monotonicity Constraints, Imbalanced Models에 대한 Shapley 값 정보를 포함하도록 구성 가능

    • 엔지니어링된 특성에 대해서만 MOJO 생성 허용

    • 0이 아닌 일정한 목표값만 있는 경우 회귀 분석을 위해 영과잉(zero-inflated) 모델 비활성화

    • fold_column으로 계층화된 실험에 대한 희소 목표 클래스 분산 처리 개선

    • 유전자 알고리즘 토너먼트 모드 기본값 개선

    • 새 실험에 대한 특성 브레인(feature brain) 비활성화(기본값)

    • XGBoost 버전 1.4.0으로 업그레이드

    • 데이터 테이블 업그레이드

    • 다양한 Python 패키지 업그레이드

    • 모델 피팅 및 예측 로깅 개선

    • Dataset Details 페이지의 UI/UX 개선, 데이터 세트 작업 추가, 데이터 레시피 자동 저장 및 다운로드

    • 다양한 Web GUI UI/UX 개선 및 수정

  • 버그 수정:

    • LightGBM Shapley 기여도에 대한 빠른 근사값 설정을 적용(기본값으로 활성화됨), time series에 대한 최종 모델 홀드아웃 속도 감소

    • 1.7.1/1.8.0에서 생성된 LightGBM 모델을 포함하는 실험에 대해 GUI/클라이언트 스코어링 수정(스코어링 아티팩트에 미치는 영향 없음)

    • XGBoost 및 LightGBM: Gamma, Tweedie, Poisson, CoxPH에 대한 회귀 분석 목표에 대한 MOJO 수정(기본값 아님)

    • 1.7.1 이상에서 생성된 모델의 다양한 마이그레이션 수정

    • DecisionTreeModel에 대한 상세 설정 적용(max 깊이 등)

    • 특성 브레인 관련 수정: 가져온 모든 모델은 시작 시 새로 채점, time series 실험에 대한 보수적 선택

    • 다양한 Autoviz 수정, 범주형 특성과 기타 작은 버그와의 높은 상관 관계 생성

    • 다양한 버그 수정

버전 1.9.0.6(2020년 12월 22일)

여기서 다운로드하기

  • 버그 수정:

    • 누출 감지 시 예측 시간에 사용할 수 없는 것으로 표시된 열이 삭제되는 문제 수정

    • MLI의 샘플 외(out-of-sample) 데이터에 대한 요청 시 행 쿼리 수정

    • 부분 누락된 목표 값이 포함된 테스트 세트를 사용하는 time series 실험에 대해 최종 테스트 세트 채점 중 실패 수정

버전 1.9.0.5(2020년 12월 9일)

여기서 다운로드하기

  • 새로운 기능

    • k-LIME MOJO 추가

    • Shapley 플롯의 데이터 복사/붙여넣기 기능 추가

    • MLI 상세 설정에서 PD/ICE 특성을 선택하는 기능 추가

    • MLI 상세 설정에서 특성 유형을 선택하는 기능(즉, 범주/숫자 등으로 처리해야 하는 특성 지정) 추가

    • sensitivity analysis에서 분류의 경우 로그 손실 잔차(logloss residual)를, 회귀 분석의 경우 제곱 잔차(square residual)를 계산함

  • 개선 사항:

    • Shapley 시각화 향상

    • DAI PDP 특성은 이제 알파벳 순서가 아닌 특성 중요도 json 파일을 참조하여 순서 유지

    • DAI 브레인 재채점 결정의 개선

  • 버그 수정:

    • 대상 트랜스포머가 항등(identity)이 아닌 경우 ZeroInflated 모델에 대한 MOJO 수정

    • 다양한 MLI 수정

버전 1.9.0.4(2020년 10월 13일)

  • 버그 수정:

    • 데이터 베이스 무결성 시작 검사를 최적화하여 애플리케이션 시작 속도 향상

    • 파일 시스템 아티팩트 내보내기 수정

버전 1.9.0.3(2020년 9월 28일)

여기서 다운로드하기

  • 새로운 기능

    • 24개국 이상의 휴일 캘린더 추가, 사용자가 국가 목록을 선택하여 time series 실험을 위한 is-holiday 특성 생성 가능

    • rhel8 유사 시스템 지원

    • 역방향 프록시에서 삽입한 JWT 토큰을 사용하여 로그인하는 옵션 적용

    • 사용자가 구성에서 데이터 구분 기호/구분자 지정 가능(datatable_separator config.toml 파일 참조)

  • 개선 사항:

    • MinIO 커넥터에서 https 인증서 확인 건너뛰기 옵션 추가

    • 로캘 및 언어 팩 개선

    • 커넥터에 대한 로깅 향상

    • OIDC의 민감한 데이터 로깅 개선

  • 버그 수정:

    • 다양한 MLI 수정

버전 1.9.0.2(2020년 9월 8일)

여기서 다운로드하기

  • 개선 사항:

    • IBM Power에서 PyTorch(BERT) 모델에 대한 GPU 지원 활성화

    • Python client에서 다운로드할 대상 파일 경로 지정 가능

    • R 클라이언트에 대한 대용량 데이터 업로드 활성화

  • 버그 수정:

    • 역방향 프록시 뒤에 배포 시 OpenID 및 TLS 로그인 리디렉션 수정

버전 1.9.0.1(2020년 8월 10일)

여기서 다운로드하기

  • 버그 수정:

    • 특정 time series 실험에 대한 마이그레이션 수정

    • 자동 이미지 모델에 대한 누락 파일 수정

    • PDP/ICE에 대한 MLI 작업 상태 수정

    • MLI Kernel Shapley에 대한 ID 열 처리 수정

    • 시작 실패에 대한 예외 처리 수정

    • 독립형 스코어링 패키지에 대한 Python 환경 제한

버전 1.9.0(2020년 07월 27일)

여기서 다운로드하기

  • 새로운 기능

    • 다중 노드 학습 (알파)

    • 실험 큐잉 으로 시스템 과부하 방지

    • 자동 리더보드: 일련의 다양한 실험으로 된 프로젝트의 단일 버튼 생성

    • 다중 레이어 계층적 변수 가공:

      • 특정한 사용자 정의 데이터의 정리/변환을 위한 선택적 전처리 계층 허용

      • 후속 레이어는 각각의 이전 레이어의 출력을 입력으로 사용함(숫자 또는 범주/문자열이 될 수 있음)

    • TensorFlow 이외에 PyTorch 딥 러닝 백엔드

    • 사전 학습되고 미세 조정된 최첨단 딥 러닝 모델을 사용한 이미지 분류 및 회귀 분석

      • 바이너리 아카이브에서 이미지 데이터 수집

        • 아카이브에는 목표값에 대한 이미지 경로 매핑(회귀 분석/분류)이 된 (하나의) 선택적 .csv 파일이 포함될 수 있음

        • .csv가 제공되지 않는 경우 자동 학습 데이터 세트 생성 및 레이블 생성(디렉터리 구조에서)

      • Image Transformers(이미지 경로 열 변환용)

        • 《densenet121》, 《efficientnetb0》, 《efficientnetb2》, 《inception_v3》, 《mobilenetv2》, 《resnet34》, 《resnet50》, 《seresnet50》, 《seresnext50》, 《xception》

        • 선택적 미세 조정

        • 선택적 GPU 가속(미세 조정 활성화 시 적극 권장함)

        • 자동 차원 축소(dimensionality reduction) 기능이 있는 사전 학습되고 미세 조정 가능한 ImageVectorizer 트랜스포머

        • 이미지는 압축된 아카이브로 또는 로컬이나 원격 위치(URI)에 대한 경로로 제공할 수 있음

        • 압축된 이미지 아카이브를 가져올 때 자동 이미지 레이블 지정(폴더 이름 및 구조에 기반함)

        • 테이블 형식 데이터 세트의 URI로 여러 이미지 열을 처리 가능

        • 단일 실험은 이미지, NLP, 테이블 형식 데이터를 결합 가능함

        • MOJO 지원(CPU 전용 시스템에도 해당)

      • 자동 이미지 모델

        • 엔드-투-엔드 모델 학습, 튜닝 필요 없음

        • 그랜드 마스터 기술을 사용한 최첨단 결과

        • 사전 학습되고 미세 조정된 TensorFlow 모델 기반의 신경망 구조 탐색(Neural Architecture Search)

        • 다중 GPU 학습

        • GUI의 시각적 통찰력(손실, 샘플 이미지, 증강(augmentation), Grad-CAM 시각적 설명)

      • MLI는 이미지 실험에 사용할 수 없으며 진행 중인 작업임

    • PyTorch BERT NLP 사전 학습되고 미세 조정된 최첨단 딥 러닝 모델:

      • 《bert-base-uncased》, 《distilbert-base-uncased》, 《xlnet-base-cased》, 《xlm-mlm-enfr-1024》, 《roberta-base》, 《albert-base-v2》, 《camembert-base》, 《xlm-roberta-base》

      • 선택적 GPU 가속(적극 권장)

      • MOJO 지원(CPU 전용 시스템에도 해당)

      • BERT 트랜스포머(GBM 등 다른 모델의 경우 텍스트 열을 숫자 특성으로 변환)

      • BERT 모델(텍스트 열이 하나만 있는 경우)

    • AutoReport에 현재 다음 항목이 포함됨

      • time series 유효성 검사 전략에 대한 정보

      • 실험 계보(모델 계보 플롯)

      • NLP/이미지 아키텍처 상세 정보

    • 보험 사용 사례에 대한 영과잉(Zero-inflated) 회귀 분석 모델 (분류 + 회귀 분석 모델의 조합)

    • Time series 센터링(centering) 및 디트렌딩(de-trending) 변환:

      • 내부 ML 모델은 목표 신호에서 트렌드 삭제 후 잔차 학습(time series 그룹별)

      • 상수(센터링), 선형 및 로지스틱 트렌드 지원

      • 유행성 모델을 위한 SEIRD((S)usceptible, (E)xposed, (I)nfected, (R)ecovered, (D)eceased) , 모델 매개변수의 상한/하한 완전 구성 가능

    • 상세 설정을 위한 그래픽 config.toml 에디터

    • 사용자 정의 신뢰 수준의 회귀 분석 문제에 대한 경험적 예측 구간 (홀드아웃 예측 기반)

    • 유용한 시각화 기능이 있는 Insights 탭 (현재는 time series 및 이미지 문제에만 적용되어 있음)

    • F05, F1, F2, MCC 스코어러(scorer)의 바이너리 분류 문제의 경우, 최적의 임계값 결정에 동일한 메트릭 사용

    • 사용자 정의 데이터 레시피 가 현재 실험의 모델링 파이프라인에 포함되어 있으며, Python 스코어링 패키지에 포함될 예정

    • 그래픽 문법(Grammar of Graphics)을 따르는 AutoViz의 사용자 정의 시각화

    • (사용자 정의) 스코어러에게 데이터를 전달하여 실제 및 예측 값과 다른 열에 액세스 가능

    • 공통 회귀 분석 및 분류 메트릭에 대한 다양하고 새로운 스코어러 추가

    • 24개국 이상의 휴일 캘린더 추가, 사용자가 국가 목록을 선택하여 is-holiday 특성 생성 가능

    • 관측된 범위에 예측을 클리핑하지 않고 외삽(extrapolation)을 허용하는 회귀 분석 문제에 대해 identity_no_clip 대상 트랜스포머 추가

    • MLI:

      • MLI에 대한 새로운 GUI/UX

      • Original Feature Shapley 중요도에 대해 Kernel Explainer 추가

      • UI에서 Original Feature에 대한 Shapley 값을 CSV 파일로 다운로드하는 기능 추가

      • k-LIME 출력 CSV 파일에 인터셉트 열 추가

      • 모델 오류 디버그를 지원하기 위해 DAI 모델 잔차에서 대리 모델을 실행하는 기능 추가

      • Decision Tree Surrogate 모델 규칙을 텍스트 및 Python 코드로 내보내는 기능 추가

      • 다항 실험을 위한 Decision Tree Surrogate 모델 추가

      • 다항 실험을 위한 LOCO(Leave One Covariate Out) 추가

      • DIA(Disparate Impact Analysis)에 대한 두 가지 일반 공정 대출(fair lending) 메트릭 추가: 표준화 평균 차이(SMD) 및 한계 오차(ME)

      • 다음 페이지에 해석 가능한 두 개의 모델 레시피 추가 https://github.com/h2oai/driverlessai-recipes: GA2M 및 XNN (https://github.com/h2oai/driverlessai-recipes/tree/master/models/mli)

      • MLI 요약 페이지에 바이너리 분류 실험에 대한 예측 레이블 표시

  • 개선 사항:

    • 로그 파일의 향상된 구문 분석(컴퓨터 가독성)

    • 사용자 정의 레시피는 레시피를 생성한 사용자에게만 표시됨, 이전에 생성된 사용자 정의 레시피는 전역적으로 표시

    • time series 실험 속도 향상

    • 미리보기에 최종 파이프라인의 모델링 부분에 대한 상세 내용이 표시되도록 개선

    • 알림 시스템 개선

    • MOJO 크기 감소

    • 사용자 제어 가능한 임계값보다 데이터가 큰 경우에만 불균형 샘플링 기술 허용

    • 사용자 정의 레시피를 위한 최신 H2O-3 백엔드로 업그레이드

    • 대량의 불균형 데이터 세트에서 더 빨라진 특성 선택

  • 설명서 업데이트

    • 애니메이션 GIF 추가

    • 탭 콘텐츠 추가

    • 바이너리 분류를 위한 불균형 샘플링 방법 에 대한 자세한 내용 추가

    • 새 콘텐츠(위 링크된 주제 참조)

  • 버그 수정:

    • 다양한 버그 수정

버전 1.8.10 LTS(2020년 2월 19일)

  • 새로운 기능

    • 리소스 메뉴에 다운로드할 수 있는 새 Python client 표시

    • .avro file 형식 지원 추가

    • 여러 AutoDoc 생성 옵션 추가. config.tomlautodoc_template 옵션을 사용해 AutoDoc 파일 경로 목록으로 설정하여 수행합니다.

  • MOJO 업데이트

    • MOJO 런타임 의존성을 2.5.10으로 업그레이드

    • Tree 및 Linear 기반 부스팅 모델의 Shapley 계산을 위한 MOJO 지원 추가

  • 개선 사항:

    • MLI 로그에 세부 표시 수준 추가

  • 버그 수정:

    • P2.8x Amazon EC2 인스턴스의 LightGBM 모델에서 감지된 정지 오류 수정

버전 1.8.9 LTS(2020년 10월 19일)

여기서 다운로드하기

  • 새로운 기능

    • API 엔드포인트에 구성 가능한 CSRF(Cross-site request forgery) 보호 기능 추가

    • 동시 세션에 대한 보호 기능 추가

  • 개선 사항:

    • 모든 API 엔드포인트에서 웹 서버 기술 정보 숨기기

    • 코드의 구성 가능한 정적 분석을 적용하여 BYOR 보안 향상

    • 세션 검증 및 신뢰성 향상

    • 암호화를 통해 내부 API 핸들러에 대한 보안 향상

  • 버그 수정:

    • 세션 만료 후 사용자 세션 자동 로그아웃 수정

    • 닫힌 세션의 올바른 정리를 위한 수정

    • 역방향 프록시 및 URL 접두사를 사용할 경우 정적 아티팩트로 향하는 잘못된 리디렉션 수정

    • 확장자 없는 파일 가져오기 수정

버전 1.8.8 LTS(2020년 9월 30일)

여기서 다운로드하기

  • 새로운 기능

    • 저장된 변수 중요도의 수에 대한 사용자 컨트롤 제공(즉, Python 및 R 클라이언트는 14개 이상의 값을 다시 가져올 수 있음) (config.toml 파일의 max_varimp_to_save)

    • 24개국 이상의 휴일 캘린더 추가, 사용자가 국가 목록을 선택하여 time series 실험을 위한 is-holiday 특성 생성 가능

    • IBM Power에서 LightGBM 모델에 대한 GPU 지원 활성화

    • rhel8 유사 시스템 지원

    • 역방향 프록시에서 삽입한 JWT 토큰을 사용하여 로그인하는 옵션 적용

    • 사용자가 구성에서 데이터 구분 기호/구분자 지정 가능(datatable_separator config.toml 파일 참조)

    • 민감한 config.toml 값에 대해 암호화된 키 저장소 지원 추가. 현재 LTS 릴리스(1.8.8 이상)에서만 사용할 수 있습니다.

    • MOJO에 Shapley 값 계산을 위해 변환된 열 이름 저장

  • 개선 사항:

    • 확장자 없는 파일 처리의 일관성 추가

    • 웹 서버 요청 처리 개선, 애플리케이션 외부의 리디렉션 허용 안 함

    • 구문 분석 속도를 높이기 위해 로그 파일 서식 개선

    • 커넥터에 대한 로깅 향상

    • 사용자 정의 레시피에 대한 에어 gap 지원 개선

    • Snowflake Stage 테이블을 옵션으로 선택하도록 허용

  • 버그 수정:

    • 역방향 프록시 뒤에 배포 시 OpenID 및 TLS 로그인 리디렉션 수정

    • IBM Power에서 Cgroup 메모리 감지 수정

    • 다양한 MLI 수정

    • 다양한 UI 수정

  • 설명서 업데이트

버전 1.8.7.2 LTS(2020년 7월 13일)

여기서 다운로드하기

  • 버그 수정:

    • 올바른 get_true_usernamestart_session 을 사용하기 위해 authentication_method 매개변수 추가 및 전달

    • SQL과 유사한 커넥터: 쿼리 끝에서 불필요한 세미콜론 삭제

  • 설명서 업데이트

    • 문서에 hive_app_jvm_args 사용

버전 1.8.7.1 LTS(2020년 6월 23일)

여기서 다운로드하기

  • 새로운 기능

    • Bitbucket 서버에 대한 아티팩트 푸시 기능 추가

    • XGBoostGBM, LightGBM, DecisionTree 모델의 monotonicity constraints에 대한 특성별 사용자 컨트롤 추가

  • 버그 수정:

    • Hive Kerberos 가장(impersonation) 수정

    • 가장에 적절한 로그인 사용자 이름을 사용하여 DTap 커넥터 문제 수정

    • XGBoostGBM, LightGBM, DecisionTree 모델에 대한 monotonicity constraints 수정

버전 1.8.7 LTS(2020년 6월 15일)

여기서 다운로드하기

  • 새로운 기능

    • k-LIME csv에 절편 항(intercept term) 추가

    • DAI PD/ICE에서 기본 범주형 및 숫자 특성 렌더링 제어 추가

    • 사용자 정의 레시피 업로드를 특정 git 리포지터리 및 분기로 제한하는 기능 추가

    • 한국어 및 중국어 번역 추가

    • 여러 인증 방법을 동시에 사용하는 기능 추가

  • 개선 사항:

    • Driverless AI가 시작되지 않는 경우 systemctl의 동작 개선

    • JDBC 및 Hive 커넥터에 대한 로깅 동작 개선

    • C++ 스코어러의 동작 개선, tmp 디렉터리에 저장되는 불필요한 파일 감소

    • Kubernetes의 Docker 이미지 동작 개선

    • 익명 바인딩을 허용하도록 LDAP 인증 개선

    • 대량의 광범위한 불균형 데이터 세트에 대한 실험 시 특성 선택 속도 향상

    • 사용 중인 시스템에서 데이터 가져오기 속도 향상

  • 버그 수정:

    • 자동 Kaggle 제출 및 점수 검색 수정

    • 여러 MLI 작업을 동시에 실행할 때 MLI의 대리 DRF 모델에 나타나는 일시적 Java 예외 수정

    • 링크된 실험이 삭제된 경우 배포 삭제 관련 문제 수정

    • Docker Image에서 Jupyter Notebook의 정상 작동을 저해하는 문제 수정

    • Diagnostics 페이지에 표시되지 않는 사용자 정의 레시피 스코어러 수정

    • AWS Lambda Deployment가 삭제된 열을 제대로 처리하지 않는 문제 수정

    • 특정 실험의 GPU 수를 제한할 수 없는 문제 수정

    • 1.7.1 및 1.8.0에서 빌드된 특정 모델의 부정확한 서버 내 스코어링 수정(독립 스코어링은 영향을 받지 않음)

    • 드문 데이터 테이블 형식 캐스팅 예외 수정

  • 설명서 업데이트

    • 《순열 기반 특성 선택을 수행하는 행의 최대 수》 상세 설정의 기본 값은 현재 500,000입니다

    • Hive 및 Snowflake 커넥터 설명서 개선

    • Java 스코어링 파이프라인 섹션의 Main.java 예시 업데이트

    • 애플리케이션 시작 전에 UI에서 언어를 변경하는 방법을 설명하는 문서 추가

    • Autoreport에서 사용자 정의 레시피를 설명하고 문서화하는 방법에 대한 정보 추가

    • LDAP 인증 설명서 업데이트

    • Linux DEB 및 RPM 설치 설명서 개선

    • AWS Community AMI 설치 설명서 개선

    • Reproducible 버튼에 대한 설명서 개선

버전 1.8.6 LTS(2020년 4월 30일)

여기서 다운로드하기

  • 새로운 기능

    • MOJO Scoring Pipeline의 크기를 줄이는 상세 설정 추가(이에 따라 추론에 소요되는 대기 시간 및 메모리 사용량 감소)

    • IBM Power에 대한 Lambda 배포 활성화

    • 배포용 재시작 버튼 추가

    • 지원되는 데이터 세트에 대한 자동 Kaggle 제출 추가, 비공개/공개 점수 표시(Kaggle API 사용자 이름/키 필요)

    • 단일 최종 모델이 폴드 모델보다 백 테스트 분할(time series의 경우) 또는 교차 검증 폴드(IID의 경우)에서 더 나쁜 경우 경고 표시(신호 또는 적합성 중 어느 문제인지 표시)

    • R 클라이언트 API에 autodoc, 실험 preview, 데이터 세트 다운로드, autovis 함수를 포함하여 업데이트

    • 상세 설정에 작은 MOJO 생산 파이프라인을 만들기 위해 효과적으로 설정을 전환할 수 있는 버튼 추가

    • S3 또는 Git 리포지터리에 아티팩트를 업로드하는 옵션 추가

  • 개선 사항:

    • 모델 유형이 변경된 경우 실험 재시작/재조정 견고성 개선

    • 특성 삭제에 대한 추가 보호

    • Hive 커넥터 구현 향상

  • 버그 수정:

    • 파일 가져오기에서 통계 계산 중 무한 루프를 수정하도록 데이터 테이블 업그레이드

    • 웹 서버 및 UI에 동적 기본 URL 접미사 사용

    • 작은 값의 가중치 열을 제공할 때 MLI의 잘못된 min_rows 수정

    • TensorFlow/PyTorch 모델에 대한 MOJO의 segfault 수정

    • MLI에 대해 경과된 시간 수정

    • R 클라이언트에 대해 기본적으로 GPU 활성화

    • Python 스코어링 h2oai ModuleNotFound 오류 수정

    • 특성 삭제 방지를 전체적으로 개선하기 위해 no_drop_features toml 및 상세 버튼 업데이트

    • 데이터 테이블 mmap 전략 수정

  • 설명서 업데이트

    • Hive 데이터 커넥터 활성화에 대한 설명서 추가

    • 스크립트를 사용한 AWS Lambda 배포에 대해 만료된 DAI 라이선스 업데이트에 대한 설명서 추가

    • 아티팩트 업로드 설명서에 아티팩트 스토어의 S3 및 Git에 대한 지원 포함

    • 원핫 인코딩(one-hot encoding)에 대한 설명서 개선

    • systemd 로그/journalctl에 대한 설명서 개선

    • time series ‘예측 시 사용할 수 없는 열’에 대한 설명서 개선

    • Azure Blob Storage에 대한 설명서 개선

    • MOJO Scoring Pipeline에 대한 설명서 개선

    • 새로운 상세 설정을 사용하여 MOJO 크기 줄이기에 대한 정보 추가

버전 1.8.5 LTS(2020년 3월 9일)

여기서 다운로드하기

  • 새로운 기능

    • 대용량(최대 10k) 다중 클래스 문제 처리, GUI 개선 포함

    • 대상 클래스가 드물지 않은 바이너리 문제의 클래스 불균형 감지

    • 반복 패널에 특성 수 추가

    • 실험 요약 zip 파일에 실험 계보 pdf 추가

    • (교차) 검증 폴드에서 최종 파이프라인 점수가 불안정할 경우 경고 발생

    • 상수 모델(Constant Model)이 최종 파이프라인의 품질을 개선하는 경우(신호 품질 저하를 나타냄) 경고 발생

    • 모델 피팅(AUC/R2), Gini 또는 상관 관계 등의 누출 감지 출처 보고

  • 개선 사항:

    • ID 열 처리 개선

    • 예외 처리를 개선하여 Python 예외 발생의 안정성 향상

    • 개별 트랜스포머 또는 모델이 예외 또는 segfault를 발생시키는 경우 예외 처리 개선

    • 실험 선택 사항 변경에 대해 실험 재시작 및 재조정의 견고성 개선

    • 데이터 세트 변환 시 누락 값 처리 개선

    • 모듈의 사용자 정의 레시피 가져오기의 견고성 향상

    • 설치 설명서에 대한 문서 개선

    • time series에 대한 초기 지연 크기 선택 개선

    • 특정 돌연변이 매개변수의 회귀 분석 문제에 대한 LightGBM 안정성 향상

  • 설명서 업데이트

    • time series 실험에 대한 설명서 개선

    • Data Recipe URL 및 데이터 레시피 파일 커넥터의 재활성화 방법을 설명하는 항목 추가

    • 이전 버전의 독립형 Python Scoring Pipeline을 실행하는 사용자를 위해, 오래된 의존성의 업그레이드 버전 설치 방법을 설명하는 정보 추가

    • 《불균형 바이너리 분류 문제의 샘플링 방법》 상세 설정에 대한 설명 개선

    • REST 서버 배포에 관한 제약 사항 추가

    • HDFS 커넥터 섹션에 필수 매개변수 및 선택 매개변수 표시

    • MOJO가 스레드로부터 안전함을 나타내는 FAQ 추가

    • Windows 10에서는 Docker 설치만 지원

    • Recommendations AutoViz 그래프에 대한 정보 추가

    • Before you Begin Installing 항목에 master.db 파일이 이전 Driverless AI 버전과 역호환되지 않는다는 정보 추가

  • 버그 수정:

    • LightGBM의 버그 수정 업데이트, 중단 및 하드 코드된 라이브러리 경로 회피 포함

    • psutil 패키지 사용 안정화

    • 테스트 세트에 목표 값이 누락된 경우 time series 실험 수정

    • Python 스코어링이 원본 data_directory에 의존하지 않도록 수정

    • 사용자 정의 time series 유효성 검사 분할 및 낮은 accuracy에 대한 미리보기 수정

    • 단일 time series에 대해 무시된 최소 지연 크기 설정 수정

    • datetime 열이 포함된 Excel 파일의 구문 분석 수정

    • 대부분의 누락 값이 포함된 열에 대한 열 형식 감지 수정

    • 반복 점수에서 0.0000점의 잘못된 표시 수정

    • 다양한 MLI 수정(잘못된 그래프 표시 안 함, PDP 정렬 순서 수정, 레이블 겹침)

    • 다양한 버그 수정

버전 1.8.4.1 LTS(2020년 2월 4일)

여기서 다운로드하기

  • 동적 포트 할당을 위한 옵션 추가

  • AWS 커뮤니티 AMI에 대한 설명서

  • 다양한 버그 수정(MLI UI)

버전 1.8.4 LTS(2020년 1월 31일)

여기서 다운로드하기

  • 새로운 기능

    • 실험 페이지에 ‘Scores’ 탭 추가, 모델 및 폴드에 대한 자세한 튜닝 테이블과 점수 표시

    • Constant Model(상수 예측) 추가하여 기본 참조 모델로 사용

    • 참조로 실험 요약에 글로벌 상수 예측 점수 표시

    • DriverlessAI의 상호 TLS 설정을 위한 지원 추가

    • 클라이언트/개인 인증서를 인증 방법으로 사용하는 옵션 추가

  • 설명서 업데이트

    • mTLS 및 클라이언트 인증서 인증을 활성화하는 섹션 추가

    • 지원되는 알고리즘 목록에 Constant Model 추가

    • 모델 점수(Model Scores) 페이지를 설명하는 섹션 추가

    • 데이터 테이블 가져오기 프로세스에 대한 C++ 스코어링 파이프라인 설명서 개선

    • Java 스코어링 파이프라인에 대한 설명서 개선

  • 버그 수정:

    • 새 특성 추가 시 최종 파이프라인의 재조정 수정

    • 다양한 버그 수정

버전 1.8.3 LTS(2020년 1월 22일)

여기서 다운로드하기

  • 구성된 디스크 위치에 실험 아티팩트를 업로드하는 옵션 추가

  • 다양한 버그 수정(시간 열의 변수 가공, 브레인 재시작의 마이그레이션 수정)

버전 1.8.2 LTS(2020년 1월 17일)

여기서 다운로드하기

  • 새로운 기능

    • Decision Tree 모델

    • accuracy <= 7 및 해석력 >= 7로 자동 활성화

    • 모든 문제 유형 지원: 회귀 분석/바이너리/다중 클래스

    • MOJO와 함께 LightGBM GPU/CPU 백엔드 사용

    • 파이프라인 시각화의 일부로 트리 분할 및 리프 노드 결정의 시각화

    • 각 열별 대체 방식(실험상)

    • 실험 시작 시 [const, mean, median, min, max, quantile] 대체 방식 중 하나 선택

    • 대체 값 계산 방법 선택: 전체 데이터 세트에서 또는 각 파이프라인의 학습 데이터 분할 내에서

    • 기본적으로 비활성화되어 있음, 시작 시 활성화하여 적용함

    • 실험 요약에 MOJO 크기 및 스코어링 지연 시간(C++/R/Python 런타임) 표시

    • 최종 앙상블에서 저 가중치 기본 모델을 자동으로 잘라내어(해석력 설정에 기반) 최종 모델 복잡도 감소

    • 사용자 정의 레시피의 비원시 github URL을 원시 소스 코드 URL로 자동 변환

  • 개선 사항:

    • time series 및 accuracy가 낮은 실험에 대한 특성 진화 속도 향상

    • 특성 진화 알고리즘의 accuracy 향상

    • 유전자 알고리즘의 모델 및 특성 선택 시 특성 트랜스포머 해석력, 총 카운트, 중요도 고려

    • 실험 페이지의 ROC 곡선의 바이너리 혼동 행렬이 Diagnostics와 일치(TP/TN과 대칭)

    • 실험에 사용자 정의 레시피를 사용하는 경우에만, Python Scoring Pipeline에 사용자 정의 레시피 포함시킴

    • 추가 설명서(새 OpenID config 옵션, JDBC 데이터 커넥터 구문)

    • AutoReport 트랜스포머 설명 개선

    • Autoreport 생성 중 진행률 보고 개선

    • 불균형 다중 클래스 문제에 대한 자동 상호 작용 검색 속도 향상

    • GLM 및 FTRL에 대한 단일 최종 모델의 accuracy 향상

    • Config_overrides에 대해 R 클라이언트 API의 매개변수 목록/벡터를 허용

    • Random Forest 모델에 대한 빠른 중지를 기본적으로 비활성화, 새 ‘rf_early_stopping’ 모드 표시(옵션)

    • 모든 스코어링 파이프라인에 대해 동일한 예시 데이터 생성(1.8.0 이전 버전과 같음)

    • Datatable 및 Java의 버전 업그레이드

    • Docker 이미지에 graphviz 설치, MOJO 패키지 및 Autoreport에서 파이프라인 시각화의 .png 파일을 가져옴. 참고: RPM/DEB/TAR SH 설치의 경우, graphviz를 설치하면 이 기능 옵션을 사용할 수 있음.

  • 설명서 업데이트

    • 라이브 코드를 사용해 레시피별 데이터 세트를 수정하는 간단한 예시 추가

    • 데이터 세트 대체 방법을 설명하는 섹션 추가(실험)

    • 지원되는 알고리즘 목록에 Decision Tree 추가

    • JDBC 커넥터 활성화의 예시 수정

    • 사내 테스트를 수행하지 않은 JDBC 드라이버의 사용 방법을 설명하는 정보 추가

    • 누락 값 처리(Missing Values Handling) 항목에 《트랜스포머의 클러스터링》 및 《Isolation Forest 이상 점수 트랜스포머》에 대한 섹션을 추가

    • 《폴드 열》 설명 개선

  • 버그 수정:

    • 최종 모델 점수가 최고 특성 진화 점수와 차이가 큰 다양한 이유 수정

    • 테스트 세트 채점 중에 생성된 임시 파일 삭제

    • 대상 트랜스포머 튜닝 수정(잠재적으로 특성 진화와 최종 모델 사이에 대상 트랜스포머 혼합)

    • tensorflow_nlp_have_gpus_in_production=true 모드 수정

    • 누락된 datetime 값의 Partial Dependence Plot을 수정하고 텍스트 열에 표시하지 않음

    • 분기별 데이터에 대한 time series GUI 수정

    • 특성 트랜스포머 탐색을 새 특성 1,000개 이하로 제한(10/10/1의 작은 데이터는 너무 많은 특성을 시도함)

    • Kaggle 파이프라인이 8개 이상의 입력 특성을 시도하도록 빌드 레시피 수정

    • 사용자 정의 데이터 레시피에 대한 라이브 코드 에디터의 커서 배치 수정

    • 교차 검증 분할 수가 10개를 초과하는 경우, 파이프라인 시각화에 올바른 교차 검증 분할 수 표시

    • ’%d’(일)이 없는 일부 datetime 형식에 대한 MOJO의 날짜/시간 구문 분석 수정

    • 다양한 버그 수정

  • 역방향/정방향 호환성

    • 1.8.2 LTS에서 빌드된 모델은 새로 나올 버전 1.8.x LTS에서 계속 지원함

    • 1.7.1/1.8.0/1.8.1에서 빌드된 모델의 사용이 중단되는 것은 아니며 계속 유효함(MOJO 및 Autoreport 생성, MLI, 스코어링 등을 유지하기 위해 적극 노력함)

    • 1.7.0 이전 버전에서 빌드된 모델은 더 이상 사용되지 않음

버전 1.8.1.1(2019년 12월 21일)

여기서 다운로드하기

  • GUI에서 시작 시 분기별 데이터를 사용한 time series 실험의 버그 수정

버전 1.8.1(2019년 12월 10일)

여기서 다운로드하기

  • 새로운 기능

    • 단일 최종 모델(time series 또는 i.i.d)을 사용한 실험에 대한 스코어링 메트릭과 그에 상응하는 다운로드 가능한 홀드아웃 예측값의 전체 세트

    • MLI 업데이트

      • What-If(민감도) 분석

      • 텍스트 데이터에 대한 실험 해석(NLP)

    • 사용자 정의 데이터 레시피 BYOR

      • Python의 BYOR(bring your own recipe): DAI 내에서 빠른 커넥터 프로토타입 생성 및 데이터 전처리를 위한 pandas, numpy, datatable, 타사 라이브러리

      • 데이터 커넥터, 정리, 필터링, 집계, 증강, 변수 가공, 분할 등

      • 처음부터 새로 또는 기존 데이터 세트로 하나 또는 여러 데이터 세트 생성 가능

      • 실시간 미리보기 기능이 있는 대화형 코드 에디터

      • 예제 코드: https://github.com/h2oai/driverlessai-recipes/tree/rel-1.8.1/data

    • 최종 스코어링 파이프라인(실험용)의 시각화

      • 전체 기계학습 파이프라인의 변수 가공, 모델링, 앙상블 단계를 그래프로 GUI에 표시

      • Autodoc에 추가

    • Time Series:

      • time series 실험에 대해 테스트 시간에 사용할 수 없는 특성을 지정하는 기능

      • time series 실험을 위한 맞춤형 사용자 제공 학습/검증 분할(각 분할의 시작/종료 날짜/시간별)

      • 롤링 윈도우(구성 가능한 윈도우 수) 기반의 time series 실험(회귀 분석 및 분류, 지연 유무에 관계 없음)에 대한 백 테스트 메트릭

    • MOJO

      • FTRL용 Java MOJO

      • BERT/DistilBERT NLP 모델(요청시 제공)에 기반한 사용자 정의 레시피를 위한 PyTorch MOJO(C++/Py/R)

  • 개선 사항:

    • Accuracy:

      • 숫자 특성((《매직 특성》 파인더)에 대한 자동 쌍대(pairwise) 상호 작용 검색(+,-,*,/)

      • 해석력이 낮은 time series 실험의 accuracy 향상

      • 누출 감지 로직 개선

      • 특성 진화에 대한 유전자 알고리즘 추론 향상(더 많은 탐색)

    • Time Series 레시피

      • time series 실험에 대한 Python Scoring Pipeline의 테스트 시간 증강 기능 재활성화

      • time series 롤링 홀드아웃 예측 수의 기본값을 검증 분할과 동일하게 줄임(구성 가능)

    • 계산

      • 단일 최종 모델을 사용한 non-time-series 실험의 특성 진화 속도 향상

      • 내부 재샘플링 모음 수를 제한하여 고급 클래스 불균형에 대한 바이너리 불균형 모델의 속도 향상

      • 더 빨라진 특성 선택

      • ImbalancedXGBoostGBMModel에 대한 GPU 지원 활성화

      • 한 번에 여러 파일 가져오기 속도 향상

      • time series 속성의 자동 결정 속도 향상

      • accuracy 설정이 낮은 경우 대량 데이터 세트에서 XGBoost 모델 사용 활성화, 상세 설정에 데이터 세트 크기 제한 표시

      • 모든 실험의 메모리 사용량 감소

      • time series 실험에 대한 홀드아웃 예측 생성 속도 향상(기본적으로 Shapley 값은 요청시 MLI로 계산)

    • UX 개선 사항

      • 데이터 세트 이름 변경 기능 추가

      • 상세 설정을 위한 검색 창 추가

      • 장기 실행 실험에 대한 추적 표시

      • 모든 실험에서 MOJO 생성(가능한 경우 ‘auto’로 설정)

      • 모든 실험에서 파이프라인 시각화 생성

      • 기본적으로 모든 실험(iid 및 time series)에서 학습 데이터에 대한 홀드아웃 예측과 최종 모델에 대한 전체 메트릭 제공

  • 설명서 업데이트

    • GPU 지속성 모드 활성화 단계 업데이트

    • 사용하지 않는 NVIDIA 기능에 대한 정보 추가

    • LDAP 인증 활성화에 대한 설명서 개선

    • 데이터 세트의 열 유형 변경에 대한 정보 추가

    • 실험 요약에 포함되는 실험 아티팩트 목록 업데이트

    • Driverless AI Docker 컨테이너 내에서 REST 서비스 배포를 위해 Docker에 포트를 표시하는 방법을 설명하는 단계 추가

    • 사용자 정의 변환 레시피로 실험을 실행하는 방법을 보여주는 예제 추가

    • TLS/SSL 설정에 대한 FAQ 개선

    • Windows에서 데이터 커넥터를 사용하여 Import Folder as File 을 시도할 때 발생할 수 있는 문제를 설명하는 FAQ 추가

  • 버그 수정:

    • 브레인 재시작/리핏을 통해 채점되지 않은 이전 파이프라인을 수락하도록 허용

    • 회귀 분석 모델의 진단을 위해 실제 레이블과 예측 레이블 수정

    • 항등 변환 이외에 비대상 트랜스포머의 TensorFlow에 대한 MOJO 수정

    • Excel 파일에 대한 열 유형 감지 수정

    • 기본 상세 설정으로 MOJO를 사용하는 실험 허용

    • 다양한 버그 수정

버전 1.8.0(2019년 10월 3일)

여기서 다운로드하기

  • 변수 가공의 속도 및 메모리 사용량 개선

  • 누출 및 이동 감지 속도를 개선, accuracy 개선

  • 시스템 고부하 시 AutoVis의 속도 향상

  • 사용자가 제공한 대량 검증 데이터로 실험 속도 향상

  • 회귀 분석 문제에 대한 앙상블 accuracy 향상

  • Autoreport 생성 개선(실험당 백그라운드 작업 하나만 가능)

  • ImbalancedXGBoost 및 ImbalancedLightGBM 모델에 대한 샘플링 기법 개선, 기본적으로 비활성화하여 속도 저하 방지

  • FTRL 및 RandomForest에 대한 Python/R/C++ MOJO 지원 추가

  • CPU 모드에서 LightGBM에 대한 Native 범주 처리 추가

  • LightGBM에 대한 monotonicity constraints 조건 지원 추가

  • Isolation Forest Anomaly Score 트랜스포머 추가(outliers 감지)

  • GLM 모델에 대한 원-핫 인코딩 재활성화

  • 사전 레이블 인코딩 추가(기본적으로 비활성화)

  • 나머지 신경망 그래프의 파인 튜닝 외에, TensorFlow NLP 트랜스포머에 대해 사용자가 제공한 사전 학습된 임베딩을 추가로 학습시키는 기능 추가

  • BYOR 수락 테스트에 대한 시간 제한 추가

  • 튜닝 모델과 비교하여 최종 모델 변수 중요도의 큰 변화에 대한 로그 및 알림 추가

  • time series 변수 가공에 대한 상세 제어 기능 추가

  • 레시피를 전체(또는 일부) github 리포지터리로 또는 페이지에서 Python 파일의 링크로 대량 업로드하는 기능 추가

  • 폴드 열에 누락 값 허용

  • 이전에 다시 시작한 모델의 《동일한 매개변수를 사용하여 새 모델》을 시작할 때 특성 브레인에 대한 지원 추가

  • 《최종 파이프라인 재학습》 중에 파이프라인에 추가 특성을 포함할지 여부를 전환하는 지원 추가

  • 기본적으로 실험 런타임을 1일로 제한(대략적 적용, 상세 설정 -> 실험 또는 config.toml ‘max_runtime_minutes’에서 구성 가능)

  • Pickled Pandas 프레임(.pkl) 가져 오기 지원 추가

  • MLI 업데이트

    • 메트릭 및 실제 vs. 예측 차트 모두에 대해 MLI TS에 홀드아웃 예측 및 테스트 세트 예측(해당하는 경우) 표시

    • MLI TS에서 그룹 메트릭을 다운로드하는 기능 추가

    • MLI TS에서 차트를 확대하는 기능 추가

    • DAI 모델에서 사용하지 않는 열을 MLI에서 k-LIME 클러스터 열로 사용하는 기능 추가

    • MLI에서 원본 및 변환 DAI 모델 기반 특성 중요도를 볼 수 있는 기능 추가

    • 원래 특성에 대한 Shapley 중요도를 보는 기능 추가

    • 구성 옵션 autodoc_include_permutation_feature_importanceon 으로 설정된 경우 DAI 모델에 대한 순열 중요도를 보는 기능 추가

    • 여러 메트릭(분자에서 False Positive 및 True Negative을 사용하는 메트릭)에 잘못된 계산을 초래하는 바이너리 DIA(Disparate Impact Analysis)의 버그 수정

  • 기본적으로 NLP TensorFlow 트랜스포머 비활성화(NLP 상세 설정에서 《on》으로 전환하여 활성화)

  • 상세 설정 재편성, 변수 가공용 탭 추가

  • 사용자, 시스템 또는 서버 재시작에 의해 실험이 중단된 경우 알림 제공

  • 코어 사용 실험에 우선순위를 부여하여 서버에서 시작된 모든 작업의 ​​부하 감소

  • 중단된 실험 로그에 실험 요약 파일 추가

  • 앙상블의 모델이 조기 중지에도 불구하고 max 반복 한계에 도달하는 경우 경고 기능 추가, 상세 패널의 학습률 제어 관리

  • 진행 상태 보고 기능 개선

  • 사용자 정의 레시피를 사용하지 않는 경우 채점용 H2O 레시피 서버 비활성화 허용(Java 종속성 방지)

  • RMSPE 스코어러 수정

  • URL을 통해 업로드 시 레시피 오류 처리 수정

  • GUI가 실험 페이지에 있을 때마다 Autoreport가 생성되면서 서버 분기로 인해 시스템이 과부하되는 문제 수정

  • Autoreport PDP 계산에 대한 시간 제한을 수정하여 완료 시간 단축

  • GUI 상세 설정에서 특정 구성 설정이 적용되도록 수정(woe_bin_list, ohe_bin_list, text_gene_max_ngram, text_gene_dim_reduction_choice, tensorflow_max_epochs_nlp, tensorflow_nlp_pretrained_embeddings_file_path, holiday_country), 이전에는 시작 시 제공된 경우에만 적용되었음

  • 채점된 테스트 세트 다운로드 중 추가 열의 열 유형 수정

  • TS 실험에서 GUI가 forecast horizon에 대한 시간을 잘못 변환하는 문제 수정

  • AutoVis의 문자열 열에 대한 상관 관계 계산 수정

  • R MOJO 런타임의 다운로드 수정

  • LightGBM RF 모드의 매개변수 수정

  • LightGBM 및 XGBoost에 대한 다트 매개변수 수정

  • 설명서 업데이트

    • 설치 및 업그레이드를 원활하게 진행할 수 있도록 ‘설치 또는 업그레이드를 시작하기 전에’ 항목에 자세한 정보 추가

    • AWS Community와 AWS Marketplace AMI 중에서 선택하는 방법을 설명하는 항목 추가

    • MOJO2 Javadoc 검색 방법에 대한 정보 추가

    • Driverless AI 1.7.x 릴리스에서 작동하는 Python Client 예제 업데이트

    • 새로운 특성, 상세 설정, MLI 플롯 등에 대한 설명서 업데이트

  • 역방향/정방향 호환성

    • 1.8.0에서 빌드된 모델은 버전 1.8.x에서 계속 지원함

    • 1.7.1에서 빌드된 모델의 사용이 중단되는 것은 아니며 계속 유효함(MOJO 및 Autoreport 생성, MLI, 스코어링 등을 유지하기 위해 적극 노력함)

    • 1.8.0은 scipy 버전 1.3.1로 업그레이드되어 최신 사용자 정의 레시피를 지원합니다. 이로 인해 scipy 버전 1.2.2(및 이를 사용한 실험)에 기반한 사용자 정의 레시피는 사용되지 않을 수 있으며, 해당 사용자 정의 레시피를 다시 가져와야 할 수 있습니다. 이전에 빌드된 Python Scoring Pipeline은 계속 작동합니다.

    • 1.7.0 이전 버전에서 빌드된 모델은 더 이상 사용되지 않음

  • 다양한 버그 수정

버전 1.7.1(2019년 8월 19일)

여기서 다운로드하기

  • 불균형 바이너리 분류 문제에 대한 내부 샘플링 기법을 사용하는 2개의 새로운 모델 추가: ImbalancedXGBoost 및 ImbalancedLightGBM

  • 시계열 실험에 대한 롤링 윈도우 기반 예측 지원 추가(2가지 옵션: 테스트 시간 증강 또는 리핏)

  • 데이터 세트에 대한 논리적 열 유형 설정 지원 추가(실험 중 유형 감지 재정의)

  • 실험 시작 시 실험 이름 설정 기능 추가

  • time series 문제에 대한 누출 감지 추가

  • JDBC 커넥터 추가

  • MOJO 업데이트

    • TensorFlow 모델에 대한 Python/R/C++ MOJO 지원 추가

    • TensorFlow NLP 트랜스포머에 대한 Python/R/C++ MOJO 지원 추가: TextCNN, CharCNN, BiGRU, 제공되는 경우 사전 학습된 임베딩 포함

    • MOJO 생성에 대한 메모리 사용량 감소

    • MOJO 생성 속도 향상

    • MOJO 및 Python Scoring Pipeline의 구성 옵션에 3단 토글 제공: 《on》/》off》/》auto》

  • MLI 업데이트

    • MLI에 대한 DIA(Disparate Impact Analysis) 추가

    • 삭제해야 하는 열 이름이 있는 데이터 세트에 대해 MLI 스코어링 파이프라인을 빌드할 수 있음

    • MLI의 부분 종속성 및 ICE에 대한 날짜 인식 비닝

  • 지연 기반 특성에 대한 정규화 기술을 사용하여 time series 모델링의 일반화 성능 향상

  • 회귀 분석 문제에 대한 《예측 vs 실제》 플롯 개선(적응형 포인트 크기 사용)

  • 2GB보다 큰 문자열 열 조작에 대한 데이터 테이블의 버그 수정

  • 사용자가 제공한 검증 데이터에 대한 예측 다운로드 수정

  • time series Test-Time Augmentation의 버그 수정(테스트 세트에 전체 학습 데이터를 포함하여 해결)

  • 상세 설정 플래그를 적용하여 상세 추적 활성화(기본적으로 다시 비활성화)

  • 다양한 버그 수정

버전 1.6.4 LTS(2019년 8월 19일)

여기서 다운로드하기

  • ML Core 업데이트

    • 스키마 감지 속도 향상

    • DAI가 회귀 분석 문제를 진단 시 누락값이 있는 행 삭제

    • 열 유형 감지 속도 향상

    • 개별 확장 수정

    • 예측에 대한 n_jobs 수정

    • 왜곡된 데이터 세트의 예측 변수에 더 이상 대상 열이 포함되지 않음

    • 로컬에서 사용자의 데이터 파일 다운로드를 방지하는 옵션 추가

    • UI 분할 기능 개선

    • 새로운 《max_listing_items》 config 옵션으로 목록 페이지에서 가져오는 항목 수 제한

  • 모델 Ops 업데이트:

    • MOJO 런타임을 버전 2.1.3으로 업그레이드하여 영구 MOJO 파이프라인 지원

    • 배포 템플릿을 MOJO 런타임 버전과 일치하는 버전으로 업그레이드

  • MLI 업데이트

    • MLI 스키마 빌더로 수정

    • 범주형 사유 코드 구문 분석 수정

    • 정수 시간 열의 처리 기능 추가

  • 다양한 버그 수정

버전 1.7.0(2019년 7월 7일)

여기서 다운로드하기

  • 트랜스포머, 모델(알고리즘), 스코어러에 대해 BYOR(Bring Your Own Recipe) 지원

  • Python, R, Java용 protobuf 기반 MOJO 채점 런타임 라이브러리 추가(독립형, 저지연)

  • AWS Lambda 엔드포인트 이외에, MOJO Scoring Pipeline에 대한 원 클릭 배포 옵션으로 로컬 REST 서버 추가

  • Python client 이외에 R 클라이언트 패키지 추가

  • 데이터 세트 및 실험을 그룹화하고 실험의 시각적 비교와 리더보드 생성을 수행하는 Project 작업 공간 추가

  • 가져온 데이터 세트를 .csv로 다운로드하는 기능 추가

  • AutoViz의 열 변환에 대한 Recommendations

  • 확장성 및 성능 향상

  • 실험에 max 런타임을 제공하는 기능

  • 실험 구성이 허용하는 경우 기본적으로 MOJO Scoring Pipeline 생성(사용자 편의를 위해 입력 없이 로컬/cloud 배포 옵션 사용)

  • TensorFlow NLP 모델에 대해 사용자가 제공한 사전 학습된 임베딩 지원

  • 일부 대상 클래스가 없는 홀드아웃 분할 지원(폴드 열이 제공되면 가능)

  • MLI 업데이트

    • 회귀 분석 문제에 대한 잔차 플롯 추가(모든 outliers를 손상 없이 유지)

    • 다항 문제에 대한 기본 메트릭 표시로 혼동 행렬 추가

    • MLI GUI에 Driverless.ai 모델에 대한 PD(Partial Dependence) 및 Individual Conditional Expectation (ICE) 플롯 추가

    • MLI GUI에 ID 열별 검색 기능 추가

    • 모든 특성에 대해 MLI PD/ICE를 실행하는 기능 추가

    • 대상 및 예측의 평균을 사용하여(해당되는 경우) MLI TS에서 단일 시간 열에 대한 여러 관측치를 처리하는 기능 추가

    • MLI TS에서 정수 시간 열을 처리하는 기능 추가

    • 테스트 세트가 제공되지 않는 경우 MLI TS는 학습 홀드아웃 예측을 사용

  • 《》 및 《》%Y%m%d》 및 《》%Y%m%d%H%M》 시간 형식 문자열이 있는 파일과 많은 텍스트 문자열이 있는 파일 가져오기 속도 향상

  • RMSPE 스코어러의 단위를 백분율로 수정(x 100)

  • MAPE 및 SMAPE 스코어러의 비긍정(non-Positive) 결과 허용

  • GUI의 목록 개선

  • GUI에서 확대/축소 가능

  • TensorFlow 1.13.1 및 CUDA 10으로 업그레이드(CUDA를 배포에 포함하여 설치 단순화)

  • PPC에서 TensorFlow에 대한 CPU 지원 추가

  • 설명서 업데이트

    • 다음을 포함하여 새 특성에 대한 설명서 추가

      • Projects

      • 사용자 정의 레시피

      • C++ MOJO Scoring Pipeline

      • R Client API

      • REST 서버 배포

    • 실험 페이지에 변수 중요도 값에 대한 정보 추가

    • 상세 설정에 대한 설명서 업데이트

    • 《팁과 도움말》의 새 스코어링 파이프라인 팁 업그레이드

  • 다양한 버그 수정

버전 1.6.3 LTS(2019년 6월 14일)

여기서 다운로드하기

  • Audit 로그 특성 포함

  • MOJO의 parquet 파일에 대한 십진수 형식 지원 수정

  • Autodoc에서 PDP/ICE를 특성 중요도 순으로 정렬 가능

  • 세션 관리 업데이트

  • 데이터 테이블 업그레이드

  • 향상된 재현성

  • 모델 진단에 가중치 열 사용

  • MLI가 모든 원본 특성 또는 DAI가 사용하는 모든 변환된 특성에 대해 대리 모델 빌드 가능

  • 내부 서버 캐시에 사용자 이름 고려

  • time series 설정 문제 수정

  • MOJO 로드 시 메모리 부족 오류 수정

  • TensorFlow에 대한 Python 스코어링 패키지 수정

  • OpenID 구성 추가

  • 설명서 업데이트

    • 실험 요약에 있는 아티팩트 목록 업데이트

    • 지원되지 않지만 사용 가능한 특성에 대한 설명서의 언어 명료화

    • 배포되는 Terraform 요구 사항의 경우 0.11.x 릴리스의 Terraform 버전만 지원(특히 0.11.10 이상)됨을 명확하게 지정

    • Miniconda 설치 설명서의 링크 수정

  • 다양한 버그 수정

버전 1.6.2 LTS(2019년 5월 10일)

여기서 다운로드하기

  • 이 버전에서는 PPC64le 아티팩트가 제공됨

  • 데이터 테이블 안정성 개선

  • 파일 브라우저의 경로 필터링 개선

  • RMSPE 스코어러의 단위를 백분율로 수정(x 100)

  • 글꼴 패키지가 설치된 Ubuntu 18의 세분화 오류 수정

  • IBM Spectrum Conductor 인증 수정

  • EC2 머신 자격 증명 처리 수정

  • 지연 트랜스포머 구성 수정

  • KDB 및 Snowflake 오류 보고 수정

  • 고장 발생 시 열 통계 계산에 사용되는 작업자 수의 점진적 감소

  • 사용된 Tornado 버전을 표시하는 기본 Tornado 헤더 숨기기

  • 설명서 업데이트

    • AWS Marketplace를 통한 설치 설명 추가

    • Google Cloud를 통한 설치 설명서 개선

    • FAQ 설명서 개선

    • 데이터 샘플링 설명서 항목 추가

  • 다양한 버그 수정

버전 1.6.1.1 LTS(2019년 4월 24일)

여기서 다운로드하기

  • AWS 역할 처리 수정

버전 1.6.1 LTS(2019년 4월 18일)

여기서 다운로드하기

  • MLI에 대한 여러 항목 수정(partial dependence 플롯, Shapley 값)

  • 모델 배포, time series 채점, AutoVis, FAQ에 대한 설명서 개선

버전 1.6.0 LTS(2019년 4월 5일)

개인 빌드만 해당됨.

  • 2GB보다 큰 문자열 열 가져오기 수정

  • Windows에서 AutoViz 충돌 수정

  • MLI의 분위수(quantile) 비닝 수정

  • MLI에서 전역 평균 Shapley 값 대신 전역 절대 평균 Shapley 값 플로팅

  • MLI의 PDP/ICE 플롯 개선

  • AWS Lambda 배포의 검증된 Terraform 버전

  • AutoDoc에서 NULL 변수 중요도에 대한 지원 추가

  • AutoDoc에서 변수 중요도 테이블 크기 구성 가능

  • 다양한 조합의 데이터 가져오기 옵션 활성화/비활성화 지원 개선

  • CUDA가 배포에 포함되어 설치가 간편해짐

  • 보안 업데이트:

    • 모든 h2oai_client 호출에 대해 SSL 설정 적용.

    • 브라우저에서 LocalStorage를 사용해 정보를 캐시하지 않도록 방지하는 구성 옵션 추가

    • Tornado 서버를 버전 5.1.1로 업그레이드

    • 세션 만료 및 자동 로그아웃 기능 개선

    • 파일 브라우저에서 Driverless AI 데이터 폴더에 대한 액세스 비활성화

    • 파일 브라우저에 표시되는 콘텐츠를 필터링하는 옵션 제공

    • HDFS 가장(impersonation)에 미리 정의된 이름 대신 로그인 이름 사용

    • 로그인 양식에서 자동 완성 기능 비활성화

  • 다양한 버그 수정

버전 1.5.4(2019년 2월 24일)

여기서 다운로드하기

  • 특정 형식(현재 〈max_rows_col_stats〉 매개변수 사용)을 사용하여 날짜/날짜-시간 열에 대한 열 통계 계산 속도 향상

  • 실험 요약 파일에 변수 중요도에 대한 표준 편차 계산 추가

  • 특성 진화와 최종 파이프라인 간의 변수 중요도 이동 계산 추가

  • MLI Time Series 실험에 대한 링크 수정

  • 장기 실험의 반복 점수에 대한 표시 버그 수정

  • GLM 모델 실험의 조기 완료에 대한 표시 버그 수정

  • 왜곡된 대상의 경우 k-LIME에 대한 표시 버그 수정

  • Time Series에 대한 MLI의 forecast horizon에 대한 표시 버그 수정

  • 단일 시간 그룹 열의 Time Series에 대한 MLI 수정

  • 1.5.0 및 1.5.1에서 생성된 time series 실험의 서버 내 채점 수정

  • OpenBLAS 종속성 수정

  • Docker에서 비활성화된 GPU 지속성 모드 감지

  • TensorFlow NLP 실험 중 디스크 사용량 감소

  • 중단된 실험의 디스크 사용량 감소

  • 애플리케이션 시작 중에 보고된 실험 크기 새로 고침

  • TensorFlow NLP 트랜스포머를 기본적으로 비활성화하여 실험 속도 향상(상세 설정에서 활성화).

  • 실험 중 표시되는 진행률 개선

  • 설명서 개선(Windows에서 업그레이드, 가장 단순한 모델 생성 방법, DTap 커넥터 등)

  • 다양한 버그 수정

버전 1.5.3(2019년 2월 8일)

여기서 다운로드하기

  • 날짜, 날짜/시간 또는 정수 값을 포함하는 시간 열을 통해 시간 기준의 데이터 세트 분할 지원 추가

  • 파일 업로드 비활성화 옵션 추가

  • 인증을 통한 실험 아티팩트 다운로드

  • 검증 또는 테스트 프레임에서 찾을 수 없는 예측 변수 열은 학습 프레임에서 자동 삭제 및 경고 생성

  • 물리적 CPU 코어만 사용하여 성능 향상(config.toml에서 구성 가능)

  • 비활성 데이터 커넥터를 표시하지 않는 옵션 추가

  • 다양한 버그 수정

버전 1.5.2(2019년 2월 2일)

여기서 다운로드하기

  • NLP 특성에 대한 세계적 수준의 양방향 GRU Tensorflow 모델 추가

  • NLP 특성에 대한 문자 수준의 CNN Tensorflow 모델 추가

  • 한 번에 여러 개의 개별 데이터 세트 가져오기 지원 추가

  • time series 실험에 대한 홀드아웃 예측 지원 추가

  • FTRL에 대한 회귀 분석 및 다항 분류 지원 추가(이항 분류 이외에)

  • 테스트 데이터에 실제 대상 값이 포함된 경우 time series에 대한 스코어링 향상(누락된 대상 값 예측)

  • LightGBM 모델의 메모리 사용량 감소

  • 변수 가공의 성능 향상

  • TensorFlow 모델의 속도 향상

  • time series 문제에 대한 MLI GUI 개선

  • fold_column이 제공되는 경우 최종 모델 폴드 분할 수정

  • 다양한 버그 수정

버전 1.5.1(2019년 1월 22일)

여기서 다운로드하기

  • GLM에 대한 MOJO 수정

  • 실험 요약의 .csv 파일 다시 추가

  • 파이프라인 타이밍 아티팩트 수집 개선

  • Docker 태그 정리

버전 1.5.0(2019년 1월 18일)

여기서 다운로드하기

  • 모델 진단 추가(새 테스트 데이터에 대한 대화형 모델 메트릭, 회귀 분석에 대한 잔차 분석 포함)

  • FTRL 모델 추가(Follow The Regularized Leader)

  • Kolmogorov-Smirnov 메트릭 추가(Positive 및 Negative 간의 구분 정도)

  • 새 데이터에서 최종 모델(만)의 재학습 기능 추가

  • GLM의 경우, 카디널리티(cardinality)가 낮은 범주형 특성에 대한 원-핫 인코딩 추가

  • 32비트(기본값)와 64비트 정밀도 중 선택 기능 추가

  • 시스템 정보 추가(CPU, GPU, 디스크, 메모리, 실험)

  • 시간 gap이 훨씬 더 많은 time series 데이터 및 주중 전용 데이터에 대한 지원 추가

  • Amazon Lambda 에 원 클릭 배포 추가

  • 데이터 세트의 무작위 분할 기능 추가, 대상 열별 계층화 또는 폴드 열별 그룹화 옵션 포함

  • OpenID 인증 지원 추가

  • BlueData용 커넥터 추가

  • 과부하 상태에서 GUI의 응답성 향상

  • 변수 가공의 속도 향상 및 메모리 사용량 감소

  • RuleFit 모델 성능 개선, GPU 및 다항 지원 활성화

  • time series 문제에 대한 시간 주파수 자동 감지 개선

  • 외부 검증이 제공되는 경우 최종 단일 모델의 accuracy 향상

  • 외부 검증 데이터가 제공되는 경우 최종 파이프라인 개선(앙상블 추가)

  • 전체 원본 특성 중에서 DAI가 중요하다고 간주하는 원본 특성을 사용하여 MLI의 k-LIME 개선

  • 모든 대리 모델에 대해 기본적으로 3중 CV를 사용한 MLI 개선

  • MLI time series의 GUI 개선(통합 도움말, 통합 개선)

  • MLI time series 실험이 실행되는 동안 MLI time series 로그 확인 기능 추가

  • AutoDoc(Automatic Report)의 PDF 버전을 Word 버전으로 대체

  • 다양한 버그 수정(GLM accuracy, UI 속도 저하, MLI UI, AutoVis)

버전 1.4.2(2018년 12월 3일)

여기서 다운로드하기

  • IBM Power 아키텍처 지원

  • 학습 속도 향상, 최종 파이프라인 크기 감소

  • 최종 파이프라인 학습 중 리소스 활용 감소

  • 검증 메트릭 이외에 GUI에 테스트 세트 메트릭(ROC, ROCPR, Gain, Lift) 표시(테스트 세트가 제공된 경우)

  • ROC 곡선에서 Accuracy, MCC, F1에 대한 최상의 임계값 위치 표시

  • AutoVis에서 산점도의 상대적 포인트 크기 조정 추가

  • Python Client API에서 파일 업로드 수정 및 모델 체크포인팅 추가

  • 다양한 버그 수정

버전 1.4.1(2018년 11월 11일)

여기서 다운로드하기

  • time series에 대한 MLI 통합 개선

  • 최종 앙상블 중 디스크 및 메모리 사용량 감소

  • 이전에 가져온 데이터 세트에서 채점 및 변환 허용

  • 미완료 모델에 대한 체크포인트 재시작 활성화

  • GPU에서 LightGBM의 OpenCL 플랫폼에 대한 시작 검사 추가

  • 앙상블에 대한 특성 중요도 개선

  • 날짜/날짜-시간 열에 대한 데이터 세트 통계 속도 향상

  • 더 빨라진 MOJO 배치 스코어링

  • 잠재적 중단 수정

  • MOJO에서 ‘목록에 없음’ 오류 수정

  • MLI의 NullPointerException 수정

  • AutoVis의 outliers 감지 수정

  • 다양한 버그 수정

버전 1.4.0(2018년 10월 27일)

여기서 다운로드하기

  • 기본적으로 LightGBM 활성화(현재 MOJO 사용)

  • GBM Decision Tree, Random Forest(rf), Dropout에 맞게 조정된 LightGBM으로 Multiple Additive Regression Trees(dart) 충족

  • 시간 열에 대한 ‘isHoliday’ 특성 추가

  • 데이터 미리보기에서 날짜/날짜-시간 열의 ‘시간’ 열 형식 추가

  • .jay 형식의 바이너리 데이터 테이블 파일 수집 지원 추가

  • 최종 앙상블 개선(각 모델마다 고유한 특성 파이프라인이 있음)

  • 이전 실험의 자동 스마트 체크포인팅(특성 브레인)

  • Kdb+ 커넥터 추가

  • 처리할 열 >> 100개 이상인 데이터에 대한 원래 열의 특성 선택

  • time series 레시피 개선(다중 검증 분할, 로직 개선)

  • AutoVis 성능 향상

  • 날짜 감지 로직 향상(%Y%m%d 및 %Y-%m 날짜 형식 감지)

  • GPU 메모리 부족 시 CPU 모드로 자동 폴백(XGBoost, GLM, LightGBM)

  • 데이터 형식이 일치하는 경우 검증 및 테스트 데이터 세트의 헤더가 필요하지 않음

  • 데이터 이동 감지를 위한 텍스트 열을 포함하지 않음

  • MLI에서 time series 모델 지원 추가(time series 그룹 선택 기능 포함)

  • MLI 실험 페이지에서 MLI 로그를 다운로드하는 기능 추가(Python 및 Java 로그 모두 포함)

  • MLI 실험 실행 중 MLI 로그를 볼 수 있는 기능 추가(Python 및 Java 로그)

  • MLI 페이지에서 LIME 및 Shapley 사유 코드를 다운로드하는 기능 추가

  • 변환된 특성에 대해 MLI를 실행하는 기능 추가

  • MLI 요약에 DAI 및 대리 모델의 MLI 변수 중요도에 대한 모든 변수 표시

  • MLI 요약에 DAI 변수 중요도 목록에 대한 변수 정의 포함

  • 관측 가중치가 정해진 경우 Gain/Lift 차트 수정

  • 다양한 버그 수정

버전 1.3.1(2018년 9월 12일)

여기서 다운로드하기

  • TensorFlow 모델의 ‘Broken pipe’ 오류 수정

  • 범주형 특성 및 해석력 >= 8의 time series 문제 수정

  • 다양한 버그 수정

버전 1.3.0(2018년 9월 4일)

여기서 다운로드하기

  • LightGBM 모델 추가 - 현재 [XGBoost, LightGBM, GLM, TensorFlow, RuleFit]

  • CNN 딥러닝 모델 기반의 TensorFlow NLP 레시피 추가(감정 분석, 문서 분류 등)

  • GLM에 대한 MOJO 추가

  • 상세한 혼동 행렬 통계 추가

  • 상세 설정 추가

  • 데이터 탐색 개선(열 통계 및 행 기반 데이터 미리보기)

  • 특성 진화 단계의 속도 향상

  • GLM 속도 향상

  • 외부 검증 및 테스트 데이터에 대한 단일 경로 점수 보고(부트스트랩 평균 대신)

  • 데이터 처리의 메모리 오버헤드 감소

  • 열린 파일의 수 감소 - Mac/Docker에서 ‘잘못된 파일 설명자’ 오류 수정

  • Python Client API 간소화

  • 《요청 시》 사유 코드 생성으로 인해 원래 데이터 세트에서 MLI UI의 데이터 포인트 쿼리

  • 특성의 하위 집합만 사용하여 k-LIME의 k-평균 클러스터링 향상. 자세한 내용은 K-LIME 테크닉 참조.

  • MLI 요약에서 k-LIME에 대한 k-평균 센터를 보고하여 클러스터 해석력 향상

  • MLI 실험 목록 상세 정보 개선

  • 다양한 버그 수정

버전 1.2.2(2018년 07월 05일)

여기서 다운로드하기

  • time series 문제에 대한 MOJO Java 스코어링 파이프라인

  • 다중 클래스 혼동 행렬

  • AUCMACRO 스코어러: 매크로 평균을 통한 다중 클래스 AUC(기본 마이크로 평균에 추가됨)

  • GUI 및 클라이언트 API에서 각 실험의 상세 설정(구성 재정의)

  • HTTPS 지원

  • time series 문제에 대한 다운 샘플링 로직 개선(accuracy 노브 설정을 통해 활성화된 경우)

  • Active Directory에 대한 LDAP 읽기 전용 액세스

  • Snowflake 데이터 커넥터

  • 다양한 버그 수정

버전 1.2.1(2018년 06월 26일)

  • k-LIME의 대안으로 MLI에 LIME-SUP(알파) 추가(로컬 영역은 k-평균 대신 Decision Tree에 의해 정의됨)

  • RuleFit 모델(알파) 추가, 현재 [GBM, GLM, TensorFlow, RuleFit] - TensorFlow 및 RuleFit은 기본적으로 비활성화되어 있음

  • Minio(비공개 cloud 스토리지) 커넥터 추가

  • S3에서 폴더 가져오기 지원 추가

  • ‘데이터 세트 추가’에 ‘파일 업로드’ 옵션 추가(끌어서 놓기에 추가됨)

  • 현재 바이너리 분류 문제에 대한 예측에 2개의 열(클래스당 확률)이 있음, 다중 클래스와의 일관성 개선

  • 모델 매개변수 튜닝 개선

  • time series 문제에 대한 변수 가공 개선

  • MOJO 생성 및 로딩 속도 향상

  • GUI에서 time series 관련 자동 계산 속도 향상

  • 실험 종료 시 잠재적 희귀 중단 문제 수정

  • MLI 실행에 인터넷이 더 이상 필요 없음

  • 다양한 버그 수정

버전 1.2.0(2018년 06월 11일)

  • Time Series 레시피

  • 저지연 독립형 MOJO Java 스코어링 파이프라인(현재 베타)

  • Lambda 검색(및 GPU 지원)으로 Elastic Net GLM(Generalized Linear Modeling) 활성화, 기본적으로 해석력 >=6 및 accuracy<=5인 경우(알파)

  • 해석력=1 및/또는 다중 클래스 모델(알파, config.toml을 통해 활성화)에 대해 TensorFlow(TF) 딥러닝 모델(GPU 지원 포함) 활성화

  • [GBM, GLM, TF] 모델의 사전 튜닝 지원으로 최적의 특성 진화 모델 매개변수 선택 가능

  • [GBM, GLM, TF] 모델을 혼합하여 구성된 최종 앙상블 지원

  • 요약 zip 파일에 PDF 및 Markdown 형식의 자동 보고서(AutoDoc) 포함

  • 최초 사용자를 위한 대화형 둘러보기(도우미)

  • 이전 릴리스의 실험에서 MLI 실행 가능

  • MLI의 대리 모델이 현재 기본적으로 3개의 폴드 사용

  • 최대 10개의 교차 검증 폴드로 소용량 데이터 레시피 개선

  • 불균형 데이터로 바이너리 분류의 accuracy 향상

  • 비대상(non-target) 열의 지연 사이의 상호 작용 및 집계를 위한 추가 time series 트랜스포머

  • 더 빨라진 MOJO 생성

  • 데이터 수집 중 진행 보고

  • 바이너리화된 다중 클래스 혼동 행렬을 클래스 카운트(글로벌 스케일링 요소) 기준으로 정규화

  • 구성을 위한 부울 환경 변수의 구문 분석 개선

  • 다양한 버그 수정

버전 1.1.6(2018년 05월 29일)

  • 대용량 데이터 세트를 위한 성능 향상

  • MLI에 대한 속도 및 사용자 인터페이스 개선

  • 불균형 데이터로 바이너리 분류의 accuracy 향상

  • 정해진 검증 데이터를 사용하는 실험에 대한 일반화 추정 개선

  • 실험 디렉터리의 크기 감소

  • Parquet 파일 지원

  • bzip2 압축 파일 지원

  • UI에 데이터 미리보기 추가: ‘Describe’

  • 홀드아웃 및 테스트 세트 예측값에 ID 열을 추가하지 않고 간소화함

  • 다양한 버그 수정

버전 1.1.4(2018년 05월 17일)

  • 1.1.3용 Native 빌드(RPM/DEB)

버전 1.1.3(2018년 05월 16일)

  • CPU 코어 수가 많은 시스템을 위한 속도 향상

  • 학습 및 스코어링 시 사용자 지정 누락값의 더 빠르고 강력한 처리

  • 변수 가공 및 최종 앙상블에 동일한 검증 체계를 적용하여 accuracy 향상

  • 텍스트 트랜스포머용 MOJO Scoring Pipeline

  • Python Scoring Pipeline의 단일 행 채점 문제 수정(1.1.2에서 손상됨)

  • 실험이 너무 빨리 시작하는 경우 기본 스코어러 수정

  • time series GUI에 대한 응답성 개선

  • 실험 중단 후 응답성 개선

  • 다중 GPU XGBoost의 메모리 사용량에 대한 부하 분산 개선

  • 삭제할 열을 선택하는 UI 개선

  • 다양한 버그 수정

버전 1.1.2(2018년 05월 08일)

  • 자동 time series 레시피(알파) 지원

  • XGBoost(GBM) 대신 이제 GLM(Generalized Linear Model) 사용으로 해석력 10 구현

  • 런타임 및 메모리 사용량 추정이 포함된 실험 미리보기 추가

  • MER 스코어러 추가(Median Error Rate, Median Abs. Percentage Error)

  • 정수 열을 시간 열로 사용하는 기능 추가

  • 스코어링 중 형식 적용 속도 향상

  • ARFF 파일 형식(알파) 읽기 지원

  • MLI에 대한 분위수 비닝

  • 다양한 버그 수정

버전 1.1.1(2018년 04월 23일)

  • 2GB 이상의 문자열 열 지원

버전 1.1.0(2018년 04월 19일)

  • AWS/Azure 통합(시간당 cloud 사용량)

  • MOJO 파이프라인 스코어링의 버그 수정(현재 베타)

  • Google Cloud 스토리지 및 BigQuery(알파)

  • 데이터 가져오기 중 범주형 열 통계 계산 속도 향상

  • GPU에서 메모리 관리 추가 개선

  • MAE 스코어러의 accuracy 개선

  • 요청 기반의 스코어링 파이프라인 빌드 기능(기본적으로 활성화되지 않은 경우)

  • 회귀 분석 문제 sqrt(sqrt(x))에 대한 대상 트랜스포머 추가

  • 해석력=10을 위한 후보로 GLM 모델 추가(알파, 기본적으로 비활성화)

  • Native 빌드(RPM/DEB) 성능 개선

  • 오차 바(error bar) 추정 개선

  • 다양한 버그 수정

버전 1.0.30(2018년 04월 05일)

  • MOJO 파이프라인 생성 속도 향상, 기본적으로 MOJO 비활성화(알파)

  • GPU에서 메모리 관리 개선

  • 32비트 부동 소수점 정밀도(옵션) 지원으로 메모리 공간 감소

  • 테스트 세트 채점 및 데이터 변환 로깅 추가

  • 다양한 버그 수정

버전 1.0.29(2018년 04월 04일)

  • MOJO의 빌드에 실패할 경우, MOJO를 사용할 수는 없지만 실험은 성공적으로 수행 가능

버전 1.0.28(2018년 04월 03일)

  • systemd 지원을 통한 RHEL7/CentOS7/SLES 12용 (Non-Docker) RPM 설치 프로그램

버전 1.0.27(2018년 03월 31일)

  • Java 독립형 교차 플랫폼 저지연 스코어링을 위한 MOJO Scoring Pipeline(알파)

  • 다양한 버그 수정

버전 1.0.26(2018년 03월 28일)

  • 대용량 데이터 세트를 위한 성능 향상 및 메모리 사용량 감소

  • F0.5, F2, 성능 및 accuracy 향상

  • MLI의 성능 향상

  • 현재 검증 데이터와 테스트 데이터 간에 분포 이동 감지

  • 데이터 테이블을 사용한 배치 스코어링 예제

  • AutoVis의 다양한 개선 사항(outliers, 평행 좌표, 로그 파일)

  • 다양한 버그 수정

버전 1.0.25(2018년 03월 22일)

  • 바이너리/다항 분류를 위한 새로운 스코어러: F0.5, F2 및 accuracy

  • 바이너리/다항 분류 모델의 정밀도-재현율 곡선

  • 회귀 분석 문제에 대한 실제 값 vs. 예측 값 플롯

  • 작업 유형에 따른 특성 변환 제외 지원

  • 바이너리 파일 형식 읽기 지원: 데이터 테이블 및 Feather

  • 다중 GPU 메모리 부하 분산 개선

  • 초기 튜닝 결과 표시 개선

  • 최종 모델 생성 중 메모리 사용량 감소

  • 최종 스코어링 파이프라인 생성 시 발생하는 일부 버그 수정

  • 다양한 UI 개선(예: 반복 스코어보드의 확대/축소)

  • 다양한 버그 수정

버전 1.0.24(2018년 03월 08일)

  • ID 열이 포함된 데이터에 대한 테스트 세트 채점 버그 수정(1.0.23에 도입)

  • MLI 실험의 이름 변경 허용

  • 데이터 테이블에 사용되는 최대 코어 수 제한 기능

  • 로그의 최종 앙상블 모델 CV 폴드에 있는 검증 점수 및 오차 바 인쇄

  • 다양한 UI 개선

  • 다양한 버그 수정

버전 1.0.23(2018년 03월 07일)

  • 이항 및 다항 분류에 대한 Gains 및 Lift 곡선 지원

  • 대용량 데이터 세트를 위한 다중 GPU 단일 모델 학습 지원

  • 대용량 데이터 세트를 위한 레시피 개선(더 빠르고 작아진 메모리/디스크 사용량)

  • 텍스트 특성에 대한 레시피 개선

  • 변수 가공 복잡도에 대한 해석력 설정의 민감도 증가

  • 자동 시간 열 감지를 기본적으로 비활성화하여 혼동 방지

  • 채점 중 테스트 데이터 및 검증 데이터에 대한 자동 열 형식 변환

  • MLI의 속도 향상

  • 변환된 특성에서 MLI에 대한 특성 중요도 개선

  • 각 MLI 플롯을 PNG 파일로 다운로드하는 기능 추가

  • MLI 독립형 페이지에 삭제된 열 및 가중치 열에 대한 지원 추가

  • 4GiB보다 큰 바이트 객체의 직렬화 수정

  • ‘명령을 찾을 수 없음’ 오류의 스코어링 파이프라인 빌드 실패 수정

  • 다양한 UI 개선

  • 다양한 버그 수정

버전 1.0.22(2018년 2월 23일)

  • CPU 전용 모드 수정

  • 데이터 테이블 CSV 파서의 강건성 향상

버전 1.0.21(2018년 2월 21일)

  • Mac에서 MLI GUI 스케일링 문제 수정

  • Truncated SVD scipy 백엔드의 segfault 해결

  • 다양한 버그 수정

버전 1.0.20(2018년 2월 17일)

  • HDFS/S3/Excel 데이터 커넥터

  • LDAP/PAM/Kerberos 인증

  • accuracy / 시간 / 해석력에 대한 기본값 자동 설정

  • 해석력: 스코어링 파이프라인의 예측값에 대한 관찰별 및 기능별 (서명된) 기여도

  • 해석력 설정으로 이제 변수 가공 복잡도와 최종 모델 복잡도 변경 가능

  • Python용 독립형 MLI 스코어링 파이프라인

  • 시간 설정 1로 이제 1회만 실행 가능

  • 수렴(convergence)이 감지되는 경우 실험 조기 중지

  • 이항 및 다항 분류에 대한 ROC 곡선 표시, 혼동 행렬 및 임계값/F1/MCC 표시

  • 학습/검증/테스트 데이터 이동 감지기

  • 다항 분류를 위한 AUCPR 스코어러 추가

  • 불균형 바이너리 분류 문제 처리 개선

  • 코어/메모리/하드 드라이브 등의 런타임 제한에 대한 구성 파일(관리자용)

  • 다양한 GUI 개선(실험 이름 변경, 실험 재실행, 로그 기능)

  • 다양한 버그 수정

버전 1.0.19(2018년 1월 28일)

  • 대용량 데이터 세트의 최종 앙상블 중 중단 문제 수정(accuracy>= 5)

  • GUI에서 이전 버전(>= 1.0.13)으로 빌드된 모든 모델의 스코어링 허용

  • 실험 중 GUI에서 더욱 상세한 진행 메시지

  • 스코어링 파이프라인이 상대적 경로만 사용하도록 수정

  • 모델 요약의 오차 바가 현재 +/- 1*stddev(2*stddev에서 변경)임

  • RMSPE(RMS Percentage Error) 스코어러 추가

  • SMAPE(Symmetric Mean Abs. Percentage Error) 스코어러 추가

  • AUCPR(Area under Precision-Recall Curve) 스코어러 추가

  • 데이터의 inf/-inf 정상적인 처리

  • 다양한 UI 개선

  • 다양한 버그 수정

버전 1.0.18(2018년 1월 24일)

  • 1.0.15 이하 버전의 마이그레이션 수정

  • 실험 중단 및 데이터/실험 삭제를 확인하는 대화 상자

  • 다양한 UI 개선

  • 다양한 AutoVis 개선

  • 다양한 버그 수정

버전 1.0.17(2018년 1월 23일)

  • 1.0.15 이하 버전의 마이그레이션 수정(부분적, 실험용만 해당)

  • GUI에서 모델 요약 다운로드 추가

  • 로그 아카이브의 재구성 및 이름 변경, 모델 요약 추가

  • 1.0.16의 AutoVis 회귀 분석 문제 수정(속도 저하)

  • 다양한 버그 수정

버전 1.0.16(2018년 1월 22일)

  • 검증 데이터 세트에 대한 지원 추가(학습 데이터에 대한 내부 검증 대신 선택 가능)

  • 모델 점수에 대한 표준 편차 추정치(+/- 1 std.dev.)

  • 최종 모델에 적용되는 모든 점수 계산(현재는 로그에서만 제공)

  • 독립형 모드에서 실행 시 MLI 사유 코드(+/- 1 std.dev.)에 대한 표준 편차 추정치

  • MLI 작업 중단 기능 추가

  • 최종 앙상블 성능 향상

  • outliers 시각화 개선

  • H2O-3을 버전 3.16.0.4로 업데이트

  • 가독성이 더 높은 실험 이름

  • 다양한 속도 향상

  • 다양한 버그 수정

버전 1.0.15(2018년 1월 11일)

  • 실험별 로그 파일 잘림 문제 수정

  • 다양한 버그 수정

버전 1.0.14(2018년 1월 11일)

  • 성능 향상

버전 1.0.13(2018년 1월 10일)

  • 대상 인코딩에서 누출을 제거하여 최종 앙상블에 대한 일반화 성능 추정치 개선

  • 새로운(잠재적으로 더 큰) 데이터에 변수 가공을 리핏하고 적용하는 API 추가

  • 사전 변환된 데이터 세트에 대한 액세스를 제거하여 다운스트림에서 우발적 누출 문제 방지

  • MAPE(Mean Absolute Percentage Error) 스코어러 추가

  • 해석력 >= 6의 경우 바이너리 분류 및 회귀 분석 모델에 대한 monotonicity constraints 적용

  • 음의 값을 피하기 위해 Pearson 상관 계수의 제곱을 사용하여(결정 계수 대신) R^2 값 계산

  • 별도의 HTTP 및 TCP 스코어링 파이프라인 예제

  • h2oai_client 휠의 크기 감소

  • 학습 데이터에 가중치 열이 제공된 경우 테스트 데이터에 대한 가중치 열이 필요 없음

  • 최종 모델링 파이프라인의 accuracy 향상

  • 다운로드용 logs.zip에 H2O-3 로그 포함

  • H2O-3을 버전 3.16.0.2로 업데이트

  • 다양한 버그 수정

버전 1.0.11(2017년 12월 12일)

  • 더 빨라진 다중 GPU 학습, 특히 소용량 데이터의 경우

  • GPU가 4개 미만인 시스템에서 유전 알고리즘의 기본 탐색 양 증가

  • 소용량 데이터(< 100k 행)에서 모델의 일반화 성능 추정치 accuracy 향상

  • 더 빨라진 실험 중단

  • 최종 앙상블 메타 학습기 개선

  • 더욱 강건한 날짜 구문 분석

  • 다양한 버그 수정

버전 1.0.10(2017년 12월 4일)

  • 매개변수 설정 화면의 도구 팁 및 설명서 링크

  • 클래스가 5개 이상인 다중 클래스 문제에 대한 교육 속도 향상

  • 실험 완료 후 GUI에 실험 요약 표시

  • GUI에서 Python Client Library 다운로드 가능

  • Maxwell 기반 GPU의 속도 향상

  • 다항 AUC 및 Gini 스코어러 지원

  • 이항 및 다항 문제에 대한 MCC 및 F1 스코어러 추가

  • 더 빨라진 실험 중단

  • 다양한 버그 수정

버전 1.0.9(2017년 11월 29일)

  • time series 데이터 세트에서 인과 관계 학습/검증 분할에 대한 시간 열 지원

  • 데이터의 시간적 상관 관계에서 시간 열의 자동 감지

  • MLI 개선, 전용 페이지, 데이터 세트 및 모델 선택

  • 최종 앙상블 메타 학습기 개선

  • 실험 목록에 테스트 세트 점수 표시

  • 내보낸 데이터 세트에 원본 응답 보존

  • 다양한 버그 수정

버전 1.0.8(2017년 11월 21일)

  • 다양한 버그 수정

버전 1.0.7(2017년 11월 17일)

  • 실험 간 GPU 공유 - GPU 리소스를 공유하면서 동시에 여러 실험 실행 가능

  • 실험 및 데이터 지속성 - 데이터 손실 없이 애플리케이션의 중지 및 재시작 가능

  • 옵션인 사용자 지정 행별 관측 가중치에 대한 가중치 열 지원

  • 학습/검증 분할에서 사용자 지정 행 그룹화를 위한 폴드 열 지원

  • 모델 튜닝을 통한 accuracy 향상

  • 더 빨라진 학습 - 모델 학습 속도의 전반적인 개선 및 최적화

  • 각 실험별 로그 파일

  • GUI에서 실험 및 데이터 세트를 삭제하는 기능

  • 응답값이 매우 큰 회귀 분석 작업의 accuracy 향상

  • 더 빨라진 테스트 세트 채점 - GUI에서 테스트 세트 채점의 현저한 개선

  • 다양한 버그 수정

버전 1.0.5(2017년 10월 24일)

  • 허용된 스코어러만 표시

  • 다양한 버그 수정

버전 1.0.4(2017년 10월 19일)

  • 자동 유형 감지 로직 개선

  • 최종 앙상블 accuracy 향상

  • 다양한 버그 수정

버전 1.0.3(2017년 10월 9일)

  • 다양한 속도 향상

  • 결과의 재현 가능

  • 다양한 버그 수정

버전 1.0.2(2017년 10월 5일)

  • 최종 앙상블 accuracy 향상

  • 증거 특성 가중치 추가

  • 다양한 버그 수정

버전 1.0.1(2017년 10월 4일)

  • 최종 앙상블의 속도 향상

  • 다양한 버그 수정

버전 1.0.0(2017년 9월 24일)

  • 최초 안정판 릴리스