로그 변경¶
버전 1.10.1.2(2021년 12월 22일)¶
개선 사항:
알림 스크립트를 허용하여 새로운 구성 옵션을 사용하는 기본 서버에서 환경 변수를 상속합니다.
버그 수정:
포함된 Java 패키지 일부의 log4j-2를 버전 2.17.0으로 업그레이드하여 CVE-2021-45105에서 발견한 취약성을 완화합니다.
버전 1.10.1.1(2021년 12월 14일)¶
버그 수정:
일부 번들 Java 패키지의 log4j-2를 버전 2.16.0으로 업그레이드하십시오. 이는 CVE-2021-44228에서 발견된 임의의 코드 실행 취약점이라는 위험을 완전히 줄이기 위한 것입니다.
버전 1.10.1(2021년 11월 10일)¶
새로운 기능
(실험적) 부스팅 접근 방식(GrowNet)을 기반으로 하는 표로 나타낸 데이터에 대한 PyTorch 기반 딥 러닝 모델.
S3에서 사전 학습한 NLP 다운로드 옵션을 추가했습니다.
MOJO 크기 추정치를 미리보기에 추가했습니다.
config.toml 및 상세 설정을 통해 정확성, 시간 및 해석 가능성에 대한 기본 노브 설정을 제어하는 기능을 추가했습니다.
대상 트랜스포머 튜닝에 포함할 대상 트랜스포머에 대한 제어를 추가했습니다.
LightGBM 기반 모델에 수렴 기반 조기 종료를 추가하여 모델 크기를 줄일 수 있습니다.
AutoViz 권장 사항 을 이제 실험에 대한 기능 변환으로 사용할 수 있습니다.
개선 사항:
OneHotEncodingTransformer의 변환된 기능 이름에 낮은 카디널리티 범주 수준을 표시합니다.
비지연 기반 시계열 레시피는 이제 모든 지연 기반 트랜스포머가 비활성화된다는 점을 제외하고 지연 기반 시계열 레시피와 동일합니다. 검증 분할의 간격을 지원하고 이동 윈도우를 통해 향상된 검증을 제공하고 홀드아웃 예측을 추가합니다.
속도 저하를 방지하기 위해 데이터 세트 크기가 구성 가능한 임계값보다 큰 경우 자동으로 SILHOUETTE 스코어러에 대한 행 샘플링을 수행합니다.
미리보기를 위한 실험 런타임 추정을 개선하였습니다.
미리보기를 위한 열 유형 감지가 개선되어 실험 중 유형 감지와 유사하므로 기능 변환이 미리보기에 더 정확하게 표시됩니다.
미리보기 중 모델 트랜스포머 감지가 개선되어 실험에서 일어날 일을 더 정확하게 반영합니다.
중국어/한국어/일본어 및 UTF8 문자를 사용하는 다른 언어에 대한 텍스트 감지 기능이 향상되었습니다.
시계열에 대한 향상된 변수 가공 및 기능 진화
데이터 세트 열 유형을 카디널리티와 상관없이 범주형(〈cat〉)으로 재정의할 수 있습니다.
검증 점수가 크게 향상되지 않는 경우 LightGBM 조기 종료를 더 일찍 중지하도록 개선했습니다(정확도 다이얼에 따라 다름).
비활성화된 사용자 정의 레시피를 사용자 정의 레시피 관리에서 로드 및 편집하도록 허용합니다.
시스템 라이브러리에 덜 의존함으로써 RedHat 및 다른 플랫폼에 대한 기본 지원을 향상했습니다.
비Python 오류 캡처를 추가하여 지도 또는 비지도 실험의 경우 지원을 위한 서버 로그 공유가 더 이상 필요하지 않습니다.
강한 신호가 있는 대상 인코딩 기능만을 대상으로 하여 더 나은 소규모 데이터 지원을 추가했습니다.
(모든 데이터 크기에 대해) 강력한 신호가 있는 기능만 대상으로 인코딩하는 《more_overfit_protection》 파이프 라인 구축 레시피에 대한 지원을 추가했습니다.
허용되지 않는 전역 가져오기(예: XGBoost, LightGBM, Torch, CuPy, cuDF 등)를 확인하기 위해 사용자 정의 레시피 승인 테스트를 개선했습니다.
기본 래퍼가 기본 레시피로 포함된 zip을 통해 사용자 정의 레시피를 지원하며, 하위 폴더에는 지원 파일이 있습니다(예: 래퍼가 하위 폴더를 로컬로 가져오는 경우 Torch를 전역적으로 가져올 수 있음).
문자열 및 큰 정수를 포함하는 열에 대한 잘못된 날짜 및 날짜/시간 감지를 방지합니다.
TOML을 검증하고 오류를 더 이상 무시하지 않습니다.
테스트 또는 검증 세트로 사용한 데이터 세트의 감지를 방지합니다.
Java를 OpenJDK 10으로 업그레이드했습니다.
NVIDIA K80+를 다시 지원하도록 XGBoost를 업데이트했습니다(즉, CUDA 컴퓨팅 기능 3.5+).
모델 레시피가 Python 환경에서 DAI 환경과 독립적으로 실행되도록 허용합니다.
Google BigQuery(GBQ) 커넥터를 사용할 때 데이터 세트 위치를 지정하는 기능을 추가했습니다.
여러 일반적인 취약성(CVE 및 PRISMA)을 수정했습니다.
버그 수정:
설치된 패키지를 제한하여 Python 채점를 수정했습니다. 기본 Ubuntu, UBI-8 또는 CentOS 시스템에서 작동합니다. 추가 단계는 설명서를 참조하십시오.
다중 GPU가 있는 시스템에 대해 누락된 이미지벡터라이저 트랜스포머를 수정했습니다.
AWS Lambda에 대한 MOJO Cloud 배포를 수정했습니다.
Apple macOS 시스템에서 생성된 이미지 아카이브 가져오기를 수정했습니다.
데이터 로깅 수준 익명화를 수정했습니다.
하위 실험에 대한 사용자 지정 레시피 관리 활성화 선택을 수정했습니다.
내부 레시피의 부재를 초래하는 현재의 사용자 정의 레시피를 수정했습니다.
부트스트랩 샘플링 추정치를 수정했습니다.
Dask 기반 모델에 대한 Python 채점을 수정했습니다.
Native 시스템에서 OpenCL(LightGBM용)을 수정했습니다. 추가 단계는 설명서를 참조하십시오.
실험 중에 모든 트랜스포머로 초기화되지 않도록 사전 트랜스포머 목록을 수정했습니다.
광범위한 규칙 트리거 시 모델이 LightGBM이어야 할 때 표시되는 LightGBMDask를 수정했습니다.
Java MOJO 런타임에서 상수 모델에 대한 Shapley value를 수정했습니다.
C++ MOJO 런타임에서 날짜 포맷 %Y을 수정했습니다.
인터넷 익스플로러 11의 탭 클릭을 수정했습니다.
기능에 숫자 접미사가 있는 경우 트리 모델에 대한 파이프라인 시각화를 수정했습니다.
이진 사용자 정의 스코어러에 대한 모양 불일치를 수정했습니다.
누락 값을 포함하는 정수 열이 있는 Parquet 파일의 수집을 수정했습니다.
설명서:
AutoDoc 사용자 정의 템플릿 자리 표시자 를 설명하는 페이지를 추가했습니다.
버전 1.10.0(2021년 09월 29일)¶
새로운 기능
모든 주요 오픈 소스 패키지의 안정적인 최신 버전을 기반으로 구축했습니다.
더 빠른 피클 프로토콜 5를 지원하는 Python 3.8로 업데이트했습니다.
Torch 1.9.0 및 TensorFlow 2.4.2로 업데이트했습니다.
GPU 기반 대상 인코딩, UMAP, TSNE, Rf을 지원하는 NVIDIA RAPIDS 21.08로 업데이트했습니다.
Ampere 기반 NVIDIA GPU를 지원하는 CUDA 11.2.2로 업데이트했습니다. NVIDIA CUDA 드라이버 470 이상이 필요합니다.
XGBoost, LightGBM, datatable, Pandas, scikit-learn 등을 업데이트했습니다.
DEB/TAR-SH 배포용 Ubuntu 20.04 및 RPM용 Centos8을 지원합니다.
-
사용자 정의 레시피에 버전이 지정됩니다.
사용자 정의 레시피를 활성화하거나 비활성화할 수 있습니다.
각각의 레시피에 노트를 추가할 수 있습니다.
시각적 코드 에디터를 추가합니다.
이전의 레시피 버전에 액세스할 수 있게 합니다.
-
실험을 이진 파일로 다운로드하고 업로드할 수 있습니다.
DAI 1.8.x 및 1.9.x에서 새로운 실험 및 마이그레이션 실험을 모두 지원합니다.
사용자 정의 레시피로 실험을 지원합니다.
Java MOJO 런타임의 원래 기능에 대한 Shapley value 를 지원합니다.
(실험적) 자동 비지도 머신 러닝. 클러스터링, 차원 축소, 이상치 감지 및 사용자 정의 레시피에 대한 전체 지원을 지원합니다. 클러스터링을 위한 자동 하이퍼 파라미터 최적화 및 기능 선택과 중심에 대한 시각화가 포함됩니다.
기능 내 강제 제어. 수정 없이 특정 기능을 모델에 적용 가능 합니다. 자세한 내용은 기능 상세 설정의
cols_to_force_in
을 참조하십시오.일반 예측에 대한 빠른 근사를 추가했습니다(Shapley value에 대한 빠른 근사에 추가). MLI/AutoDoc의 경우 기본적으로 활성화되며, 다른 클라이언트의 경우 기본적으로 비활성화됩니다. 근사 범위를 완전히 구성/비활성화할 수 있습니다. 일반적으로 부분 의존도 플롯 및 MLI 생성과 같은 대규모 예측 작업의 속도를 크게 향상할 수 있습니다. 자세한 내용은 빠른 근사에 대한 FAQ 질문 을 참조하십시오.
자동으로 분류 문제에 대한 예측을 위해 레이블을 생성 하며, 예측 프레임의 끝에 예측된 레이블 열을 추가합니다.
Health API 추가로 시스템 메트릭 및 리소스 활용 개요를 제공합니다.
LightGBM의 불균형 다중 클래스 문제에 대한 개선된 지원을 추가했습니다. 혼동 행렬 기반 스코어러가 최적화된 경우(예: MacroF1) 도움이 될 수 있습니다.
분류에 대한 새 메트릭(MacroF1, MacroMCC)를 추가했습니다. 매크로 스코어러는 클래스별 점수의 평균을 구하고 마이크로 스코어러는 행당 점수의 평균을 구합니다. 불균형 다중 클래스 문제에는 기본적으로 MacroF1을 사용하십시오. MacroF1/MCC는 이진 문제에 대한 F1/MCC와 동일합니다.
(점수 탭 및 실험 아티팩트에서) 실험 중 피팅한 모든 모델에 대한 정보를 추가했습니다.
MLI 기능:
UX에 초점을 맞춘 MLI 시계열에 대한 새로운 UI를 추가했습니다.
시계열 모델에 대한 감도 분석을 활성화했습니다.
시계열 모델에 대한 서로 다른 영향 분석을 활성화했습니다.
시계열 모델에 대한 대리 모델을 활성화했습니다.
시계열 모델에 대한 부분 의존도/ICE을 활성화했습니다.
시계열 모델에 대한 원래 기능의 중요성을 활성화했습니다.
MLI TS explainer UI에서 변형된 기능에 대한 인간 친화적인 묘사를 추가했습니다.
빠른 근사로 예측 속도를 높이기 위해 MLI 상세 설정 mli_fast_approx 을 추가했습니다.
NLP 실험에 대한 Vectorizer + Linear Model (VLM) explainer 를 추가했습니다.
TF-IDF에 추가하여 대리 모델에 대한 토큰을 생성하기 위한 수단으로 Vectorizer + Linear Model (VLM)을 사용하는 기능을 추가했습니다.
NLP 텍스트 토큰에 대한 부분 의존도 를 추가했습니다.
MLI NLP explainers에 대한 다항 지원을 추가했습니다.
MLI의 로컬 NLP 설명에 대한 텍스트 샘플 보기를 추가했습니다. 자세한 내용은 NLP 플롯 를 참조하세요.
NLP explainers에서 사용하는 MLI NLP 토크나이저 및 토크나이저에 대한 영어 불용어를 추가했습니다.
MLI에서 TF-IDF 행렬을 다운로드 하는 기능을 추가했습니다.
설명서:
개선 사항:
실험의 기본 리더보드를 개선했습니다. 더욱 넓은 범위에서 유용한 실험을 다룹니다.
시계열 실험을 위한 또 다른 자동 리더보드를 추가하여 각 예측 기간에 대한 별도의 모델을 생성했습니다(다양한 기본 순위표에 추가).
BERT 모델 및 트랜스포머에 PyTorch Lightning 프레임워크를 사용합니다. 이는 더 빠른 학습과 더 나은 메모리 처리로 이어집니다.
다중 GPU 시스템에서 BERTTransformer의 병렬화를 개선했습니다.
텍스트 트랜스포머 메모리 사용을 감축했습니다.
wrap_create
데코레이터(Git repo: Any Env)를 사용하여 사용자 정의 레시피를 위한 임의의 격리된 Python 3.6, 3.7, 3.8 환경을 지원합니다.미리보기는 선택한 트랜스포머-모델 조합에서 다루지 않는 모든 입력 기능을 나타냅니다.
미리보기는 선택한 트랜스포머-모델 조합에서 MOJO 지원여부를 나타냅니다.
영과잉 분포의 자동 처리를 향상했습니다.
%Y 및 %Y%m 포맷이 있는 시간 열 처리를 향상했습니다.
이미지가 포함된 데이터 세트에 대한 분할을 개선하여 이제 각 분할에는 참조가 아닌 모든 로컬 이미지의 사본이 있습니다.
기능 진화 알고리즘을 다양하게 개선했습니다.
애플리케이션 전반에 걸쳐 더 많은 설명 툴팁을 추가했습니다.
실험 미리보기에 대한 런타임 추정을 개선했습니다.
기본 실험 설정에 대한 추론적적 접근방식을 개선했습니다.
열 이름 삭제를 개선했습니다.
속도 측면에서 최적화된 MLI 부분 의존도 explainer입니다.
MLI Decision Tree 대리 모델의 범주형 처리를 개선했습니다.
MLI의 UI/UX 성능을 다양하게 개선했습니다.
많은 작업(실험, MLI 등) 실행 시 서버 성능 및 응답성을 향상했습니다.
실험 실패 없이 사용자 지정 스코어러의 실패를 정상적으로 처리합니다.
보드 전반에 걸친 하드웨어 이용을 개선했습니다.
실험 종료 후 실험 임시 파일 정리를 개선하여 느린 디스크에서 서버 시작 시 긴 정리를 방지할 수 있습니다.
저장소 GRPC 메시지 한도를 구성할 수 있습니다.
버그 수정:
크고 유사한 문자열이 많은 데이터 세트에 대해 파일을 가져오는 중 segfault를 수정했습니다.
광범위한 데이터 세트에 대해 느린 MOJO 생성을 수정했습니다.
UTF8 문자용 텍스트 기반 트랜스포머 및 모델의 MOJO를 수정했습니다.
max_feature_interaction_depth
상세 설정이 이제 모든 트랜스포머에 적용됩니다.지수 연결 함수(Poisson/gamma/Tweedie/CoxPH)가 있는 XGBoost 회귀 모델에 대한 Java MOJO 런타임의 부정확한 Shapley 편향 용어를 수정했습니다.
XGBoost 및 LightGBM에서 예측에 사용하는 코어 수를 수정하여 채점 중 과도한 코어 사용을 방지합니다.
모든 모델에 One Hot Encoding을 사용할 수 있습니다.
코어의 최대 사용을 위해 격리된 시스템에서 사용하기 위해
exclusive_mode
보통 및 최대 모드를 수정했습니다.변환 데이터 세트 및 MLI에서 올바르게 사용하도록 런타임 데이터 레시피를 수정했습니다.
모델 튜닝(
params_tune
) 및 재정의 매개변수 사용을 수정했습니다.채점하는 동안 정수 열을 문자열 열로 자동 유형 캐스팅하는 문제를 수정했습니다(먼저 부동 소수점으로의 변환 방지).
더 다양한 전문가 선택을 위해 Optuna 유전 알고리즘 선택을 수정했습니다.
범주형이 있는 광범위한 데이터에 대한 기능의 순열 중요성 선택에 따른 기능 선택을 수정했습니다.
버전 1.9.3.1(2021년 8월 5일)¶
새로운 기능
키 저장소에 민감하거나 안전한 구성 정보를 저장하기 위한 지원을 추가했습니다. 자세한 내용은 구성 보안 을 참조하십시오.
개선 사항:
가장(impersonation)과 함께 Kerberos 인증을 사용할 때 Hive 커넥터에
jaas.conf
파일이 더 이상 필요 없도록 개선했습니다.jaas.conf
파일이 제공되면 Hive 커넥터가 이를 사용하고, 그렇지 않은 경우hive_app_configs
에 제공된 정보를 기반으로 구성 정보를 구성합니다.
버그 수정:
시계열 모델에 대한 분포 이동 감지를 수정했습니다.
영과잉(zero-inflated) 배포의 경우 대상 열에서 개수가 0이 아닌 로그 출력을 수정했습니다.
매우 작은 관측 가중치에 대한 혼동 행렬을 수정했습니다(가장 가까운 정수로 반올림 비활성화).
설명서:
Java MOJO 런타임에서 SHAP values 계산 정보를 추가했습니다.
지원하는 이미지 포맷의 목록을 수정했습니다. 자세한 내용은 이미지 처리에서 지원하는 파일 유형 를 참고하십시오.
보안 설명서 조직을 개선했습니다.
버전 1.9.3(2021년 06월 03일)¶
개선 사항:
Google BigQuery(GBQ) 커넥터를 이용할 때 사용할 프로젝트 지정 기능을 추가했습니다.
텍스트 기능에 대한 과도한 메모리 사용을 방지하기 위한 MOJO 배치 채점 개선
잠재적인 FBProphet 패키지 설치 오류를 수정하기 위한 동등한 공개 레시피 저장소 업데이트
텍스트 열에 대한 열 유형 감지 개선
메모리 사용 감소
Ubuntu 20.04 LTS 지원 추가
IBM Power 지원 추가
버그 수정:
기능 전용 MOJO 파이프라인 생성 수정 (
make_mojo_scoring_pipeline_for_features_only=true
)MLOps 저장소를 사용할 때 가끔 발생하는 segfault 문제 수정
사용자 정의 Autoviz boxplots의 계산 결과 수정
로컬 나머지 서버 배포 사용 시 라이선스를 찾을 수 없는 문제 수정
인터넷 익스플로러 11 사용 시 로그인 문제 수정
UI에서 Lambda 배포 삭제 시 AWS Lambda 리소스가 정리되지 않는 문제 수정
Azure Blob Storage 커넥터에서 디렉터리가 비어 있는 폴더를 가져올 때 발생하는 문제 수정
큰 텍스트 필드가 있는 큰 데이터 세트를 가져올 때 가끔 발생하는 JDBC 및 Hive 커넥터의 CSV 쓰기 문제 수정
GPU에서 실행 시 행 수가 많은 데이터 세트에 대한 BERTTransformer의 CPU 메모리 과사용 문제 수정
버전 1.9.2.2(2021년 4월 7일)¶
버그 수정:
기능 전용 MOJO 파이프라인 생성 수정(make_mojo_scoring_pipeline_for_features_only=true)
버전 1.9.2.1(2021년 4월 2일)¶
새로운 기능
대상 트랜스포머 의 ‘센터링’ 및 ‘표준화’ 추가
자동 특성 선택으로 XGBoost의 GPU OOM 보호
범위 외 데이터로 부분 의존성 실행 기능 추가
부분 의존성에 대한 분위수 bin 보기 기능 추가
UI의 모든 특성에 대한 부분 의존성 의 직접 계산 기능 추가
XGBoost(GBM/RF/Dart), LightGBM(GBM/RF/Dart/ExtraTrees), DecisionTree, GLM 모델 및 앙상블의 Shapley 값 에 대한 MOJO 지원 추가
개선 사항:
특히 열이 많은 데이터 세트 및 최종 모델 피팅에 대한 다양한 속도 향상
RuleFit 및 TensorFlow 모델의 accuracy 향상
선택된 모델 또는 트랜스포머 중 MOJO를 지원하지 않는 항목을 미리보기로 표시, MOJO 비활성화 여부 표시
Disparate Impact Analysis의 계산에 홀드아웃 예측 사용
광범위한 데이터 세트에 대한 부분 의존성 계산 속도 향상
Python 및 클라이언트 기반 스코어링의 경우, 예측 시(time series 지연 기반 실험) 누락된 열에 누락 값을 채울 필요가 없음(MOJO의 경우는 아직 이러한 열을 누락 값으로 채워야 함)
다중 GPU 시스템의 GPU 활용도 개선
메모리 오버헤드 감소
버그 수정:
BERT 모델에 대한 MOJO 장애 수정
다양한 버그 수정
버전 1.9.2(2021년 03월 08일)¶
새로운 기능
상세 옵션에서 유전자 알고리즘에 대한 선택으로 모델 하이퍼매개변수 튜닝을 위한 Optuna
로그에 가장 큰 트랜스포머 크기 표시
최종 앙상블을 위한 선택적 스태킹 메타 학습 모델(선형 블렌더 대신 《ExtraTrees》 LightGBM 모델), 선택적 교차 검증 포함
폴드 분할 최적화 및 폴드 간 목표 변수에 대한 Kolmogorov-Smirnov 통계 표시
개선 사항:
행보다 열이 더 많은 광범위한 데이터 최적화
회귀 분석 문제에 대한 폴드 분할 향상
해석력이 높은 설정으로 회귀 분석 문제에 대해 튜닝된 대상 트랜스포머 선택 감소
해석력 <= 5 및 accuracy >= 5이 아닌 경우 회귀 분석 문제에 대한 대상 트랜스포머의 자동 튜닝 비활성화(Shapley 값의 해석력 지원)
XGBoost 알고리즘에 대해 더 많은 GPU 사용, 메모리 요구사항 추정 향상
특성 진화에 대한 유전자 알고리즘 향상
프로젝트 페이지 뷰 업데이트
상세 설정 항목에 마우스를 올리면 추가 설명 표시
PDP / ICE 계산에 MOJO 사용
MLI 실험 시작 시 MOJO가 재생성되지 않음
버그 수정:
Ampere 기반 GPU에 대해 GPU 기반 NLP 및 이미지 레시피 비활성화(Ampere GPU의 소프트웨어 역호환성의 이유), 이미지 및 BERT 트랜스포머 및 TensorFlow 모델에 대해 CPU로 자동 폴백
C++ MOJO segfault 수정
AutoReport에 의한 임시 파일 삭제
다양한 버그 수정
버전 1.9.1.3(2021년 2월 27일)¶
새로운 기능
Azure 데이터 커넥터에서 Keycloak 인증에 대한 지원 추가
버그 수정:
Steam에서 docker 컨테이너를 시작 시 경쟁 조건 수정
버전 1.9.1.1(2021년 2월 21일)¶
새로운 기능
H2O.ai 라이선스 관리자(베타) 에 대한 지원 추가
MLI partial dependence plot에 미확인 값 추가
에어 gap 설치를 위해 로컬 경로에서 새 Python client를 다운로드하는 기능 추가(UI에서도 다운로드할 수 있도록 새 Python client 표시)
개선 사항:
MLI의 UI/UX 개선 사항:
MLI 설명자(explainer) 타일 이름에서 약어 삭제
MLI의 로컬 설명 및 행 검색 기능 향상
MLI 설명자 오류 처리 개선
MLI 설명자 로그 레벨을 DEBUG에서 INFO로 변경
BERT 마이그레이션에 대한 로깅 개선
다양한 설명서 업데이트
버그 수정:
MLI의 《New with same params》 옵션 수정
PD/ICE MLI 설명자에 범주형 특성이 포함되지 않도록 수정
MLI 설명자 로그 표시가 잘리지 않도록 수정
상위 설명자 아티팩트를 재사용할 수 있도록 MLI 주문형 엔진 호출 수정
다양한 MLI UI 수정
다양한 MLI 설명자 수정
Autoviz의 outliers 표시 수정
Parquet 파일의 None 값 해석 수정
다양한 패키지 취약성 수정(CVE)
새로 도입된 검증 체계에 대해 너무 작은 time series 검증 분할의 생성 수정( time series 상세 설정)
버전 1.9.1(2021년 1월 15일)¶
새로운 기능
실험 완료 후 예측에 자동으로 MOJO 사용(현재 사용 가능 및 적용 가능한 경우 예측, MLI, Autoreport, Diagnostic 및 Python Scoring Pipeline에 MOJO Scoring Pipeline 사용)
Python Scoring Pipeline 및 GUI/클라이언트 스코어링에 Original Feature의 Shapley 값을 추가(Model Action에 추가)
현재 기본적으로 링크 공간에서 수행되는 앙상블 블렌딩(Shapley 합계의 로지스틱 또는 소프트맥스(softmax)가 확률과 같음). 회귀 분석의 경우 identity_noclip 목표값 변환이 동일함.
기존 숫자 특성에 대한 단조 GBM 의 레시피 포함
monotonicity constraints가 활성화된 경우 사용자가 목표값과 상관 관계가 약한 특성을 삭제할 수 있음 monotonicity_constraints_drop_low_correlation_features
AutoDoc에 k-LIME 및/또는 Decision Tree Surrogate Explainer를 포함하는 옵션과 함께 MLI 레시피 선택 페이지에서 AutoDoc을 실행하고 구성하는 기능 추가
MOJO 시각화로 모든 LightGBM 및 XGBoost 모델의 첫 번째 트리 표시(DecisionTree 뿐만 아님)
MOJO 시각화로 트리 모델의 크기 표시
기공된 특성에 대해서만 MOJO 생성 허용, 모델 예측 없이() 파이프라인 변환()만 수행(실험적)
이제 AutoDoc에 Original Features, Monotonicity Constraints, Imbalanced Models에 대한 Shapley 값 정보를 포함하도록 구성 가능
숫자 값이 높은 비율로 포함된 문자열 열 감지 구현, 자동 변환 활성화를 위한 상세 설정 추가
실행 중인 모든 작업을 표시하는 글로벌 태스크 목록 (Resources -> System Info -> Workers Activity -> CPU/GPU Experiments)
MLI 기능:
BYOR(Bring Your Own Recipe) 지원 / MLI에 대한 사용자 정의 레시피 (Git 리포지터리: 담당 ML)
MLI 상세 설정 의 모든 설명자에 대한 샘플링 매개변수 표시
k-LIME에 대한 MOJO 지원 추가(다운로드 옵션 포함). k-LIME MOJO 원인 코드 파이프라인 다운로드 참조
MLI UI에서 원시 k-LIME 데이터 다운로드 기능 추가 LIME 원인 코드 다운로드 참조
DIA 상세 설정에서 Disparate Impact Analysis에 대한 임계값 변경 기능 추가
범위를 벗어난 데이터에서 PDP 실행 기능 추가, 사용자가 MLI 레시피 상세 설정 에서 지정 가능
MLI 상세 설정에서 Kernel Shapley에 max 런타임 매개변수 추가. 액세스하려면, Original Kernel SHAP 레시피 를 활성화하고 Kernel Explainer를 활성화 하여 Original Feature의 Shapley 값을 얻고 MLI 상세 설정에서 최대 런타임을 토글합니다.
DAI에서 다항 모델에 대한 PD/ICE 실행 기능 추가
일반 MLI 뷰(IID)에서 MLI TS 실행 기능 추가
Decision Tree surrogate 모델에서 규칙을 볼 수 있는 기능 추가
Dask/RAPIDS 다중 GPU/다중 노드 학습(베타):
XGBoost/Dask를 통한 다중 GPU 및/또는 다중 노드 분산 학습(GPU 상의 RAPIDS) (베타)
Optuna/Dask/XGBoost를 통한 다중 GPU 및/또는 다중 노드 분산 하이퍼매개변수 최적화(GPU 상의 RAPIDS) (베타)
RAPIDS cuML K-Means Clustering, Truncated SVD 및 DBSCAN 트랜스포머(베타)
Time Series:
단기 forecast horizon에 대한 검증 체계 향상( time series 상세 설정)
백 테스트 홀드아웃 예측 생성 속도의 현저한 향상
날짜/시간 열 간의 시간적 차이에 기반한 자동 변수 가공을 위한 새로운 DateTimeDiffTransformer
LagsTransformer에 사용하는 드롭아웃 로직 개선
LagsTransformer는 이제 사전에 알려진 특성을 인식합니다. 이를 통해 지연이 한계보다 작아집니다.
다음 유형의 특성 각각에 대한 사용자 제어 가능한 지연 크기 풀 추가: target, 미리 알려지지 않은 비 target(non-target), 미리 알려진 비 target
이제 지연 크기에 대한 상세 설정 값 《[0]》을 사용하여 해당 특성 그룹에 대한 지연을 비활성화할 수 있음
미래에 미확인 값을 피하기 위해 날짜/날짜-시간 변환을 자동으로 선택하는 옵션 추가( time series 상세 설정)
내부 검증 중에 고정된 크기 학습 시간 범위를 사용하는 옵션 추가( time series 상세 설정)
중복성을 방지하기 위해 sub-series별 지연 특성의 시간 불변성 검사 추가
개선 사항:
상당한 성능 향상, 하위 프로세스 통신의 지연 시간 감소, 작은 데이터에 대한 실험 속도 향상
MLI의 뚜렷한 UI/UX 개선
사용자 정의 레시피 승인 테스트에 대한 테스트 범위 개선
tf–idf 기반 텍스트 트랜스포머의 성능 향상: 메모리 공간 감소, 속도 증가, 용어 크기에 대한 사용자 컨트롤 구현
RuleFit 모델의 성능 및 accuracy 향상
자동 time series 리더보드 개선(10개의 실험을 구축하고 반복 실행하여 최적 상세 설정의 상호 작용 획득)
PDP 및 ICE 등에 MOJO 사용으로 MLI 성능 향상
sensitivity analysis의 잔차가 이제 이항 분류(binomial classification)의 경우 로그 손실 잔차(logloss residual), 회귀 분석의 경우 제곱 잔차(square residual)임
모든 토큰의 해당 열까지 역추적하는 기능을 추가하여 NLP에 대한 MLI 개선
이제 AutoDoc에 Original Features, Monotonicity Constraints, Imbalanced Models에 대한 Shapley 값 정보를 포함하도록 구성 가능
엔지니어링된 특성에 대해서만 MOJO 생성 허용
0이 아닌 일정한 목표값만 있는 경우 회귀 분석을 위해 영과잉(zero-inflated) 모델 비활성화
fold_column으로 계층화된 실험에 대한 희소 목표 클래스 분산 처리 개선
유전자 알고리즘 토너먼트 모드 기본값 개선
새 실험에 대한 특성 브레인(feature brain) 비활성화(기본값)
XGBoost 버전 1.4.0으로 업그레이드
데이터 테이블 업그레이드
다양한 Python 패키지 업그레이드
모델 피팅 및 예측 로깅 개선
Dataset Details 페이지의 UI/UX 개선, 데이터 세트 작업 추가, 데이터 레시피 자동 저장 및 다운로드
다양한 Web GUI UI/UX 개선 및 수정
버그 수정:
LightGBM Shapley 기여도에 대한 빠른 근사값 설정을 적용(기본값으로 활성화됨), time series에 대한 최종 모델 홀드아웃 속도 감소
1.7.1/1.8.0에서 생성된 LightGBM 모델을 포함하는 실험에 대해 GUI/클라이언트 스코어링 수정(스코어링 아티팩트에 미치는 영향 없음)
XGBoost 및 LightGBM: Gamma, Tweedie, Poisson, CoxPH에 대한 회귀 분석 목표에 대한 MOJO 수정(기본값 아님)
1.7.1 이상에서 생성된 모델의 다양한 마이그레이션 수정
DecisionTreeModel에 대한 상세 설정 적용(max 깊이 등)
특성 브레인 관련 수정: 가져온 모든 모델은 시작 시 새로 채점, time series 실험에 대한 보수적 선택
다양한 Autoviz 수정, 범주형 특성과 기타 작은 버그와의 높은 상관 관계 생성
다양한 버그 수정
버전 1.9.0.6(2020년 12월 22일)¶
버그 수정:
누출 감지 시 예측 시간에 사용할 수 없는 것으로 표시된 열이 삭제되는 문제 수정
MLI의 샘플 외(out-of-sample) 데이터에 대한 요청 시 행 쿼리 수정
부분 누락된 목표 값이 포함된 테스트 세트를 사용하는 time series 실험에 대해 최종 테스트 세트 채점 중 실패 수정
버전 1.9.0.5(2020년 12월 9일)¶
새로운 기능
k-LIME MOJO 추가
Shapley 플롯의 데이터 복사/붙여넣기 기능 추가
MLI 상세 설정에서 PD/ICE 특성을 선택하는 기능 추가
MLI 상세 설정에서 특성 유형을 선택하는 기능(즉, 범주/숫자 등으로 처리해야 하는 특성 지정) 추가
sensitivity analysis에서 분류의 경우 로그 손실 잔차(logloss residual)를, 회귀 분석의 경우 제곱 잔차(square residual)를 계산함
개선 사항:
Shapley 시각화 향상
DAI PDP 특성은 이제 알파벳 순서가 아닌 특성 중요도 json 파일을 참조하여 순서 유지
DAI 브레인 재채점 결정의 개선
버그 수정:
대상 트랜스포머가 항등(identity)이 아닌 경우 ZeroInflated 모델에 대한 MOJO 수정
다양한 MLI 수정
버전 1.9.0.3(2020년 9월 28일)¶
새로운 기능
24개국 이상의 휴일 캘린더 추가, 사용자가 국가 목록을 선택하여 time series 실험을 위한 is-holiday 특성 생성 가능
rhel8 유사 시스템 지원
역방향 프록시에서 삽입한 JWT 토큰을 사용하여 로그인하는 옵션 적용
사용자가 구성에서 데이터 구분 기호/구분자 지정 가능(
datatable_separator
config.toml 파일 참조)
개선 사항:
MinIO 커넥터에서 https 인증서 확인 건너뛰기 옵션 추가
로캘 및 언어 팩 개선
커넥터에 대한 로깅 향상
OIDC의 민감한 데이터 로깅 개선
버그 수정:
다양한 MLI 수정
버전 1.9.0.2(2020년 9월 8일)¶
개선 사항:
IBM Power에서 PyTorch(BERT) 모델에 대한 GPU 지원 활성화
Python client에서 다운로드할 대상 파일 경로 지정 가능
R 클라이언트에 대한 대용량 데이터 업로드 활성화
버그 수정:
역방향 프록시 뒤에 배포 시 OpenID 및 TLS 로그인 리디렉션 수정
버전 1.9.0.1(2020년 8월 10일)¶
버그 수정:
특정 time series 실험에 대한 마이그레이션 수정
자동 이미지 모델에 대한 누락 파일 수정
PDP/ICE에 대한 MLI 작업 상태 수정
MLI Kernel Shapley에 대한 ID 열 처리 수정
시작 실패에 대한 예외 처리 수정
독립형 스코어링 패키지에 대한 Python 환경 제한
버전 1.9.0(2020년 07월 27일)¶
새로운 기능
다중 노드 학습 (알파)
실험 큐잉 으로 시스템 과부하 방지
자동 리더보드: 일련의 다양한 실험으로 된 프로젝트의 단일 버튼 생성
-
특정한 사용자 정의 데이터의 정리/변환을 위한 선택적 전처리 계층 허용
후속 레이어는 각각의 이전 레이어의 출력을 입력으로 사용함(숫자 또는 범주/문자열이 될 수 있음)
TensorFlow 이외에 PyTorch 딥 러닝 백엔드
사전 학습되고 미세 조정된 최첨단 딥 러닝 모델을 사용한 이미지 분류 및 회귀 분석
바이너리 아카이브에서 이미지 데이터 수집
아카이브에는 목표값에 대한 이미지 경로 매핑(회귀 분석/분류)이 된 (하나의) 선택적 .csv 파일이 포함될 수 있음
.csv가 제공되지 않는 경우 자동 학습 데이터 세트 생성 및 레이블 생성(디렉터리 구조에서)
Image Transformers(이미지 경로 열 변환용)
《densenet121》, 《efficientnetb0》, 《efficientnetb2》, 《inception_v3》, 《mobilenetv2》, 《resnet34》, 《resnet50》, 《seresnet50》, 《seresnext50》, 《xception》
선택적 미세 조정
선택적 GPU 가속(미세 조정 활성화 시 적극 권장함)
자동 차원 축소(dimensionality reduction) 기능이 있는 사전 학습되고 미세 조정 가능한 ImageVectorizer 트랜스포머
이미지는 압축된 아카이브로 또는 로컬이나 원격 위치(URI)에 대한 경로로 제공할 수 있음
압축된 이미지 아카이브를 가져올 때 자동 이미지 레이블 지정(폴더 이름 및 구조에 기반함)
테이블 형식 데이터 세트의 URI로 여러 이미지 열을 처리 가능
단일 실험은 이미지, NLP, 테이블 형식 데이터를 결합 가능함
MOJO 지원(CPU 전용 시스템에도 해당)
자동 이미지 모델
엔드-투-엔드 모델 학습, 튜닝 필요 없음
그랜드 마스터 기술을 사용한 최첨단 결과
사전 학습되고 미세 조정된 TensorFlow 모델 기반의 신경망 구조 탐색(Neural Architecture Search)
다중 GPU 학습
GUI의 시각적 통찰력(손실, 샘플 이미지, 증강(augmentation), Grad-CAM 시각적 설명)
MLI는 이미지 실험에 사용할 수 없으며 진행 중인 작업임
PyTorch BERT NLP 사전 학습되고 미세 조정된 최첨단 딥 러닝 모델:
《bert-base-uncased》, 《distilbert-base-uncased》, 《xlnet-base-cased》, 《xlm-mlm-enfr-1024》, 《roberta-base》, 《albert-base-v2》, 《camembert-base》, 《xlm-roberta-base》
선택적 GPU 가속(적극 권장)
MOJO 지원(CPU 전용 시스템에도 해당)
BERT 트랜스포머(GBM 등 다른 모델의 경우 텍스트 열을 숫자 특성으로 변환)
BERT 모델(텍스트 열이 하나만 있는 경우)
AutoReport에 현재 다음 항목이 포함됨
time series 유효성 검사 전략에 대한 정보
실험 계보(모델 계보 플롯)
NLP/이미지 아키텍처 상세 정보
보험 사용 사례에 대한 영과잉(Zero-inflated) 회귀 분석 모델 (분류 + 회귀 분석 모델의 조합)
Time series 센터링(centering) 및 디트렌딩(de-trending) 변환:
내부 ML 모델은 목표 신호에서 트렌드 삭제 후 잔차 학습(time series 그룹별)
상수(센터링), 선형 및 로지스틱 트렌드 지원
유행성 모델을 위한 SEIRD((S)usceptible, (E)xposed, (I)nfected, (R)ecovered, (D)eceased) , 모델 매개변수의 상한/하한 완전 구성 가능
상세 설정을 위한 그래픽 config.toml 에디터
사용자 정의 신뢰 수준의 회귀 분석 문제에 대한 경험적 예측 구간 (홀드아웃 예측 기반)
유용한 시각화 기능이 있는 Insights 탭 (현재는 time series 및 이미지 문제에만 적용되어 있음)
F05, F1, F2, MCC 스코어러(scorer)의 바이너리 분류 문제의 경우, 최적의 임계값 결정에 동일한 메트릭 사용
사용자 정의 데이터 레시피 가 현재 실험의 모델링 파이프라인에 포함되어 있으며, Python 스코어링 패키지에 포함될 예정
그래픽 문법(Grammar of Graphics)을 따르는 AutoViz의 사용자 정의 시각화
(사용자 정의) 스코어러에게 데이터를 전달하여 실제 및 예측 값과 다른 열에 액세스 가능
24개국 이상의 휴일 캘린더 추가, 사용자가 국가 목록을 선택하여 is-holiday 특성 생성 가능
관측된 범위에 예측을 클리핑하지 않고 외삽(extrapolation)을 허용하는 회귀 분석 문제에 대해 identity_no_clip 대상 트랜스포머 추가
MLI:
MLI에 대한 새로운 GUI/UX
Original Feature Shapley 중요도에 대해 Kernel Explainer 추가
UI에서 Original Feature에 대한 Shapley 값을 CSV 파일로 다운로드하는 기능 추가
k-LIME 출력 CSV 파일에 인터셉트 열 추가
모델 오류 디버그를 지원하기 위해 DAI 모델 잔차에서 대리 모델을 실행하는 기능 추가
Decision Tree Surrogate 모델 규칙을 텍스트 및 Python 코드로 내보내는 기능 추가
다항 실험을 위한 Decision Tree Surrogate 모델 추가
다항 실험을 위한 LOCO(Leave One Covariate Out) 추가
DIA(Disparate Impact Analysis)에 대한 두 가지 일반 공정 대출(fair lending) 메트릭 추가: 표준화 평균 차이(SMD) 및 한계 오차(ME)
다음 페이지에 해석 가능한 두 개의 모델 레시피 추가 https://github.com/h2oai/driverlessai-recipes: GA2M 및 XNN (https://github.com/h2oai/driverlessai-recipes/tree/master/models/mli)
MLI 요약 페이지에 바이너리 분류 실험에 대한 예측 레이블 표시
개선 사항:
로그 파일의 향상된 구문 분석(컴퓨터 가독성)
사용자 정의 레시피는 레시피를 생성한 사용자에게만 표시됨, 이전에 생성된 사용자 정의 레시피는 전역적으로 표시
time series 실험 속도 향상
미리보기에 최종 파이프라인의 모델링 부분에 대한 상세 내용이 표시되도록 개선
알림 시스템 개선
MOJO 크기 감소
사용자 제어 가능한 임계값보다 데이터가 큰 경우에만 불균형 샘플링 기술 허용
사용자 정의 레시피를 위한 최신 H2O-3 백엔드로 업그레이드
대량의 불균형 데이터 세트에서 더 빨라진 특성 선택
설명서 업데이트
애니메이션 GIF 추가
탭 콘텐츠 추가
바이너리 분류를 위한 불균형 샘플링 방법 에 대한 자세한 내용 추가
새 콘텐츠(위 링크된 주제 참조)
버그 수정:
다양한 버그 수정
버전 1.8.10 LTS(2020년 2월 19일)¶
새로운 기능
리소스 메뉴에 다운로드할 수 있는 새 Python client 표시
.avro file 형식 지원 추가
여러 AutoDoc 생성 옵션 추가. config.toml 의
autodoc_template
옵션을 사용해 AutoDoc 파일 경로 목록으로 설정하여 수행합니다.
MOJO 업데이트
MOJO 런타임 의존성을 2.5.10으로 업그레이드
Tree 및 Linear 기반 부스팅 모델의 Shapley 계산을 위한 MOJO 지원 추가
개선 사항:
MLI 로그에 세부 표시 수준 추가
버그 수정:
P2.8x Amazon EC2 인스턴스의 LightGBM 모델에서 감지된 정지 오류 수정
버전 1.8.9 LTS(2020년 10월 19일)¶
새로운 기능
API 엔드포인트에 구성 가능한 CSRF(Cross-site request forgery) 보호 기능 추가
동시 세션에 대한 보호 기능 추가
개선 사항:
모든 API 엔드포인트에서 웹 서버 기술 정보 숨기기
코드의 구성 가능한 정적 분석을 적용하여 BYOR 보안 향상
세션 검증 및 신뢰성 향상
암호화를 통해 내부 API 핸들러에 대한 보안 향상
버그 수정:
세션 만료 후 사용자 세션 자동 로그아웃 수정
닫힌 세션의 올바른 정리를 위한 수정
역방향 프록시 및 URL 접두사를 사용할 경우 정적 아티팩트로 향하는 잘못된 리디렉션 수정
확장자 없는 파일 가져오기 수정
버전 1.8.8 LTS(2020년 9월 30일)¶
새로운 기능
저장된 변수 중요도의 수에 대한 사용자 컨트롤 제공(즉, Python 및 R 클라이언트는 14개 이상의 값을 다시 가져올 수 있음) (config.toml 파일의
max_varimp_to_save
)24개국 이상의 휴일 캘린더 추가, 사용자가 국가 목록을 선택하여 time series 실험을 위한 is-holiday 특성 생성 가능
IBM Power에서 LightGBM 모델에 대한 GPU 지원 활성화
rhel8 유사 시스템 지원
역방향 프록시에서 삽입한 JWT 토큰을 사용하여 로그인하는 옵션 적용
사용자가 구성에서 데이터 구분 기호/구분자 지정 가능(
datatable_separator
config.toml 파일 참조)민감한 config.toml 값에 대해 암호화된 키 저장소 지원 추가. 현재 LTS 릴리스(1.8.8 이상)에서만 사용할 수 있습니다.
MOJO에 Shapley 값 계산을 위해 변환된 열 이름 저장
개선 사항:
확장자 없는 파일 처리의 일관성 추가
웹 서버 요청 처리 개선, 애플리케이션 외부의 리디렉션 허용 안 함
구문 분석 속도를 높이기 위해 로그 파일 서식 개선
커넥터에 대한 로깅 향상
사용자 정의 레시피에 대한 에어 gap 지원 개선
Snowflake Stage 테이블을 옵션으로 선택하도록 허용
버그 수정:
역방향 프록시 뒤에 배포 시 OpenID 및 TLS 로그인 리디렉션 수정
IBM Power에서 Cgroup 메모리 감지 수정
다양한 MLI 수정
다양한 UI 수정
설명서 업데이트
구성 보안 설명서 추가
MOJO Scoring 명령줄 옵션 에 대한 자세한 정보 추가
Bitbucket으로 아티팩트 내보내기 에 대한 자세한 정보 추가
Driverless AI의 GPU 사용량 에 대한 자세한 정보 추가
설치 문서 개선(RHEL 8 지원)
변환된 특성 이름에 대한 설명 개선
버전 1.8.7.2 LTS(2020년 7월 13일)¶
버그 수정:
올바른
get_true_username
및start_session
을 사용하기 위해authentication_method
매개변수 추가 및 전달SQL과 유사한 커넥터: 쿼리 끝에서 불필요한 세미콜론 삭제
설명서 업데이트
문서에
hive_app_jvm_args
사용
버전 1.8.7.1 LTS(2020년 6월 23일)¶
새로운 기능
Bitbucket 서버에 대한 아티팩트 푸시 기능 추가
XGBoostGBM, LightGBM, DecisionTree 모델의 monotonicity constraints에 대한 특성별 사용자 컨트롤 추가
버그 수정:
Hive Kerberos 가장(impersonation) 수정
가장에 적절한 로그인 사용자 이름을 사용하여 DTap 커넥터 문제 수정
XGBoostGBM, LightGBM, DecisionTree 모델에 대한 monotonicity constraints 수정
버전 1.8.7 LTS(2020년 6월 15일)¶
새로운 기능
k-LIME csv에 절편 항(intercept term) 추가
DAI PD/ICE에서 기본 범주형 및 숫자 특성 렌더링 제어 추가
사용자 정의 레시피 업로드를 특정 git 리포지터리 및 분기로 제한하는 기능 추가
한국어 및 중국어 번역 추가
여러 인증 방법을 동시에 사용하는 기능 추가
개선 사항:
Driverless AI가 시작되지 않는 경우 systemctl의 동작 개선
JDBC 및 Hive 커넥터에 대한 로깅 동작 개선
C++ 스코어러의 동작 개선, tmp 디렉터리에 저장되는 불필요한 파일 감소
Kubernetes의 Docker 이미지 동작 개선
익명 바인딩을 허용하도록 LDAP 인증 개선
대량의 광범위한 불균형 데이터 세트에 대한 실험 시 특성 선택 속도 향상
사용 중인 시스템에서 데이터 가져오기 속도 향상
버그 수정:
자동 Kaggle 제출 및 점수 검색 수정
여러 MLI 작업을 동시에 실행할 때 MLI의 대리 DRF 모델에 나타나는 일시적 Java 예외 수정
링크된 실험이 삭제된 경우 배포 삭제 관련 문제 수정
Docker Image에서 Jupyter Notebook의 정상 작동을 저해하는 문제 수정
Diagnostics 페이지에 표시되지 않는 사용자 정의 레시피 스코어러 수정
AWS Lambda Deployment가 삭제된 열을 제대로 처리하지 않는 문제 수정
특정 실험의 GPU 수를 제한할 수 없는 문제 수정
1.7.1 및 1.8.0에서 빌드된 특정 모델의 부정확한 서버 내 스코어링 수정(독립 스코어링은 영향을 받지 않음)
드문 데이터 테이블 형식 캐스팅 예외 수정
설명서 업데이트
《순열 기반 특성 선택을 수행하는 행의 최대 수》 상세 설정의 기본 값은 현재 500,000입니다
Hive 및 Snowflake 커넥터 설명서 개선
Java 스코어링 파이프라인 섹션의 Main.java 예시 업데이트
애플리케이션 시작 전에 UI에서 언어를 변경하는 방법을 설명하는 문서 추가
Autoreport에서 사용자 정의 레시피를 설명하고 문서화하는 방법에 대한 정보 추가
LDAP 인증 설명서 업데이트
Linux DEB 및 RPM 설치 설명서 개선
AWS Community AMI 설치 설명서 개선
Reproducible 버튼에 대한 설명서 개선
버전 1.8.6 LTS(2020년 4월 30일)¶
새로운 기능
MOJO Scoring Pipeline의 크기를 줄이는 상세 설정 추가(이에 따라 추론에 소요되는 대기 시간 및 메모리 사용량 감소)
IBM Power에 대한 Lambda 배포 활성화
배포용 재시작 버튼 추가
지원되는 데이터 세트에 대한 자동 Kaggle 제출 추가, 비공개/공개 점수 표시(Kaggle API 사용자 이름/키 필요)
단일 최종 모델이 폴드 모델보다 백 테스트 분할(time series의 경우) 또는 교차 검증 폴드(IID의 경우)에서 더 나쁜 경우 경고 표시(신호 또는 적합성 중 어느 문제인지 표시)
R 클라이언트 API에 autodoc, 실험 preview, 데이터 세트 다운로드, autovis 함수를 포함하여 업데이트
상세 설정에 작은 MOJO 생산 파이프라인을 만들기 위해 효과적으로 설정을 전환할 수 있는 버튼 추가
S3 또는 Git 리포지터리에 아티팩트를 업로드하는 옵션 추가
개선 사항:
모델 유형이 변경된 경우 실험 재시작/재조정 견고성 개선
특성 삭제에 대한 추가 보호
Hive 커넥터 구현 향상
버그 수정:
파일 가져오기에서 통계 계산 중 무한 루프를 수정하도록 데이터 테이블 업그레이드
웹 서버 및 UI에 동적 기본 URL 접미사 사용
작은 값의 가중치 열을 제공할 때 MLI의 잘못된 min_rows 수정
TensorFlow/PyTorch 모델에 대한 MOJO의 segfault 수정
MLI에 대해 경과된 시간 수정
R 클라이언트에 대해 기본적으로 GPU 활성화
Python 스코어링 h2oai ModuleNotFound 오류 수정
특성 삭제 방지를 전체적으로 개선하기 위해 no_drop_features toml 및 상세 버튼 업데이트
데이터 테이블 mmap 전략 수정
설명서 업데이트
Hive 데이터 커넥터 활성화에 대한 설명서 추가
스크립트를 사용한 AWS Lambda 배포에 대해 만료된 DAI 라이선스 업데이트에 대한 설명서 추가
아티팩트 업로드 설명서에 아티팩트 스토어의 S3 및 Git에 대한 지원 포함
원핫 인코딩(one-hot encoding)에 대한 설명서 개선
systemd 로그/journalctl에 대한 설명서 개선
time series ‘예측 시 사용할 수 없는 열’에 대한 설명서 개선
Azure Blob Storage에 대한 설명서 개선
MOJO Scoring Pipeline에 대한 설명서 개선
새로운 상세 설정을 사용하여 MOJO 크기 줄이기에 대한 정보 추가
버전 1.8.5 LTS(2020년 3월 9일)¶
새로운 기능
대용량(최대 10k) 다중 클래스 문제 처리, GUI 개선 포함
대상 클래스가 드물지 않은 바이너리 문제의 클래스 불균형 감지
반복 패널에 특성 수 추가
실험 요약 zip 파일에 실험 계보 pdf 추가
(교차) 검증 폴드에서 최종 파이프라인 점수가 불안정할 경우 경고 발생
상수 모델(Constant Model)이 최종 파이프라인의 품질을 개선하는 경우(신호 품질 저하를 나타냄) 경고 발생
모델 피팅(AUC/R2), Gini 또는 상관 관계 등의 누출 감지 출처 보고
개선 사항:
ID 열 처리 개선
예외 처리를 개선하여 Python 예외 발생의 안정성 향상
개별 트랜스포머 또는 모델이 예외 또는 segfault를 발생시키는 경우 예외 처리 개선
실험 선택 사항 변경에 대해 실험 재시작 및 재조정의 견고성 개선
데이터 세트 변환 시 누락 값 처리 개선
모듈의 사용자 정의 레시피 가져오기의 견고성 향상
설치 설명서에 대한 문서 개선
time series에 대한 초기 지연 크기 선택 개선
특정 돌연변이 매개변수의 회귀 분석 문제에 대한 LightGBM 안정성 향상
설명서 업데이트
time series 실험에 대한 설명서 개선
Data Recipe URL 및 데이터 레시피 파일 커넥터의 재활성화 방법을 설명하는 항목 추가
이전 버전의 독립형 Python Scoring Pipeline을 실행하는 사용자를 위해, 오래된 의존성의 업그레이드 버전 설치 방법을 설명하는 정보 추가
《불균형 바이너리 분류 문제의 샘플링 방법》 상세 설정에 대한 설명 개선
REST 서버 배포에 관한 제약 사항 추가
HDFS 커넥터 섹션에 필수 매개변수 및 선택 매개변수 표시
MOJO가 스레드로부터 안전함을 나타내는 FAQ 추가
Windows 10에서는 Docker 설치만 지원
Recommendations AutoViz 그래프에 대한 정보 추가
Before you Begin Installing 항목에 master.db 파일이 이전 Driverless AI 버전과 역호환되지 않는다는 정보 추가
버그 수정:
LightGBM의 버그 수정 업데이트, 중단 및 하드 코드된 라이브러리 경로 회피 포함
psutil 패키지 사용 안정화
테스트 세트에 목표 값이 누락된 경우 time series 실험 수정
Python 스코어링이 원본 data_directory에 의존하지 않도록 수정
사용자 정의 time series 유효성 검사 분할 및 낮은 accuracy에 대한 미리보기 수정
단일 time series에 대해 무시된 최소 지연 크기 설정 수정
datetime 열이 포함된 Excel 파일의 구문 분석 수정
대부분의 누락 값이 포함된 열에 대한 열 형식 감지 수정
반복 점수에서 0.0000점의 잘못된 표시 수정
다양한 MLI 수정(잘못된 그래프 표시 안 함, PDP 정렬 순서 수정, 레이블 겹침)
다양한 버그 수정
버전 1.8.4 LTS(2020년 1월 31일)¶
새로운 기능
실험 페이지에 ‘Scores’ 탭 추가, 모델 및 폴드에 대한 자세한 튜닝 테이블과 점수 표시
Constant Model(상수 예측) 추가하여 기본 참조 모델로 사용
참조로 실험 요약에 글로벌 상수 예측 점수 표시
DriverlessAI의 상호 TLS 설정을 위한 지원 추가
클라이언트/개인 인증서를 인증 방법으로 사용하는 옵션 추가
설명서 업데이트
mTLS 및 클라이언트 인증서 인증을 활성화하는 섹션 추가
지원되는 알고리즘 목록에 Constant Model 추가
모델 점수(Model Scores) 페이지를 설명하는 섹션 추가
데이터 테이블 가져오기 프로세스에 대한 C++ 스코어링 파이프라인 설명서 개선
Java 스코어링 파이프라인에 대한 설명서 개선
버그 수정:
새 특성 추가 시 최종 파이프라인의 재조정 수정
다양한 버그 수정
버전 1.8.3 LTS(2020년 1월 22일)¶
구성된 디스크 위치에 실험 아티팩트를 업로드하는 옵션 추가
다양한 버그 수정(시간 열의 변수 가공, 브레인 재시작의 마이그레이션 수정)
버전 1.8.2 LTS(2020년 1월 17일)¶
새로운 기능
Decision Tree 모델
accuracy <= 7 및 해석력 >= 7로 자동 활성화
모든 문제 유형 지원: 회귀 분석/바이너리/다중 클래스
MOJO와 함께 LightGBM GPU/CPU 백엔드 사용
파이프라인 시각화의 일부로 트리 분할 및 리프 노드 결정의 시각화
각 열별 대체 방식(실험상)
실험 시작 시 [const, mean, median, min, max, quantile] 대체 방식 중 하나 선택
대체 값 계산 방법 선택: 전체 데이터 세트에서 또는 각 파이프라인의 학습 데이터 분할 내에서
기본적으로 비활성화되어 있음, 시작 시 활성화하여 적용함
실험 요약에 MOJO 크기 및 스코어링 지연 시간(C++/R/Python 런타임) 표시
최종 앙상블에서 저 가중치 기본 모델을 자동으로 잘라내어(해석력 설정에 기반) 최종 모델 복잡도 감소
사용자 정의 레시피의 비원시 github URL을 원시 소스 코드 URL로 자동 변환
개선 사항:
time series 및 accuracy가 낮은 실험에 대한 특성 진화 속도 향상
특성 진화 알고리즘의 accuracy 향상
유전자 알고리즘의 모델 및 특성 선택 시 특성 트랜스포머 해석력, 총 카운트, 중요도 고려
실험 페이지의 ROC 곡선의 바이너리 혼동 행렬이 Diagnostics와 일치(TP/TN과 대칭)
실험에 사용자 정의 레시피를 사용하는 경우에만, Python Scoring Pipeline에 사용자 정의 레시피 포함시킴
추가 설명서(새 OpenID config 옵션, JDBC 데이터 커넥터 구문)
AutoReport 트랜스포머 설명 개선
Autoreport 생성 중 진행률 보고 개선
불균형 다중 클래스 문제에 대한 자동 상호 작용 검색 속도 향상
GLM 및 FTRL에 대한 단일 최종 모델의 accuracy 향상
Config_overrides에 대해 R 클라이언트 API의 매개변수 목록/벡터를 허용
Random Forest 모델에 대한 빠른 중지를 기본적으로 비활성화, 새 ‘rf_early_stopping’ 모드 표시(옵션)
모든 스코어링 파이프라인에 대해 동일한 예시 데이터 생성(1.8.0 이전 버전과 같음)
Datatable 및 Java의 버전 업그레이드
Docker 이미지에 graphviz 설치, MOJO 패키지 및 Autoreport에서 파이프라인 시각화의 .png 파일을 가져옴. 참고: RPM/DEB/TAR SH 설치의 경우, graphviz를 설치하면 이 기능 옵션을 사용할 수 있음.
설명서 업데이트
라이브 코드를 사용해 레시피별 데이터 세트를 수정하는 간단한 예시 추가
데이터 세트 대체 방법을 설명하는 섹션 추가(실험)
지원되는 알고리즘 목록에 Decision Tree 추가
JDBC 커넥터 활성화의 예시 수정
사내 테스트를 수행하지 않은 JDBC 드라이버의 사용 방법을 설명하는 정보 추가
누락 값 처리(Missing Values Handling) 항목에 《트랜스포머의 클러스터링》 및 《Isolation Forest 이상 점수 트랜스포머》에 대한 섹션을 추가
《폴드 열》 설명 개선
버그 수정:
최종 모델 점수가 최고 특성 진화 점수와 차이가 큰 다양한 이유 수정
테스트 세트 채점 중에 생성된 임시 파일 삭제
대상 트랜스포머 튜닝 수정(잠재적으로 특성 진화와 최종 모델 사이에 대상 트랜스포머 혼합)
tensorflow_nlp_have_gpus_in_production=true 모드 수정
누락된 datetime 값의 Partial Dependence Plot을 수정하고 텍스트 열에 표시하지 않음
분기별 데이터에 대한 time series GUI 수정
특성 트랜스포머 탐색을 새 특성 1,000개 이하로 제한(10/10/1의 작은 데이터는 너무 많은 특성을 시도함)
Kaggle 파이프라인이 8개 이상의 입력 특성을 시도하도록 빌드 레시피 수정
사용자 정의 데이터 레시피에 대한 라이브 코드 에디터의 커서 배치 수정
교차 검증 분할 수가 10개를 초과하는 경우, 파이프라인 시각화에 올바른 교차 검증 분할 수 표시
’%d’(일)이 없는 일부 datetime 형식에 대한 MOJO의 날짜/시간 구문 분석 수정
다양한 버그 수정
역방향/정방향 호환성
1.8.2 LTS에서 빌드된 모델은 새로 나올 버전 1.8.x LTS에서 계속 지원함
1.7.1/1.8.0/1.8.1에서 빌드된 모델의 사용이 중단되는 것은 아니며 계속 유효함(MOJO 및 Autoreport 생성, MLI, 스코어링 등을 유지하기 위해 적극 노력함)
1.7.0 이전 버전에서 빌드된 모델은 더 이상 사용되지 않음
버전 1.8.1(2019년 12월 10일)¶
새로운 기능
단일 최종 모델(time series 또는 i.i.d)을 사용한 실험에 대한 스코어링 메트릭과 그에 상응하는 다운로드 가능한 홀드아웃 예측값의 전체 세트
MLI 업데이트
What-If(민감도) 분석
텍스트 데이터에 대한 실험 해석(NLP)
사용자 정의 데이터 레시피 BYOR
Python의 BYOR(bring your own recipe): DAI 내에서 빠른 커넥터 프로토타입 생성 및 데이터 전처리를 위한 pandas, numpy, datatable, 타사 라이브러리
데이터 커넥터, 정리, 필터링, 집계, 증강, 변수 가공, 분할 등
처음부터 새로 또는 기존 데이터 세트로 하나 또는 여러 데이터 세트 생성 가능
실시간 미리보기 기능이 있는 대화형 코드 에디터
예제 코드: https://github.com/h2oai/driverlessai-recipes/tree/rel-1.8.1/data
최종 스코어링 파이프라인(실험용)의 시각화
전체 기계학습 파이프라인의 변수 가공, 모델링, 앙상블 단계를 그래프로 GUI에 표시
Autodoc에 추가
Time Series:
time series 실험에 대해 테스트 시간에 사용할 수 없는 특성을 지정하는 기능
time series 실험을 위한 맞춤형 사용자 제공 학습/검증 분할(각 분할의 시작/종료 날짜/시간별)
롤링 윈도우(구성 가능한 윈도우 수) 기반의 time series 실험(회귀 분석 및 분류, 지연 유무에 관계 없음)에 대한 백 테스트 메트릭
MOJO
FTRL용 Java MOJO
BERT/DistilBERT NLP 모델(요청시 제공)에 기반한 사용자 정의 레시피를 위한 PyTorch MOJO(C++/Py/R)
개선 사항:
Accuracy:
숫자 특성((《매직 특성》 파인더)에 대한 자동 쌍대(pairwise) 상호 작용 검색(+,-,*,/)
해석력이 낮은 time series 실험의 accuracy 향상
누출 감지 로직 개선
특성 진화에 대한 유전자 알고리즘 추론 향상(더 많은 탐색)
Time Series 레시피
time series 실험에 대한 Python Scoring Pipeline의 테스트 시간 증강 기능 재활성화
time series 롤링 홀드아웃 예측 수의 기본값을 검증 분할과 동일하게 줄임(구성 가능)
계산
단일 최종 모델을 사용한 non-time-series 실험의 특성 진화 속도 향상
내부 재샘플링 모음 수를 제한하여 고급 클래스 불균형에 대한 바이너리 불균형 모델의 속도 향상
더 빨라진 특성 선택
ImbalancedXGBoostGBMModel에 대한 GPU 지원 활성화
한 번에 여러 파일 가져오기 속도 향상
time series 속성의 자동 결정 속도 향상
accuracy 설정이 낮은 경우 대량 데이터 세트에서 XGBoost 모델 사용 활성화, 상세 설정에 데이터 세트 크기 제한 표시
모든 실험의 메모리 사용량 감소
time series 실험에 대한 홀드아웃 예측 생성 속도 향상(기본적으로 Shapley 값은 요청시 MLI로 계산)
UX 개선 사항
데이터 세트 이름 변경 기능 추가
상세 설정을 위한 검색 창 추가
장기 실행 실험에 대한 추적 표시
모든 실험에서 MOJO 생성(가능한 경우 ‘auto’로 설정)
모든 실험에서 파이프라인 시각화 생성
기본적으로 모든 실험(iid 및 time series)에서 학습 데이터에 대한 홀드아웃 예측과 최종 모델에 대한 전체 메트릭 제공
설명서 업데이트
GPU 지속성 모드 활성화 단계 업데이트
사용하지 않는 NVIDIA 기능에 대한 정보 추가
LDAP 인증 활성화에 대한 설명서 개선
데이터 세트의 열 유형 변경에 대한 정보 추가
실험 요약에 포함되는 실험 아티팩트 목록 업데이트
Driverless AI Docker 컨테이너 내에서 REST 서비스 배포를 위해 Docker에 포트를 표시하는 방법을 설명하는 단계 추가
사용자 정의 변환 레시피로 실험을 실행하는 방법을 보여주는 예제 추가
TLS/SSL 설정에 대한 FAQ 개선
Windows에서 데이터 커넥터를 사용하여 Import Folder as File 을 시도할 때 발생할 수 있는 문제를 설명하는 FAQ 추가
버그 수정:
브레인 재시작/리핏을 통해 채점되지 않은 이전 파이프라인을 수락하도록 허용
회귀 분석 모델의 진단을 위해 실제 레이블과 예측 레이블 수정
항등 변환 이외에 비대상 트랜스포머의 TensorFlow에 대한 MOJO 수정
Excel 파일에 대한 열 유형 감지 수정
기본 상세 설정으로 MOJO를 사용하는 실험 허용
다양한 버그 수정
버전 1.8.0(2019년 10월 3일)¶
변수 가공의 속도 및 메모리 사용량 개선
누출 및 이동 감지 속도를 개선, accuracy 개선
시스템 고부하 시 AutoVis의 속도 향상
사용자가 제공한 대량 검증 데이터로 실험 속도 향상
회귀 분석 문제에 대한 앙상블 accuracy 향상
Autoreport 생성 개선(실험당 백그라운드 작업 하나만 가능)
ImbalancedXGBoost 및 ImbalancedLightGBM 모델에 대한 샘플링 기법 개선, 기본적으로 비활성화하여 속도 저하 방지
FTRL 및 RandomForest에 대한 Python/R/C++ MOJO 지원 추가
CPU 모드에서 LightGBM에 대한 Native 범주 처리 추가
LightGBM에 대한 monotonicity constraints 조건 지원 추가
Isolation Forest Anomaly Score 트랜스포머 추가(outliers 감지)
GLM 모델에 대한 원-핫 인코딩 재활성화
사전 레이블 인코딩 추가(기본적으로 비활성화)
나머지 신경망 그래프의 파인 튜닝 외에, TensorFlow NLP 트랜스포머에 대해 사용자가 제공한 사전 학습된 임베딩을 추가로 학습시키는 기능 추가
BYOR 수락 테스트에 대한 시간 제한 추가
튜닝 모델과 비교하여 최종 모델 변수 중요도의 큰 변화에 대한 로그 및 알림 추가
time series 변수 가공에 대한 상세 제어 기능 추가
레시피를 전체(또는 일부) github 리포지터리로 또는 페이지에서 Python 파일의 링크로 대량 업로드하는 기능 추가
폴드 열에 누락 값 허용
이전에 다시 시작한 모델의 《동일한 매개변수를 사용하여 새 모델》을 시작할 때 특성 브레인에 대한 지원 추가
《최종 파이프라인 재학습》 중에 파이프라인에 추가 특성을 포함할지 여부를 전환하는 지원 추가
기본적으로 실험 런타임을 1일로 제한(대략적 적용, 상세 설정 -> 실험 또는 config.toml ‘max_runtime_minutes’에서 구성 가능)
Pickled Pandas 프레임(.pkl) 가져 오기 지원 추가
MLI 업데이트
메트릭 및 실제 vs. 예측 차트 모두에 대해 MLI TS에 홀드아웃 예측 및 테스트 세트 예측(해당하는 경우) 표시
MLI TS에서 그룹 메트릭을 다운로드하는 기능 추가
MLI TS에서 차트를 확대하는 기능 추가
DAI 모델에서 사용하지 않는 열을 MLI에서 k-LIME 클러스터 열로 사용하는 기능 추가
MLI에서 원본 및 변환 DAI 모델 기반 특성 중요도를 볼 수 있는 기능 추가
원래 특성에 대한 Shapley 중요도를 보는 기능 추가
구성 옵션 autodoc_include_permutation_feature_importance 가 on 으로 설정된 경우 DAI 모델에 대한 순열 중요도를 보는 기능 추가
여러 메트릭(분자에서 False Positive 및 True Negative을 사용하는 메트릭)에 잘못된 계산을 초래하는 바이너리 DIA(Disparate Impact Analysis)의 버그 수정
기본적으로 NLP TensorFlow 트랜스포머 비활성화(NLP 상세 설정에서 《on》으로 전환하여 활성화)
상세 설정 재편성, 변수 가공용 탭 추가
사용자, 시스템 또는 서버 재시작에 의해 실험이 중단된 경우 알림 제공
코어 사용 실험에 우선순위를 부여하여 서버에서 시작된 모든 작업의 부하 감소
중단된 실험 로그에 실험 요약 파일 추가
앙상블의 모델이 조기 중지에도 불구하고 max 반복 한계에 도달하는 경우 경고 기능 추가, 상세 패널의 학습률 제어 관리
진행 상태 보고 기능 개선
사용자 정의 레시피를 사용하지 않는 경우 채점용 H2O 레시피 서버 비활성화 허용(Java 종속성 방지)
RMSPE 스코어러 수정
URL을 통해 업로드 시 레시피 오류 처리 수정
GUI가 실험 페이지에 있을 때마다 Autoreport가 생성되면서 서버 분기로 인해 시스템이 과부하되는 문제 수정
Autoreport PDP 계산에 대한 시간 제한을 수정하여 완료 시간 단축
GUI 상세 설정에서 특정 구성 설정이 적용되도록 수정(woe_bin_list, ohe_bin_list, text_gene_max_ngram, text_gene_dim_reduction_choice, tensorflow_max_epochs_nlp, tensorflow_nlp_pretrained_embeddings_file_path, holiday_country), 이전에는 시작 시 제공된 경우에만 적용되었음
채점된 테스트 세트 다운로드 중 추가 열의 열 유형 수정
TS 실험에서 GUI가 forecast horizon에 대한 시간을 잘못 변환하는 문제 수정
AutoVis의 문자열 열에 대한 상관 관계 계산 수정
R MOJO 런타임의 다운로드 수정
LightGBM RF 모드의 매개변수 수정
LightGBM 및 XGBoost에 대한 다트 매개변수 수정
설명서 업데이트
설치 및 업그레이드를 원활하게 진행할 수 있도록 ‘설치 또는 업그레이드를 시작하기 전에’ 항목에 자세한 정보 추가
AWS Community와 AWS Marketplace AMI 중에서 선택하는 방법을 설명하는 항목 추가
MOJO2 Javadoc 검색 방법에 대한 정보 추가
Driverless AI 1.7.x 릴리스에서 작동하는 Python Client 예제 업데이트
새로운 특성, 상세 설정, MLI 플롯 등에 대한 설명서 업데이트
역방향/정방향 호환성
1.8.0에서 빌드된 모델은 버전 1.8.x에서 계속 지원함
1.7.1에서 빌드된 모델의 사용이 중단되는 것은 아니며 계속 유효함(MOJO 및 Autoreport 생성, MLI, 스코어링 등을 유지하기 위해 적극 노력함)
1.8.0은 scipy 버전 1.3.1로 업그레이드되어 최신 사용자 정의 레시피를 지원합니다. 이로 인해 scipy 버전 1.2.2(및 이를 사용한 실험)에 기반한 사용자 정의 레시피는 사용되지 않을 수 있으며, 해당 사용자 정의 레시피를 다시 가져와야 할 수 있습니다. 이전에 빌드된 Python Scoring Pipeline은 계속 작동합니다.
1.7.0 이전 버전에서 빌드된 모델은 더 이상 사용되지 않음
다양한 버그 수정
버전 1.7.1(2019년 8월 19일)¶
불균형 바이너리 분류 문제에 대한 내부 샘플링 기법을 사용하는 2개의 새로운 모델 추가: ImbalancedXGBoost 및 ImbalancedLightGBM
시계열 실험에 대한 롤링 윈도우 기반 예측 지원 추가(2가지 옵션: 테스트 시간 증강 또는 리핏)
데이터 세트에 대한 논리적 열 유형 설정 지원 추가(실험 중 유형 감지 재정의)
실험 시작 시 실험 이름 설정 기능 추가
time series 문제에 대한 누출 감지 추가
JDBC 커넥터 추가
MOJO 업데이트
TensorFlow 모델에 대한 Python/R/C++ MOJO 지원 추가
TensorFlow NLP 트랜스포머에 대한 Python/R/C++ MOJO 지원 추가: TextCNN, CharCNN, BiGRU, 제공되는 경우 사전 학습된 임베딩 포함
MOJO 생성에 대한 메모리 사용량 감소
MOJO 생성 속도 향상
MOJO 및 Python Scoring Pipeline의 구성 옵션에 3단 토글 제공: 《on》/》off》/》auto》
MLI 업데이트
MLI에 대한 DIA(Disparate Impact Analysis) 추가
삭제해야 하는 열 이름이 있는 데이터 세트에 대해 MLI 스코어링 파이프라인을 빌드할 수 있음
MLI의 부분 종속성 및 ICE에 대한 날짜 인식 비닝
지연 기반 특성에 대한 정규화 기술을 사용하여 time series 모델링의 일반화 성능 향상
회귀 분석 문제에 대한 《예측 vs 실제》 플롯 개선(적응형 포인트 크기 사용)
2GB보다 큰 문자열 열 조작에 대한 데이터 테이블의 버그 수정
사용자가 제공한 검증 데이터에 대한 예측 다운로드 수정
time series Test-Time Augmentation의 버그 수정(테스트 세트에 전체 학습 데이터를 포함하여 해결)
상세 설정 플래그를 적용하여 상세 추적 활성화(기본적으로 다시 비활성화)
다양한 버그 수정
버전 1.6.4 LTS(2019년 8월 19일)¶
ML Core 업데이트
스키마 감지 속도 향상
DAI가 회귀 분석 문제를 진단 시 누락값이 있는 행 삭제
열 유형 감지 속도 향상
개별 확장 수정
예측에 대한 n_jobs 수정
왜곡된 데이터 세트의 예측 변수에 더 이상 대상 열이 포함되지 않음
로컬에서 사용자의 데이터 파일 다운로드를 방지하는 옵션 추가
UI 분할 기능 개선
새로운 《max_listing_items》 config 옵션으로 목록 페이지에서 가져오는 항목 수 제한
모델 Ops 업데이트:
MOJO 런타임을 버전 2.1.3으로 업그레이드하여 영구 MOJO 파이프라인 지원
배포 템플릿을 MOJO 런타임 버전과 일치하는 버전으로 업그레이드
MLI 업데이트
MLI 스키마 빌더로 수정
범주형 사유 코드 구문 분석 수정
정수 시간 열의 처리 기능 추가
다양한 버그 수정
버전 1.7.0(2019년 7월 7일)¶
트랜스포머, 모델(알고리즘), 스코어러에 대해 BYOR(Bring Your Own Recipe) 지원
Python, R, Java용 protobuf 기반 MOJO 채점 런타임 라이브러리 추가(독립형, 저지연)
AWS Lambda 엔드포인트 이외에, MOJO Scoring Pipeline에 대한 원 클릭 배포 옵션으로 로컬 REST 서버 추가
Python client 이외에 R 클라이언트 패키지 추가
데이터 세트 및 실험을 그룹화하고 실험의 시각적 비교와 리더보드 생성을 수행하는 Project 작업 공간 추가
가져온 데이터 세트를 .csv로 다운로드하는 기능 추가
AutoViz의 열 변환에 대한 Recommendations
확장성 및 성능 향상
실험에 max 런타임을 제공하는 기능
실험 구성이 허용하는 경우 기본적으로 MOJO Scoring Pipeline 생성(사용자 편의를 위해 입력 없이 로컬/cloud 배포 옵션 사용)
TensorFlow NLP 모델에 대해 사용자가 제공한 사전 학습된 임베딩 지원
일부 대상 클래스가 없는 홀드아웃 분할 지원(폴드 열이 제공되면 가능)
MLI 업데이트
회귀 분석 문제에 대한 잔차 플롯 추가(모든 outliers를 손상 없이 유지)
다항 문제에 대한 기본 메트릭 표시로 혼동 행렬 추가
MLI GUI에 Driverless.ai 모델에 대한 PD(Partial Dependence) 및 Individual Conditional Expectation (ICE) 플롯 추가
MLI GUI에 ID 열별 검색 기능 추가
모든 특성에 대해 MLI PD/ICE를 실행하는 기능 추가
대상 및 예측의 평균을 사용하여(해당되는 경우) MLI TS에서 단일 시간 열에 대한 여러 관측치를 처리하는 기능 추가
MLI TS에서 정수 시간 열을 처리하는 기능 추가
테스트 세트가 제공되지 않는 경우 MLI TS는 학습 홀드아웃 예측을 사용
《》 및 《》%Y%m%d》 및 《》%Y%m%d%H%M》 시간 형식 문자열이 있는 파일과 많은 텍스트 문자열이 있는 파일 가져오기 속도 향상
RMSPE 스코어러의 단위를 백분율로 수정(x 100)
MAPE 및 SMAPE 스코어러의 비긍정(non-Positive) 결과 허용
GUI의 목록 개선
GUI에서 확대/축소 가능
TensorFlow 1.13.1 및 CUDA 10으로 업그레이드(CUDA를 배포에 포함하여 설치 단순화)
PPC에서 TensorFlow에 대한 CPU 지원 추가
설명서 업데이트
다음을 포함하여 새 특성에 대한 설명서 추가
Projects
사용자 정의 레시피
C++ MOJO Scoring Pipeline
R Client API
REST 서버 배포
실험 페이지에 변수 중요도 값에 대한 정보 추가
상세 설정에 대한 설명서 업데이트
《팁과 도움말》의 새 스코어링 파이프라인 팁 업그레이드
다양한 버그 수정
버전 1.6.3 LTS(2019년 6월 14일)¶
Audit 로그 특성 포함
MOJO의 parquet 파일에 대한 십진수 형식 지원 수정
Autodoc에서 PDP/ICE를 특성 중요도 순으로 정렬 가능
세션 관리 업데이트
데이터 테이블 업그레이드
향상된 재현성
모델 진단에 가중치 열 사용
MLI가 모든 원본 특성 또는 DAI가 사용하는 모든 변환된 특성에 대해 대리 모델 빌드 가능
내부 서버 캐시에 사용자 이름 고려
time series 설정 문제 수정
MOJO 로드 시 메모리 부족 오류 수정
TensorFlow에 대한 Python 스코어링 패키지 수정
OpenID 구성 추가
설명서 업데이트
실험 요약에 있는 아티팩트 목록 업데이트
지원되지 않지만 사용 가능한 특성에 대한 설명서의 언어 명료화
배포되는 Terraform 요구 사항의 경우 0.11.x 릴리스의 Terraform 버전만 지원(특히 0.11.10 이상)됨을 명확하게 지정
Miniconda 설치 설명서의 링크 수정
다양한 버그 수정
버전 1.6.2 LTS(2019년 5월 10일)¶
이 버전에서는 PPC64le 아티팩트가 제공됨
데이터 테이블 안정성 개선
파일 브라우저의 경로 필터링 개선
RMSPE 스코어러의 단위를 백분율로 수정(x 100)
글꼴 패키지가 설치된 Ubuntu 18의 세분화 오류 수정
IBM Spectrum Conductor 인증 수정
EC2 머신 자격 증명 처리 수정
지연 트랜스포머 구성 수정
KDB 및 Snowflake 오류 보고 수정
고장 발생 시 열 통계 계산에 사용되는 작업자 수의 점진적 감소
사용된 Tornado 버전을 표시하는 기본 Tornado 헤더 숨기기
설명서 업데이트
AWS Marketplace를 통한 설치 설명 추가
Google Cloud를 통한 설치 설명서 개선
FAQ 설명서 개선
데이터 샘플링 설명서 항목 추가
다양한 버그 수정
버전 1.6.1 LTS(2019년 4월 18일)¶
MLI에 대한 여러 항목 수정(partial dependence 플롯, Shapley 값)
모델 배포, time series 채점, AutoVis, FAQ에 대한 설명서 개선
버전 1.6.0 LTS(2019년 4월 5일)¶
개인 빌드만 해당됨.
2GB보다 큰 문자열 열 가져오기 수정
Windows에서 AutoViz 충돌 수정
MLI의 분위수(quantile) 비닝 수정
MLI에서 전역 평균 Shapley 값 대신 전역 절대 평균 Shapley 값 플로팅
MLI의 PDP/ICE 플롯 개선
AWS Lambda 배포의 검증된 Terraform 버전
AutoDoc에서 NULL 변수 중요도에 대한 지원 추가
AutoDoc에서 변수 중요도 테이블 크기 구성 가능
다양한 조합의 데이터 가져오기 옵션 활성화/비활성화 지원 개선
CUDA가 배포에 포함되어 설치가 간편해짐
보안 업데이트:
모든 h2oai_client 호출에 대해 SSL 설정 적용.
브라우저에서 LocalStorage를 사용해 정보를 캐시하지 않도록 방지하는 구성 옵션 추가
Tornado 서버를 버전 5.1.1로 업그레이드
세션 만료 및 자동 로그아웃 기능 개선
파일 브라우저에서 Driverless AI 데이터 폴더에 대한 액세스 비활성화
파일 브라우저에 표시되는 콘텐츠를 필터링하는 옵션 제공
HDFS 가장(impersonation)에 미리 정의된 이름 대신 로그인 이름 사용
로그인 양식에서 자동 완성 기능 비활성화
다양한 버그 수정
버전 1.5.4(2019년 2월 24일)¶
특정 형식(현재 〈max_rows_col_stats〉 매개변수 사용)을 사용하여 날짜/날짜-시간 열에 대한 열 통계 계산 속도 향상
실험 요약 파일에 변수 중요도에 대한 표준 편차 계산 추가
특성 진화와 최종 파이프라인 간의 변수 중요도 이동 계산 추가
MLI Time Series 실험에 대한 링크 수정
장기 실험의 반복 점수에 대한 표시 버그 수정
GLM 모델 실험의 조기 완료에 대한 표시 버그 수정
왜곡된 대상의 경우 k-LIME에 대한 표시 버그 수정
Time Series에 대한 MLI의 forecast horizon에 대한 표시 버그 수정
단일 시간 그룹 열의 Time Series에 대한 MLI 수정
1.5.0 및 1.5.1에서 생성된 time series 실험의 서버 내 채점 수정
OpenBLAS 종속성 수정
Docker에서 비활성화된 GPU 지속성 모드 감지
TensorFlow NLP 실험 중 디스크 사용량 감소
중단된 실험의 디스크 사용량 감소
애플리케이션 시작 중에 보고된 실험 크기 새로 고침
TensorFlow NLP 트랜스포머를 기본적으로 비활성화하여 실험 속도 향상(상세 설정에서 활성화).
실험 중 표시되는 진행률 개선
설명서 개선(Windows에서 업그레이드, 가장 단순한 모델 생성 방법, DTap 커넥터 등)
다양한 버그 수정
버전 1.5.3(2019년 2월 8일)¶
날짜, 날짜/시간 또는 정수 값을 포함하는 시간 열을 통해 시간 기준의 데이터 세트 분할 지원 추가
파일 업로드 비활성화 옵션 추가
인증을 통한 실험 아티팩트 다운로드
검증 또는 테스트 프레임에서 찾을 수 없는 예측 변수 열은 학습 프레임에서 자동 삭제 및 경고 생성
물리적 CPU 코어만 사용하여 성능 향상(config.toml에서 구성 가능)
비활성 데이터 커넥터를 표시하지 않는 옵션 추가
다양한 버그 수정
버전 1.5.2(2019년 2월 2일)¶
NLP 특성에 대한 세계적 수준의 양방향 GRU Tensorflow 모델 추가
NLP 특성에 대한 문자 수준의 CNN Tensorflow 모델 추가
한 번에 여러 개의 개별 데이터 세트 가져오기 지원 추가
time series 실험에 대한 홀드아웃 예측 지원 추가
FTRL에 대한 회귀 분석 및 다항 분류 지원 추가(이항 분류 이외에)
테스트 데이터에 실제 대상 값이 포함된 경우 time series에 대한 스코어링 향상(누락된 대상 값 예측)
LightGBM 모델의 메모리 사용량 감소
변수 가공의 성능 향상
TensorFlow 모델의 속도 향상
time series 문제에 대한 MLI GUI 개선
fold_column이 제공되는 경우 최종 모델 폴드 분할 수정
다양한 버그 수정
버전 1.5.1(2019년 1월 22일)¶
GLM에 대한 MOJO 수정
실험 요약의 .csv 파일 다시 추가
파이프라인 타이밍 아티팩트 수집 개선
Docker 태그 정리
버전 1.5.0(2019년 1월 18일)¶
모델 진단 추가(새 테스트 데이터에 대한 대화형 모델 메트릭, 회귀 분석에 대한 잔차 분석 포함)
FTRL 모델 추가(Follow The Regularized Leader)
Kolmogorov-Smirnov 메트릭 추가(Positive 및 Negative 간의 구분 정도)
새 데이터에서 최종 모델(만)의 재학습 기능 추가
GLM의 경우, 카디널리티(cardinality)가 낮은 범주형 특성에 대한 원-핫 인코딩 추가
32비트(기본값)와 64비트 정밀도 중 선택 기능 추가
시스템 정보 추가(CPU, GPU, 디스크, 메모리, 실험)
시간 gap이 훨씬 더 많은 time series 데이터 및 주중 전용 데이터에 대한 지원 추가
Amazon Lambda 에 원 클릭 배포 추가
데이터 세트의 무작위 분할 기능 추가, 대상 열별 계층화 또는 폴드 열별 그룹화 옵션 포함
OpenID 인증 지원 추가
BlueData용 커넥터 추가
과부하 상태에서 GUI의 응답성 향상
변수 가공의 속도 향상 및 메모리 사용량 감소
RuleFit 모델 성능 개선, GPU 및 다항 지원 활성화
time series 문제에 대한 시간 주파수 자동 감지 개선
외부 검증이 제공되는 경우 최종 단일 모델의 accuracy 향상
외부 검증 데이터가 제공되는 경우 최종 파이프라인 개선(앙상블 추가)
전체 원본 특성 중에서 DAI가 중요하다고 간주하는 원본 특성을 사용하여 MLI의 k-LIME 개선
모든 대리 모델에 대해 기본적으로 3중 CV를 사용한 MLI 개선
MLI time series의 GUI 개선(통합 도움말, 통합 개선)
MLI time series 실험이 실행되는 동안 MLI time series 로그 확인 기능 추가
AutoDoc(Automatic Report)의 PDF 버전을 Word 버전으로 대체
다양한 버그 수정(GLM accuracy, UI 속도 저하, MLI UI, AutoVis)
버전 1.4.2(2018년 12월 3일)¶
IBM Power 아키텍처 지원
학습 속도 향상, 최종 파이프라인 크기 감소
최종 파이프라인 학습 중 리소스 활용 감소
검증 메트릭 이외에 GUI에 테스트 세트 메트릭(ROC, ROCPR, Gain, Lift) 표시(테스트 세트가 제공된 경우)
ROC 곡선에서 Accuracy, MCC, F1에 대한 최상의 임계값 위치 표시
AutoVis에서 산점도의 상대적 포인트 크기 조정 추가
Python Client API에서 파일 업로드 수정 및 모델 체크포인팅 추가
다양한 버그 수정
버전 1.4.1(2018년 11월 11일)¶
time series에 대한 MLI 통합 개선
최종 앙상블 중 디스크 및 메모리 사용량 감소
이전에 가져온 데이터 세트에서 채점 및 변환 허용
미완료 모델에 대한 체크포인트 재시작 활성화
GPU에서 LightGBM의 OpenCL 플랫폼에 대한 시작 검사 추가
앙상블에 대한 특성 중요도 개선
날짜/날짜-시간 열에 대한 데이터 세트 통계 속도 향상
더 빨라진 MOJO 배치 스코어링
잠재적 중단 수정
MOJO에서 ‘목록에 없음’ 오류 수정
MLI의 NullPointerException 수정
AutoVis의 outliers 감지 수정
다양한 버그 수정
버전 1.4.0(2018년 10월 27일)¶
기본적으로 LightGBM 활성화(현재 MOJO 사용)
GBM Decision Tree, Random Forest(rf), Dropout에 맞게 조정된 LightGBM으로 Multiple Additive Regression Trees(dart) 충족
시간 열에 대한 ‘isHoliday’ 특성 추가
데이터 미리보기에서 날짜/날짜-시간 열의 ‘시간’ 열 형식 추가
.jay 형식의 바이너리 데이터 테이블 파일 수집 지원 추가
최종 앙상블 개선(각 모델마다 고유한 특성 파이프라인이 있음)
이전 실험의 자동 스마트 체크포인팅(특성 브레인)
Kdb+ 커넥터 추가
처리할 열 >> 100개 이상인 데이터에 대한 원래 열의 특성 선택
time series 레시피 개선(다중 검증 분할, 로직 개선)
AutoVis 성능 향상
날짜 감지 로직 향상(%Y%m%d 및 %Y-%m 날짜 형식 감지)
GPU 메모리 부족 시 CPU 모드로 자동 폴백(XGBoost, GLM, LightGBM)
데이터 형식이 일치하는 경우 검증 및 테스트 데이터 세트의 헤더가 필요하지 않음
데이터 이동 감지를 위한 텍스트 열을 포함하지 않음
MLI에서 time series 모델 지원 추가(time series 그룹 선택 기능 포함)
MLI 실험 페이지에서 MLI 로그를 다운로드하는 기능 추가(Python 및 Java 로그 모두 포함)
MLI 실험 실행 중 MLI 로그를 볼 수 있는 기능 추가(Python 및 Java 로그)
MLI 페이지에서 LIME 및 Shapley 사유 코드를 다운로드하는 기능 추가
변환된 특성에 대해 MLI를 실행하는 기능 추가
MLI 요약에 DAI 및 대리 모델의 MLI 변수 중요도에 대한 모든 변수 표시
MLI 요약에 DAI 변수 중요도 목록에 대한 변수 정의 포함
관측 가중치가 정해진 경우 Gain/Lift 차트 수정
다양한 버그 수정
버전 1.3.1(2018년 9월 12일)¶
TensorFlow 모델의 ‘Broken pipe’ 오류 수정
범주형 특성 및 해석력 >= 8의 time series 문제 수정
다양한 버그 수정
버전 1.3.0(2018년 9월 4일)¶
LightGBM 모델 추가 - 현재 [XGBoost, LightGBM, GLM, TensorFlow, RuleFit]
CNN 딥러닝 모델 기반의 TensorFlow NLP 레시피 추가(감정 분석, 문서 분류 등)
GLM에 대한 MOJO 추가
상세한 혼동 행렬 통계 추가
상세 설정 추가
데이터 탐색 개선(열 통계 및 행 기반 데이터 미리보기)
특성 진화 단계의 속도 향상
GLM 속도 향상
외부 검증 및 테스트 데이터에 대한 단일 경로 점수 보고(부트스트랩 평균 대신)
데이터 처리의 메모리 오버헤드 감소
열린 파일의 수 감소 - Mac/Docker에서 ‘잘못된 파일 설명자’ 오류 수정
Python Client API 간소화
《요청 시》 사유 코드 생성으로 인해 원래 데이터 세트에서 MLI UI의 데이터 포인트 쿼리
특성의 하위 집합만 사용하여 k-LIME의 k-평균 클러스터링 향상. 자세한 내용은 K-LIME 테크닉 참조.
MLI 요약에서 k-LIME에 대한 k-평균 센터를 보고하여 클러스터 해석력 향상
MLI 실험 목록 상세 정보 개선
다양한 버그 수정
버전 1.2.2(2018년 07월 05일)¶
time series 문제에 대한 MOJO Java 스코어링 파이프라인
다중 클래스 혼동 행렬
AUCMACRO 스코어러: 매크로 평균을 통한 다중 클래스 AUC(기본 마이크로 평균에 추가됨)
GUI 및 클라이언트 API에서 각 실험의 상세 설정(구성 재정의)
HTTPS 지원
time series 문제에 대한 다운 샘플링 로직 개선(accuracy 노브 설정을 통해 활성화된 경우)
Active Directory에 대한 LDAP 읽기 전용 액세스
Snowflake 데이터 커넥터
다양한 버그 수정
버전 1.2.1(2018년 06월 26일)¶
k-LIME의 대안으로 MLI에 LIME-SUP(알파) 추가(로컬 영역은 k-평균 대신 Decision Tree에 의해 정의됨)
RuleFit 모델(알파) 추가, 현재 [GBM, GLM, TensorFlow, RuleFit] - TensorFlow 및 RuleFit은 기본적으로 비활성화되어 있음
Minio(비공개 cloud 스토리지) 커넥터 추가
S3에서 폴더 가져오기 지원 추가
‘데이터 세트 추가’에 ‘파일 업로드’ 옵션 추가(끌어서 놓기에 추가됨)
현재 바이너리 분류 문제에 대한 예측에 2개의 열(클래스당 확률)이 있음, 다중 클래스와의 일관성 개선
모델 매개변수 튜닝 개선
time series 문제에 대한 변수 가공 개선
MOJO 생성 및 로딩 속도 향상
GUI에서 time series 관련 자동 계산 속도 향상
실험 종료 시 잠재적 희귀 중단 문제 수정
MLI 실행에 인터넷이 더 이상 필요 없음
다양한 버그 수정
버전 1.2.0(2018년 06월 11일)¶
Time Series 레시피
저지연 독립형 MOJO Java 스코어링 파이프라인(현재 베타)
Lambda 검색(및 GPU 지원)으로 Elastic Net GLM(Generalized Linear Modeling) 활성화, 기본적으로 해석력 >=6 및 accuracy<=5인 경우(알파)
해석력=1 및/또는 다중 클래스 모델(알파, config.toml을 통해 활성화)에 대해 TensorFlow(TF) 딥러닝 모델(GPU 지원 포함) 활성화
[GBM, GLM, TF] 모델의 사전 튜닝 지원으로 최적의 특성 진화 모델 매개변수 선택 가능
[GBM, GLM, TF] 모델을 혼합하여 구성된 최종 앙상블 지원
요약 zip 파일에 PDF 및 Markdown 형식의 자동 보고서(AutoDoc) 포함
최초 사용자를 위한 대화형 둘러보기(도우미)
이전 릴리스의 실험에서 MLI 실행 가능
MLI의 대리 모델이 현재 기본적으로 3개의 폴드 사용
최대 10개의 교차 검증 폴드로 소용량 데이터 레시피 개선
불균형 데이터로 바이너리 분류의 accuracy 향상
비대상(non-target) 열의 지연 사이의 상호 작용 및 집계를 위한 추가 time series 트랜스포머
더 빨라진 MOJO 생성
데이터 수집 중 진행 보고
바이너리화된 다중 클래스 혼동 행렬을 클래스 카운트(글로벌 스케일링 요소) 기준으로 정규화
구성을 위한 부울 환경 변수의 구문 분석 개선
다양한 버그 수정
버전 1.1.6(2018년 05월 29일)¶
대용량 데이터 세트를 위한 성능 향상
MLI에 대한 속도 및 사용자 인터페이스 개선
불균형 데이터로 바이너리 분류의 accuracy 향상
정해진 검증 데이터를 사용하는 실험에 대한 일반화 추정 개선
실험 디렉터리의 크기 감소
Parquet 파일 지원
bzip2 압축 파일 지원
UI에 데이터 미리보기 추가: ‘Describe’
홀드아웃 및 테스트 세트 예측값에 ID 열을 추가하지 않고 간소화함
다양한 버그 수정
버전 1.1.4(2018년 05월 17일)¶
1.1.3용 Native 빌드(RPM/DEB)
버전 1.1.3(2018년 05월 16일)¶
CPU 코어 수가 많은 시스템을 위한 속도 향상
학습 및 스코어링 시 사용자 지정 누락값의 더 빠르고 강력한 처리
변수 가공 및 최종 앙상블에 동일한 검증 체계를 적용하여 accuracy 향상
텍스트 트랜스포머용 MOJO Scoring Pipeline
Python Scoring Pipeline의 단일 행 채점 문제 수정(1.1.2에서 손상됨)
실험이 너무 빨리 시작하는 경우 기본 스코어러 수정
time series GUI에 대한 응답성 개선
실험 중단 후 응답성 개선
다중 GPU XGBoost의 메모리 사용량에 대한 부하 분산 개선
삭제할 열을 선택하는 UI 개선
다양한 버그 수정
버전 1.1.2(2018년 05월 08일)¶
자동 time series 레시피(알파) 지원
XGBoost(GBM) 대신 이제 GLM(Generalized Linear Model) 사용으로 해석력 10 구현
런타임 및 메모리 사용량 추정이 포함된 실험 미리보기 추가
MER 스코어러 추가(Median Error Rate, Median Abs. Percentage Error)
정수 열을 시간 열로 사용하는 기능 추가
스코어링 중 형식 적용 속도 향상
ARFF 파일 형식(알파) 읽기 지원
MLI에 대한 분위수 비닝
다양한 버그 수정
버전 1.1.1(2018년 04월 23일)¶
2GB 이상의 문자열 열 지원
버전 1.1.0(2018년 04월 19일)¶
AWS/Azure 통합(시간당 cloud 사용량)
MOJO 파이프라인 스코어링의 버그 수정(현재 베타)
Google Cloud 스토리지 및 BigQuery(알파)
데이터 가져오기 중 범주형 열 통계 계산 속도 향상
GPU에서 메모리 관리 추가 개선
MAE 스코어러의 accuracy 개선
요청 기반의 스코어링 파이프라인 빌드 기능(기본적으로 활성화되지 않은 경우)
회귀 분석 문제 sqrt(sqrt(x))에 대한 대상 트랜스포머 추가
해석력=10을 위한 후보로 GLM 모델 추가(알파, 기본적으로 비활성화)
Native 빌드(RPM/DEB) 성능 개선
오차 바(error bar) 추정 개선
다양한 버그 수정
버전 1.0.30(2018년 04월 05일)¶
MOJO 파이프라인 생성 속도 향상, 기본적으로 MOJO 비활성화(알파)
GPU에서 메모리 관리 개선
32비트 부동 소수점 정밀도(옵션) 지원으로 메모리 공간 감소
테스트 세트 채점 및 데이터 변환 로깅 추가
다양한 버그 수정
버전 1.0.29(2018년 04월 04일)¶
MOJO의 빌드에 실패할 경우, MOJO를 사용할 수는 없지만 실험은 성공적으로 수행 가능
버전 1.0.28(2018년 04월 03일)¶
systemd 지원을 통한 RHEL7/CentOS7/SLES 12용 (Non-Docker) RPM 설치 프로그램
버전 1.0.27(2018년 03월 31일)¶
Java 독립형 교차 플랫폼 저지연 스코어링을 위한 MOJO Scoring Pipeline(알파)
다양한 버그 수정
버전 1.0.26(2018년 03월 28일)¶
대용량 데이터 세트를 위한 성능 향상 및 메모리 사용량 감소
F0.5, F2, 성능 및 accuracy 향상
MLI의 성능 향상
현재 검증 데이터와 테스트 데이터 간에 분포 이동 감지
데이터 테이블을 사용한 배치 스코어링 예제
AutoVis의 다양한 개선 사항(outliers, 평행 좌표, 로그 파일)
다양한 버그 수정
버전 1.0.25(2018년 03월 22일)¶
바이너리/다항 분류를 위한 새로운 스코어러: F0.5, F2 및 accuracy
바이너리/다항 분류 모델의 정밀도-재현율 곡선
회귀 분석 문제에 대한 실제 값 vs. 예측 값 플롯
작업 유형에 따른 특성 변환 제외 지원
바이너리 파일 형식 읽기 지원: 데이터 테이블 및 Feather
다중 GPU 메모리 부하 분산 개선
초기 튜닝 결과 표시 개선
최종 모델 생성 중 메모리 사용량 감소
최종 스코어링 파이프라인 생성 시 발생하는 일부 버그 수정
다양한 UI 개선(예: 반복 스코어보드의 확대/축소)
다양한 버그 수정
버전 1.0.24(2018년 03월 08일)¶
ID 열이 포함된 데이터에 대한 테스트 세트 채점 버그 수정(1.0.23에 도입)
MLI 실험의 이름 변경 허용
데이터 테이블에 사용되는 최대 코어 수 제한 기능
로그의 최종 앙상블 모델 CV 폴드에 있는 검증 점수 및 오차 바 인쇄
다양한 UI 개선
다양한 버그 수정
버전 1.0.23(2018년 03월 07일)¶
이항 및 다항 분류에 대한 Gains 및 Lift 곡선 지원
대용량 데이터 세트를 위한 다중 GPU 단일 모델 학습 지원
대용량 데이터 세트를 위한 레시피 개선(더 빠르고 작아진 메모리/디스크 사용량)
텍스트 특성에 대한 레시피 개선
변수 가공 복잡도에 대한 해석력 설정의 민감도 증가
자동 시간 열 감지를 기본적으로 비활성화하여 혼동 방지
채점 중 테스트 데이터 및 검증 데이터에 대한 자동 열 형식 변환
MLI의 속도 향상
변환된 특성에서 MLI에 대한 특성 중요도 개선
각 MLI 플롯을 PNG 파일로 다운로드하는 기능 추가
MLI 독립형 페이지에 삭제된 열 및 가중치 열에 대한 지원 추가
4GiB보다 큰 바이트 객체의 직렬화 수정
‘명령을 찾을 수 없음’ 오류의 스코어링 파이프라인 빌드 실패 수정
다양한 UI 개선
다양한 버그 수정
버전 1.0.22(2018년 2월 23일)¶
CPU 전용 모드 수정
데이터 테이블 CSV 파서의 강건성 향상
버전 1.0.21(2018년 2월 21일)¶
Mac에서 MLI GUI 스케일링 문제 수정
Truncated SVD scipy 백엔드의 segfault 해결
다양한 버그 수정
버전 1.0.20(2018년 2월 17일)¶
HDFS/S3/Excel 데이터 커넥터
LDAP/PAM/Kerberos 인증
accuracy / 시간 / 해석력에 대한 기본값 자동 설정
해석력: 스코어링 파이프라인의 예측값에 대한 관찰별 및 기능별 (서명된) 기여도
해석력 설정으로 이제 변수 가공 복잡도와 최종 모델 복잡도 변경 가능
Python용 독립형 MLI 스코어링 파이프라인
시간 설정 1로 이제 1회만 실행 가능
수렴(convergence)이 감지되는 경우 실험 조기 중지
이항 및 다항 분류에 대한 ROC 곡선 표시, 혼동 행렬 및 임계값/F1/MCC 표시
학습/검증/테스트 데이터 이동 감지기
다항 분류를 위한 AUCPR 스코어러 추가
불균형 바이너리 분류 문제 처리 개선
코어/메모리/하드 드라이브 등의 런타임 제한에 대한 구성 파일(관리자용)
다양한 GUI 개선(실험 이름 변경, 실험 재실행, 로그 기능)
다양한 버그 수정
버전 1.0.19(2018년 1월 28일)¶
대용량 데이터 세트의 최종 앙상블 중 중단 문제 수정(accuracy>= 5)
GUI에서 이전 버전(>= 1.0.13)으로 빌드된 모든 모델의 스코어링 허용
실험 중 GUI에서 더욱 상세한 진행 메시지
스코어링 파이프라인이 상대적 경로만 사용하도록 수정
모델 요약의 오차 바가 현재 +/- 1*stddev(2*stddev에서 변경)임
RMSPE(RMS Percentage Error) 스코어러 추가
SMAPE(Symmetric Mean Abs. Percentage Error) 스코어러 추가
AUCPR(Area under Precision-Recall Curve) 스코어러 추가
데이터의 inf/-inf 정상적인 처리
다양한 UI 개선
다양한 버그 수정
버전 1.0.18(2018년 1월 24일)¶
1.0.15 이하 버전의 마이그레이션 수정
실험 중단 및 데이터/실험 삭제를 확인하는 대화 상자
다양한 UI 개선
다양한 AutoVis 개선
다양한 버그 수정
버전 1.0.17(2018년 1월 23일)¶
1.0.15 이하 버전의 마이그레이션 수정(부분적, 실험용만 해당)
GUI에서 모델 요약 다운로드 추가
로그 아카이브의 재구성 및 이름 변경, 모델 요약 추가
1.0.16의 AutoVis 회귀 분석 문제 수정(속도 저하)
다양한 버그 수정
버전 1.0.16(2018년 1월 22일)¶
검증 데이터 세트에 대한 지원 추가(학습 데이터에 대한 내부 검증 대신 선택 가능)
모델 점수에 대한 표준 편차 추정치(+/- 1 std.dev.)
최종 모델에 적용되는 모든 점수 계산(현재는 로그에서만 제공)
독립형 모드에서 실행 시 MLI 사유 코드(+/- 1 std.dev.)에 대한 표준 편차 추정치
MLI 작업 중단 기능 추가
최종 앙상블 성능 향상
outliers 시각화 개선
H2O-3을 버전 3.16.0.4로 업데이트
가독성이 더 높은 실험 이름
다양한 속도 향상
다양한 버그 수정
버전 1.0.15(2018년 1월 11일)¶
실험별 로그 파일 잘림 문제 수정
다양한 버그 수정
버전 1.0.14(2018년 1월 11일)¶
성능 향상
버전 1.0.13(2018년 1월 10일)¶
대상 인코딩에서 누출을 제거하여 최종 앙상블에 대한 일반화 성능 추정치 개선
새로운(잠재적으로 더 큰) 데이터에 변수 가공을 리핏하고 적용하는 API 추가
사전 변환된 데이터 세트에 대한 액세스를 제거하여 다운스트림에서 우발적 누출 문제 방지
MAPE(Mean Absolute Percentage Error) 스코어러 추가
해석력 >= 6의 경우 바이너리 분류 및 회귀 분석 모델에 대한 monotonicity constraints 적용
음의 값을 피하기 위해 Pearson 상관 계수의 제곱을 사용하여(결정 계수 대신) R^2 값 계산
별도의 HTTP 및 TCP 스코어링 파이프라인 예제
h2oai_client 휠의 크기 감소
학습 데이터에 가중치 열이 제공된 경우 테스트 데이터에 대한 가중치 열이 필요 없음
최종 모델링 파이프라인의 accuracy 향상
다운로드용 logs.zip에 H2O-3 로그 포함
H2O-3을 버전 3.16.0.2로 업데이트
다양한 버그 수정
버전 1.0.11(2017년 12월 12일)¶
더 빨라진 다중 GPU 학습, 특히 소용량 데이터의 경우
GPU가 4개 미만인 시스템에서 유전 알고리즘의 기본 탐색 양 증가
소용량 데이터(< 100k 행)에서 모델의 일반화 성능 추정치 accuracy 향상
더 빨라진 실험 중단
최종 앙상블 메타 학습기 개선
더욱 강건한 날짜 구문 분석
다양한 버그 수정
버전 1.0.10(2017년 12월 4일)¶
매개변수 설정 화면의 도구 팁 및 설명서 링크
클래스가 5개 이상인 다중 클래스 문제에 대한 교육 속도 향상
실험 완료 후 GUI에 실험 요약 표시
GUI에서 Python Client Library 다운로드 가능
Maxwell 기반 GPU의 속도 향상
다항 AUC 및 Gini 스코어러 지원
이항 및 다항 문제에 대한 MCC 및 F1 스코어러 추가
더 빨라진 실험 중단
다양한 버그 수정
버전 1.0.9(2017년 11월 29일)¶
time series 데이터 세트에서 인과 관계 학습/검증 분할에 대한 시간 열 지원
데이터의 시간적 상관 관계에서 시간 열의 자동 감지
MLI 개선, 전용 페이지, 데이터 세트 및 모델 선택
최종 앙상블 메타 학습기 개선
실험 목록에 테스트 세트 점수 표시
내보낸 데이터 세트에 원본 응답 보존
다양한 버그 수정
버전 1.0.8(2017년 11월 21일)¶
다양한 버그 수정
버전 1.0.7(2017년 11월 17일)¶
실험 간 GPU 공유 - GPU 리소스를 공유하면서 동시에 여러 실험 실행 가능
실험 및 데이터 지속성 - 데이터 손실 없이 애플리케이션의 중지 및 재시작 가능
옵션인 사용자 지정 행별 관측 가중치에 대한 가중치 열 지원
학습/검증 분할에서 사용자 지정 행 그룹화를 위한 폴드 열 지원
모델 튜닝을 통한 accuracy 향상
더 빨라진 학습 - 모델 학습 속도의 전반적인 개선 및 최적화
각 실험별 로그 파일
GUI에서 실험 및 데이터 세트를 삭제하는 기능
응답값이 매우 큰 회귀 분석 작업의 accuracy 향상
더 빨라진 테스트 세트 채점 - GUI에서 테스트 세트 채점의 현저한 개선
다양한 버그 수정
버전 1.0.5(2017년 10월 24일)¶
허용된 스코어러만 표시
다양한 버그 수정
버전 1.0.4(2017년 10월 19일)¶
자동 유형 감지 로직 개선
최종 앙상블 accuracy 향상
다양한 버그 수정
버전 1.0.3(2017년 10월 9일)¶
다양한 속도 향상
결과의 재현 가능
다양한 버그 수정
버전 1.0.2(2017년 10월 5일)¶
최종 앙상블 accuracy 향상
증거 특성 가중치 추가
다양한 버그 수정
버전 1.0.1(2017년 10월 4일)¶
최종 앙상블의 속도 향상
다양한 버그 수정
버전 1.0.0(2017년 9월 24일)¶
최초 안정판 릴리스