핵심 특성

다음은 Driverless AI에서 사용 가능한 몇 가지 주요 특성입니다.

데이터 및 배포의 유연성

Driverless AI는 Hadoop HDFS, Amazon S3 등을 포함한 다양한 데이터 소스에서 작동합니다. Driverless AI는 종류에 상관없이 cloud(Microsoft Azure, AWS, Google Cloud)를 포함한 모든 곳 및 모든 시스템의 온 프레미스에 배포할 수 있고, CPU만 설치된 머신 또는 CPU 및 GPU가 함께 설치된 머신에서 실행할 수 있습니다.

NVIDIA GPU 가속

Driverless AI는 GPU 가속을 이용하도록 최적화되어 있고, 자동 머신 러닝을 위해 최대 40배의 속도 향상을 이루어냅니다. 여기에는 XGBoost, GLM, K-Means 등을 위한 다중 GPU 알고리즘이 포함됩니다. GPU는 수천 회에 걸친 모델 기능 및 최적화의 반복을 허용하고, 이미지 및/또는 텍스트와 연관된 사용 사례에 대해 상당한 속도 향상을 제공합니다. 자세한 내용은 Driverless AI에서의 GPU 를 참조하십시오.

자동 데이터 시각화

데이터 세트의 경우 Driverless AI는 관련성이 제일 높은 데이터 통계를 기초로 데이터 플롯을 자동으로 선택하고, 시각화를 생성하며, 관련성이 제일 높은 데이터 통계를 기반으로 통계적 관점에서 관련성이 제일 높은 데이터 플롯을 생성합니다. 이러한 시각화를 통해 사용자는 모델 구축 프로세스를 시작하기 전에 데이터를 빠르게 이해할 수 있습니다. 또한, 매우 큰 데이터 세트의 구성 요소를 이해하고 모델링 결과에 영향을 줄 수 있는 추세 또는 많은 수의 결측치 또는 중요한 outliers와 같은 잠재적인 문제 확인에도 유용합니다. 더 자세한 내용은 Visualizing Datasets 를 참조하십시오.

자동 변수 가공

변수 가공은 상급 데이터 사이언티스트가 알고리즘에서 가장 정확한 결과를 추출하는 데 사용하는 일종의 비밀 무기입니다. H2O Driverless AI는 알고리즘 및 특성 변환 라이브러리를 사용하여 주어진 데이터 세트에 대한 새롭고 가치 있는 특성을 자동으로 엔지니어링합니다(자세한 내용은 Driverless AI 변환 을 참조하십시오). 해당 인터페이스에는 기존 특성과 새로 엔지니어링된 특성의 중요성을 보여주는 변수 중요도 차트가 포함되어 있습니다.

자동 모델 문서화

비즈니스 사용자 및 규제 기관에 모델을 설명하기 위해 데이터 사이언티스트 및 데이터 엔지니어는 기계 학습 모델의 생성에 사용되는 데이터, 알고리즘 및 프로세스를 문서화해야 합니다. Driverless AI는 각 실험에 AutoDoc을 제공하여 사용자가 기계 학습 모델을 구축할 때 사용되는 워크플로우를 문서화하고 요약하는 것과 같이 시간이 많이 소요되는 작업에서 벗어날 수 있도록 해줍니다. AutoDoc에는 사용된 데이터, 선택된 유효성 검증 스키마, 모델 및 특성 튜닝, 생성된 최종 모델에 대한 세부 정보가 포함됩니다. Driverless AI의 이 특성을 사용하여 실무자는 모델에서 실행 가능한 인사이트를 도출하는 데 더 집중할 수 있으며, 개발, 검증 및 배포 프로세스에 사용되는 시간을 줄일 수 있습니다.

또한, Driverless AI는 다양한 autodoc_ 구성 옵션을 제공하여 사용자는 이를 통해 AutoDoc 출력을 더욱 효과적으로 제어할 수 있습니다(해당 구성 옵션에 대한 자세한 정보는 샘플 config.toml 파일 를 참조하십시오).

Click here 에서 Word 형식의 샘플 실험 보고서를 다운로드하고 확인하십시오.

Time Series 예측

Time Series 예측은 데이터 사이언티스트에게 가장 까다로운 과제 중 하나입니다. 이 모델은 수요 예측, 인프라스트럭처 모니터링 및 예측 관리를 포함한 주요 유스케이스를 다룹니다. Driverless AI는 거의 모든 예측 시간 창에 최적화할 수 있는 우수한 time series 특성을 제공합니다. Driverless AI는 많은 예측 변수 데이터를 통합하고, 정형화된 문자 데이터와 높은 카디널리티 범주형 변수를 처리하고, time series 데이터 및 기타 결측값의 gap을 처리합니다. 자세한 내용은 Driverless AI의 Time Series 를 참조하십시오.

TensorFlow 및 Pytorch를 사용한 NLP

문자 데이터는 향상된 예측을 알려주는 중요한 정보를 포함할 수 있습니다. Driverless AI는 TFIDF 및 임베딩과 같은 강력한 기술을 사용하여 문자열을 특성으로 자동 변환합니다. Driverless AI는 TensorFlow 및 Pytorch를 사용하여 큰 문자 블록을 처리하고 이용 가능한 모든 데이터를 사용해서 모델을 구축하여 감성 분석, 문서 분류, 콘텐츠 태깅과 같은 비즈니스 문제를 해결할 수 있습니다. Driverless AI 플랫폼은 예측 기능을 통해 독립형 문자 및 다른 열이 있는 문자 모두를 지원할 수 있습니다. 자세한 내용은 Driverless AI에서의 NLP 를 참조하십시오.

Tensorflow를 통한 이미지 처리

Driverless AI를 이용해서 디지털 이미지에서 인사이트를 얻을 수 있습니다. 예측 기능을 통해 독립형 이미지와 다른 데이터 유형을 포함한 이미지를 모두 사용할 수 있습니다. 자세한 내용은 Driverless AI의 이미지 처리 를 참조하십시오.

기계 학습 해석 가능성(MLI)

Driverless AI는 기계 학습 모델의 확실한 해석 가능성을 제공해서 모델링 결과를 사람이 판독할 수 있는 형식으로 설명합니다. MLI 보기에서 Driverless AI는 모델 결과를 해석하고 설명하기 위해 다양한 기술과 방법론을 사용합니다. K-LIME, Shapley, 변수중요도, Decision Tree Surrogate, Partial Dependence, Individual Conditional Expectation, Sensitivity Analysis, NLP Tokens, NLP LOCO 등 여러 차트가 자동으로 생성됩니다(실험 유형에 따라 다름). 또한 해당 보기에서 LIME 및 Shapley 이유 코드 CSV를 다운로드할 수 있습니다. 자세한 내용은 MLI 개요 을 참조하십시오.

자동 이유 코드

규제 산업에서는 종종 고객과 관련된 중요한 결정(예: 신용 거부)에 대한 설명이 필요합니다. 이유 코드는 간단한 언어로 모델 스코어링 결정의 핵심 긍정 요인과 부정 요인을 보여줍니다. 이유 코드는 추가 테스트 또는 조사를 추진할 수 있는 모델 결정에 인사이트를 제공할 수 있기 때문에 의료와 같은 다른 산업에서도 유용합니다. 자세한 내용은 MLI 섹션에 있는 설명 보기 을 참조하십시오.

사용자 정의 레시피 지원

Driverless AI를 이용하면 MLI 알고리즘, 변수 가공(Transformers), 척도 및 구성에 대한 사용자 지정 레시피를 가져올 수 있습니다. 사용자 정의 레시피를 모든 빌트인 레시피와 함께 또는 모든 빌트인 레시피를 대신하여 사용할 수 있습니다. 이를 통해 Driverless AI Automatic ML 파이프라인에 더 큰 영향을 미칠 수 있고 Driverless AI가 생성하는 최적화 선택을 제어할 수 있습니다. 자세한 내용은 사용자 정의 레시피 관리 를 참조하십시오.

자동 스코어링 파이프라인

완료된 실험의 경우, Driverless AI는 모델을 프로덕션에 배포하기 위해 Python Scoring Pipeline 및 새로운 초저지연 자동 스코어링 파이프라인( MOJO)을 자동으로 생성합니다. 새로운 자동 스코어링 파이프라인은 모든 변수 가공 및 성공적인 기계 학습 모델을 고도로 최적화한 저지연의 프로덕션 준비가 된 Java/C++ 코드로 어디에나 배포할 수 있는 독특한 기술입니다. 더 자세한 내용은 Scoring Pipelines 개요 을 참조하십시오.