主要功能

以下是 Driverless AI 中一些可供使用的主要功能。

数据和部署的灵活性

Driverless AI 可使用多种数据源,包括 Hadoop HDFS、Amazon S3 等。Driverless AI 可在任何平台上进行部署,包括所有云端(Microsoft Azure、AWS、Google Cloud),也可在任何系统内进行部署,并且可在仅使用 CPU 的计算机或使用 CPU 和 GPU 的计算机上运行。

NVIDIA GPU 加速

Driverless AI 经过优化,可利用 GPU 加速使自动机器学习速度提升最高 40 倍。其中包括 XGBoost、GLM、K-Means 等多 GPU 算法。GPU 允许执行数千次模型特征迭代和优化,并显著提高了包含图像和/或文本的用例运行速度。更多信息,请参见 Driverless AI 中的 GPU.

自动数据可视化

对于数据集,Driverless AI 会根据相关性最大的数据统计信息自动选择数据图,生成可视化图表,并根据相关性最大的数据统计信息创建统计学上相关性最大的数据图。这些可视化图表可帮助用户在开始模型构建进程前快速理解其数据。它们还有助于理解极大数据集的构成以及查看趋势甚至是可能出现的问题,例如可能会影响建模结果的大量缺失值或明显的异常值。更多信息,请参阅 Visualizing Datasets.

自动特征工程

特征工程是高级数据科学家用来从算法中提取最准确结果的秘密武器。H2O Driverless AI 使用算法库和特征转换来自动处理给定数据集的全新高值特征。(更多信息,请参阅 Driverless AI 转换. )界面中包含变量重要性图表,其中展示了新处理的特征和原始特征的重要性。

自动模型文档

为向商业用户和监管机构解释模型,数据科学家和数据工程师必须记录用于创建机器学习模型的数据、算法和过程。Driverless AI 为每个实验提供一份 AutoDoc,使用户免于执行这项耗时的任务,即记录和概述构建机器学习模型时所使用的工作流。AutoDoc 包括所使用的数据、所选择的验证模式、模型和特征调优以及所创建的最终模型的详细信息。利用 Driverless AI 的这一功能,从业者可更专注于从模型中提取可操作的见解,并可在开发、验证和部署进程中节省数周甚至数月的时间。

Driverless AI 还提供多种 autodoc_ 配置选项,使用户可以更全面地控制 AutoDoc 的输出。(请参阅 样本 config.toml 文件 主题,了解关于这些配置选项的信息。)

点击此处,下载并查看 Word 格式的实验报告示例。

时间序列预测

时间序列预测是数据科学家们面临的最大挑战之一。这些模型可处理一些关键用例,包括需求预测、基础设施监控和预测性维护。Driverless AI 提供出色的时间序列功能,可针对几乎任何预测时间窗口进行优化。Driverless AI 可合并多个预测器的数据,处理结构化字符数据和高基数分类变量,以及处理时间序列数据和其他缺失值中的间隔。更多信息,请参阅 Driverless AI 中的时间序列.

使用 TensorFlow 和 Pytorch 执行 NLP

文本数据可能包含关键信息,以更好地进行预测。Driverless AI 会使用 TFIDF 和嵌入等强大技术自动将文本字符串转换为特征。通过使用 TensorFlow 和 Pytorch,Driverless AI 可处理大型文本块并使用所有可用数据来构建模型,以解决情感分析、文档分类和内容标签等业务问题。Driverless AI 平台能够支持将独立文本和具有其他列的文本作为预测性特征。更多信息,请参阅 Driverless AI 中的 NLP.

使用 Tensorflow 执行图像处理

Driverless AI 可用于从数字图像中获取见解。它支持将独立图像和具有其他数据类型的图像作为预测性特征。更多信息,请参阅 Driverless AI 图像处理.

机器学习可解释性 (MLI)

Driverless AI 提供机器学习模型的文件可解释性,从而以人类可读的格式来解释建模结果。在 MLI 视图中,Driverless AI 运用多种不同的技术和方法来解释说明模型结果。很多图表都能自动生成(具体取决于实验类型),包括 K-LIME 、Shapley、变量重要性、决策树替代模型、部分依赖性、个体条件期望、敏感性分析、NLP 令牌、NLP LOCO 等。此外,您还可以从此视图中下载 LIME 和 Shapley 原因码的 CSV 文件。更多信息,请参阅 MLI 概述.

自动原因码

在受监管的行业中,往往需要对与客户相关的重大决策(例如,信贷拒绝)作出解释。原因码以简单的语言展示模型评分决策中的关键有利和不利因素。由于可提供对模型决策的见解,进而推动其他测试或调查,原因码在医疗保健等其他行业中也非常有用。更多信息,请参阅 MLI 中的 查看解释 一节。

自定义插件支持

Driverless AI 让您可以导入用于 MLI 算法、特征工程(转换器)、评分器和配置的自定义插件。您可以将自定义插件和所有内置插件结合使用,也可以用自定义插件代替所有内置插件。这让您可以进一步控制 Driverless AI 自动 ML 管道并可掌控 Driverless AI 所做出的优化项。更多信息,请参阅 自定义插件管理.

自动评分管道

对于已完成的实验,Driverless AI 会自动生成 Python 评分管道和全新超低延迟自动评分管道 (MOJO),以将模型部署道生产环境中。全新自动评分管道是一项独特的技术,可通过高度优化、低延迟、可用于生产环境、可在任何平台部署的 Java/C++ 代码来部署所有特征工程和制胜的机器学习模型。更多信息,请参阅 评分管道概述.