变更日志¶
1.10.1.2 版本(2021 年 12 月 22 日)¶
改进:
允许通知脚本利用新的配置选项来继承主服务器中的环境变量。
Bug 修复:
将部分捆绑 java 程序包中的 log4j-2 升级到 2.17.0 版本,旨在消除 CVE-2021-45105 中发现的漏洞。
1.10.1.1 版本(2021 年 12 月 14 日)¶
Bug 修复:
将部分捆绑 java 程序包中的 log4j-2 升级到 2.16.0 版本,旨在全面消除 CVE-2021-44228 中发现的随意代码执行漏洞风险。
1.10.1 版本(2021 年 11 月 10 日)¶
新功能:
(实验)基于 PyTorch 的深度学习模型适用于基于提升方法的表格数据 (GrowNet)。
已向预览新增 mojo 大小估值。
新增了通过 config.toml 和专家设置控制准确度、时间和可解释性的默认旋钮设置的功能。
新增了控制目标转换器调优中包含的特定目标转换器的功能。
为基于 LightGBM 的模型新增了基于融合的早停法,可以减少模型大小。
AutoViz recommendations 现可用作实验的特征转换。
改进:
在 OneHotEncodingTransformer 的转换特征名称中显示低基数分类级别。
现在,无滞后时间序列插件与滞后时间序列插件相同,除了所有滞后转换器被禁用。允许支持验证拆分中的间隔,通过移动窗口来改进验证,并添加保持预测。
如果数据集大小大于可配置阈值,会自动为 SILHOUETTE 评分器执行行采样,以避免速度变慢。
改进了预览的实验运行时估算。
改进了预览的列类型检测,这样类似于实验期间的类型检测,因而特征转换会更准确地显示在预览中。
改进了预览期间的模型转换器检测,因而更准确地反映实验中将要发生的情况。
改进了中文/韩语/日语和其他使用 UTF8 字符的语言的文本检测。
改进了时间序列的特征工程和特征演化
允许数据集列类型独立于基数覆盖分类 (‘cat’) 。
改进了 LightGBM 早停法,如果验证分数没有显著提高,可以提前停止(取决于准确度刻度盘)。
允许在自定义插件管理中加载和编辑禁用的自定义插件。
通过减少对系统库的依赖,改进了对 RedHat 和其他平台的本地支持。
新增了非 Python 错误的捕捉,因此对于监督或无监督实验,不再需要共享服务器日志以获得支持。
新增了更好的小数据支持,但仅目标编码功能具有强信号。
新增对 “more_overfit_protection” 管道构建插件的支持,(对于任何数据大小)仅针对信号强的编码特征。
改进自定义插件验收测试,以检查不允许的全局导入(如 XGBoost、LightGBM、Torch、CuPy、cuDF 等)。
通过包含基本包装器(作为主插件)的 zip 来支持自定义插件,且子文件夹中含支持文件(例如,如果包装器导入本地子文件夹,则可全局导入 Torch)。
对于包含字符串和大整数的列,避免日期/日期时间检测出错。
验证 toml,不再允许忽略错误。
防止删除用作测试或验证集的数据集。
已将 Java 升级至 OpenJDK 10。
更新了 XGBoost,以重新支持 NVIDIA K80+(即 CUDA 计算能力 3.5+)。
允许模型插件在 Python 环境下运行,独立于 DAI 环境。
新增了使用 Google BigQuery (GBQ) 连接器时指定数据集位置的功能。
修复了一些常见漏洞(CVE 和 PRISMA)。
Bug 修复:
通过限制已安装的包修复了 Python 评分。适用于基础 Ubuntu、UBI-8 或 CentOS 系统。关于其他步骤,请参见文档。
修复了使用多个 GPU 的系统上缺失的 ImageVectorizer 转换器。
修复了 AWS Lambda 的 MOJO 云部署问题。
修复了在 Apple macOS 系统上创建的图像存档导入问题。
修复了 DATA 日志记录级别匿名化。
修复了子实验的自定义插件管理激活选择。
修复了自定义插件导致内部插件缺失的问题。
修复了自助采样法估算。
修复了 dask 模型的 Python 评分。
修复了本地系统上的 OpenCL(适用于 LightGBM)。关于其他步骤,请参见文档。
修复了预转换器列表,实验期间不会重置所有转换器。
修复了在触发宽数据集规则时,模型应为 LightGBM 却显示 LightGBMDask 的问题。
修复了 Java MOJO 运行时 ConstantModel 的 Shapley 值。
修复了 C++ MOJO 运行时的日期格式 %Y。
修复了 Internet Explorer 11 中的选项卡点击。
修复了特征有数值后缀时树模型的管道可视化问题。
修复了二元自定义评分器的形状不匹配问题。
修复了带包含缺失值的整数列的 Parquet 文件摄取。
文档:
新增了描述 AutoDoc 自定义模板占位符 的页面。
1.10.0 版本(2021 年 9 月 29 日)¶
新功能:
构建在所有主要开源包的最新稳定版本之上。
已更新至 Python 3.8,支持更快的 pickle 协议 5。
已更新至 Torch 1.9.0 和 TensorFlow 2.4.2。
已更新至 NVIDIA RAPIDS 21.08,支持 GPU 目标编码、UMAP、TSNE、RF。
已更新至 CUDA 11.2.2,支持 Ampere NVIDIA GPU。需要 NVIDIA CUDA Driver 470 或更高版本。
已更新 XGBoost、LightGBM、数据表、Panda、scikit-learn 等。
支持 Ubuntu 20.04 进行 DEB/TAR-SH 部署以及 Centos8 进行 RPM 部署。
-
自定义插件已确定版本。
让您能激活或停用自定义插件。
让您能将注释添加到各个插件。
添加可视化代码编辑器。
可访问之前的插件版本。
-
可将实验作为二进制文件下载和上传。
支持 DAI 1.8.x 和 1.9.x 中的新实验和迁移实验。
支持使用自定义插件的实验。
支持 Java MOJO 运行时的 Shapley values for original features 。
(实验性) Automatic Unsupervised Machine Learning. 支持聚类、降维、异常值检测,并完全支持自定义插件。包括用于聚类的自动超参数优化和特征选择,以及质心的可视化。
强制插入特征控制。Specific features can now be forced into the model 无需修改。更多信息,请参见特征专家设置中的
cols_to_force_in
。新增了常规预测的快速近似(除了 Shapley 值的快速近似)。对 MLI/AutoDoc 默认启用,对其他客户端默认禁用。可以完全配置/禁用近似范围。可以显著加快大型预测任务的速度,如创建部分依赖性图和一般的 MLI。更多信息,请参阅有关快速近似的 the FAQ question 。
对于分类问题,自动 create labels for predictions ,在预测帧的末尾附加预测标签列。
新增了 Health API ,提供系统指标和资源利用概述。
新增了对 LightGBM 不平衡多类问题的改进支持。可在优化基于混乱矩阵的评分器(如 MacroF1)时提供帮助。
新增了分类的新指标:MacroF1、MacroMCC。宏评分器计算每类分数的平均值,而微评分器计算每行分数的平均值。对于不平衡的多类问题,默认使用 MacroF1。对于二元问题,MacroF1/MCC 与 F1/MCC 作用相同。
新增了更多关于实验期间拟合的所有模型的详细信息(在“评分”选项卡和实验工件中)。
MLI 特征:
新增了用于 MLI 时间序列的新 UI,重点放在 UX 上。
启用了时间序列模型的敏感性分析。
启用了时间序列模型的差异影响分析。
启用了时间序列模型的替代模型。
启用了时间序列模型的部分依赖性/ICE。
启用了时间序列模型的原始特征重要性。
新增了在 MLI TS 解释器 UI 中对转换特征的人性化描述。
新增了 MLI 专家设置 mli_fast_approx 以加快使用快速近似进行预测的速度。
新增了用于 NLP 实验的 Vectorizer + Linear Model (VLM) explainer 。
新增了除 TF-IDF 之外,用向量化器 + 线性模型 (VLM) 创建替代模型的标记的功能。
新增了对 MLI NLP 解释器的多项支持。
新增了用于 MLI 中本地 NLP 解释的文本样本视图。更多信息,请参见 NLP 绘图.
新增了用于 MLI NLP 记号赋予器和 NLP 解释器所用记号赋予器的英语停用词。
新增了在 MLI 中下载 TF-IDF 矩阵的功能。
文档:
在 Driverless AI 中新增了关于 Genetic Algorithm 的信息。
在 Driverless AI 中新增了关于 Variable Importance 的信息。
新增了关于 Deployment Scenarios 图表的信息。
新增了 Driverless AI LTS 版本的支持信息。更多信息,请参见 关于版本支持.
新增了复制/粘贴 configurations. 的简单列表。
改进:
改进了实验的默认排行榜。涵盖更大范围的有用实验。
为时间序列实验新增了另一个自动排行榜,以为每个预测周期创建一个单独的模型(除了各种不同的默认排行榜)。
对 BERT 模型和转换器使用 PyTorch Lightning 框架。训练更快,内存处理更佳。
改进了多 GPU 机器上 BERTTransformer 的并行化。
减少了文本转换器的内存使用量。
对于使用
wrap_create
修饰器 (Git repo: Any Env) 的自定义插件,支持任意孤立的 Python 3.6、3.7、3.8 环境。预览显示所选转换器-模型组合未覆盖的任何输入特征。
预览显示所选转换器-模型组合是否支持 MOJO。
改进了零膨胀分布的自动处理。
采用 %Y 和 %Y%m 格式改进了时间列的处理。
改进了包含图像的数据集的拆分,现在每个拆分都含有所有本地图像的副本(而非只是引用)
对特征演变算法的各种改进。
应用程序中新增了更多解释工具提示。
改进了实验预览的运行时估算。
改进了默认实验设置的启发法。
改进了列名称的清理。
优化了 MLI 部分依赖性解释器的速度。
改进了 MLI 决策树替代模型中的分类处理。
对 MLI 的各种 UI/UX/性能方面的改进。
改进了有许多任务(实验、MLI 等)在运行时的服务器性能和响应能力。
妥善处理自定义评分器的故障而不使实验失败。
全面改善了硬件利用率。
改进了实验完成后对实验临时文件的清理,使服务器启动时可以避免对慢速磁盘进行长时间的清理。
使存储 GRPC 消息限制可配置
Bug 修复:
修复了包含许多大的类似字符串的数据集在文件导入期间的分段错误。
修复了宽数据集 MOJO 生成缓慢的问题。
对于 UTF8 字符,修复了基于文本的转换器和模型的 MOJO。
max_feature_interaction_depth
专家设置现在适用于所有转换器。对于带有指数链接函数的 XGBoost 回归模型 (Poisson/gamma/Tweedie/CoxPH),修复了 Java MOJO 运行时中不正确的 Shapley 偏差项。
修复了 XGBoost 和 LightGBM 用于预测的内核数量,避免在评分时过度使用内核。
允许任何模型使用独热编码。
修复了
exclusive_mode
中等和最大模式,用于隔离系统,以最大限度使用内核。修复了运行时数据插件,以供转换数据集和 MLI 正常使用。
修复了模型调优 (
params_tune
) 和覆盖参数的使用。修复了在评分期间将整数列的类型自动转换为字符串列的问题(避免首先转换为浮点数)
修复了 Optuna 遗传算法选择,提供更多专家选择。
针对带分类的宽数据集,修复了按特征的排列重要性选择进行特征选择。
1.9.3.1 版本(2021 年 8 月 5 日)¶
新功能:
新增了支持在密钥库中存储敏感信息或安全配置信息。更多信息,请参见 配置安全.
改进:
改进了 Hive 连接器,使用 Kerberos 模拟验证时不再需要
jaas.conf
文件。如果提供了jaas.conf
文件,Hive 连接器将使用该文件,否则将基于hive_app_configs
. 中提供的信息构建配置详情。
Bug 修复:
修复了时间序列模型的分布移位检测。
对于零膨胀分布,修复了目标列中非零计数的日志打印输出。
修复了极小观察权重的混淆矩阵(禁用舍入到最接近的整数)。
文档:
新增了关于 computing SHAP values in the Java MOJO runtime 的信息。
修订了支持图像格式的列表。更多信息,请参见 图像处理支持的文件类型.
改进了 security documentation 的组织。
1.9.3 版本(2021 年 6 月 3 日)¶
改进:
新增了使用 Google BigQuery (GBQ) 连接器时 specify which project to use 的功能。
改进了 MOJO 批量评分,避免文本特征过量使用内存。
更新了等效的公共插件资料库,以修复潜在的 FBProphet 包安装错误
改进了文本列的列类型检测
减少内存使用量
新增了对 Ubuntu 20.04 LTS 的支持
新增了对 IBM Power 的支持
Bug 修复:
修复了仅对特征创建 MOJO 管道的问题 (
make_mojo_scoring_pipeline_for_features_only=true
)修复了在使用 MLOps 存储时有时发生的分段错误问题
修复了自定义 Autoviz 箱形图中的计算结果
修复了使用本地 Rest 服务器部署时未发现的许可证问题
修复了使用 Internet Explorer 11 时的登录问题
修复了从 UI 中删除 Lambda 部署后 AWS Lambda 资源未被清理的问题
修复了在 Azure Blob 存储连接器中导入空目录文件夹时的问题
修复了导入包含大文本字段的大数据集时有时会出现的 JDBC 和 Hive 连接器的 CSV 编写问题
修复了在 GPU 上运行时,对于具有大量行数的数据集,BERTTransformer 的 CPU 内存使用率过高问题
1.9.2.2 版本(2021 年 4 月 7 日)¶
Bug 修复:
修复了仅对特征创建 MOJO 管道的问题 (make_mojo_scoring_pipeline_for_features_only=true)
1.9.2.1 版本(2021 年 4 月 2 日)¶
新功能:
新增了 ‘center’ 和 ‘standardize’ target transformers
新增了 XGBoost RF model
通过自动特征选择功能为实现了 XGBoost 的 GPU OOM protection
新增了查看 histogram of feature bins in partial dependence plot 的功能
新增了构建 quantile bins for partial dependence 的功能
新增了直接计算 partial dependence for any feature in the UI 的功能
新增了 XGBoost(GBM/RF/Dart)、LightGBM(GBM/RF/Dart/ExtraTrees)、决策树和 GLM 模型的 MOJO support for Shapley values 以及集合
改进:
各种加速,尤其是带有多列的数据集和最终的模型拟合
提高了 RuleFit 和 TensorFlow 模型的准确度
通过预览的方式显示哪些选定模型或转换器不支持 MOJO,以及显示 MOJO 是否已禁用
将保持预测用于差异影响分析中的计算
提高了宽数据集的部分依赖性计算速度
Python 和基于客户端的评分,不再要求为预测时缺失的列(用于基于时间序列滞后的实验)填充缺失值(MJO 仍然需要为这些列填充缺失值)
提高了多 GPU 系统的 GPU 使用率
减小了内存开销
Bug 修复:
修复了 BERT 模型的 MOJO 失效问题
修复了多个 bug
1.9.2 版本(2021 年 3 月 8 日)¶
新功能:
将用于模型超参数调优的 Optuna 作为专家选项中的遗传算法选择项
在日志中显示了最大转换器的大小
可选择将堆叠元学习器用于最终整合(”ExtraTrees”LightGBM 模型而非线性混合器),并且可选择交叉验证
优化了折叠拆分并显示了目标变量在所有折叠中的 Kolmogorov-Smirnov 统计
改进:
针对列数多于行数的 wide data 进行了优化
针对回归问题改进了折叠拆分
针对具有更高互可解释性设置的回归问题,减少了调优目标转换器的选择项
除非可解释性 <= 5、准确度 >= 5,否则会针对回归问题禁用目标转换的自动调优(方便解释 Shapley 值)
更多地为 XGBoost 算法使用 GPU,改进了内存需求估算
改进了特征演变的遗传算法
更新了“项目”页面视图
将光标悬停在专家设置项目上时,会显示更多描述
将 MOJO 用于 PDP/ICE 计算
启动 MLI 实验时不再重新创建 MOJO
Bug 修复:
为 Ampere 架构 GPU 禁用了基于 GPU 的 NLP 和 Image 插件(因为 Ampere 架构 GPU 向后兼容软件);对于 Image 和 BERT 转换器以及 TensorFlow 模型,将自动退回到 CPU。
修复了 C++ MOJO 分段错误
删除了 AutoReport 留下的临时文件
修复了多个 bug
1.9.1.3 版本(2021 年 2 月 27 日)¶
新功能:
在 Azure 数据连接器上新增了对 Keycloak 身份验证的支持
Bug 修复:
修复了通过 Steam 启动 docker 容器时的竞态条件
1.9.1.1 版本(2021 年 2 月 21 日)¶
新功能:
新增了对 H2O.ai License Manager (beta) 的支持
新增了 MLI 部分依赖性图中未显示的值
新增了通过本地路径为隔离安装环境下载新 Python 客户端的功能(也支持通过 UI 下载 Python 客户端)
改进:
改进了 MLI 的 UI/UX:
删除了 MLI 解释器磁贴名称中的缩写
改进了 MLI 中的本地解释和行搜索
改进了 MLI 解释器的错误处理
将 MLI 解释器日志级别从 DEBUG 修改为 INFO
改进了 BERT 迁移的日志记录
更新了多个文档
Bug 修复:
修复了 MLI 中的 “New with same params” 选项
修复了 PD/ICE MLI 解释器的特征选择,不再包含将类属特征
修复了 MLI 解释器日志显示,不再截断
修复了 MLI 按需引擎调用,以便其可重用上级的解释器工件
修复了多个 MLI UI 问题
修复了多个 MLI 解释器问题
修复了 Autoviz 中的异常值显示
修复了 parquet 文件中的 None 值解释
修复了多个软件包漏洞 (CVE)
针对新引入的验证方案修复了过小时间序列验证拆分的创建 ( Time-series expert settings)
1.9.1 版本(2021 年 1 月 15 日)¶
新功能:
在实验完成后自动使用 MOJO 进行预测(如果可用并且适用,现在将使用 MOJO 评分管道(用于预测)、MLI、Autoreport、模型评估和 Python 评分管道)
为 Python 评分管道和 GUI/客户端评分新增了原始特征的 Shapley 值(位于“模型操作”中)
现在默认在链接空间中实施集成混合(以便 Shapley 和的 logistic 或 softmax 值与概率相等)。 对于回归,identity_noclip 目标转换也能达到相同的效果。
内置了用于原始数值特征的 monotonic GBM 插件
当单调性约束被启用时,让用户丢弃具有与目标相关性较弱的特征 monotonicity_constraints_drop_low_correlation_features
新增了利用在 AutoDoc 中包含 k-LIME 和/或决策树替代解释器的选项从 MLI 插件选择页面运行和配置 AutoDoc 的功能
在 MOJO 可视化视图中显示所有 LightGBM 和 XGBoost 模型的第一个树(不仅仅是用于 DecisionTree)
在 MOJO 可视化视图中显示树模型的大小
允许只为工程特征创建 MOJO,只在无模型 predict() 的情况下完成管道 transform()(实验性)
现在可以将 AutoDoc 配置为包括原始特征 Shapley 值、单调性约束、不平衡模型的相关信息
实现了对包含高百分比数值的字符串列的检测,并新增了专家设置,以启用自动转换
全局任务列表显示所有运行中的作业(资源 -> 系统信息 -> 工作线程活动 -> CPU/GPU 实验)
MLI 特征:
Support for Bring Your Own Recipe (BYOR) / Custom Recipes for MLI (Git repo: Responsible ML )
公开了 MLI expert settings 中所有解释器的抽样参数
新增了对 k-LIME 的 MOJO 支持(带下载选项)。 See Download k-LIME MOJO Reason Code Pipeline
新增了通过 MLI UI 下载原始 k-LIME 数据的功能。 See Download LIME Reason Codes
新增了在 DIA 专家设置中更改差异影响分析阈值的功能
新增了对范围外数据运行 PDP 的功能,用户可以在 MLI recipe expert settings 中进行指定
在 MLI 专家设置中新增了 Kernel Shapley 最长运行时参数。要访问,需启用 Original Kernel SHAP recipe,然后 启用 Kernel Explainer,以获得原始特征的 Shapley 值,并通过 MLI 专家设置调节最长运行时。
在 DAI 中新增了为多项式模型运行 PD/ICE 的功能
在典型 MLI 视图 (IID) 中新增了运行 MLI TS 的功能
新增了查看决策树替代模型中规则的功能
Dask/RAPIDS 多 GPU/多节点训练(测试版):
时间序列:
改进了预测期的验证方案 ( Time-series expert settings)
大幅提升了回溯测试保持预测的创建速度
为基于日期/时间列之间的时间差的自动特征工程引入了新的 DateTimeDiffTransformer
改进了用于 LagsTransformer 的丢弃逻辑
LagsTransformer 现在已知道提前已知的特征,这样允许为这些特征创建*比范围更小*的滞后。
为以下每种特征新增了用户可控制的滞后阶数池:目标、未提前已知的非目标和提前已知的非目标
现在可以使用与滞后阶数相关的专家设置值 “[0]” 来对相应的一组特征禁用滞后
新增了自动选择日期/日期时间转换的选项,以避免在未来产生看不见的值 ( Time-series expert settings)
新增了在内部验证过程中使用固定大小的训练时间间隔的选项 ( Time-series expert settings)
新增了检验各子序列滞后特征时间不变性(以避免冗余)的功能
改进:
大幅提升了性能,缩短了子进程通信的延迟,并提升了小数据集的实验速度
显著改进了 MLI 的 UI/UX 设计
增大了自定义插件验收测试的覆盖范围
提升了基于 tf–idf 的文本转换器的性能:降低了内存占用、提高了速度并实现了词汇量的用户控制
提高了 RuleFit 模型的性能和准确度
改进了自动时间序列排行榜(可创建 10 个实验,并能以迭代的方式运行,以实现最优专家设置的交互)
通过为 PDP 和 ICE 等使用 MOJO 提升了 MLI 的性能
敏感性分析中的残差现在分别为对数损失 (logloss) 残差(二项分类)和平方残差(回归)
通过新增将所有令牌回溯至对应列的功能,为 NLP 改进了 MLI
现在可以将 AutoDoc 配置为包括原始特征 Shapley 值、单调性约束、不平衡模型的相关信息
允许仅为工程特征创建 MOJO
当只有恒定的非零目标值时对回归分析禁用零膨胀模型
为通过 fold_column 分层的实验改进了稀疏目标类分布的处理
改进了遗传算法的联赛模式默认设置
默认对新实验禁用特征大脑
将 XGBoost 升级至 1.4.0 版本
升级了数据表
升级了多个 python 包
改进了模型拟合和预测的日志记录
改进了“数据集详细信息”页面的 UI/UX 设计,新增了数据集操作、数据插件自动保存和下载
各种 Web GUI UI/UX 改进和修复
Bug 修复:
改进了 LightGBM Shapley 贡献值的快速逼近设置(默认启用) - 更新前,时间序列的最终模型保持预测速度较慢
针对包含在 1.7.1/1.8.0 中创建的 LightGBM 模型的实验修复了 GUI/客户端评分的问题(评分工件不受影响)
针对 XGBoost 和 LightGBM 修复了用于(非默认)回归目标的 MOJO:Gamma、Tweedie、Poisson、CoxPH
针对 1.7.1+ 中创建的模型修复了各种其他迁移问题
改进了 DecisionTreeModel 的专家设置(如最大深度等)
修复了与特征大脑相关的问题:在启动时,为所有导入模型给出新评分,针对时间序列实验,提供了更保守的选择
修复了 Autoviz 的各种问题,实现了较高的类属特征相关性,并修复了其他一些小 bug
修复了多个 bug
1.9.0.6 版本(2020 年 12 月 22 日)¶
Bug 修复:
修复了当检测到泄露时丢弃预测时被标记为不可用的列的问题
修复了 MLI 中对样本外数据按需查询行的问题
修复了时间序列实验(其中的测试集包含部分缺失的目标值)的最终测试集评分失败的问题
1.9.0.5 版本(2020 年 12 月 09 日)¶
新功能:
新增了 k-LIME MOJO
新增了通过 Shapley 图复制/粘贴数据的功能
新增了为 MLI 专家设置中的 PD/ICE 选择特征的功能
新增了在 MLI 专家设置中选择特征类型的功能,即指定应将哪个特征作为类属/数值特征
敏感性分析现在可以计算对数损失 (logloss) 残差(分类)和平方残差(回归)
改进:
改进了 Shapley 的可视化
DAI PDP 特征现在会保持特征重要性 json 文件的顺序,而非采用字母顺序
改进了 DAI 大脑重新评分的测定
Bug 修复:
修复了当目标转换器不一致时零膨胀模型的 MOJO
修复了多个 MLI 问题
1.9.0.3 版本(2020 年 9 月 28 日)¶
新功能:
为 24 个国家/地区新增了 holiday calendar,允许用户选择国家/地区列表,从而为时间序列实验创建假日特征
支持与 RHEL8 相似的系统
引入了利用通过反向代理注入的 JWT 令牌登录的选项
允许用户通过配置指定数据分隔符(
datatable_separator
,请参阅 config.toml 文件)
改进:
新增了跳过 MinIO 连接器上 https 证书验证的选项
改进了区域设置和语言包
改进了连接器的日志记录
改进了 OIDC 敏感数据的日志记录
Bug 修复:
修复了多个 MLI 问题
1.9.0.2 版本(2020 年 9 月 8 日)¶
改进:
实现了对 IBM Power 上 PyTorch (BERT) 模型的 GPU 支持
允许针对从 Python 客户端进行的下载指定目标文件路径
为 R 客户端启用了大型数据上传
Bug 修复:
修复了部署在反向代理之后的 OpenID 和 TLS 登录重定向问题
1.9.0.1 版本(2020 年 8 月 10 日)¶
Bug 修复:
针对某些时间序列实验修复了迁移问题
针对自动图像模型修复了文件缺失问题
针对 PDP/ICE 修复了 MLI 作业状态
修复了 MLI Kernel Shapley ID 列的处理
修复了启动故障的异常处理
针对独立的评分包约束了 Python 环境
1.9.0 版本(2021 年 7 月 27 日)¶
新功能:
Multinode training (alpha)
Queuing of experiments,以避免系统过载
Automatic Leaderboard:一键创建具有一系列不同实验的项目
Multi-layer hierarchical feature engineering:
允许选择预处理层,以实现特定的自定义数据清理/转换
后续各层将前一层的输出用作输入(可以是数值或类属/字符串)
除 TensorFlow 外,新增了 PyTorch 深度学习后端
使用预先训练和调优的最新深度学习模型进行 Image classification and regression:
通过二进制存档实现图像数据摄取
存档可包含(一个)可选的 .csv 文件,其中具有从图像路径到目标的映射(回归/分类)
如果没有提供 .csv 文件,则自动创建训练数据集,并(通过目录结构)创建标签
图片转换器(用于转换图像路径列)
“densenet121”、”efficientnetb0”、”efficientnetb2”、”inception_v3”、”mobilenetv2”、”resnet34”、”resnet50”、”seresnet50”、”seresnext50”、”xception”
可选的调优
可选的 GPU 加速(启用调优时强烈建议使用)
经预先训练并可调优的 ImageVectorizer 转换器,具有自动降维功能
可将图像作为压缩包或本地或远程位置 (URI) 的路径提供
导入图像压缩包时,会自动标记图片(按文件夹名称和结构)
可以处理表格数据集中带有 URI 的多个图像列
单个实验可以组合图像、NLP 和表格数据
支持 MOJO(也支持纯 CPU 系统)
自动图像模型
端到端模型训练,无需调优
引入了先进技术的最新成果
根据经预先训练和调优的 TensorFlow 模型进行神经架构搜索
多 GPU 训练
对 GUI 的可视化洞察(损失、样本图像、增强、Grad-CAM 视觉解释)
MLI 不可用于图像实验,目前还在研发阶段
经预先训练和调优的先进深度学习模型 PyTorch BERT NLP:
“bert-base-uncased”、”distilbert-base-uncased”、”xlnet-base-cased”、”xlm-mlm-enfr-1024”、”roberta-base”、”albert-base-v2”、”camembert-base”、”xlm-roberta-base”
可选的 GPU 加速(强烈建议使用)
支持 MOJO(也支持纯 CPU 系统)
BERT 转换器(用于将文本列转换为供 GBM 等其他模型使用的数值特征)
BERT 模型(只有一个文本列时)
AutoReport 现在包含以下内容:
关于时间序列验证策略的信息
实验谱系(模型谱系图)
NLP/图像架构详细信息
适用于保险用例的 Zero-inflated regression models (分类 + 回归模型的组合)
Time series centering and de-trending transformations:
从(每个时间序列组的)目标信号拟合并去除趋势之后,对内部 ML 模型进行残差训练
支持恒定(居中)、线性和逻辑趋势
SEIRD 模型,用于对易感 (S)、暴露 (E)、感染 (I)、康复 (R) 和死亡 (D) 人员构建传染病学模型,模型参数的下限/上限均完全可配置
Empiric prediction intervals,用于具有用户自定义置信度的回归问题(基于保持预测)
Insights tab,提供有用的可视化(目前仅适用于时间序列和图像问题)
对于 F05、F1、F2、MCC 等评分器的二元分类问题,使用相同指标实现最优阈值测定
Custom data recipes 现在可以作为实验建模管道的一部分,将来也会是 Python 评分包的一部分
按照图形语法在 AutoViz 中实现 Custom visualizations
将数据传递给(自定义)评分器,以便可以访问其他列,不仅仅是实际值和预测值
新增了多个新的现成 scorers for common regression and classification metrics
为 24 个国家/地区新增了假期日历,允许用户选择国家/地区列表,以创建假日特征
针对回归问题新增了 identity_no_clip 目标转换器,此转换器不会将预测限制到观测范围内,允许外推
MLI:
为 MLI 设计了新的 GUI/UX
针对原始特征 Shapley 重要性新增了内核解释器
新增了从 UI 以 CSV 格式下载原始特征 Shapley 值的功能
为 k-LIME 输出 CSV 文件新增了截距列
新增了对 DAI 模型残差运行替代模型的功能,以帮助调试模型错误
新增了将决策树替代模型规则作为文本和 Python 代码导出的功能
为多项式实验新增了决策树替代模型
为多项式实验新增了“去除某一自变量”(LOCO)
为差异影响分析 (DIA) 新增了两个传统的公平贷款指标:标准化均数差 (SMD) 和边缘误差 (ME)
为 https://github.com/h2oai/driverlessai-recipes 新增了两个可解释的模型插件:GA2M 和 XNN (https://github.com/h2oai/driverlessai-recipes/tree/master/models/mli)
在 MLI 摘要页面上显示二元分类实验的预测标签
改进:
提高了日志文件的可解析性(机器可读性)
自定义插件目前仅对创建插件的用户可见,之前创建的自定义插件仍全局可见
提升了时间序列实验的速度
改进了预览,以显示更多关于最终管道建模部分的细节
改进了通知系统
减小了 MOJO 的大小
只有在数据规模超过用户可控制的阈值时,才允许采用不平衡抽样方法
为自定义插件升级至最新的 H2O-3 后端
为大型不平衡数据集提升了特征选择速度
文档资料更新:
新增了 GIF 动图
新增了选项卡内容
针对二元分类,新增了与 imbalanced sampling methods 相关的更多详细信息
新增了内容(请参考以上链接主题)
Bug 修复:
修复了多个 bug
1.8.10 LTS 版本(2020 年 2 月 19 日)¶
新功能:
在“资源”菜单中开放下载新的 Python 客户端
新增了对 .avro 文件格式的支持
新增了用于生成 multiple AutoDocs. 的选项。可通过使用 config.toml 中的选项
autodoc_template
并将其设置为 AutoDoc 文件路径列表来进行设置
MOJO 更新:
将 MOJO 运行时依赖关系升级至 2.5.10
新增了对 MOJO 的支持,以计算树形和线性加速模型的 Shapley 值
改进:
提升 MLI 日志的详细程度
Bug 修复:
修复了 P2.8x Amazon EC2 实例上的 LightGBM 模型中检测延迟的问题
1.8.9 LTS 版本(2020 年 10 月 19 日)¶
新功能:
在 API 端点新增了可配置的 CSRF(跨站点请求伪造)保护
新增了防止并发会话的保护机制
改进:
隐藏了所有 API 端点的 Web 服务器技术信息
通过引入可配置的静态代码分析提升了 BYOR 安全性
改进了会话验证和身份验证
通过加密提升了内部 API 处理程序的安全性
Bug 修复:
修复了会话过期后用户会话自动注销的问题
修复了一些问题,以便正确清理已关闭的会话
修复了使用反向代理和 URL 前缀时重定向至静态工件无效的问题
修复了无扩展名文件的导入问题
1.8.8 LTS 版本(2020 年 9 月 30 日)¶
新功能:
使用户能够控制已保存的变量重要性的数量(即 Python 客户端和 R 客户端可以取回 14 个以上的值)( config.toml 文件中的
max_varimp_to_save
)为 24 个国家/地区新增了 holiday calendar,允许用户选择国家/地区列表,从而为时间序列实验创建假日特征
实现了对 IBM Power 上 LightGBM 模型的 GPU 支持
支持与 RHEL8 相似的系统
引入了利用通过反向代理注入的 JWT 令牌登录的选项
允许用户通过配置指定数据分隔符(
datatable_separator
,请参阅 config.toml 文件)新增了对敏感 config.toml 值的加密密钥库支持。目前仅可用于 LTS 版本(1.8.8 及更高版本)
保存了转换列的名称,用于在 MOJO 中进行 Shapley 值计算
改进:
提高了无扩展名文件处理的一致性
改进了 Web 服务器的请求处理,不允许重定向到应用程序外
改进了日志文件格式,以便于解析
改进了连接器的记录
针对自定义插件改进了隔离支持
允许选择 Snowflake Stage 表格
Bug 修复:
修复了部署在反向代理之后的 OpenID 和 TLS 登录重定向问题
修复了 IBM Power 上 Cgroup 内存检测问题
修复了多个 MLI 问题
修复了多个 UI 问题
文档资料更新:
新增了 configuration security 文档
新增了关于 MOJO 评分命令行选项 的详细信息
新增了关于 exporting artifacts to Bitbucket 的详细信息
新增了关于 GPU usage in Driverless AI 的详细信息
改进了安装文档(支持 RHEL 8 )
改进了转换特征名称的描述
1.8.7.2 LTS 版本(2020 年 7 月 13 日)¶
Bug 修复:
新增并传递了
authentication_method
参数,以使用正确的get_true_username
和start_session
类 SQL 连接器:取出查询末尾处不必要的分号
文档资料更新:
在文档中记录了
hive_app_jvm_args
的用途
1.8.7.1 LTS 版本(2020 年 6 月 23 日)¶
新功能:
新增了将工件推送到 Bitbucket 服务器的功能
针对 XGBoostGBM、LightGBM 和 DecisionTree 模型,新增了单调性约束的按特征用户控制功能
Bug 修复:
修复了 Hive Kerberos 模拟的问题
通过对模拟使用正确的登录用户名修复了 DTap 连接器的问题
修复了 XGBoostGBM、LightGBM 和 DecisionTree 模型的单调性约束问题
1.8.7 LTS 版本(2020 年 6 月 15 日)¶
新功能:
为 k-LIME csv 新增了截距项
在 DAI PD/ICE 中新增了对默认类属和数值特征渲染的控
新增了限制只能将自定义插件上传到特定 Git 资料库和分支的功能
新增了朝鲜语和中文译文
新增了同时使用多种身份验证方法的功能
改进:
改进了 Driverless AI 无法启动时 systemctl 的行为
改进了 JDBC 和 Hive 连接器的日志记录行为
改进了 C++ 评分器的行为,减少了临时目录中保存的不必要文件的数量
改进了 Kubernetes 中的 Docker 图像行为
改进了 LDAP 身份验证,以允许匿名绑定
提升了针对大型、广泛、不平衡数据集的实验中特征选择的速度
提升了繁忙系统的数据导入速度
Bug 修复:
修复了 Kaggle 自动提交和评分检索的问题
修复了多个 MLI 作业并发运行时 MLI 中的替代 DRF 模型间歇性出现 Java 异常的问题
修复了在链接的实验被删除时删除部署的问题
修复了导致 Jupyter Notebook 无法在 Docker 映像中正常工作的问题
修复了“诊断”页面上不显示自定义插件评分器的问题
修复了 AWS Lambda 部署无法正确处理删除列的问题
修复了无法针对特定实验限制 GPU 数量的问题
修复了 1.7.1 和 1.8.0 中部分内置模型的服务器内评分不准确的问题(独立评分不受影响)
修复了数据表类型转换异常(极少发生)
文档资料更新:
“用于执行基于置换的特征选择的最大行数”专家设置现在的默认值为 500,000
完善了 Hive 和 Snowflake 连接器的文档资料
更新了“Java 评分管道”一章中的 Main.java 示例
新增了描述了在启动应用之前如何更改 UI 语言的文档资料
新增了关于如何在 Autoreport 中描述和记录自定义插件的信息
更新了 LDAP 身份验证文档资料
改进了 Linux DEB 和 RPM 安装说明
改进了 AWS Community AMI 安装说明
完善了“可复制”按钮的文档资料
1.8.6 LTS 版本(2020 年 4 月 30 日)¶
新功能:
新增了用于缩小 MOJO 评分管道(进而减少推理的延迟和内存占用) 的专家设置
针对 IBM Power 启用了 Lambda 部署
为部署新增了重启按钮
新增了受支持数据集的 Kaggle 自动提交功能,显示了私有/公共评分(需要 Kaggle API 用户名/密钥)
在(时间序列的)回溯测试拆分或(用于 IID 的)交叉验证折叠中,如果单个最终模型比折叠模型差,将会显示警告(指示信号或拟合有问题)
更新了 R 客户端 API,以包括 autodoc、实验预览、数据集下载、autovis 功能
在专家设置中新增了按钮,用于调节某些有效设置,以创建小型的 MOJO 生产管道
新增了用于向 S3 或 Git 资料库上传工件的选项
改进:
提升了更改模型类型时实验重启/重新调整的可靠性
针对丢弃特征提供额外的保护
改进了 Hive 连接器的实现方式
Bug 修复:
升级了数据表,以修复统计计算过程中导入文件时出现的死循环问题
Web 服务器和 UI 现在支持动态库 URL 后缀
修复了为权重列提供较小值时 MLI 中 min_rows 不正确的问题
修复了 TensorFlow/PyTorch 模型 MOJO 中的分段错误
修复了 MLI 运行时间的问题
R 客户端现在默认启用 GPU
修复了 Python 评分管道 h2oai ModuleNotFound 错误
更新了 no_drop_features toml 和 专家按钮,一般用于避免丢弃特征
修复了数据表 mmap 策略的问题
文档资料更新:
新增了关于启用 Hive 数据连接器的文档资料
新增了关于使用脚本更新 AWS Lambda 部署的过期 DAI 许可证的文档资料
关于上传工件的文档资料现在在项目存储库包含了对 S3 和 Git 的支持
完善了关于独热编码的文档资料
完善了systemd 日志/journalctl 的文档资料
完善了关于时间序列“预测时列不可用”的文档资料
完善了 Azure Blob 存储的文档资料
完善了 MOJO 评分管道的文档资料
新增了关于使用新的专家设置减小 MOJO 的信息
1.8.5 LTS 版本(2020 年 3 月 9 日)¶
新功能:
可处理大型的(最高达 10k)多类问题,并针对这些情况改进了 GUI
在目标类并不罕见的情况下检测类不平衡是否存在二元问题
在迭代面板中新增了特征计数
在实验摘要压缩文件中新增了实验谱系 pdf 文件
当最终管道评分在验证折叠中不稳定时将会发出警告
在恒定模型提高最终管道的质量(指示信号交叉)时发出警告
根据模型拟合 (AUC/R2)、Gini 或相关性报告泄露源检测结果
改进:
改进了 ID 列的处理
改进了异常处理,以提高 Python 发生异常时的稳定性
改进了任何个别转换器或模型出现异常或分段错误时的异常处理
提升了根据实验选项发生变更时实验重启和重新调整的可靠性
改进了转换数据集时对缺失值的处理
提高了模块自定义插件导入的文件性
完善了安装说明文档资料
改进了时间序列初始滞后阶数的选择
针对某些变异参数的回归问题,提升了 LightGBM 稳定性
文档资料更新:
完善了时间序列实验的文档资料
新增了描述如何重新启用数据插件 URL 和数据插件文件连接器的主题
对于运行较低版本的独立 Python 评分管道的用户,新增了描述如何安装过期依赖关系升级版本的信息
改进了对 “不平衡二元分类问题抽样方法” 专家设置的描述
新增了与 REST 服务器部署相关的限制条件
在 HDFS 连接器主题中注明了必选和可选的参数
新增了一条常见问题解答,说明 MOJO 是线程安全的
在 Windows 10 中,仅支持 Docker 安装
新增了关于 AutoViz 图表建议的信息
为“安装前注意事项”主题新增了以下信息:master.db 文件并不向后兼容更早的 Driverless AI 版本
Bug 修复:
更新了 LightGBM 以修复 bug,包括挂起并避免使用硬编码的库路径
提高了使用 psutil 包时的稳定性
修复了测试集缺少目标值时的时间序列实验问题
修复了 Python 评分问题,以便不依赖原来的 data_directory
修复了自定义时间序列验证拆分预览和准确度较低的问题
修复了单个时间序列最小滞后阶数设置被忽略的问题
修复了具有日期时间列的 Excel 文件解析问题
修复了具有大部分缺失值的列的列类型检测问题
解决了迭代评分中显示 0.0000 分的无效显示问题
修复了多个 MLI 问题(不显示无效图表、修复了 PDP 排序、重叠标签问题)
修复了多个 bug
1.8.4 LTS 版本(2020 年 1 月 31 日)¶
新功能:
在实验页面上新增了“评分”选项卡,为模型和折叠显示详细的调优表和评分
新增了恒定模型(恒定预测),并默认将其用作参考模型
在实验摘要中将全局恒定预测的评分用作参考
新增了对 Driverless AI 变异 TLS 设置的支持
新增了将客户端/个人证书用作身份验证方法的选项
文档资料更新:
新增了描述启用 mTLS 和客户端证书身份验证的章节
支持的算法列表中现在包括了恒定模型
新增了描述“模型评分”页面的章节
完善了描述数据表导入流程的 C++ 评分管道文档资料
完善了 Java 评分管道的文档资料
Bug 修复:
修复了添加新特征时最终管道的重新调整问题
修复了多个 bug
1.8.2 LTS 版本(2020 年 1 月 17 日)¶
新功能:
决策树模型
如果准确度 <= 7 并且互操作性 >= 7,将自动启用
支持各种类型的问题:回归/二元/多类
结合使用 LightGBM GPU/CPU 和 MOJO
的树拆分和叶节点决策可视化称谓管道可视化的一部分
按列插补方案(实验性)
在实验开始时选择 [const、mean、median、min、max、quantile] 插补方案中的一种
选择插补值计算方法:对整个数据集计算或在每个管道的训练数据拆分中计算
默认禁用,在启动时必须启用才能生效
在实验摘要中显示 MOJO 大小和评分延迟(适用于 C++/R/Python 运行时)
(依据可解释性设置)在最终集成中自动删除权重较小的基础模型,以降低最终模型的复杂程度
自动将用于自定义插件的非原始 Github URL 转换为原始源代码 URL
改进:
针对时间序列和低准确度实验提升了特征演变的速度
提高了特征演变算法的准确度
针对遗传算法的模型和特征选择,考虑了特征转换器的可解释性、总数和重要性
实验页面中 ROC 曲线上的二元混淆矩阵现在与诊断保持一致(TP/TN 的翻转位置)
仅当实验使用任何自定义插件时,才会在 Python 评分管道中包括自定义插件
新增了文档资料(新的 OpenID 配置选项、JDBC 数据连接器语法)
改进了 AutoReport 的转换器描述
改进了 AutoReport 创建过程中的进度报告
提升了不平衡多类问题的自动迭代搜索速度
针对 GLM 和 FTRL 提高了单个最终模型的准确度
允许 config_overrides 作为与 R 客户端 API 的参数列表/向量
默认禁用随机森林模型相关的早期停止,开放了新的“rf_early_stopping”模式(可选)
为所有评分管道创建了相同的示例数据(与 1.8.0 版及更早的版本相同)
升级了数据表和 Java 的版本
在 Docker 映像中安装了 graphviz,现在会在 MOJO 包和 Autoreport 中获取管道可视化的 .png 文件。请注意:对于 RPM/DEB/TAR SH 安装,用户可以安装 graphviz,以获取此可选功能
文档资料更新:
新增了通过插件使用活动代码修改数据集的简单示例
新增了描述如何插补数据集(实验性)的章节
在支持的算法列表中新增了决策树
修复了启用 JDBC 连接器的示例问题
新增了描述如何使用未经内部测试的 JDBC 驱动程序的信息
更新了“缺失值处理”主题,以包括介绍”转换器中的聚类”和”孤立森林异常评分转换器”的章节
改进了”折叠列”的描述
Bug 修复:
修复了导致最终模型评分与最佳特征演变评分相差过大的问题
删除了测试集评分过程中创建的临时文件
修复了目标转换器调优问题(可能在特征演变与最终模型二者之间混淆目标转换器)
修复了 tensorflow_nlp_have_gpus_in_production=true 模式的问题
修复了部分依赖性图中缺少日期时间值的问题,不再为文本列显示这些值
修复了季度数据的时间序列 GUI
将特征转换器探索限制为不超过 1000 个新特征(10/10/1 上的小数据会尝试过多的特征)
修复了 Kaggle 管道构建插件的问题,以尝试 8 个以上的输入特征
针对自定义数据插件修复了活动代码编辑器中的光标位置问题
如果存在 10 个以上的拆分,将在管道可视化视图中显示交叉验证拆分的正确数量
在 MOJO 中针对没有“%d”(日)的部分日期时间格式修复了日期时间的解析问题
修复了多个 bug
向后/向前兼容性:
在即将发布的 1.8.x LTS 版本中仍然支持 1.8.2 LTS 版本中构建的模型
在 1.7.1/1.8.0/1.8.1 版本中构建的模型不会被弃用,应该仍会继续工作(尽最大努力保留了 MOJO 和 Autoreport 的创建、MLI、评分等)
在 1.7.0 或更早版本中构建的模型将被弃用
1.8.1 版本(2019 年 12 月 10 日)¶
新功能:
针对单个最终模型的实验,提供了全套评分指标和相应的可下载保持预测结果(时间序列或 i.i.d)
MLI 更新:
假设(敏感性)分析
文本数据实验解释 (NLP)
自定义数据插件 BYOR:
Python 中的 BYOR(自带插件):用于连接器的快速原型开发和 DAI 内部数据预处理的 pandas、numpy、datatable、第三方库
数据连接器、清理、筛选、聚合、增强、特征工程、拆分等
可以从头开始或通过现有数据集创建一个或多个数据集
支持实时预览的交互式代码编辑器
可从 https://github.com/h2oai/driverlessai-recipes/tree/rel-1.8.1/data 下载示例代码
实现了最终评分管道的可视化(实验性)
在 GUI 中显示整个机器学习管道的特征工程、建模和集成步骤的图表
为 Autodoc 新增了功能
时间序列:
新增了指定哪些特征在测试时不可用于时间序列实验的功能
可针对时间序列实验自定义由用户提供的训练/验证拆分(依据每个拆分的开始/结束日期时间)
为时间序列实验新增了基于滚动窗口(可配置窗口数量)的回溯测试指标(有/无滞后的回归和分类)
MOJO:
用于 FTRL 的 Java MOJO
针对基于 BERT/DistilBERT NLP 的自定义插件新增了 PyTorch MOJO (C++/Py/R)(可根据要求提供)
改进:
准确度:
针对数值特征(”magic feature” 查找器)自动进行配对交互搜索
提高了可解释性较低的时间序列实验的准确度
改进了泄露检测逻辑
改进了特征演变的遗传算法启发(进行更多探索)
时间序列插件:
针对时间序列实验,重新启用了 Python 评分管道中的测试时增强
将默认的时间序列滚动保持预测次数减少至与验证拆分数相同(但是可配置)
计算:
针对具有单个最终模型的非时间序列实验提升了特征演变的速度
通过限制重抽样袋的内部数量提升了超高类不平衡性的二元不平衡模型速度
提升了特征选择的速度
实现了对 ImbalancedXGBoostGBMModel 的 GPU 支持
提升了一次导入多个文件的速度
提升了自动确定时间序列属性的速度
允许在准确度设置足够低时对大型数据集使用 XGBoost 模型,在专家设置中显示数据集大小限制
减小了所有实验的内存使用量
针对时间序列实验提升了保持预测的创建速度(现在默认由 MLI 视需要计算 Shapley 值)
UX 改进:
新增了重命名数据集的功能
为专家设置新增了搜索栏
显示长期实验的跟踪信息
所有实验现在都将创建一个 MOJO(如果可能,设置为“自动”)
所有实验现在都将创建一个管道可视化视图
默认所有实验(iid 和时间序列)都将对最终模型的训练数据和全套指标实施保持预测
文档资料更新:
更新了用于启用 GPU 持续性模式的步骤
新增了与弃用的 NVIDIA 函数相关的信息
完善了关于启用 LDAP 身份验证的文档资料
新增了与数据集中列类型变更相关的信息
更新了实验摘要中可用的实验工件清单
新增了描述如何在 Driverless AI Docker 容器内开放 Docker 上用于部署 REST 服务的端口
新增了展示如何使用自定义转换插件运行实验的示例
改进了关于 TLS/SSL 设置的常见问题解答
新增了一条常见问题解答,描述在 Windows 上尝试通过数据连接器 将文件夹作为文件导入 时可能发生的问题
Bug 修复:
允许重启/重新调整大脑,以接受之前未评分的管道
针对回归模型的诊断,修复了实际值和预测值标记的问题
针对恒等转换器以外的非目标转换器,修复了 TensorFlow 的 MOJO 问题
修复了 Excel 文件列类型检测的问题
允许采用默认专家设置的实验使用 MOJO
修复了多个 bug
1.8.0 版本 (2019 年 10 月 3 日)¶
提高了特征工程的速度和内存使用量
提升了泄露和移位检测的速度,并提升了准确度
提升了高系统负载下 AutoVis 的速度
提升了使用用户提供的大型验证数据进行实验的速度
提升了与回归问题相关的集成准确度
改进了 Autoreport 的创建(每个实验只有一个后台作业)
改进了 ImbalancedXGBoost 和 ImbalancedLightGBM 模型的抽样方法;由于可能会拖慢速度,默认禁用了这些方法
现在支持将 Python/R/C++ MOJO 用于 FTRL 和 RandomForest
新增了 CPU 模式下 LightGBM 的本机分类处理
针对 LightGBM 新增了单调性约束支持
新增了“孤立森林异常评分”转换器(异常值检测)
对 GLM 模型重新启用了独热码编码
新增了字典标签编码(默认禁用)
针对 TensorFlow NLP 转换器,新增了进一步训练由用户提供的预训练嵌入数据的功能,另外新增了神经网络图表剩余部分的调优功能
新增了自带设备验收测试的超时
新增了最终模型变量重要性与调优模型之间存在较大偏差时的记录和通知功能
新增了对时间序列特征工程的更多专家控制项
新增了将多个插件作为整个(或部分)Github 资料库或作为页面上 Python 文件链接上传的功能
允许折叠列中缺失值
现在支持特征大脑,允许在启动”具有相同参数的新模型”(参数与之前重启的模型相同)时使用
现在支持在”重新训练最终管道”时切换是否将附加特征包括在管道内
默认将实验运行时限制为一天(近似于强制执行,可在“专家设置” -> “实验”或 config.toml’max_runtime_minutes’中配置)
现在支持导入 pickle Pandas 框架 (.pkl)
MLI 更新:
针对指标和实际值与预测值对比图表,在 MLI TS 中显示持续预测和测试集预测(如果适用)
在 MLI TS 中新增了下载分组指标的功能
在 MLI TS 中新增了放大图表的功能
在 MLI 中新增了将 DAI 模型中未使用的列用作 k-LIME 聚类列的功能
在 MLI 中新增了查看原始和转换后基于 DAI 模型的特征重要性的功能
新增了查看原始特征的 Shapley 重要性的功能
新增了在配置选项 autodoc_include_permutation_feature_importance 设置为 on 时查看 DAI 模型排列重要性的功能
修复了二元差异影响分析中的 bug,该 bug 会导致多个指标(在分子中使用了假阳性值和真阴性值的指标)计算错误
默认禁用 NLP TensorFlow 转换器(在 NLP 专家设置中通过切换为 “on”启用)
调整了专家设置,新增了特征工程页选项卡
实验现在会通知是否因用户、系统或服务器重启而中止
减小服务器启动的所有任务的负载,将使用核心的实验设为优先
为中止实验日志新增了实验摘要文件
当集成的模型达到最大迭代次数限值时发出警告,无论是否提前停止,现在都会使用专家面板中的学习速率控制项进行控制
改进了进度报告机制
允许在不使用自定义插件(避免 Java 依赖性)的情况下禁用用于评分的 H2O 插件服务器
修复了 RMSPE 评分器的问题
修复了通过 URL 上传时的插件错误处理问题
修复了在实验页面显示 GUI 时生成 Autoreport 的问题,此问题会因服务器分叉而导致系统过载
修复了与 Autoreport PDP 计算超时的问题,这样可以更快地完成计算
修复了需通过 GUI 专家设置执行某些配置设置的问题(woe_bin_list、ohe_bin_list、text_gene_max_ngram、text_gene_dim_reduction_choice、tensorflow_max_epochs_nlp、tensorflow_nlp_pretrained_embeddings_file_path、holiday_country),这些设置之前只有在启动时有提供的情况下才会执行
修复了下载已评分测试集时附加列的列类型问题
修复了 TS 实验中 GUI 不能正确转换预测期时间的问题
修复了 AutoVis 中字符串列相关性计算的问题
修复了 R MOJO 运行时下载问题
修复了 LightGBM RF 模式的参数问题
修复了 LightGBM 和 XGBoost 的 dart 参数问题
文档资料更新:
“安装或升级注意事项”话题中包含更多信息,以帮助更轻松、顺利地安装和升级
新增了描述如何在 AWS Community 与 AWS Marketplace AMI 之间进行选择的话题
新增了描述如何检索 MOJO2 Javadoc 的信息
更新了用于 Driverless AI 1.7.x 的 Python 客户端示例
更新了新特征、专家设置、MLI 绘图等的文档资料
向后/向前兼容性:
1.8.0 版本内置的模型在 1.8.x 版本中仍受支持
在 1.7.1 版本中构建的模型不会被弃用,应该仍会继续工作(尽最大努力保留了 MOJO 和 Autoreport 的创建、MLI、评分等)
将 1.8.0 版本升级到了 scipy 1.3.1 版本,以支持更新的自定义插件。这可能会弃用依赖 scipy 1.2.2 版本的自定义插件和(和使用这些插件的实验),并可能要求重新导入这些自定义插件。之前构建的 Python 评分管道仍可继续使用。
在 1.7.0 或更早版本中构建的模型将被弃用
修复了多个 bug
1.7.1 版本(2019 年 8 月 19 日)¶
针对不平衡二元分类问题,新增了采用内部抽样方法的两个新模型:ImbalancedXGBoost 和 ImbalancedLightGBM
现在支持将基于滚动窗口的预测用于时间序列实验(2 个选项:测试时间增强或调整)
现在支持为数据集设置逻辑列类型(以替代实验过程中的类型检测)
新增了在实验开始时设置实验名称的功能
针对时间序列问题新增了泄露检测功能
新增了 JDBC 连接器
MOJO 更新:
现在支持将 Python/R/C++ MOJO 用于 TensorFlow 模型
现在支持将 Python/R/C++ MOJO 用于 TensorFlow NLP 转换器:TextCNN、CharCNN、BiGRU,包括任何预先训练的嵌入数据(如有提供)
减少了创建 MOJO 时的内存使用量
提升了 MOJO 创建速度
现在提供 3 种 MOJO 和 Python 评分管道配置选项:”on”/”off”/”auto”
MLI 更新:
为 MLI 新增了差异影响分析 (DIA)
允许为列名称需进行进化的数据集构建 MLI 评分管道
针对 MLI 中的部分依赖性和 ICE 新增了日期感知分箱功能
针对使用正则化方法对滞后特征进行时间序列建模,提升了泛化性能
针对回归问题改进了”预测值与实际值”对比图(使用自适应点大小)
修复了数据表中的漏洞,以便操作大小超过 2GB 的字符串列
修复了由用户提供的验证数据预测结果的下载问题
修复了时间序列测试时增强的 bug(过去的解决方法是在测试集中包括全部训练数据)
提供了专家设置标志,用于启用详细跟踪信息(默认会再次禁用)
修复了多个 bug
1.6.4 LTS 版本(2019 年 8 月 19 日)¶
ML Core 更新:
提升了模式检测的速度
在对回归问题进行诊断时,DAI 现在会丢弃缺少值的行
提升了列类型检测的速度
修复了个体增长的问题
修复了预测的 n_jobs 问题
偏斜数据集的预测因子中不再包含目标列
新增了防止用户在本地下载数据文件的选项
改进了 UI 拆分功能
新增了 “max_listing_items” 配置选项,以限制列表页中提取的项目数量
Model Ops 更新:
将 MOJO 运行时升级至支持永久性 MOJO 管道的 2.1.3 版
将部署模板升级至与 MOJO运行时匹配的版本
MLI 更新:
修复了 MLI 模式构造器的问题
修复了分类原因码的解析问题
新增了处理整数时间列的功能
修复了多个 bug
1.7.0 版本(2019 年 7 月 7 日)¶
支持将自带插件 (BYOR) 用于转换器、模型(算法)和评分器
针对 Python、R 和 Java 新增了基于 protobuf 的 MOJO 评分运行时库(独立、低延时)
在 AWS Lambda 端点之外,新增了本地 REST 服务器,作为 MOJO 评分管道的一键部署选项
在 Python 客户端之外,新增了 R 客户端软件包
新增了项目工作空间,以便于将数据集和实验分组,以可视化的方式比较实验并创建排行榜
新增了将导入的数据集作为 .csv 文件下载的功能
针对 AutoViz 中的纵列转换提供了建议
提升了可扩展性和性能
新增了为实验提供最大运行时的功能
如果实验配置允许,默认会创建 MOJO 评分管道(为方便起见,在无用户输入的情况下会启用本地/云端部署选项)
支持将用户提供的预先训练嵌入数据用于 TensorFlow NLP 模型
支持缺乏部分目标类(在提供了折叠列时可能发生)的保持拆分
MLI 更新:
针对回归问题新增了残差图(将所有异常值保持原样)
针对多项式问题,新增了混淆矩阵,作为默认的指标显示方式
针对 Driverless.AI 模型,在 MLI GUI 中新增了部分依赖性 (PD) 和个体条件期望 (ICE) 图
在 MLI GUI 中新增了按 ID 列搜索的功能
新增了对所有特征运行 MLI PD/ICE 的功能
新增了通过取目标值和预测值的平均值(若适用)来处理 MLI TS 中单个时间列多个观测值的功能
在 MLI TS 中新增了处理整数时间列的功能
如果未提供测试集,MLI TS 将使用训练保持预测
提升了带有 “%Y%m%d” and “%Y%m%d%H%M” 时间格式字符串的文件和带有大量文本字符串的文件的导入速度
将 RMSPE 评分器的单位修改为百分比(乘以 100)
允许 MAPE 和 SMAPE 评分器得出非正结果
改进了 GUI 中的列表
允许在 GUI 上进行缩放
升级至 TensorFlow 1.13.1 和 CUDA 10(并且 CUDA 现在会进行分发,以简化安装)
PPC 上现在支持将 CPU 用于 TensorFlow
文档资料更新:
为新特征新增了文档资料,包括:
项目
自定义插件
C++ MOJO 评分管道
R 客户端 API
REST 服务器部署
在实验页面上新增了关于变量重要性值的信息
更新了专家设置的文档资料
更新了”提示和技巧”,新增了关于评分管道的建议
修复了多个 bug
1.6.3 LTS 版本(2020 年 6 月 14 日)¶
包括了审核日志特征
修复了 MOJO 中对 Parquet 文件的十进制类型支持
Autodoc 可以按照特征重要性对 PDP/ICE 进行排序
会话管理更新
升级了数据表
提高了再现性
模型诊断现在会使用权重列
MLI 现在可以对所有原始特征或 DAI 使用的所有转换特征构建替代模型
内部服务器缓存现在会考虑用户名
修复了时间序列设置的问题
修复了加载 MOJO 时的内存不足错误
针对 TensorFlow 修复了 Python 评分包
新增了 OpenID 配置
文档资料更新:
更新了实验摘要中的可用工件列表
在文档资料中对不受支持(但可用)的特征进行了阐述
对于部署中的 Terraform 要求,阐明了只支持 0.11.x 版本的 Terraform,更具体地说是 0.11.10 或更高版本
修复了用于下载 Miniconda 安装说明的链接
修复了多个 bug
1.6.2 LTS 版本(2019 年 5 月 10 日)¶
此版本提供了 PPC64le 工件
提升了数据表的稳定性
改进了文件浏览器中的路径筛选
将 RMSPE 评分器的单位修改为百分比(乘以 100)
通过安装字体包解决了 Ubuntu 18 的分段错误
修复了 IBM Spectrum Conductor 身份验证的问题
修复了 EC2 机器凭据的处理问题
修复了滞后转换器的配置问题
修复了 KDB 和 Snowflake 错误报告的问题
逐步减少了发生错误时用于列统计计算的工作线程数
隐藏了显示所用 Tornado 版本的默认 Tornado 标头
文档资料更新:
新增了关于通过 AWS Marketplace 安装的说明
完善了关于通过 Google Cloud 安装的文档资料
完善了常见问题解答的文档资料
在文档资料中新增了“数据抽样”主题
修复了多个 bug
1.6.1 LTS 版本(2019 年 4 月 18 日)¶
修复了 MLI 的多个问题(部分依赖性曲线图、Shapley 值)
完善了模型部署、时间序列评分、AutoVis 和常见问题解答的文档资料
1.6.0 LTS 版本(2019 年 4 月 5 日)¶
仅专用版本
修复了大小超过 2GB 的字符串列的导入问题
修复了 Windows 中 AutoViz 崩溃的问题
修复了 MLI 中的分位数分箱问题
在 MLI 中对全局绝对平均 Shapley 值而全局平均 Shapley 值绘图
改进了 MLI 中的 PDP/ICE 图
验证了 AWS Lambda 部署中的 Terraform 版本
AutoDoc 中新增了对零变量重要性的支持
AutoDoc 中现在可配置“变量重要性”表格大小
改进了对被启用/禁用的数据导入选项的各种组合的支持
为了方便安装,CUDA 现在将进行分发
安全更新:
对所有 h2oai_client 调用强制要求采用 SSL 设置
新增了防止在浏览器中使用 LocalStorage 缓存信息的配置选项
将 Tornado 服务器版本升级至 5.1.1
改进了会话过期和自动注销功能
禁止在文件浏览器中访问 Driverless AI 数据文件夹
提供了筛选文件浏览器中所显示内容的选项
对 HDFS 模拟使用登录名而非预定义的名称
禁止自动填写登录表单
修复了多个 bug
1.5.4 版本 (2019 年 2 月 24 日)¶
提升了对使用某些格式的日期/日期时间列计算列统计数据的速度(现在会使用 ‘max_rows_col_stats’ 参数)
针对实验摘要文件中的变量重要性新增了标准差计算
新增了计算特征演变与最终管道之间的变量重要性偏差的功能
修复了 MLI 时间序列实验的链接
修复了长期实验迭代评分的显示问题
针对 GLM 模型修复了实验提前结束时的显示 bug
修复了目标偏斜时 k-LIME 的显示 bug
针对时间序列修复了 MLI 中预测期的显示 bug
针对单个时间分组列的时间序列修复了 MLI
修复了 1.5.0 和 1.5.1 版本中创建的时间序列实验的服务器内评分问题
修复了 OpenBLAS 依赖性问题
在 Docker 中会 GPU 持久模式是否被禁用
减少了 TensorFlow NLP 实验过程中的磁盘使用量
减少被中止实验的磁盘使用量
应用启动过程中会刷新实验的报告大小
默认会禁用 TensorFlow NLP 转换器,以提升实验速度(可以在专家设置中启用)
改进了实验过程中的进度百分比显示
完善了文档资料(在 Windows 上升级,如何创建最简单的模型、DTap 连接器等)
修复了多个 bug
1.5.3 版本 (2019 年 2 月 8 日)¶
现在支持通过包含日期、日期时间或整数值的时间列拆分数据集
新增了禁用文件上传的选项
现在要求身份验证下载实验工件
如果在验证或测试框架中没有找到,现在会自动丢弃来自训练框架的预测因子列,并发出警告
通过只使用物理 CPU 核心提升了性能(可在 config.toml 中配置)
新增了不显示非活动数据连接器的选项
修复了多个 bug
1.5.2 版本 (2019 年 2 月 2 日)¶
针对 NLP 特征新增了词汇级的双向 GRU Tensorflow 模型
针对 NLP 特征新增了字符级的 CNN Tensorflow 模型
现在支持一次导入多个个体数据集
针对时间序列新增了对保持预测的支持
在二项分类之外,还针对 FTRL 新增了对回归和多项分类的支持
改进了当测试数据包含实际目标值时的时间序列评分(将预测缺失目标值)
减少了 LightGBM 模型的内存使用量
提升了特征工程的性能
提升了 TensorFlow 模型的速度
针对时间序列问题改进了 MLI GUI
修复了提供 fold_column 时的最终模型折叠拆分漏洞
修复了多个 bug
1.5.0 版本(2019 年 1 月 18 日)¶
新增了模型诊断功能(与新测试数据相关的交互式模型指标包括了回归的残差分析)
新增了 FTRL 模型 (Follow The Regularized Leader)
新增了 Kolmogorov-Smirnov 指标(正值与负值之间的分离度)
新增了(只)对新数据重新训练最终模型的功能
为低基数分类特征、GLM 新增了独热码编码功能
新增了在 32 位(现在的默认设置)与 64 位精确度之间进行选择的功能
新增了系统信息(CPU、GPU、磁盘、内存、实验)
现在支持具有更多时隙和工作日相关数据的时间序列数据
新增了一键部署至 Amazon Lambda 的功能
新增了随机拆分数据集的功能,可选择按目标列分层或按折叠列分组
新增了对 OpenID 身份验证的支持
新增了 BlueData 连接器
提升了 GUI 在负载较大时的响应速度
提升了特征工程的速度,减少了内存占用
提升了 RuleFit 模型的性能,并实现了对 GPU 和多项式的支持
针对时间序列问题改进了时间频率的自动检测
提高了提供外部验证时单个最终模型的准确度
改进了提供外部验证数据时的最终管道(新增了集成功能)
通过使用被 DAI 视为是重要的原始特征(而非所有原始特征)改进了 MLI 中的 k-LIME
通过默认对所有代理模型使用 3 重 CV 改进了 MLI
针对 MLI 时间序列改进了 GUI(集成了帮助信息、优化了集成)
新增了在 MLI 时间序列实验运行时查看 MLI 时间序列日志的功能
将自动报告 (AutoDoc) 的 PDF 版本更换为 Word 版本
修复了多个 bug(GLM 准确度、UI 卡顿、MLI UI、AutoVis)
1.4.2 版本(2018 年 12 月 3 日)¶
现在支持 IBM Power 架构
提升了最终管道的训练速度,并减小了最终管道
减少了最终管道训练过程中的资源使用量
除验证指标外,现在还在 GUI 中显示测试集指标(ROC、ROCPR、Gain、Lift)
现在还在 ROC 曲线上显示精度、MCC 和 F1 最佳阈值的位置
针对 AutoVis 中的散点图新增了相对点大小调节功能
修复了文件上传问题并在 Python 客户端 API 中新增了模型检查点设置功能
修复了多个 bug
1.4.1 版本(2018 年 11 月 11 日)¶
针对时间序列改进了 MLI 的集成
减少了最终集成过程中的磁盘和内存使用量
允许对之前导入的数据集进行评分和转换
实现了未完成模型的检查点重启
针对 GPU 上的 LightGBM,为 OpenCL 平台新增了启动检查功能
提高了集成的特征重要性
提升了日期/日期时间列的数据集统计速度
提升了 MOJO 批量评分的速度
修复了潜在挂起的问题
纠正了 MOJO 中的‘不在列表中’错误
修复了 MLI 中的 NullPointerException
修复了 AutoVis 中的异常值检测问题
修复了多个 bug
1.4.0 版本 (2018 年 10 月 27 日)¶
默认会启用 LightGBM(现在会使用 MOJO)
针对 GBM 决策树调优的 LightGBM、随机森林 (rf) 和 Dropout 符合多元加性回归树 (dart)
针对时间列新增了 ‘isHoliday’ 特征
针对数据预览中的日期/日期时间列新增了 ‘time’ 列类型
现在支持 .jay 格式的二元数据表文件摄取
改进了最终集成(每个模型现在具有各自的特征管道)
通过之前的实验智能地自动设置检查点(特征大脑)
新增了 kdb+ 连接器
对于具有大量需处理的列的数据(列数 >>100),限制可以对原始列进行特征选择
改进了时间序列插件(多个验证拆分、优化了逻辑)
提升了 AutoVis 的性能
改进了日期检测逻辑(现在可检测 %Y%m%d 和 %Y-%m 日期格式)
如果 GPU 内存不足,现在会自动退回至 CPU 模式(适用于 XGBoost、GLM 和 LightGBM)
在数据类型匹配的情况下,不再要求验证和数据集测试必须有标头
不再包括用于数据移位检测的文本列
在 MLI 中新增了对时间序列模型的支持(包括选择时间序列分组的功能)
新增了通过 MLI 实验页面下载 MLI 日志的功能(包括 Python 和 Java 日志)
新增了在 MLI 实验运行时查看 MLI 日志的功能(Python 和 Java 日志)
新增了通过 MLI 页面下载 LIME 和 Shapley 原因码的功能
新增了对转换特征运行 MLI 的功能
针对 MLI 摘要中的 DAI 和替代模型,显示与 MLI 变量重要性相关的所有变量
在 MLI 摘要中包含了 DAI 变量重要性列表的变量定义
修复了在提供了观测值权重时的增益/提升图
修复了多个 bug
1.3.1 版本 (2018 年 9 月 12 日)¶
针对 TensorFlow 模型修复了“管道破裂”错误
解决了与分类属性特征和 >= 8 的可解释性相关的时间序列问题
修复了多个 bug
1.3.0 版本 (2018 年 9 月 4 日)¶
新增了 LightGBM 模型 - 现在有 [XGBoost、LightGBM、GLM、TensorFlow、RuleFit]
新增了基于 CNN 深度学习模型的 TensorFlow NLP 插件(情感分析、文档分类等)
针对 GLM 新增了 MOJO
新增了详细的混淆矩阵统计
新增了更多的专家设置
改进了数据探索(纵列统计和基于行进行的数据预览)
提升了特征演变阶段的速度
提升了 GLM 的速度
报告了外部验证和测试数据的单次评分(而非 bootstrap 平均值)
减小了数据处理的内存开销
减少了打开的文件数量 - 修复了 Mac/Docker 上的 ‘Bad file descriptor’ 错误
简化了 Python 客户端 API
生成 “on-demand” 原因码时,现在会在 MLI UI 中从原始数据集查询任何数据点
通过只使用特征的子集,增强了 k-LIME 中的 k-means 聚类。更多信息,请参见 K-LIME 方法.
针对 在 MLI 摘要中报告了 k-LIME 的 k-均值,以更好地解释聚类
完善了 MLI 实验列表的细节
修复了多个 bug
1.2.2 版(2018 年 7 月 5 日)¶
为了解决时间序列问题,使用了 MOJO Java 评分管道
多类混淆矩阵
AUCMACRO 评分器: 支持通过宏平均实现多类 AUC(默认使用微平均)
通过 GUI 和客户端 API 针对所有实验提供了专家设置(配置覆盖)
支持 HTTPS
针对时间序列问题,改进了降采样逻辑(如果通过准确度旋钮设置启用)
LDAP 对 Active Directory 具有只读权限
Snowflake 数据连接器
修复了多个 bug
1.2.1 版本(2018 年 6 月 26 日)¶
对 MLI 新增了 LIME-SUP (alpha),作为 k-LIME 的替代(通过决策树而非 k-means 定义了局部区域)
新增了 RuleFit 模型 (alpha),现在具有 [GBM、GLM、TensorFlow、RuleFit] - 默认禁用 TensorFlow 和 RuleFit
新增了 Minio (私有云存储)连接器
新增了对导入 S3 文件夹的支持
为’添加数据集’新增了’上传文件’选项(作为对拖放功能的补充)
与二元分类问题相关的预测现在具有 2 列(每个类别的概率),以与多类保持一致
改进了模型参数调优
针对时间序列问题改进了特征工程
提升了 MOJO 的生成和加载速度
提升了在 GUI 上进行与时间序列相关的自动计算速度
解决了实验结束时的潜在挂起问题(极少发生)
不再要求必须连接互联网才能运行 MLI
修复了多个 bug
1.2.0 版本(2018 年 6 月 11 日)¶
时间序列插件
低延迟独立 MOJO Java 评分管道(现在处于测试阶段)
针对解释性 >=6、精度 <=5 的情况,默认对 lambda 搜索启用弹性净广义线性模型 (GLM) (alpha)
针对可解释性=1 和/或多类模型的情况,启用 TensorFlow (TF) 深度学习模型(支持 GPU)(alpha,通过 config.toml 启用)
支持对 [GBM、GLM、TF] 模型进行预调,以选择最佳的特征演变模型参数
支持包含 [GBM、GLM、TF] 模型组合的最终集成
摘要压缩文件中现在包含了 PDF 和 Markdown 格式的自动报告 (AutoDoc)
适用于新用户的交互式导览(助手)
MLI 现在可以运行在之前版本中创建的实验
MLI 中的替代模型现在默认使用 3 个折叠
改进了具有最多 10 个交叉验证折叠的小型数据插件
提高了不平衡数据的二元分类准确度
针对滞后之间的交互和聚合与非目标列的之后,新增了时间序列转换器
提升了 MOJO 的创建速度
数据摄取过程中报告进度
按类数规范化二元多类混淆矩阵(全局比例因子)
针对配置,改进了布尔型环境变量的解析
修复了多个 bug
1.1.6 版本(2018 年 5 月 29 日)¶
提升了大型数据集的性能
提升了 MLI 的速度并改进了用户界面设计
提高了不平衡数据的二元分类准确度
针对采用特定验证数据的实验,改进了泛化估算
减小了实验目录
支持 Parquet 文件
支持 bzip2 压缩文件
UI 中新增了数据预览:’描述’
为了简化,保持和测试集预测中不再添加 ID 列
修复了多个 bug
1.1.4 版本(2018 年 5 月 17 日)¶
1.1.3 的原生版本 (RPM/DEB)
1.1.3 版本(2018 年 5 月 16 日)¶
提升了具有多个 CPU 核心的系统速度
针对训练和评分,提升了用户指定缺失值的处理速度和可靠性
对特征工程和最终集成使用相同的验证方案,以达到足够高的精度
针对文本转换器新增了 MOJO 评分管道
修复了 Python 评分管道中的单行评分问题(在 1.1.2 版本中发现)
修复了实验启动过快时的默认评分器问题
提升了时间序列 GUI 的响应速度
提升了实验中止后的响应速度
改进了多 GPU XGBoost 内存占用的负载均衡
改进了 UI 设计,以便于选择需丢弃列的
修复了多个 bug
1.1.2 版本(2018 年 5 月 8 日)¶
支持自动时间序列插件的 (alpha)
针对可解释性为 10 的情况,现在会使用广义线性模型 (GLM) 而非 XGBoost (GBM)
新增了显示运行时和内存使用量估算值的实验室预览
新增了 MER 评分器(平均误差率、平均绝对百分比误差)
新增了将整数列用作时间列的功能
提升了评分过程中的类型强制执行速度
支持读取 ARFF 文件格式 (alpha)
针对 MLI 新增了分位数分箱
修复了多个 bug
1.1.1 版本(2018 年 4 月 23 日)¶
支持大小超过 2GB 的字符串列
1.1.0 版(2018 年 4 月 19 日)¶
AWS/Azure 集成(每小时的云使用情况)
修复了 MOJO 评分管道的多个 bug(现在处于测试阶段)
Google Cloud Storage 和 BigQuery (alpha)
提升了数据导入过程中的分类列统计计算速度
进一步改进了 GPU 的内存管理
提高了 MAE 评分器的准确度
新增了按需构建评分管道的功能(如果默认不启用)
针对 sqrt(sqrt(x)) 回归问题,新增了目标转换器
针对可解释性=10 的情况,新增了 GLM 模型选项(alpha,默认禁用)
提升了原生版本的性能 (RPM/DEB)
改进了误差线的估算
修复了多个 bug
1.0.30 版本(2018 年 4 月 5 日)¶
提升了 MOJO 管道的创建速度,默认会禁用 MOJO(仍处于 alpha 测试阶段)
改进了 GPU 的内存管理
支持可选的 32 位浮点精确度,以减少内存占用
新增了测试集评分和数据转换的记录功能
修复了多个 bug
1.0.29 版本(2018 年 4 月 4 日)¶
如果 MOJO 构建失败,将不会有可用的 MOJO,但是实验仍然能成功完成
1.0.28 版本(2018 年 4 月 3 日)¶
针对支持 systemd 的 RHEL7/CentOS7/SLES 12,提供(非 Docker)RPM 安装程序
1.0.27 版本(2018 年 3 月 31 日)¶
新增了用于 Java 独立跨平台低延迟评分的 MOJO 评分管道 (alpha)
修复了多个 bug
1.0.26 版本(2018 年 3 月 28 日)¶
针对大型数据集提升了性能并减少了内存使用量
提升了 F0.5、F2 的性能,并提高了准确度
提升了 MLI 的性能
现在还可以在验证数据与测试数据之间检测分布变换
新增了使用数据表的批量评分示例
为 AutoVis 新增了多种增强功能(异常值、平行坐标、日志文件)
修复了多个 bug
1.0.25 版本(2018 年 3 月 22 日)¶
新增了用于二元/多项分类的评分器:F0.5、F2 和准确度
新增了二元/多项分类模型的 P-R 曲线
新增了用于回归问题的实际值与预测值对比图
支持按操作类型排除特征转换
支持读取二进制文件格式:数据表和 Feather
改进了多 GPU 内存负载均衡
改进了初始调优结果的显示
减少了最终模型创建过程中的内存使用量
修复了最终评分管道创建过程中的多个 bug
对 UI 做出了多处改进(如迭代记分牌的缩放)
修复了多个 bug
1.0.24 版本(2018 年 3 月 8 日)¶
针对具有 ID 列的数据修复了测试集评分 bug(1.0.23 版本中引入)
允许对 MLI 实验进行重命名
能够限制用于数据表的核心数量上限
可以在日志中打印验证评分以及跨最终集成模型 CV 折叠的误差线
对 UI 做出了多处改进
修复了多个 bug
1.0.23 版本(2018 年 3 月 7 日)¶
支持二项式和多项分类的增益和提升曲线
针对大型数据集的多 GPU 单模型训练
改进了用于大型数据集的插件(更块的速度和更少的内存/磁盘使用量)
改进了用于文本特征的插件
针对复杂的特征工程,提高了可解释性设置的敏感性
默认会禁用时间列的自动检测,以避免混淆
在评分期间,会自动测试数据和验证数据进行列类型转换
提升了 MLI 的速度
提升了 MLI 中转换特征的特征重要性计算
新增了以 PNG 格式下载 MLI 绘图的功能
现在支持在 MLI 的独立页面上显示删除列和权重列
修复了大小超过 4 GB 的字节对象的序列化问题
修复了无法构建评分管道(提示 ‘command not found’ 错误)的问题
对 UI 做出了多处改进
修复了多个 bug
1.0.22 版本 (2018 年 2 月 23 日)¶
修复了纯 CPU 模式的问题
提升了数据表 CSV 解析器的可靠性
1.0.21 版本 (2018 年 2 月 21 日)¶
修复了 Mac 上的 MLI GUI 缩放问题
解决了被截断的 SVD scipy 后端中的分段错误
修复了多个 bug
1.0.20 版本 (2018 年 2 月 17 日)¶
HDFS/S3/Excel 数据连接器
LDAP/PAM/Kerberos 身份验证
自动设置准确度/时间/可解释性的默认值
可解释性:评分管道中的每次观测和每个特征(带符号)都对预测值产生贡献
可解释性设置现在会影响特征工程复杂度和最终模型复杂度
Python 现在使用独立的 MLI 评分管道
值为 1 的时间设置现在仅运行 1 次迭代
如果检测到收敛,会提前停止实验
针对二项式和多项分类,会显示 ROC 曲线,并显示混淆矩阵和阈值/F1/MCC
训练/验证/测试数据移位检测器
新增了用于多项分类的 AUCPR 评分器
改进了不平衡二元分类问题的处理
新增了核心数量/内存/硬盘等运行时限制的配置文件(供管理员使用)
对 GUI 做出了多处改进(新增了对实验、重新运行的实验、日志进行重命名的功能)
修复了多个 bug
1.0.19 版本(2018 年 1 月 28 日)¶
针对较大的数据集修复了最终集成(准确度 >= 5)过程中的挂起问题
允许在 GUI 中对较低版本(>= 1.0.13)中构建的所有模型进行评分
实验过程中,会在 GUI 上显示更详细的进度信息
修复了评分管道的问题,以仅使用相对路径
模型摘要中的误差线现在为 +/- 1*stddev(而非 2*stddev)
新增了 RMSPE 评分器(RMS 百分比误差)
新增了 SMAPE 评分器(对称平均绝对百分比误差)
新增了 AUCPR 评分器(P-R 曲线下面积)
妥善地处理了数据中的 inf/-inf
对 UI 做出了多处改进
修复了多个 bug
1.0.18 版本(2018 年 1 月 24 日)¶
修复了从 1.0.15 及更低版本迁移的问题
新增了用于中止实验和删除数据/实验的确认对话
对 UI 做出了多处改进
对 AutoVis 做出了多处改进
修复了多个 bug
1.0.17 版本(2018 年 1 月 23 日)¶
修复了从 1.0.15 及更低版本迁移的问题(部分迁移,仅限实验)
新增了通过 GUI 下载模型摘要的功能
重构和重命名了日志存档,并将模型摘要添加到存档中
修复了 1.0.16 版本的 AutoVis 中导致速度变慢的回归问题
修复了多个 bug
1.0.16 版本(2018 年 1 月 22 日)¶
新增了对验证数据集的支持(可选,取代训练数据的内部验证)
新增了模型评分的标准差估算(+/- 1 标准差)
现在可以为(日志中的)最终模型计算所有适用的评分
新增了单击模式运行时的 MLI 原因码标准差估算(+/- 1 标准差)
新增了中止 MLI 作业的功能
提升了最终集成性能
改进了异常值的可视化
将 H2O-3 升级至 3.16.0.4 版本
新增了可读取的实验名称
各种提速
修复了多个 bug
1.0.15 版本(2018 年 1 月 11 日)¶
修复了实验日志文件被截断的问题
修复了多个 bug
1.0.14 版本(2018 年 1 月 11 日)¶
提升了性能
1.0.13 版本(2018 年 1 月 10 日)¶
通过消除目标编码的泄露,改进了最终集成的泛化性能估算
针对(可能更大的)新数据,新增了 API 以重新调整和应用特征工程
删除了预转换数据集的访问权限,以避免发生下游意外泄露的问题
新增了平均绝对百分比误差 (MAPE) 评分器
针对可解释性 >= 6 的情况,对二元分类和回归分析模型强制执行单调性约束
将皮尔逊相关系数的平方用于 R^2 指标(而非确定系数),避免得出负值
分离了 HTTP 评分管道示例与 TCP 评分管道示例
减小了 h2oai_client wheel 文件
如果为训练数据提供了权重列,不再要求为测试数据提供权重列
提高了最终建模管道的准确度
可下载的 logs.zip 文件中现在包含了 H2O-3 日志
将 H2O-3 升级至 3.16.0.2 版本
修复了多个 bug
1.0.11 版本(2017 年 12 月 12 日)¶
提升了多 GPU 的训练速度,尤其是对于小型数据
对于 GPU 数少于 4 的系统,增加了遗传算法的默认探索量
针对小型数据(< 100k 行),提高了模型泛化性能估算准确度
提升了实验的中止速度
改进了最终集合的元学习器
提升了日期解析的可靠性
修复了多个 bug
1.0.10 版本(2017 年 4 月 12 日)¶
在参数设置屏幕中显示了工具建议和文档资料链接
提升了多类( > 5 个类)问题的训练速度
实验结束后,会在 GUI 上显示实验摘要
可通过 GUI 下载 Python 客户端库
提升了基于 Maxwell 的 GPU 速度
支持多项 AUC 和 Gini 评分器
针对二项和多项问题新增了 MCC 和 F1 评分器
提升了实验的中止速度
修复了多个 bug
1.0.9 版本(2017 年 29 月 11 日)¶
针对时间序列数据集中的因果训练/验证拆分,新增了对时间列的支持
可通过数据中的时间相关性,自动检测时间列
对 MLI 做出了改进,新增了专门的页面,可选择数据集和模型
改进了最终集合的元学习器
现在会在实验列表中显示测试集评分
导出的数据集中会保留原始响应
修复了多个 bug
1.0.8 版本(2017 年 21 月 11 日)¶
修复了多个 bug
1.0.7 版本(2017 年 17 月 11 日)¶
在实验之间共享 GPU – 共享 GPU 资源时可同时运行多个实验
实验和数据的持久性 – 可以停止和重启应用程序,不会丢失数据
新增了对权重列的支持,用户可以指定每行观测值的权重
新增了对折叠列的支持,允许用户未训练/验证拆分中的行指定分组
通过模型调优提高了准确度
提升了训练的速度 – 实现了整体提升和模型训练速度的优化
每个实验现在有单独的日志文件
新增了通过 GUI 删除实验和数据集的功能
针对具有非常大响应值的回归分析任务,提高了准确度
提升了测试集的评分速度 – 对 GUI 上的测试集评分做出了重大改进
修复了多个 bug
1.0.5 版本 (2017 年 10 月 24 日)¶
仅显示允许的评分器
修复了多个 bug
1.0.4 版本 (2017 年 10 月 19 日)¶
改进了自动类型检测逻辑
提高了最终集成的准确度
修复了多个 bug
1.0.3 版本 (2017 年 10 月 9 日)¶
各种提速
结果现在可再现
修复了多个 bug
1.0.2 版本 (2017 年 10 月 5 日)¶
提高了最终集成的准确度
新增了证据特征的权重
修复了多个 bug
1.0.1 版本 (2017 年 10 月 4 日)¶
提升了最终集成的速度
修复了多个 bug
1.0.0 版本 (2017 年 9 月 24 日)¶
首个稳定版本