开始前

Driverless AI 可在仅使用 CPU 的计算机上运行,亦可在使用 CPU 和 GPU 的计算机上运行。为获得最佳(以及设计预期的)体验,请在支持 GPU 和 CUDA 的现代化数据中心硬件上安装 Driverless AI。特征工程和模型构建分别主要在 CPU 和 GPU 上执行。因此,Driverless AI 可受益于具有足够系统内存的多核 CPU 和具有足够 RAM 的 GPU。为获得最佳结果,我们建议使用 Pascal 或 Volta 架构的 GPU。支持使用 EC2 中提供的旧版 K80 和 M60 GPU,它们非常便于使用,只是速度较慢。x86 也支持基于 Ampere 的 NVIDIA GPU,因为 Driverless AI 自带 NVIDIA CUDA 11.2.2 工具包。使用 GPU 尤其能为图像处理和自然语言处理用例带来显著的提升。详细信息,请参见 Driverless AI 中的 GPU.

Driverless AI 支持本地身份验证、LDAP 身份验证和 PAM 身份验证。可通过设置环境变量或通过 config.toml 文件来配置身份验证。更多信息,请参阅 身份验证方式 一节。请注意,默认的身份验证方式为 “不验证.”

Driverless AI 还支持访问 HDFS、S3、Google Cloud Storage、Google Big Query、KDB、MinIO 和 Snowflake。可通过设置数据连接器的环境变量或通过 config.toml 文件来配置对以上数据源的支持。更多信息,请参阅 数据连接器 一节。

存储空间需求

本机安装的存储空间需求

Driverless AI 需要至少 5 GB 的系统内存方可启动实验,需要至少 5 GB 的磁盘空间方可运行小型实验。请注意,可在 config.toml 文件中更改这些限制,我们建议您配备足够的系统 CPU 内存(64 GB 或以上)和 1 TB 的可用磁盘空间。

Docker 安装的存储空间需求

对于 Docker 安装,我们建议要有 1 TB 的可用磁盘空间。Driverless AI 会占用大约 38 GB 的空间。此外,在安装过程中,解压/临时文件需要在同一 Linux 挂载 /var 目录中占用一定的空间。Driverless AI 运行后,Docker 容器中的挂载便可指向其他文件系统挂载点。

GPU 存储空间需求

如果您使用 GPU 运行 Driverless AI,请确保 GPU 的计算能力大于或等于 3.5 并且至少有 4 GB 的 RAM。如果未达到这些要求,则 Driverless AI 将切换至仅使用 CPU 的模式。

储存实验所需的存储空间

我们建议您的 Driverless tmp 目录至少有 500 GB 到 1 TB 的空间。(Driverless) tmp 目录用于存储所有实验和所有数据集。我们还建议您使用固态硬盘(最好是使用 NVMe 固态硬盘)。

Linux 中的虚拟内存设置

如果您在使用 Linux 系统的计算机上运行 Driverless AI,我们建议将过量使用内存设置为 0。可使用以下命令更改此设置:

sudo sh -c "/bin/echo 0 > /proc/sys/vm/overcommit_memory"

此默认值表明 Linux 内核可自由地过量使用内存。如果将此值设置为 2,则 Linux 内核不会过量使用内存。在后一种情况中,Driverless AI 的内存需求可能会超过内存分配限制并阻止实验完成。

每个实验的内存需求

根据经验,每个实验的内存需求大约为数据集大小的 5 到 10 倍。数据集的大小可按照行数 x 列数 x 4 字节来估算;如果数据中存在文本,则每个元素会需要更多字节。

备份策略

Driverless AI tmp 目录用于存储所有实验工件,例如部署工件和 MLI。此目录还用于存储用于追踪 Driverless 工件使用者的 master.db 数据库。请注意,除 Driverless AI 自动添加的内容外,不应在 tmp 文件夹中添加或删除任何文件。

我们建议定期停止 Driverless AI 并将 Driverless AI tmp 目录进行备份,以确保有 Driverless AI 的状态副本能用于您可能需要恢复至先前状态的实例。

升级策略

升级 Driverless AI 时,请注意:

  • 1.10.x 版不支持 1.9.x 版中的图像模型。1.10.x 版支持 1.9.x 版中的所有其他模型。

  • (MLI) 1.9.x 版及更高版本支持 1.9.0 版中进行的解释。

  • (MLI) 1.9.x 版及更高版本不支持 1.8.x 版中进行的解释。但仍可查看和重新运行 1.8.x 中进行的解释。

  • 我们建议在升级前执行以下步骤:

    • 构建 MLI 模型:如果您想要在未来的 Driverless AI 版本中继续解释模型,请务必在升级前对此模型上运行 MLI 作业。如果您当前版本的已解释模型列表中显示有此 MLI 作业,则在升级后将保留。

    • 构建 MOJO 管道:升级前,对所有必要模型构建 MOJO 管道。

    • 停止 Driverless AI 并将备份 Driverless AI tmp 目录。

在升级过程中,将从 /etc/dai/User.conf and /etc/dai/Group.conf 继承服务用户与用户组权限。升级期间,您无需手动指定 DAI_USER 或 DAI_GROUP 环境变量。

请注意:Driverless AI 不支持从新版本到旧版本的数据迁移。如果您在升级后回退至使用旧版本的 Driverless AI,则新版本的 master.db 文件将不能与旧版本的 Driverless AI 兼容使用。因此,我们建议保存一份旧版本的 ‘tmp’ 目录副本,以完全还原旧版本的 Driverless AI 状态。

其他注意事项

受支持的浏览器

Driverless AI 在 Chrome 和 Firefox 上进行了广泛测试。为获得最佳用户体验,我们建议使用最新版本的 Chrome。如果使用其他浏览器或较低版本的 Chrome 和/或 Firefox,可能会遇到问题。

使用或不使用 sudo

Driverless RPM 和 DEB 安装需要使用 sudo 命令。TARSH 安装则无需使用``sudo``命令便可完成。

文档中的某些安装步骤可能会在预置其他命令时显示 sudo . 请注意,并非总是需要使用``sudo``.

关于 Docker 配置的注意事项 (ulimit)

使用 Docker 运行 Driverless AI 时,建议使用 docker run--ulimit 参数来配置 ulimit 选项。以下示例展示了如何配置这些选项:

--ulimit nproc=65535:65535 \
--ulimit nofile=4096:8192 \

请参阅 https://docs.docker.com/engine/reference/commandline/run/#set-ulimits-in-container—ulimit,了解更多关于这些选项的信息。

关于 nvidia-docker 1.0 的注意事项

如果您已安装 nvidia-docker 1.0,则需要移除它和现有的所有 GPU 容器。更多信息,请参阅 https://github.com/NVIDIA/nvidia-docker/blob/master/README.md

Nvidia-smi 已被弃用

NVIDIA 已弃用 nvidia-smi 命令。更多信息,请参阅 https://github.com/nvidia/nvidia-docker#upgrading-with-nvidia-docker2-deprecated。安装步骤已进行更新,可启用 GPU 的持久模式。

关于 CUDA 版本的注意事项

Driverless AI 自带 GPU 的 CUDA 11.2.2,但是主机环境中必须有驱动程序。我们建议在您的环境中安装 NVIDIA driver >= 471.68 ,以便在所有 NVIDIA 架构上获得无缝体验,包括 Ampere。

前往 NVIDIA download driver,获取最新的 NVIDIA Tesla A/T/V/P/K 系列驱动程序。关于 CUDA 工具包和驱动程序最低版本要求及 CUDA 工具包和相应的驱动程序版本的参考,请参见 here .

关于身份验证的注意事项

Driverless AI 中的默认身份验证设置为 “不验证”。在这种情况下,Driverless AI 将接受任何登录名和密码组合,它不会验证所指定的登录 ID 的密码是否正确,并将以登录 ID 所指定用户的身份连接至系统。这适用于所有实例,包括 Cloud、Docker 和本机实例。

我们建议您配置身份验证。Driverless AI 提供多个身份验证选项,包括 LDAP、PAM、“本地”和“无”。请参阅 身份验证方式,了解如何启用其他身份验证方式。

请注意:Driverless AI 还可与 IBM Spectrum Conductor 结合使用,并支持 Conductor 身份验证。请联系 sales@h2o.ai,了解更多关于使用 IBM Spectrum Conductor 身份验证的信息。

关于共享文件系统的注意事项

如果您的环境使用共享文件系统,则必须设置以下配置选项:

datatable_strategy='write'

以上选项可在 config.toml 文件 中进行指定(适用于本机安装),亦可指定为 环境变量 (适用于 Docker 映像安装)。

必须进行此项配置,因为在某些情况下,Driverless AI 可能在实验过程中无法读取文件。写入 选项让 Driverless AI 能从共享文件系统中正确读取数据并将其写入至磁盘。

关于主数据库文件的注意事项

master.db 文件将追踪 DAI tmp 目录中 Driverless AI 工件的使用者。请注意,如果您运行两个版本的 Driverless AI,新版本的 master.db 文件将不能与旧版本的 Driverless AI 兼容使用。