在 Azure 上安装

本节介绍如何从 Azure 安装 Driverless AI 映像。

请注意:Driverless AI 先前的版本需通过 Docker 在 Azure 上完成安装和升级。但从 1.5.2 版开始就不再这样操作。

点击 此处 观看安装视频 。请注意,此视频中的某些图像可能因版本而异,但安装步骤仍相同。

环境

提供者

实例类型

GPU 数量

适用于

Azure

Standard_NV6

1

实验

Standard_NV12

2

实验

Standard_NV24

4

正式使用

Standard_NC6

1

实验

Standard_NC12

2

实验

Standard_NC24

4

正式使用

关于安装

  • 如果 ‘getent passwd’ 找不到 ‘dai’ 服务用户,则可(在 /etc/passwd 中)本地创建 ‘dai’ 服务用户。rpm 或 dpkg 安装期间,可以通过提供 DAI_USER 环境变量来覆盖原有用户。

  • 如果 ‘getent group’ 找不到 ‘dai’ 服务用户组,则可(在 /etc/group 中)本地创建 ‘dai’ 服务用户组。rpm 或 dpkg 安装期间,可以通过提供 DAI_GROUP 环境变量来覆盖原有用户组。

  • 配置文件位于 /etc/dai 中,所有者为 ‘root’ 用户:

    • /etc/dai/config.toml:Driverless AI 配置文件(请参阅 使用 config.toml 文件 一节,了解详细信息)

    • /etc/dai/User.conf:指定服务用户的 Systemd 配置文件

    • /etc/dai/Group.conf:指定服务用户组的 Systemd 配置文件

    • /etc/dai/EnvironmentFile.conf:指定(可选)环境变量覆盖的 Systemd 配置文件

  • 软件文件位于 /opt/h2oai/dai 中,所有者为 ‘root’ 用户:

  • 以下目录的所有者均为服务用户,因而可以通过正在运行的软件进行更新:

    • /opt/h2oai/dai/home:应用程序的主目录(许可证密钥文件存储于此)

    • /opt/h2oai/dai/tmp:实验和导入的数据均存储于此

    • /opt/h2oai/dai/log:如果您 使用 systemd,登录文件将存储于此(如果您使用 systemd,则可使用标准的 journalctl 工具)

  • 默认情况下,Driverless AI 会在 /opt/h2oai/dai/home/.driverlessai/license.sig 中搜索许可证密钥。如果您以编程方式安装 Driverless Ai,则可将许可证密钥文件复制到该位置。如果未找到许可证密钥,此应用程序将以交互方式指导您从 Web UI 中进行添加。

  • systemd 单元文件位于 /usr/lib/systemd/system 中

  • /etc/dai files 中配置文件的符号链接位于 /etc/systemd/system 中

如果您的环境正在运行可操作的 systemd,这即是管理 Driverless AI 的首选方式。此软件包将安装以下 systemd 服务和一项包装器服务:

  • dai:启动/终止其他三项服务的包装器服务

  • dai-dai:主要的 Driverless AI 进程

  • dai-h2o:Driverless AI 使用的 H2O-3 帮助程序进程

  • dai-procsy:Driverless AI 使用的 Procsy 帮助程序进程

  • dai-vis-server:Driverless AI 使用的可视化服务器帮助程序进程

如果您没有 systemd,请参阅 Linux TAR SH 了解安装说明。

安装 Azure 实例

  1. 访问 https://portal.azure.com 登录至 Azure 门户网站,并点击 创建资源 按钮。

  2. 在 Marketplace 中搜索并选择 H2O DriverlessAI

../_images/azure_select_driverless_ai.png
  1. 点击 创建 。随即会启动 H2O DriverlessAI 虚拟机创建流程。

../_images/azure_search_for_dai.png
  1. 基本信息 选项卡中:

  1. 输入虚拟机的名称。

  2. 选择虚拟机的磁盘类型。将 HDD 用于 GPU 实例。

  3. 输入您在使用 SSH 连接至此虚拟机时将使用的名称。

  4. 输入并确认在使用 SSH 连接至此虚拟机时将使用的密码。

  5. 指定“订阅”选项。(此订阅采用即付即用模式。)

  6. 输入该资源组的唯一名称。

  7. 指定虚拟机区域。

完成后,点击 确定

../_images/azure_basics_tab.png
  1. 大小 选项卡中,选择虚拟机大小。指定 HDD 磁盘类型并选择配置。我们建议使用可与 GPU 一起提供的 N-Series 类型。同时还请注意,Driverless AI 需要 10GB 的可用磁盘空间方可运行,如果可用磁盘空间少于 10 GB,将停止运行。我们建议磁盘空间至少为 30 Gb。完成后,点击 确定

../_images/azure_vm_size.png
  1. 设置 选项卡中,选择或创建将部署虚拟机的虚拟网络和子网,然后点击 确定

../_images/azure_settings_tab.png
  1. 概述 选项卡可对指定设置执行验证,并报告任何错误。成功通过验证后,点击 创建 以创建虚拟机。

../_images/azure_summary_tab.png
  1. 创建虚拟机后,可在虚拟机列表中查找到。选择此 Driverless AI 虚拟机,查看新建虚拟机的 IP 地址。

  2. 使用上一步中获取的 IP 地址,通过浏览器连接至 Driverless AI。

http://Your-Driverless-AI-Host-Machine:12345

终止 Azure 实例

即使关闭 Azure 门户网站,Azure 实例仍将继续运行。若要终止实例:

  1. 点击 虚拟机 左侧菜单项。

  2. 选择 DriverlessAI 虚拟机旁的复选框。

  3. 在此行右侧,点击 … 按钮,然后选择 终止 。(请注意,您随后可选择 启动 进行重启。)

../_images/azure_stop_vm.png

升级 Driverless AI 映像

警告

  • 此版本不支持 1.7.0 及更低版本的实验和 MLI 模型。

  • 实验、MLI 和 MOJO 存储于 Driverless AI tmp 目录中,并且在 Driverless AI 升级时不会自动升级。我们建议您在升级前采取以下措施。

    • 升级前构建 MLI 模型

    • 升级前构建 MOJO 管道。

    • 升级前停止 Driverless AI 并备份 Driverless AI tmp 目录。

如果在升级 Driverless AI 前未在务必模型上构建 MLI,则升级后将不能在该模型上查看 MLI。升级前,请务必在您想要在未来版本中继续进行解释的模型上运行 MLI 作业。如果当前版本的解释模型列表中含有此 MLI 作业,则在升级后将保留。

如果在升级 Driverless AI 前未在模型上构建 MOJO 管道,则升级后将不能在该模型上构建 MOJO 管道。升级前,请务必在所需的全部模型上构建 MOJO 管道,然后备份 Driverless AI tmp 目录。

在升级过程中,将从 /etc/dai/User.conf and /etc/dai/Group.conf 继承服务用户与用户组权限。升级期间,您无需手动指定 DAI_USER 或 DAI_GROUP 环境变量。

从 1.2.2 版或更低版本升级

无法从 1.2.2 或更低版本升级至最新版本。您必须手动移除 1.2.2 版容器,然后重新安装 Driverless AI 最新版本。请务必在执行此操作前备份数据。

从 1.3.0 版升级至 1.5.1 版

  1. 使用 SSH 连接至映像实例的 IP 地址,并将现有实验复制至备份位置:

# Set up a directory of the previous version name
mkdir dai_rel_1.3.0

# Copy the data, log, license, and tmp directories as backup
cp -a ./data dai_rel_1.3.0/data
cp -a ./log dai_rel_1.3.0/log
cp -a ./license dai_rel_1.3.0/license
cp -a ./tmp dai_rel_1.3.0/tmp
  1. Wget 新映像。将下方的 VERSION 和 BUILD 替换为 Driverless AI 版本。

wget https://s3.amazonaws.com/artifacts.h2o.ai/releases/ai/h2o/dai/VERSION-BUILD/x86_64-centos7/dai-docker-centos7-x86_64-VERSION.tar.gz
  1. 使用 docker load 命令加载映像:

docker load < dai-docker-centos7-x86_64-VERSION.tar.gz
  1. 运行 docker images 以查找新的映像标签。

  2. 启动 Driverless AI Docker 映像,并将下方标签替换为映像标签。根据您所安装的版本,使用 docker run --runtime=nvidia (>= Docker 19.03) 或 nvidia-docker (< Docker 19.03) 命令。

请注意:可使用 docker version 来检查您使用的 Docker 版本。

# Start the Driverless AI Docker image
docker run --runtime=nvidia \
    --pid=host \
    --init \
    --rm \
    --shm-size=256m \
    -u `id -u`:`id -g` \
    -p 12345:12345 \
    -v `pwd`/data:/data \
    -v `pwd`/log:/log \
    -v `pwd`/license:/license \
    -v `pwd`/tmp:/tmp \
    h2oai/dai-centos7-x86_64:TAG

从 1.5.2 版或更高版本升级

升级至 1.5.2 版和更高版本的操作不再通过 Docker 完成。如果您要升级至 1.5.2 版或更高版本,则请执行以下操作。将下方 dai_NEWVERSION.deb 替换为新的 Driverless AI 版本(例如,dai_1.8.4.1_amd64.deb)。请注意,在升级过程中,将从 /etc/dai/User.conf 和 /etc/dai/Group.conf 继承服务用户和用户组权限。升级期间,您无需手动指定 DAI_USER 或 DAI_GROUP 环境变量。

我们建议在您的主机环境中安装 NVIDIA 驱动程序 >= 471.68 (仅 GPU),以便在所有架构上获得无缝体验,包括 Ampere 架构。Driverless AI 自带 GPU 的 CUDA 11.2.2,但是主机环境中必须有驱动程序。

前往 NVIDIA download driver,获取最新的 NVIDIA Tesla A/T/V/P/K 系列驱动程序。关于 CUDA 工具包和驱动程序最低版本要求及 CUDA 工具包和相应的驱动程序版本的参考,请参见 here .

# Stop Driverless AI.
sudo systemctl stop dai

# Backup your /opt/h2oai/dai/tmp directory at this time.

# Upgrade Driverless AI.
sudo dpkg -i dai_NEWVERSION.deb
sudo systemctl daemon-reload
sudo systemctl start dai