数据连接器

Driverless AI 提供若干用于访问外部数据源的数据连接器。默认启用以下数据连接类型:

  • Upload: 标准上传功能

  • file: 本地文件系统/服务器文件系统

  • Hdfs: Hadoop 文件系统,注意配置 HDFS 配置文件夹路径和密钥表

  • s3: Amazon S3,可选择配置秘密和访问密钥

  • Recipe_file: 上传自定义插件文件

  • Recipe_url: 通过 url 上传自定义插件

此外,可通过修改 enabled_file_systems 配置选项(本机安装)或环境变量(Docker 映像安装)来启用以下连接类型:

  • Dtap: Blue Data Tap 文件系统,注意配置 DTap 部分

  • gcs: Google Cloud Storage,注意配置 gcs_path_to_service_account_json

  • Gbq: Google Big Query,注意配置 gcs_path_to_service_account_json

  • hive: Hive 连接器,注意配置 Hive

  • Mino: Minio Cloud Storage,注意配置 secret and access key

  • snow: Snowflake 数据仓库,注意配置 Snowflake 凭证

  • kdb: KDB+ 时间序列数据库,注意配置 KDB 凭证

  • azrbs: Azure Blob 存储,注意配置 Azure 凭证

  • jdbc: JDBC 连接器,注意配置 JDBC

这些数据源以文件系统的形式公开,并且每个文件系统均有其唯一前缀。例如:

  • 若要引用 S3 中的数据,则使用 s3://.

  • 若要引用 HDFS 中的数据,则使用前缀 hdfs://.

  • 若要引用 Azure Blob Store 中的数据,则使用 https://<storage_name>.blob.core.windows.net.

  • 若要引用 BlueData Datatap 中的数据,则使用 dtap://.

  • 若要引用 Google BigQuery 中的数据,请确保您知道 Google BigQuery 数据集和想要查询的表。使用标准 SQL 查询来获取数据。

  • 若要引用 Google Cloud Storage 中的数据,则使用 gs://.

  • 若要引用 kdb+ 中的数据,则使用主机名和 http://<kdb_server>:<port> 端口。

  • 若要引用 Minio 中的数据,则使用 http://<endpoint_url>.

  • 若要引用 Snowflake 中的数据,则使用标准 SQL 查询来获取数据。

  • 若要通过 JDBC 访问 SQL 数据库,则使用语法与您的数据库相关联的 SQL 查询。

更多信息,请参阅以下章节: