导入数据集¶

受支持的文件类型¶

Driverless AI 支持以下数据集文件格式：

arff
avro
bin
bz2
csv（请参阅下方注释）
dat
feather
gz
jay（请参阅下方注释）
orc（请参阅下方注释）
parquet（请参阅下方注释）
pickle / pkl（请参阅下方注释）
tgz
tsv
txt
xls
xlsx
xz
zip

注解

压缩的 Parquet 文件通常是用于 Driverless AI 的最有效文件类型。
仅在通过字节顺序标记 (BOM) 实现时，方可支持采用 UTF-16 编码的 CSV。如果没有 BOM，则会将数据集作为 UTF-8 文件读取。
对于 ORC 和 Parquet 文件格式，如果您选择导入多个文件，则这些文件将作为多个数据集导入。如果您选择 ORC 或 Parquet 文件的文件夹，则此文件夹将作为单个数据集导入。Spark/Hive 等工具可将数据作为多个 ORC 或 Parquet 文件导出，这些文件将存储于用户定义名称的目录中。例如，如果您以 Spark dataFrame.write.parquet("/data/big_parquet_dataset") 导出，Spark 将创建一个文件夹 /data/big_parquet_dataset ，其中包含多个 Parquet 文件（具体取决于输入数据集中的分区数）和元数据。导出 ORC 文件的结果类似。
对于 ORC 和 Parquet 文件格式，当引入的 ORC 或 Parquet 文件具有作为数组元素的结构时，您可能会收到错误提示：”Failed to ingest binary file with ORC / Parquet: lists with structs are not supported” （无法通过 ORC/Parquet 获取二进制文件：不支持带有结构的列表）。这是因为 PyArrow cannot handle a struct that’s an element of an array.
Sparkling Water 提供了针对扁平化 Parquet 文件的解决方法。详细信息，请参阅我们的 Sparkling Water 解决方案。
要使用具有列表类型列的 Parquet 文件， data_import_explode_list_type_columns_in_parquet config.toml option 必须设置为 true.（注意默认会禁用此设置。）启用此选项时，列表类型列将 “拆分” 成单独的新列。换言之，单元格中的每个列表被拆分成单独的项，然后使用这些项创建新列。请参阅下图以便直观了解此过程：
通过在 添加数据集（或拖放） 下拉菜单中选择 数据插件 URL 或 上传数据插件 ，您可以使用 Python 脚本文件（自定义插件）创建新数据集。如果您选择 数据插件 URL 选项，则 URL 必须指向此文件的 HTML 或原始版本、GitHub 资料库或树或者本地文件。此外，您可以通过使用自定义插件修改现有数据集来创建新数据集。请参阅通过自定义数据插件进行修改以了解更多信息。通过插件创建或添加的数据集将另存为 .jay 文件。
为避免可能出现的错误，建议将 pickle 文件转换为 CSV 或 .jay 文件。以下示例展示了如何使用数据表将 pickle 文件转换为 CSV 文件。
```
import datatable as dt
import pandas as pd

df = pd.read_pickle("test.pkl")
dt = dt.Frame(df)
dt.to_csv("test.csv")
```

添加数据集¶

您可以使用以下方式之一添加数据集：

将文件从本地计算机直接拖放至本页面。请注意，此方式目前适用于小于 10GB 的文件。

或

点击 添加数据集（或拖放） 按钮上传或添加数据集。

请注意：

默认启用“上传文件”、“文件系统”、HDFS、S3、“数据插件 URL”和“上传数据插件”，若要禁用，将其从 config.toml 文件的 enabled_file_systems 设置中移除即可。（请参阅使用 config.toml 文件一节，了解更多信息。）
如果禁用“文件系统”，Driverless AI 将默认开启本地文件浏览器。
如果在启动 Driverless AI 时即已启用了 Azure Blob Store 、BlueData Datatap、Google Big Query、Google Cloud Storage、KDB+、Minio、Snowflake 或 JDBC 的数据连接器，则这些选项将显示在 添加数据集（或拖放） 下拉菜单中。请参阅启用数据连接器一节，了解更多信息。
当指定使用 数据插件 URL 添加数据集时，URL 必须指向此文件的 HTML 或原始版本、GitHub 资料库或树或者本地文件。当通过插件添加或上传数据集时，该数据集将保存为 .jay 文件。
数据集必须为带分隔符的文本格式。
Driverless AI 可检测以下分隔符：,|;t
导入文件夹时，将整个文件夹及其所有内容作为单个文件读取至 Driverless AI 中。
导入文件夹时，文件夹中的所有文件必须有相同数量的列。
如果您尝试通过 Windows 上的数据连接器导入文件夹，若此文件夹包含没有文件扩展名的文件，则导入将会失败（由此产生的错误通常与上述注意事项有关）。

完成后，数据集将显示在“数据集概述”页面中。点击数据集打开子菜单。在此菜单中，您可以指定重命名、可视化、拆分、下载或删除数据集以及查看数据集的详细信息。请注意：您不能删除活动实验所使用过的数据集，必须先删除实验。