NLP 设置¶
enable_tensorflow_textcnn
¶
Enable Word-Based CNN TensorFlow Models for NLP
指定是否为 NLP 使用基于词的 CNN TensorFlow 模型。如果禁用了 TensorFlow 模型,则忽略此选项。我们建议您在不使用 GPU 的系统上禁用此选项。
enable_tensorflow_textbigru
¶
Enable Word-Based BiGRU TensorFlow Models for NLP
指定是否为 NLP 使用基于词的 BiG-RU TensorFlow 模型。如果禁用了 TensorFlow 模型,则忽略此选项。我们建议您在不使用 GPU 的系统上禁用此选项。
enable_tensorflow_charcnn
¶
Enable Character-Based CNN TensorFlow Models for NLP
指定是否为 NLP 使用字符级别的 CNN TensorFlow 模型。如果禁用了 TensorFlow 模型,则忽略此选项。我们建议您在不使用 GPU 的系统上禁用此选项。
enable_pytorch_nlp
¶
Enable PyTorch Models for NLP (Experimental)
指定是否为 NLP 任务启用预训练的 PyTorch 模型并对其进行微调。此选项默认设置为 自动 。如果您想要将 BERT 等 PyTorch 模型用于特征工程或建模,则需要将此选项设置为 开启 。我们建议您在使用此选项时利用 GPU 来加速执行。
请注意:
此项设置需要互联网连接。
某些 PyTorch NLP 模型可能仅使用一个文本列。
pytorch_nlp_pretrained_models
¶
Select Which Pretrained PyTorch NLP Models to Use
指定要使用的一个或多个预训练的 PyTorch NLP 模型。从以下模型中选择:
bert-base-uncased(默认)
distilbert-base-uncased(默认)
xlnet-base-cased
xlm-mlm-enfr-1024
roberta-base
albert-base-v2
camembert-base
xlm-roberta-base
请注意:
此项设置需要互联网连接。
默认未选择的模型可能不支持 MOJO 模型。
使用类似于 BERT 的模型可能会导致实验需要更长时间才能完成。
tensorflow_max_epochs_nlp
¶
Max TensorFlow Epochs for NLP
构建 TensorFlow NLP 特征(适用于文本数据)时,指定用于训练特征工程模型的最大时期数(此模型可能会提前停止)。时期数越多,运行时就越长。默认值为 2,并且如果禁用 TensorFlow 模型,将忽略此值。
enable_tensorflow_nlp_accuracy_switch
¶
Accuracy Above Enable TensorFlow NLP by Default for All Models
指定准确度阈值。当以下 NLP 专家设置被设置为 自动 时,如果值等于或大于此阈值,将在实验开始时为文本主导型问题添加所有已启用的 TensorFlow NLP 模型。
为 NLP 启用基于词的 CNN TensorFlow 模型
为 NLP 启用基于词的 BigRU TensorFlow 模型
为 NLP 启用基于字符的 CNN TensorFlow 模型
如果以上转换均设置为 开启,则忽略此参数。
准确度较低时,TensorFlow NLP 转换将仅作为突变创建。默认值为 5。
pytorch_nlp_fine_tuning_num_epochs
¶
Number of Epochs for Fine-Tuning of PyTorch NLP Models
指定对 PyTorch NLP 模型进行微调时使用的时期数。默认值为 2。
pytorch_nlp_fine_tuning_batch_size
¶
Batch Size for PyTorch NLP Models
指定 PyTorch NLP 模型的批量大小。默认值为 10。
请注意:较大的模型和批量大小会需要更多内存。
pytorch_nlp_fine_tuning_padding_length
¶
Maximum Sequence Length for PyTorch NLP Models
指定 PyTorch NLP 模型的最大序列长度(填充长度)。默认值为 100。
请注意:较大的模型和填充长度会需要更多内存。
pytorch_nlp_pretrained_models_dir
¶
Path to Pretrained PyTorch NLP Models
指定预训练的 PyTorch NLP 模型的路径。若需获得所有可用模型,请下载 http://s3.amazonaws.com/artifacts.h2o.ai/releases/ai/h2o/pretrained/bert_models.zip,然后提取文件夹并将其存储在安装了 Driverless AI 的实例上的目录中。
pytorch_nlp_pretrained_models_dir = /path/on/server/to/bert_models_folder
tensorflow_nlp_pretrained_embeddings_file_path
¶
Path to Pretrained Embeddings for TensorFlow NLP Models
指定将用于 TensorFlow NLP 模型的预训练嵌套的路径。注意,这可以是本地文件系统中的路径 (/path/on/server/to/file.txt
),也可以是 S3 位置 (s3://
)。
请注意:
如果指定了 S3 位置,还可以使用 tensorflow_nlp_pretrained_s3_access_key_id 和 tensorflow_nlp_pretrained_s3_secret_access_key 专家设置来分别指定 S3 访问密钥 ID 和 S3 密码访问密钥。
您可从 此处 下载 Glove 嵌套,并在此框中指定本地路径。
您可从 此处 下载 fasttext 嵌套,并在此框中指定本地路径。
您还可训练自己的自定义嵌套。请参阅 此代码示例 ,了解如何创建可传递至此选项的自定义嵌套。
如果此字段保留为空白,则将从头开始训练嵌套。
tensorflow_nlp_pretrained_s3_access_key_id
¶
S3 access key ID to use when tensorflow_nlp_pretrained_embeddings_file_path
is set to an S3 location
当 tensorflow_nlp_pretrained_embeddings_file_path
设置为 S3 位置时,指定要使用的 S3 访问密钥 ID。更多信息,请参见 the entry on the tensorflow_nlp_pretrained_embeddings_file_path 专家设置。
tensorflow_nlp_pretrained_s3_secret_access_key
¶
S3 secret access key to use when tensorflow_nlp_pretrained_embeddings_file_path
is set to an S3 location
当 tensorflow_nlp_pretrained_embeddings_file_path
设置为 S3 位置时,指定要使用的 S3 密码访问密钥。更多信息,请参见 the entry on the tensorflow_nlp_pretrained_embeddings_file_path 专家设置。
tensorflow_nlp_pretrained_embeddings_trainable
¶
For TensorFlow NLP, Allow Training of Unfrozen Pretrained Embeddings
指定是否允许训练神经网络图的所有权重,包括预训练的嵌套层的权重。如果禁用此项设置,则将冻结嵌套层。但是,仍将对所有其他权重进行微调。默认会禁用此项设置。
text_fraction_for_text_dominated_problem
¶
Fraction of Text Columns Out of All Features to be Considered a Text-Dominanted Problem
指定要视为文本主导型问题的所有特征中文本列的分数。默认值为 0.3。
指定何时将字符串列作为文本(适用于 NLP 问题)或仅作为标准分类变量。值较高时,则偏向于将字符串列作为分类列,值较低时,则偏向于将字符串列作为文本列。默认值为 0.3。
text_transformer_fraction_for_text_dominated_problem
¶
Fraction of Text per All Transformers to Trigger That Text Dominated
指定要视为文本主导型问题的所有特征中文本列的分数比。默认值为 0.3。
string_col_as_text_threshold
¶
Threshold for String Columns to be Treated as Text
指定要作为文本处理的字符串列数阈值(从 0 到 1)(0.0 - 文本;1.0 - 字符串)。默认值为 0.3。
text_transformers_max_vocabulary_size
¶
Max Size of the Vocabulary for Text Transformers
在拟合基于 Tfidf/Count 的文本转换器的过程中创建的最大标识符数量。如果提供了多个值,则将第一个值用于初始模型,并在参数调优和特征演变过程中使用其他值。默认值为 [1000, 5000]。若需加速,则建议使用小于 10000 的值。