NLP 설정¶
enable_tensorflow_textcnn
¶
Enable Word-Based CNN TensorFlow Models for NLP
NLP용 문자 기반 CNN TensorFlow 모델의 사용 여부를 지정하십시오. TensorFlow가 비활성화되면 이 옵션은 무시됩니다. GPU를 사용하지 않는 시스템에서는 이 옵션의 비활성화를 권장합니다.
enable_tensorflow_textbigru
¶
Enable Word-Based BiGRU TensorFlow Models for NLP
NLP용 단어 방식 BiG-RU TensorFlow 모델의 사용 여부를 지정하십시오. TensorFlow가 비활성화되면 이 옵션은 무시됩니다. GPU를 사용하지 않는 시스템에서는 이 옵션의 비활성화를 권장합니다.
enable_tensorflow_charcnn
¶
Enable Character-Based CNN TensorFlow Models for NLP
NLP용 문자 수준 CNN TensorFlow 모델의 사용 여부를 지정하십시오. TensorFlow가 비활성화되면 이 옵션은 무시됩니다. GPU를 사용하지 않는 시스템에서는 이 옵션의 비활성화를 권장합니다.
enable_pytorch_nlp
¶
Enable PyTorch Models for NLP (Experimental)
NLP 작업에 대한 사전 학습된 PyTorch 모델의 활성화 및 미세 조정 여부를 지정합니다. 이것의 기본값은 Auto 로 설정되어 있습니다. 변수 가공 또는 모델링에 BERT와 같은 PyTorch 모델을 사용하려면 이를 On 으로 설정해야 합니다. 이 옵션 사용 시, GPU를 사용하여 실행 속도를 높일 것을 권장합니다.
Notes:
이 설정에는 인터넷 연결이 필요합니다.
일부 PyTorch NLP 모델은 오직 하나의 문자열만 사용할 수도 있습니다.
pytorch_nlp_pretrained_models
¶
Select Which Pretrained PyTorch NLP Models to Use
사용할 한 개 이상의 사전 학습된 PyTorch NLP 모델을 지정하십시오. 다음에서 선택하십시오.
bert-base-uncased(기본값)
distilbert-base-uncased(기본값)
xlnet-base-cased
xlm-mlm-enfr-1024
roberta-base
albert-base-v2
camembert-base
xlm-roberta-base
Notes:
이 설정에는 인터넷 연결이 필요합니다.
자동으로 선택되지 않은 모델은 MOJO를 지원하지 않을 수도 있습니다.
BERT와 비슷한 모델 사용 시, 실험 완료 시간이 길어질 수 있습니다.
tensorflow_max_epochs_nlp
¶
Max TensorFlow Epochs for NLP
TensorFlow NLP 기능 구축 시(문자 데이터의 경우), 기능 엔지니어링 모델을 훈련할 최대 Epoch의 수를 지정합니다 (조기에 중지될 수 있음). Epoch의 수가 많을수록, 실행 시간이 길어집니다. 이것은 기본값이 2로 설정되어 있으며 TensorFlow models 가 비활성화된 경우 무시됩니다.
enable_tensorflow_nlp_accuracy_switch
¶
Accuracy Above Enable TensorFlow NLP by Default for All Models
accuracy 임계값을 지정하십시오. 다음의 NLP 전문가 설정이 Auto 로 설정된 경우 값이 같거나 그 이상이면 텍스트 위주 문제에 대한 실험 시작 시 활성화된 모든 TensorFlow NLP 모델이 추가됩니다.
NLP용 단어 방식 CNN TensorFlow 모델 사용
NLP용 단어 방식 BigRU TensorFlow 모델 사용
NLP용 문자 방식 CNN TensorFlow 모델 사용
위의 변환이 ON 으로 설정되면 이 매개변수는 무시됩니다.
낮은 accuracy에서 TensorFlow NLP 변환은 오직 변형으로만 생성됩니다. 이것의 기본값은 5입니다.
pytorch_nlp_fine_tuning_num_epochs
¶
Number of Epochs for Fine-Tuning of PyTorch NLP Models
PyTorch NLP 모델의 미세 조정 시, 사용되는 Epoch 수를 지정하십시오. 이것의 기본값은 2입니다.
pytorch_nlp_fine_tuning_batch_size
¶
Batch Size for PyTorch NLP Models
PyTorch NLP 모델의 배치 크기를 지정하십시오. 이것의 기본값은 10입니다.
Note: 큰 모델 및 큰 배치 크기에는 더 많은 메모리가 필요합니다.
pytorch_nlp_fine_tuning_padding_length
¶
Maximum Sequence Length for PyTorch NLP Models
PyTorch NLP 모델의 최대 시퀀스 길이를 지정하십시오. 이것의 기본값은 100입니다.
Note: 큰 모델 및 긴 패딩 길이에는 더 많은 메모리가 필요합니다.
pytorch_nlp_pretrained_models_dir
¶
Path to Pretrained PyTorch NLP Models
사전 학습된 PyTorch NLP 모델의 경로를 지정합니다. 이용 가능한 모든 모델을 받으려면 http://s3.amazonaws.com/artifacts.h2o.ai/releases/ai/h2o/pretrained/bert_models.zip 을 다운로드한 후 폴더의 압축을 풀고 Driverless AI가 설치된 인스턴스 상의 디렉터리에 저장하십시오.
pytorch_nlp_pretrained_models_dir = /path/on/server/to/bert_models_folder
tensorflow_nlp_pretrained_embeddings_file_path
¶
Path to Pretrained Embeddings for TensorFlow NLP Models
TensorFlow NLP 모델에 사용할 사전 학습한 임베딩 경로를 지정합니다. 이는 Local 파일 시스템의 경로(/path/on/server/to/file.txt
) 또는 S3 위치(s3://
)일 수 있습니다.
Notes:
S3 위치가 지정된 경우 S3 액세스 키 ID 및 S3 비밀 액세스 키도 각각 tensorflow_nlp_pretrained_s3_access_key_id 및 tensorflow_nlp_pretrained_s3_secret_access_key 상세 설정으로 지정할 수 있습니다.
here 에서 Glove 임베딩을 다운로드하고 이 상자에 로컬 경로를 지정할 수 있습니다.
here 에서 패스트텍스트 임베딩을 다운로드하고 이 상자에 로컬 경로를 지정할 수 있습니다.
사용자 지정 임베딩을 학습시킬 수도 있습니다. 이 옵션에 패스할 수 있는 사용자 정의 임베딩을 생성하려면 this code sample 을 참조하십시오.
이 필드를 공란으로 비워두면 임베딩이 처음부터 교육됩니다.
tensorflow_nlp_pretrained_s3_access_key_id
¶
S3 access key ID to use when tensorflow_nlp_pretrained_embeddings_file_path
is set to an S3 location
tensorflow_nlp_pretrained_embeddings_file_path
가 S3 위치로 설정된 경우 사용할 S3 액세스 키 ID를 지정합니다. 자세한 내용은 the entry on the tensorflow_nlp_pretrained_embeddings_file_path 상세 설정을 참조하십시오.
tensorflow_nlp_pretrained_s3_secret_access_key
¶
S3 secret access key to use when tensorflow_nlp_pretrained_embeddings_file_path
is set to an S3 location
Tensorflow_nlp_pretrained_embeddings_file_path
가 S3 위치로 설정된 경우 사용할 S3 보안 액세스 키를 지정합니다. 자세한 내용은 the entry on the tensorflow_nlp_pretrained_embeddings_file_path 상세 설정을 참조하십시오.
tensorflow_nlp_pretrained_embeddings_trainable
¶
For TensorFlow NLP, Allow Training of Unfrozen Pretrained Embeddings
사전 학습된 임베딩 레이어 가중치를 포함한 신경망 그래프의 모든 가중치 학습의 허용 여부를 지정합니다. 이를 비활성화할 경우, 임베딩 레이어가 고정됩니다. 하지만, 기타 모든 가중치는 미세 조정됩니다. 이것의 기본값은 비활성화입니다.
text_fraction_for_text_dominated_problem
¶
Fraction of Text Columns Out of All Features to be Considered a Text-Dominanted Problem
문자 위주 문제로 간주되는 모든 기능의 문자열의 비율을 지정합니다. 이것의 기본값은 0.3입니다.
스트링 열이 문자(NLP 문제의 경우) 또는 표준 범주 변수로 처리되는 시기를 지정합니다. 높은 값일수록 범주 스트링 열을 선호하고 값이 낮을수록 문자 스트링 열을 선호합니다. 이것의 기본값은 0.3입니다.
text_transformer_fraction_for_text_dominated_problem
¶
Fraction of Text per All Transformers to Trigger That Text Dominated
문자 위주 문제로 간주되는 모든 기능 중 텍스트 열의 비율을 지정합니다. 이것의 기본값은 0.3입니다.
string_col_as_text_threshold
¶
Threshold for String Columns to be Treated as Text
문자(0.0 - 텍스트, 1.0 - 스트링)로 처리될 스트링 열의 임계값(0에서 1까지)을 지정합니다. 이것의 기본값은 0.3입니다.
text_transformers_max_vocabulary_size
¶
Max Size of the Vocabulary for Text Transformers
Tfidf/Count 기반 문자 변환을 피팅하는 동안 생성되는 Max 토큰의 수다중의 값이 제공되는 경우, 첫 번째 값은 초기 모델에 사용하고 나머지 값은 매개변수 조정 및 기능 진화 중에 사용합니다. 이것의 기본값은 [1,000, 5,000]입니다. 속도를 위해 10,000보다 작은 값을 사용하십시오.