Time Series 설정¶
time_series_recipe
¶
Time-Series Lag-Based Recipe
이 레시피는 제공된(또는 자동 감지된) 시간 열로 모델을 학습할 때 Time Series 지연 특성을 포함할지 여부를 지정합니다. 이 설정은 기본적으로 활성화되어 있습니다. 지연 특성은 자동으로 생성된 기본 time series 특성이며 변수의 과거 값을 나타냅니다. 타임 스탬프 \(t\) 가 포함된 주어진 샘플에서는 과거의 일정한 시차 \(T\) (지연)에서 특성을 고려합니다. 예를 들어, 오늘 매출이 300이고 어제의 매출이 250인 경우, 하루 지연 매출은 250입니다. 지연은 대상뿐만 아니라 모든 특성에 대해 생성할 수 있습니다. 과거의 다양한 시간대에 발생한 현상을 파악하면 미래에 대한 예측이 상당히 용이할 수 있기 때문에 래깅(Lagging) 변수는 time series에서 중요합니다. Note: 시간 열이 포함된 지연 기반 레시피는 단일 최종 모델만 지원하므로 이 레시피가 활성화되면 앙상블이 비활성화됩니다. 또한 실험 설정 화면에서 시간 열을 선택하거나 시간 열을 [Auto] 로 설정하는 경우에도 앙상블이 비활성화됩니다.
time series에 대한 자세한 내용은 Time Series 사용 사례: 매출 예측 섹션에 나와 있습니다.
time_series_leaderboard_mode
¶
Control the automatic time-series leaderboard mode
다음 옵션 중에서 선택하십시오:
〈diverse〉: 다양한 상세 설정을 사용하여 구축한 다양한 모델 세트를 탐색합니다. 이러한 상세 설정을 구성하는 데 효과적으로 도움이 될 최고 성능 모델 위에 다양한 리더보드를 다시 실행할 수 있습니다.
〈sliding_window’ : 예측 범위가 N기간인 경우 시간 기간의 단위로 (0,n), (n,n), (2*n,n), …, (2*N-1, n)의 《각 (Gap, 수평선) 쌍에 대해 별도의 모델을 만듭니다. 모델 n당 예측할 기간의 수는 상세 설정
time_series_leaderboard_periods_per_model
로 제어하며 기본값은 1입니다. 이는 단기 예측 품질을 개선하는 데 도움이 될 수 있습니다.
time_series_leaderboard_periods_per_model
¶
Number of periods per model if time_series_leaderboard_mode is 〈sliding_window〉
time_series_leaderboard_mode
가 sliding_window
로 설정된 경우 모델당 기간 수를 지정합니다. 값이 크면 모델 수가 줄어듭니다.
time_series_merge_splits
¶
Larger Validation Splits for Lag-Based Recipe
forecast horizon의 길이에 제한되지 않는 더 큰 검증 분할을 생성할지 여부를 지정합니다. 이는 작은 데이터 또는 짧은 forecast horizon에 대한 과적합(overfitting)을 방지하는 데 도움을 줄 수 있습니다. 이 설정은 기본적으로 활성화되어 있습니다.
merge_splits_max_valid_ratio
¶
Maximum Ratio of Training Data Samples Used for Validation
더 큰 검증 분할을 생성할 때 분할 간 검증에 사용되는 학습 데이터 샘플의 최대 비율을 지정합니다( time_series_merge_splits 설정 참조). 기본값(-1)에서 총 검증 분할의 양에 따라 자동으로 비율이 설정됩니다.
fixed_size_splits
¶
Fixed-Size Train Timespan Across Splits
내부 검증 중 시간 기반 분할 간에 학습 기간의 크기를 일정하게 유지할지 여부를 지정합니다. 이렇게 할 경우 모든 분할에서 학습 샘플의 양이 거의 비슷해집니다. 이 설정은 기본적으로 비활성화되어 있습니다.
time_series_validation_fold_split_datetime_boundaries
¶
Custom Validation Splits for Time-Series Experiments
사용자 정의 학습 및 검증 분할에 사용할 날짜 및 날짜/시간 타임스탬프를 지정합니다(시간 열과 동일한 형식).
timeseries_split_suggestion_timeout
¶
Timeout in Seconds for Time-Series Properties Detection in UI
Driverless AI의 사용자 인터페이스에서 time series 속성 감지의 시간 제한(초)을 지정합니다. 기본값은 30입니다.
holiday_features
¶
Generate Holiday Features
time series 실험에서, 실험에 대한 공휴일 특성 생성 여부를 지정합니다. 기본적으로 활성화되어 있습니다.
holiday_countries
¶
Country code(s) for holiday features
공휴일 조회에 사용할 국가 코드를 목록 형식으로 지정합니다.
Note: 이 설정은 마이그레이션 전용입니다.
override_lag_sizes
¶
Time-Series Lags Override
사용할 재정의 지연을 지정합니다. 이 설정을 사용해 재정의가 적용된 후에도 고려할 지연에 중요성을 부여할 수 있습니다. 다음 예시는 재정의 지연을 지정할 때 사용하는 다양한 방법을 보여줍니다.
《[0]》 지연 비활성화
《[7, 14, 21]》 이 정확한 목록 지정
《21》 1~21의 모든 값 지정
《21:3》 3단계에서 1~21의 모든 값 지정
《5-21》 5~21의 모든 값 지정
《5-21:3》 3단계에서 5~21의 모든 값 지정
override_ufapt_lag_sizes
¶
Lags Override for Features That are not Known Ahead of Time
사전에 알 수 없는 비 대상 특성에 대한 지연 재정의를 지정합니다.
《[0]》 지연 비활성화
《[7, 14, 21]》 이 정확한 목록 지정
《21》 1~21의 모든 값 지정
《21:3》 3단계에서 1~21의 모든 값 지정
《5-21》 5~21의 모든 값 지정
《5-21:3》 3단계에서 5~21의 모든 값 지정
override_non_ufapt_lag_sizes
¶
Lags Override for Features That are Known Ahead of Time
사전에 알려진 비 대상 특성에 대한 지연 재정의를 지정합니다.
《[0]》 지연 비활성화
《[7, 14, 21]》 이 정확한 목록 지정
《21》 1~21의 모든 값 지정
《21:3》 3단계에서 1~21의 모든 값 지정
《5-21》 5~21의 모든 값 지정
《5-21:3》 3단계에서 5~21의 모든 값 지정
min_lag_size
¶
Smallest Considered Lag Size
고려되는 최소 지연 크기를 지정합니다. 기본값은 -1입니다.
allow_time_column_as_feature
¶
Enable Feature Engineering from Time Column
선택한 시간 열에 따라 변수 가공 활성화 여부를 지정합니다(날짜, 요일 등). 이 설정은 기본적으로 활성화되어 있습니다.
allow_time_column_as_numeric_feature
¶
Allow Integer Time Column as Numeric Feature
정수 시간 열에서 변수 가공의 활성화 여부를 지정합니다. time series 레시피를 사용하는 경우, 시간 열(숫자 타임스탬프)을 입력 특성으로 사용하면 모델이 미래로 일반화되는 특성 대신 실제 타임스탬프를 기억할 수 있습니다. 이 설정은 기본적으로 비활성화되어 있습니다.
datetime_funcs
¶
Allowed Date and Date-Time Transformations
Driverless AI가 사용할 수 있는 날짜 또는 날짜-시간 변환을 지정합니다. 다음 트랜스포머 중에서 선택합니다.
연도
분기
월
주
요일
일자
년도일
num(시간의 부동 소수점 값을 나타내는 직접적 숫자 값, 기본적으로 비활성화되어 있음)
시
분
초
Driverless AI에서 특성은 get_
다음에 변환 이름으로 표시됩니다. Get_num
은 IID 문제에 사용될 경우 과적합이 발생할 수 있으며 기본적으로 비활성화되어 있습니다.
filter_datetime_funcs
¶
Auto Filtering of Date and Date-Time Transformations
미래에 값이 표시되지 않는 날짜 및 날짜-시간 변환을 자동으로 필터링할지 여부입니다. 이 설정은 기본적으로 활성화되어 있습니다.
allow_tgc_as_features
¶
Consider Time Groups Columns as Standalone Features
시간 그룹 열을 독립형 특성으로 고려할지 여부를 지정합니다. 이 설정은 기본적으로 비활성화되어 있습니다.
allowed_coltypes_for_tgc_as_features
¶
Which TGC Feature Types to Consider as Standalone Features
시간 그룹 열(TGC)을 독립형 특성으로 고려할지 여부를 지정합니다. 《Consider time groups columns as standalone features》를 활성화하는 경우, 독립형 특성으로 고려할 TGC 특성 유형을 지정합니다. 지정할 수 있는 유형으로는 numeric, categorical, ohe_categorical, datetime, date, text 가 있습니다. 기본적으로 모든 유형이 선택되어 있습니다. 《time_column》은 《시간 열의 변수 가공 활성화》 옵션을 통해 별도로 처리됩니다. 또한, 《Time Series 지연 기반 레시피》가 비활성화된 경우, 모든 시간 그룹 열은 허용되는 특성입니다.
enable_time_unaware_transformers
¶
Enable Time Unaware Transformers
다양한 트랜스포머(클러스터링, Truncated SVD)의 활성화 여부를 지정합니다. 그렇지 않으면 각 폴드의 피팅 내에서 장시간에 걸쳐 누출되면서 과적합 발생의 위험으로 인해 time series 실험에서 비활성화됩니다. 이 설정은 기본적으로 Auto 로 설정됩니다.
tgc_only_use_all_groups
¶
Always Group by All Time Groups Columns for Creating Lag Features
지연 특성을 생성하기 위해 전체 시간 그룹 열에서 샘플링하는 대신 이를 그룹화할지 여부를 지정합니다. 이 설정은 기본적으로 활성화됩니다.
tgc_allow_target_encoding
¶
Allow Target Encoding of Time Groups Columns
시간 그룹 열을 대상으로 인코딩 가능 여부를 지정합니다. 기본적으로 비활성화되어 있습니다.
Notes:
이 세팅은
allow_tgc_as_features
의 영향을 받지 않습니다.하위 그룹은
tgc_only_use_all_groups
를 비활성화하여 인코딩할 수 있습니다.
time_series_holdout_preds
¶
Generate Time-Series Holdout Predictions
이동 윈도우(moving window)를 사용하여 학습 데이터에 대한 진단 홀드아웃 예측을 생성할지 여부를 지정합니다. 이 설정은 기본적으로 활성화되어 있습니다. 활성화되면 MLI에 유용하지만, 실험 속도가 상당히 느려집니다. 이 설정을 사용하면 모델 자체는 변경 없이 그대로 유지됩니다.
time_series_validation_splits
¶
Number of Time-Based Splits for Internal Model Validation
내부 모델 검증을 위해 일정한 수의 시간 기반 분할을 지정합니다. 허용된 분할의 실제 수는 지정된 값보다 적을 수 있으며, 허용된 분할의 수는 실험을 실행하는 시점에 결정됩니다. 기본값은 -1(auto)입니다.
time_series_splits_max_overlap
¶
Maximum Overlap Between Two Time-Based Splits
두 개의 시간 기반 분할 간의 최대 겹침을 지정합니다. 값이 높을수록 분할의 양이 늘어납니다. 기본값은 0.5입니다.
time_series_max_holdout_splits
¶
Maximum Number of Splits Used for Creating Final Time-Series Model’s Holdout Predictions
최종 time series 모델의 홀드아웃 예측을 생성하는 데 사용되는 최대 분할 수를 지정합니다. 기본값(-1)에서는 모델 검증 중에 사용되는 것과 동일한 분할 수를 사용합니다. time_series_validation_splits
를 사용해 모델 검증에 사용되는 시간 기반 분할의 양을 관리합니다.
mli_ts_fast_approx
¶
Whether to Speed up Calculation of Time-Series Holdout Predictions
학습 데이터에 대한 백테스트의 time series 홀드아웃 예측 속도를 높일지 여부를 지정합니다. 이 설정은 MLI 및 메트릭 계산에 사용됩니다. 이 설정을 사용하면 예측의 accuracy가 약간 떨어질 수 있습니다. 기본적으로 비활성화되어 있습니다.
mli_ts_fast_approx_contribs
¶
Whether to Speed up Calculation of Shapley Values for Time-Series Holdout Predictions
학습 데이터에 대한 백테스트의 time series 홀드아웃 예측에 대해 Shapley 값의 속도를 높일지 여부를 지정합니다. 이 설정은 MLI에 사용됩니다. 이 설정을 사용하면 예측의 accuracy가 약간 떨어질 수 있습니다. 기본적으로 활성화되어 있습니다.
mli_ts_holdout_contribs
¶
Generate Shapley Values for Time-Series Holdout Predictions at the Time of Experiment
실험 시 이동 윈도우를 사용하여 학습 데이터에 대한 홀드아웃 예측의 Shapley 값 생성을 사용할지 여부를 지정합니다. 활성화되면 MLI에 유용하지만, 실험 속도가 느려질 수 있습니다. 이 설정이 비활성화되면 MLI는 요청에 따라 Shapley 값을 생성합니다. 이 설정은 기본적으로 활성화되어 있습니다.
time_series_min_interpretability
¶
Lower Limit on Interpretability Setting for Time-Series Experiments (Implicitly Enforced)
time series 실험의 해석력 설정에 대한 하한을 지정합니다. 값이 5(기본값) 이상이면 중요도가 가장 낮은 특성을 더 적극적으로 삭제하여 일반화를 개선할 수 있습니다. 이 설정을 비활성화하려면 값을 1로 설정합니다.
lags_dropout
¶
Dropout Mode for Lag Features
학습 및 검증/테스트 간에 동일한 n.a. 비율을 얻기 위해 지연 특성에 대한 드롭아웃 모드를 지정합니다. Independent 모드는 간단한 특성별 드롭아웃을 수행합니다. Dependent 모드는 샘플당/행당 지연 크기 종속성을 고려합니다. 기본값은 Dependent 입니다.
prob_lag_non_targets
¶
Probability to Create Non-Target Lag Features
지연은 대상뿐만 아니라 모든 특성에 대해 생성할 수 있습니다. 비 대상 지연 특성을 생성하는 확률값을 지정합니다. 기본값은 0.1입니다.
rolling_test_method
¶
Method to Create Rolling Test Set Predictions
롤링 테스트 세트 예측을 생성하는 방법을 지정합니다. Test Time Augmentation( TTA )와 최종 파이프라인의 연속적 리핏( Refit ) 중에서 선택합니다.
Notes:
이 설정은 실험 중에 사용자가 제공한 테스트 세트에만 적용됩니다.
이 설정은 제공된 테스트 세트가 예측 범위보다 더 많은 기간에 걸쳐 있고 테스트 세트의 목표 값을 알고 있는 경우에만 효과가 있습니다.
fast_tta_internal
¶
Fast TTA for Internal Validation
유전 알고리즘이 forecast horizon보다 긴 검증 분할에 롤링 윈도우를 사용하는 대신 한 번에 TTA(Test Time Augmentation)를 적용할지 여부를 지정합니다. 기본적으로 활성화되어 있습니다.
prob_default_lags
¶
Probability for New Time-Series Transformers to Use Default Lags
새 지연 또는 EWMA 유전자가 기본 지연값을 사용할 확률을 지정합니다. 이는 빈도, gap, 범위에 의해 데이터와는 관계 없이 결정됩니다. 기본값은 0.2입니다.
prob_lagsinteraction
¶
Probability of Exploring Interaction-Based Lag Transformers
상호 작용을 기반으로 다른 지연 time series 트랜스포머를 선택할 수 있는 비정규화(unnormalized) 확률을 지정합니다. 기본값은 0.2입니다.
prob_lagsaggregates
¶
Probability of Exploring Aggregation-Based Lag Transformers
집계(aggregation)를 기반으로 다른 지연 time series 트랜스포머를 선택할 수 있는 비정규화(unnormalized) 확률을 지정합니다. 기본값은 0.2입니다.
ts_target_trafo
¶
Time Series Centering or Detrending Transformation
time series 실험에 센터링(Centering) 변환과 추세 제거(Detrending) 변환 중 무엇을 사용할지 지정합니다. 다음 중에서 선택합니다.
None(기본값)
Centering(신속)
Centering(강력)
Linear(신속)
Linear(강력)
Logistic
Epidemic(SEIRD 모델 사용)
선택한 모델의 자유 매개변수가 피팅되면 피팅된 신호는 개별 time series의 대상 신호에서 삭제됩니다. Linear 또는 Logistic 은 피팅된 선형 또는 로지스틱 추세를 삭제하고, Centering 은 대상 신호의 평균만 삭제하며, Epidemic 은 SEIRD(Susceptible-Infected-Exposed-Recovered-Dead ) 전염병 모델에 지정된 신호를 삭제합니다. 파이프라인이 잔차에 피팅되면 이전에 삭제된 신호를 추가하여 예측을 수행합니다.
Notes:
현재 이 설정을 활성화하면 MOJO 지원을 사용할 수 없습니다.
Fast Centering 및 Linear 추세 삭제 옵션은 최소 제곱 피팅을 사용합니다.
Fobust Centering 및 Linear 추세 삭제 옵션은 RANSAC(무작위 샘플 consensus )을 사용해 오차 허용도가 더 높은 w.r.t. outliers를 얻습니다.
자유 SEIRD 매개변수의 한계를 정의하는 방법에 대한 자세한 내용은 ( SEIRD 전염병 모델 매개변수의 사용자 정의 한계)를 참조하십시오.
ts_target_trafo_epidemic_params_dict
¶
Custom Bounds for SEIRD Epidemic Model Parameters
각 time series 그룹의 대상 추세를 삭제하는 SEIRD(Susceptible-Infected-Exposed-Recovered-Dead ) 전염병 모델 매개변수를 제어하기 위한 사용자 정의 한계를 지정합니다. 대상 열은 시간 함수로 감염 사례를 나타내는 I(t) 에 대응이 되어야 합니다.
각 학습 분할 및 time series 그룹의 경우, SEIRD 모델은 각 time series 그룹에 대한 자유 매개변수를 최적화하여 대상 신호에 피팅됩니다. 그런 다음 모델의 값을 학습 응답에서 빼고, 그 잔차를 변수 가공 및 모델링 파이프라인으로 전달합니다. 예측의 경우, SEIRD 모델의 값을 각 time series 그룹에 대한 파이프라인의 잔차 예측에 더합니다.
다음은 자유 매개변수 목록입니다.
N: 총 모집단, N = S+E+I+R+D
Beta: 접촉률(S -> E)
Gamma: 회복률(I -> R)
delta: 잠복 기간
alpha: 사망률
rho: 개인이 만료되는 비율
lockdown: 봉쇄일(-1 => 봉쇄 없음)
beta_decay: 봉쇄로 인한 Beta 감쇠
beta_decay_rate: Beta 감쇠 속도
제어할 각 매개변수의 상한 또는 하한을 제공합니다. 다음은 유효한 매개변수 목록입니다.
N_min
N_max
beta_min
beta_max
gamma_min
gamma_max
delta_min
delta_max
alpha_min
alpha_max
rho_min
rho_max
lockdown_min
lockdown_max
beta_decay_min
beta_decay_max
beta_decay_rate_min
beta_decay_rate_max
매개변수의 하위 집합을 변경할 수 있습니다. 다음은 그 예입니다.
ts_target_trafo_epidemic_params_dict="{'N_min': 1000, 'beta_max': 0.2}"
SEIRD 모델에 대한 자세한 정보는 https://en.wikipedia.org/wiki/Compartmental_models_in_epidemiology and https://arxiv.org/abs/1411.3435 를 참조하십시오.
Note: 사망률이 아주 낮은 경우 SEIR 모델의 계산 속도가 현저하게 높아질 수 있습니다. SEIR 모델을 얻으려면, alpha_min=alpha_max=rho_min=rho_max=beta_decay_rate_min=beta_decay_rate_max=0
및 lockdown_min=lockdown_max=-1
을 설정합니다.
ts_target_trafo_epidemic_target
¶
Which SEIRD Model Component the Target Column Corresponds To
해당하는 대상 열에 대한 SEIRD 모델 구성 요소를 지정합니다. 다음 항목 중에서 선택합니다.
I (기본값): 감염됨
R: 회복됨
D: 사망
ts_lag_target_trafo
¶
Time Series Lag-Based Target Transformation
현재 대상과 지연된 대상의 차이 및 비율 중 어느 것을 사용할지 지정합니다. None (기본값), Difference, Ratio 중에서 선택합니다.
Notes:
현재 이 설정을 활성화하면 MOJO 지원을 사용할 수 없습니다.
해당되는 지연 크기는
ts_target_trafo_lag_size
상세 설정으로 지정합니다.
ts_target_trafo_lag_size
¶
Lag Size Used for Time Series Target Transformation
시계열 대상 변환에 사용되는 지연 크기를 지정합니다. ts_lag_target_trafo
설정을 사용할 때 이 설정을 지정합니다. 기본값은 -1입니다.
Note: 지연 크기는 예측 범위와 Gap 의 합보다 작지 않아야 합니다.