일반적인 고려사항¶
기계 학습 및 대략적인 설명¶
한동안, 기계 학습 알고리즘을 학습시켜 생성한 어렵고 복잡한 공식은 해석할 수 없다는 것이 상식이었습니다. 최근 몇 년 간 이러한 비선형, 비단조, 비연속적 기계 학습 반응 함수를 더 쉽게 이해하는 데 있어서 큰 발전이 있었지만(Hall 등, 2017), 이러한 함수는 기존의 선형 모델만큼 직접적이거나 보편적으로 해석하는 것이 불가능했습니다.
추론 목적을 위해 기계 학습 접근을 고려하는 이유는 무엇일까요? 일반적으로 선형 모델은 평균 행동의 이해 및 예측에 초점을 맞추는 반면, 기계 학습 반응 함수는 모델링된 현상의 세밀한 측면에 대해 정확하지만 설명하기 어려운 예측을 만들어냅니다. 어떤 의미에서 선형 모델은 근사 모델에 대해 매우 정확한 해석을 생성합니다. 이 접근 방식은 매우 정확한 모델에 대한 개략적인 설명의 제공을 추구합니다. 정확한 모델에 대한 대략적인 설명은 근사 모델에 대한 정확한 해석보다 더 많은 가치와 의미를 가질 수 있습니다. 게다가 추론 또는 예측 목적으로 기계 학습 기술을 사용하는 것이 해석을 위한 선형 모델의 사용을 불가능하게 만드는 것은 아닙니다 (Ribeiro 등, 2016).
기계 학습의 다양한 좋은 모델¶
동일한 입력 변수 및 예측 target 세트에 대해 복잡한 기계 학습 알고리즘은 매우 비슷하지만 동일하지는 않은 내부 아키텍처를 사용하여 다수의 정확한 모델을 생성할 수 있다고 알려져 있습니다 (Breiman, 2001). 이것만으로도 해석에 장애가 되지만, 이러한 유형의 알고리즘을 해석 도구로 사용하거나 해석 도구와 함께 사용할 때는 설명의 세부 내용이 다수의 정확한 모델에서 바뀔 수 있다는 점을 기억해야 합니다.
설명 기법 간의 일관성에 대한 기대값¶
Decision tree surrogate는 Driverless AI 모델 행동에 대한 글로벌, 비선형 설명입니다. 트리에 나타나는 변수는 글로벌 특성 중요도 플롯에 나타나는 변수와 직접적인 관계가 있어야 합니다. 더 선형적인 Driverless AI 모델의 경우 decision tree surrogate 모델에 나타나는 변수는 글로벌 K-LIME 모델에서도 큰 계수를 가질 수 있습니다.
K-LIME 설명은 선형이고, 상호 작용을 고려하지 않으며, 로컬 선형 모델 절편의 오프셋을 나타냅니다. LOCO 중요도 값은 비선형이고, 상호 작용을 고려하며, 선형 절편 또는 오프셋을 명시적으로 고려하지 않습니다. LIME 설명과 LOCO 중요도 값은 직접적인 관계가 있을 것으로 예상되지는 않지만, 둘 다 모델의 예측, 특히 Driverless AI 모델의 학습된 반응 함수의 더 선형적인 영역에서 변수의 로컬 영향에 대한 측정값이기 때문에 대략적으로 정렬할 수 있습니다.
ICE는 LOCO 특성 중요도 값과 복잡한 관계를 갖는 비선형 sensitivity analysis의 한 유형입니다. ICE와 LOCO의 비교는 학습 데이터의 선택된 행에 실제로 나타나는 선택된 변수 값에서만 수행이 가능합니다. ICE 및 LOCO의 비교 시 행에 대한 예측의 총 값, 선택된 행의 변수 값 및 선택된 행의 값에서 선택된 변수에 대한 평균 예측에서 ICE 값까지의 거리 모두를 반드시 고려해야 합니다.
부분 의존도의 표준 편차를 벗어난 ICE 곡선은 decision tree surrogate의 데이터를 더 적게 덧붙인 의사 결정 경로에 속할 것으로 예상됩니다. 부분 의존도의 표준 편차 내에 있는 ICE 곡선은 보다 일반적인 의사 결정 경로에 속할 것으로 예상됩니다.
부분 의존도는 상호 작용을 고려하지 않고, 복잡한 Driverless AI 모델의 비선형이지만 평균적인 동작을 고려합니다. 또한, 일관되게 높은 부분 의존도 또는 입력 변수의 도메인에 걸쳐 넓게 변동하는 부분 의존도를 갖는 변수는 높은 글로벌 중요도 값을 가질 확률이 높습니다. 입력 변수 사이의 강력한 상호 작용으로 인해 ICE 값이 부분 의존도 값을 벗어날 수도 있습니다.