안녕하세요! 오늘은~ MAE가 무엇인지, 어떻게 작동하는 건지, 데이터 사이언스에서 왜~ 중요하다~ 중요하다~ 하는지 살펴보겠습니다!
데이터로 작업할 때 모델의 성능을 평가하는 데 사용되는 다양한 메트릭을 아는 것은 중요합니다. 이러한 메트릭 중 하나는 모델의 예측 값과 실제 값 간의 평균 차이를 측정하는 데 사용되는데요, 바로 절대 평균 오차! MAE입니다.
1. MAE란 무엇일까요?
평균 절대 오차인 MAE는 회귀 모델의 성능을 평가하는 데 사용되는 일반적인 메트릭입니다. 모델의 예측 값과 실제 값 사이의 절대 평균 차이를 측정합니다. MAE의 공식을 보면 다음과 같습니다.
IS = (1/n) * Σ|i=1에서 n| |yi - ŷi|
여기서 yi는 실제 값, ŷi는 예측 값, n은 샘플 수입니다.
2. MAE는 어떻게 작동할까요?
MAE는 각각의 예측 값과 실제 값 간의 절대 차이를 계산한 다음에 이 차이들의 평균을 구하는 방식으로 작동합니다. MAE는 오류의 절댓값을 사용하기 때문에 작은 오류에 더 심하게 페널티를 부여한다는 점을 유의해야 해요! 그렇다면... 큰 오류는 괜찮지만.. 작은 오류는 용납할 수 없는! 그런 상황에서 유용할 수 있겠죠?
3. 데이터 사이언스에서 MAE가 중요한 이유는 무엇일까요?
데이터 사이언스에서 MAE가 중요한 이유는! 회귀 모델의 정확도를 측정하기에 간단하면서도 직관적인 방법이기 때문입니다. 즉!! 데이터의 극단적인 값에 영향을 받지 않기 때문에 데이터에 이상 값이 있거나 기타 극단적인 값이 포함된 상황에서 유용하게 쓰일 수 있는 메트릭이 됩니다.
4. MAE vs. MSE(평균 제곱 오차)
MAE는 평균 제곱 오차인 MSE와 비교되는데요, 두 지표는 모두 회귀 모델을 평가하는 데 사용된다는 공통점이 있지만 오류에 페널티를 부여하는 방식이 다릅니다. MAE는 예측 값과 실제 값 간의 평균 절대 차이를 측정하지만, MSE는 평균 제곱 차이를 측정하거든요. 즉!! MSE는 MAE와 반대로 큰 오류에 더 많은 페널티를 부여하기 때문에 작은 오류가 허용돼도 되는 상황에 더 적합할 수 있습니다.
5. MAE Python 예제 코드
다음은 Python을 사용해서 MAE를 계산하는 방법의 간단한 코드 예시입니다.
import numpy as np
from sklearn.metrics import mean_absolute_error
# 실제값
y_true = np.array([1, 2, 3, 4, 5])
# 예측값
y_pred = np.array([1.5, 2.5, 3.5, 4.5, 5.5])
# MAE 계산
mae = mean_absolute_error(y_true, y_pred)
print("MAE: ", mae)
MAE: 0.5
위 코드에서는 필요한 라이브러리를 가져온 후 두 개의 배열을 만들었어요. 하나는 실제 값이고 다른 하나는 예측값이에요. 그다음 scikit-learn 라이브러리에 있는 mean_absolute_error 함수를 사용해서 MAE를 계산하고 결과를 출력해 보았습니다.
요약!!
MAE는 회귀 모델의 성능을 평가하기 위해서 간단하고 유용한 메트릭이네요. MAE가 무엇인지, 어떻게 작동하는 건지, 왜 중요한지 이해함으로써 더 효과적으로 사용해 보고 모델의 정확성을 측정해 보고 정보에 입각한 결정을 내릴 수 있는 데이터 과학자가 될 수 있겠어요 ^0^

'Python' 카테고리의 다른 글
Decision Tree(의사 결정 트리)와 XGBoost 비교 (1) | 2023.04.09 |
---|---|
Pearson의 상관 계수 이해하기 (0) | 2023.04.08 |
데이터 과학에서 회귀 분석이 도움이 되는 방법 (0) | 2023.04.06 |
파이썬으로 머신 러닝에 다층 퍼셉트론 사용하는 방법 (0) | 2023.04.05 |
머신 러닝을 위한 랜덤 포레스트 앙상블 방법 (0) | 2023.04.04 |