Python

Pearson의 상관 계수 이해하기

DSDiary 2023. 4. 8. 18:51
728x90
반응형
SMALL

 

안녕하세요! 오늘은 Pearson의 상관계수가 무엇인지, 어떻게 계산하는지, 그리고 결과를 어떻게 해석하는지까지! 알아보겠습니다.

 

 

 

상관관계는 통계나 데이터 사이언스에서 기본 개념입니다. 두 변수 간의 관계 강도를 측정하는 거죠. Pearson의 r이라고도 하는 Pearson의 상관 계수는 가장 널리 사용되는 상관 계수 중 하나입니다.

 

 

 

 

1. Pearson의 상관 계수는 무엇일까요?

 

 

Pearson의 상관 계수는 두 연속 변수 사이의 선형 관계 정도를 정량화하는 통계적 척도입니다. -1과 1 사이의 값을 사용하는데요, 여기서 -1은 음의 상관관계를 말하고, 0은 상관관계가 없음을 나타내고, 1은 양의 상관관계를 의미해요.

 

 

 

 

 

2. Pearson의 상관 계수는 어떻게 계산될까요?

 

Pearson의 상관 계수는 두 변수의 공분산을 표준 편차의 곱으로 나눈 값으로 계산됩니다. Pearson의 상관 계수 공식은 아래와 같습니다.

 

 

r = cov(X, Y) / (std(X) * std(Y))

 

여기서 r는 Pearson의 상관 계수를 말해요. X와 Y는 두 개의 연속 변수이고, cov(X, Y)는 공분산, std는 표준 편차입니다.

 

 

 

 

3. Pearson의 상관계수는 어떻게 해석할까요?

 

Pearson 상관 계수의 해석은 값에 따라 다르게 하면 됩니다.

 

* 0의 값이 나왔다? -> 상관관계가 없다!

* 1의 값이 나왔다? -> 완전 양의 상관관계다!

* -1의 값이 나왔다? -> 완전 음의 상관관계다!

 

0, 1, -1 사이에 있는 값들은 각각 어느 정도의 양의 상관관계 혹은 음의 상관관계를 나타내는 거죠. r 값이 0에 가까울수록 두 변수 간의 상관관계가 약한 거겠죠?

 

 

 

 

4. 데이터 사이언스에서 Pearson의 상관 계수가 중요한 이유는 무엇일까요?

 

 

데이터 사이언스에서 Pearson의 상관 계수가 중요한 이유는 데이터 세트의 변수 간의 관계를 이해하는 게 중요한데 그걸 도와주기 때문이에요. 두 변수 사이의 상관계수를 계산해서 두 변수의 관계가 양의 상관관계인지, 음의 상관관계인지, 서로 전혀 상관이 없는 건지 어느 정도 파악이 가능하기 때문이죠. 상관관계의 정보는 feature selection, 데이터 전처리, model selection과 같이 다양한 데이터 분석을 하거나 머신 러닝 작업을 할 때 유용하게 사용될 수 있습니다.

 

 

 

 

5. Pearson의 상관 계수 vs 기타 상관 계수

 

Pearson의 상관 계수는 다양한 상관관계 측정 도구 중 하나일 뿐이에요. 다른 상관 계수 도구로는 Spearman의 순위 상관 계수, Kendall의 tau 계수, 점-비적렬 상관 계수 등이 있습니다. 이러한 많은 도구들에는 각각의 장점과 약점이 있고, 어떤 연구인지 어떤 데이터인지에 따라 적합하게 사용하는 것이 중요합니다!

 

 

 

 

6. Pearson의 상관 계수를 계산하기 위한 Python 예제 코드

 

아래 코드 예시는 numpy 라이브러리를 사용해서 Pearson의 상관 계수를 계산하는 방법 중 하나입니다.

# numpy를 np로 가져오기 
import numpy as np

# 연속 변수의 두 배열 만들기
x = np.array([1, 2, 3, 4, 5])
y = np.array([3, 5, 7, 9, 11])

# Pearson의 상관 계수 계산하기
r = np.corrcoef(x, y)[0, 1]

# 결과 출력하기
print("Pearson's correlation coefficient: ", r)
 

 

 

 

 

 

728x90
반응형
LIST