728x90
반응형
SMALL

DataScience 26

Pearson의 상관 계수 이해하기

안녕하세요! 오늘은 Pearson의 상관계수가 무엇인지, 어떻게 계산하는지, 그리고 결과를 어떻게 해석하는지까지! 알아보겠습니다. 상관관계는 통계나 데이터 사이언스에서 기본 개념입니다. 두 변수 간의 관계 강도를 측정하는 거죠. Pearson의 r이라고도 하는 Pearson의 상관 계수는 가장 널리 사용되는 상관 계수 중 하나입니다. 1. Pearson의 상관 계수는 무엇일까요? Pearson의 상관 계수는 두 연속 변수 사이의 선형 관계 정도를 정량화하는 통계적 척도입니다. -1과 1 사이의 값을 사용하는데요, 여기서 -1은 음의 상관관계를 말하고, 0은 상관관계가 없음을 나타내고, 1은 양의 상관관계를 의미해요. 2. Pearson의 상관 계수는 어떻게 계산될까요? Pearson의 상관 계수는 두 변..

Python 2023.04.08

데이터 사이언스의 MAE(Mean Absolute Error) 평균 절대 오차 이해

안녕하세요! 오늘은~ MAE가 무엇인지, 어떻게 작동하는 건지, 데이터 사이언스에서 왜~ 중요하다~ 중요하다~ 하는지 살펴보겠습니다! 데이터로 작업할 때 모델의 성능을 평가하는 데 사용되는 다양한 메트릭을 아는 것은 중요합니다. 이러한 메트릭 중 하나는 모델의 예측 값과 실제 값 간의 평균 차이를 측정하는 데 사용되는데요, 바로 절대 평균 오차! MAE입니다. 1. MAE란 무엇일까요? 평균 절대 오차인 MAE는 회귀 모델의 성능을 평가하는 데 사용되는 일반적인 메트릭입니다. 모델의 예측 값과 실제 값 사이의 절대 평균 차이를 측정합니다. MAE의 공식을 보면 다음과 같습니다. IS = (1/n) * Σ|i=1에서 n| |yi - ŷi| 여기서 yi는 실제 값, ŷi는 예측 값, n은 샘플 수입니다. 2..

Python 2023.04.07

데이터 과학에서 회귀 분석이 도움이 되는 방법

안녕하세요! 오늘은~ 회귀 분석이 무엇인지! 데이터 과학에서는 어떻게 회귀 분석을 사용할 수 있는지! 다양하게 알아보려고 합니다. 회귀 분석은 종속 변수와 한 개 이상의 독립 변수 사이의 관계를 연구하는 데 사용되는 통계적 방법이에요. 우리가 예측하거나 설명하려고 하는 변수가 종속 변수이고, 예측을 만드는 데 사용하는 변수가 독립 변수에요. 회귀 분석을 사용하면 변수 간의 관계를 식별하고 모델링하고 예측까지 할 수 있습니다. 회귀 분석에는 다양한 유형이 있습니다. 데이터 과학에서 사용할 수 있는 회귀 분석으로는 선형 회귀, 로지스틱 회귀, 다항 회귀, 다중 회귀를 포함할 수 있습니다. 그중에서 선형 회귀는 데이터 과학에서 가장 일반적으로 사용되는 회귀 분석이죠. 선형 회귀는 종속 변수와 하나 이상의 독립..

Python 2023.04.06

머신 러닝을 위한 랜덤 포레스트 앙상블 방법

안녕하세요!! 오늘은 Random Forest의 기본 내용을 다루고 Python으로 어떻게 구현하는지 보여드리려고 합니다. 효과적인 머신 러닝 알고리즘을 찾는다면 Random Forest가 딱이지 않나 싶습니다. Random Forest는 정확한 예측을 생성하기 위해서 여러 결정 트리를 결합하는 앙상블 방법입니다. 랜덤 포레스트란 무엇일까요? Random Forest는 결정 트리의 앙상블을 사용해서 예측을 하는 머신 러닝 알고리즘입니다. 의사 결정 트리는 input 피처를 기반으로 if-then 문을 따라 예측을 수행하는 간단하면서도 직관적인 모델이죠. 또한, 의사 결정 트리는 구현하고 해석하는 것은 쉽지만 과적합이 쉽게 일어나고, 분산도 높게 나올 수 있습니다. Random Forest는 이 문제를 해..

Python 2023.04.04

머신 러닝에서 앙상블 방법으로 모델 성능 향상하기

안녕하세요~ 오늘은! 앙상블 방법으로 머신 러닝 모델의 정확성을 개선하는 방법을 알아보려고 합니다. 앙상블 방법이 무엇인지, 어떻게 작동하는지 설명하고 Python 코드 예제로 앙상블을 구현해 보겠습니다. 어설픈 가이드지만 머신 러닝 모델을 한 단계 더 업그레이드해서 더 나은 결과를 얻을 수 있으면 좋겠습니다 ^v^ 앙상블 방법은 머신 러닝에서 여러 모델의 예측을 결합해서 모델의 성능을 향상시키는 데 사용되는 중요한 기술이에요. 이 방법은 모델의 정확도를 높이고 일반화를 향상시켜서 실제 응용 프로그램에서 더 안정적으로 만들 수 있습니다. 앙상블 방법에는 여러 가지 유형이 있습니다. 1. 배깅(Bagging): 배깅은 데이터의 서로 다른 하위 집합에 대해서 훈련된 여러 모델을 생성하고 과적합이나 분산을 줄..

Python 2023.04.03

머신 러닝에서 grid search로 하이퍼파라미터 튜닝 마스터하기!!

안녕하세요!! 오늘은 그리트 탐색(grid search)에 대해서 정리해 보려고 합니다. ML 모델에는 데이터에서 학습할 수 없는 설정인 하이퍼파라미터가 필요하고, 모델을 훈련시키기 전에 설정을 해야 해요. 모델에 맞는 최적의 하이퍼파라미터를 찾는 것은 목표 성능을 달성하는 데 매우 중요하기 때문이죠! 그렇지만.. 가짓수가 너무 많기 때문에 최고의 하이퍼파라미터를 찾고 결정하는 것이 어렵습니다. 이런 문제를 해결할 수 있는 방법 중 하나는 그리드 탐색(grid search)를 사용하는 것입니다! Grid Search가 무엇일까요? 그리드 서치는 각 하이퍼파라미터에 대해 가능한 값 범위를 정의하고 모든 가능한 조합의 그리드를 생성하는 유명한 하이퍼파라미터 튜닝 기술입니다. 그리드 서치는 validation..

Python 2023.04.02
728x90
반응형
LIST