데이터 분석을 공부하다 보면 가장 먼저 마주치는 알고리즘, 바로 선형회귀(Linear Regression)입니다.
"너무 기초적인 거 아냐?"라고 생각할 수 있지만, 현업에서 결과를 설명하고 해석하는 데 있어 선형회귀만큼 강력한 도구는 없습니다. 오늘은 19세기 프랜시스 골턴(Francis Galton)이 발견한 '회귀'의 개념부터, 수식의 의미, 그리고 결과를 해석하는 방법까지 완벽하게 정리해 보겠습니다.
1. 선형회귀(Linear Regression)란?
1) 정의와 역사
선형회귀는 종속변수($Y$, 결과)와 한 개 이상의 독립변수($X$, 원인) 사이의 선형적인 관계(Linear Relationship)를 모델링하는 방법입니다.
- 역사적 배경: 19세기 영국의 유전학자 프랜시스 골턴(Francis Galton)이 부모와 자식의 키 관계를 연구하면서 처음 사용했습니다. 키가 큰 부모의 자식은 크긴 하지만 부모보다는 작아지고, 키가 작은 부모의 자식은 부모보다는 커지는 "평균으로 돌아가는(Regress to mean)" 현상을 발견한 데서 유래했습니다.
2) 분석의 목적
선형회귀를 사용하는 이유는 크게 두 가지입니다.
- 설명 (Explain): 도대체 무엇이 결과에 영향을 주는가?
- 예: 아파트 가격(Y)은 평수, 역세권 여부, 학군(X) 중 무엇에 영향을 가장 많이 받는가?
- 예측 (Predict): 새로운 데이터가 들어왔을 때 결과는 얼마인가?
- 예: 평수와 위치 정보를 넣으면, 이 아파트의 적정 가격은 얼마인가?
2. 선형회귀의 원리 (The Anatomy of Formula)
선형회귀의 수식은 데이터 분석가라면 자다가 깨워도 쓸 수 있어야 합니다.
$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon$$
이 수식을 구성하는 4가지 요소를 뜯어봅시다.
① 종속변수 ($Y$)
- Target, Response Variable. 우리가 알고 싶어 하는 결과값입니다.
- 데이터로 주어지며, 예측의 대상입니다. (예: 연봉, 자동차 연비)
② 독립변수 ($X$)
- Feature, Explanatory Variable. 원인이 되는 설명 변수입니다.
- 데이터로 주어집니다. (예: 경력, 교육 수준, 자동차 무게)
③ 회귀계수 ($\beta$, Beta)
- Coefficient. 독립변수($X$)가 한 단위 변할 때 $Y$가 얼마나 변하는지를 나타내는 가중치입니다.
- 데이터가 주어지는 것이 아니라, 학습을 통해 계산해 내는 값입니다. 즉, 데이터 속의 '패턴'이 저장되는 곳입니다.
④ 오차항 ($\varepsilon$, Error term)
- 현실 세계는 수식처럼 딱 떨어지지 않습니다. 모델이 설명하지 못하는 잡음(White Noise)을 의미합니다.
- 가정: 평균은 0이고, 표준편차는 $\sigma$인 분포를 따릅니다.
3. 선형회귀의 핵심 전제 조건
선형회귀가 제대로 작동하려면 데이터가 몇 가지 약속을 지켜야 합니다.
1) 선형성 (Linearity)
$X$와 $Y$의 관계가 직선(선형) 형태여야 합니다.
2) 다중공선성(Multicollinearity) 회피
이 부분이 실무에서 가장 중요합니다. 독립변수($X$)들끼리는 서로 상관관계가 없어야 합니다.
- 수식: $Cor(X_i, X_j) \approx 0$ (단, $i \neq j$)
- 왜? $X_1$과 $X_2$가 거의 똑같은 놈이라면, 모델은 누구에게 가중치($\beta$)를 줘야 할지 헷갈리게 됩니다. 이를 '분산 인플레(Variance Inflation)' 문제라고 하며, 모델의 신뢰도를 떨어뜨립니다.
4. 회귀모형의 해석 (Interpretation)
모델링이 끝났다면, 도출된 $\beta$ 값을 해석할 줄 알아야 합니다. "이 모델에 따르면..."이라고 말문을 열 때 사용하는 방법입니다.
1) 회귀계수 ($\beta_1, \beta_2 \dots$)의 해석
"다른 변수들은 고정된 상태에서(ceteris paribus), $X$가 1단위 증가할 때 $Y$는 $\beta$만큼 변합니다."
- 수식적 의미: $\Delta Y = \beta \Delta X$
- 만약 $\beta > 0$ 이라면: 양의 상관관계 (X가 커지면 Y도 커짐)
- 만약 $\beta < 0$ 이라면: 음의 상관관계 (X가 커지면 Y는 작아짐)
2) 절편 ($\beta_0$, Intercept)의 해석
"모든 $X$가 0일 때, 기본적으로 갖는 $Y$의 값입니다."
- 그래프상에서 직선이 Y축과 만나는 점입니다.
- 의미: '기본값(Base)' 또는 '바닥(Floor)'의 의미를 가집니다.
5. 예시로 보는 선형회귀
Case 1: 자동차 연비(MPG) 예측
$$MPG = \beta_0 + \beta_1(\text{Cylinders}) + \beta_2(\text{HP}) + \beta_3(\text{Weight})$$
- $\beta_3$ (Weight)의 해석: 실린더 개수와 마력이 동일하다면, 차 무게가 1kg 늘어날 때마다 연비는 $\beta_3$만큼 감소할 것입니다. (보통 무게와 연비는 반비례하므로 $\beta_3$은 음수일 것입니다.)
Case 2: 급여(Salary) 예측
$$Salary = \beta_0 + \beta_1(\text{Education}) + \beta_2(\text{Experience})$$
- $\beta_0$ (절편): 교육도 안 받고 경력도 없는 신입의 기본급(Base Salary).
- $\beta_1, \beta_2$: 교육 수준이 높을수록, 경력이 많을수록 급여는 오르므로 양수($>0$)일 것입니다.
요약
- 선형회귀: $X$로 $Y$를 설명하고 예측하는 직선 긋기.
- 목적: 변수 간의 관계 규명(설명) 및 값 예측.
- 주의사항: 독립변수끼리는 친하면 안 된다(다중공선성 제거).
- 해석의 미학:
- $\beta_k$: $X$가 1 늘 때 $Y$의 변화량.
- $\beta_0$: 아무것도 없을 때의 기본값(Base).
'Study Note > 통계' 카테고리의 다른 글
| [의료 통계] 내 BMI가 1 오르면 혈압은 얼마나 오를까? (Python vs R 선형회귀 완벽 비교) (0) | 2025.12.12 |
|---|---|
| 선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리 (0) | 2025.12.12 |
| [머신러닝 기초] 통계 예측 모형과 지도학습 (0) | 2025.12.10 |
| 비모수 검정(Non-parametric Test) 총정리 (0) | 2025.12.08 |
| ANOVA(분산분석)와 정규분포 (1) | 2025.12.04 |