[머신러닝 기초] 통계 예측 모형과 지도학습

데이터 분석의 꽃, 머신러닝(Machine Learning)

오늘은 통계 예측 모형의 기본 개념부터, 데이터의 형태에 따라 어떤 알고리즘을 선택해야 하는지, 그리고 모델을 어떻게 평가하는지까지 하나의 로드맵으로 정리해 보겠습니다.

1. 머신러닝(Machine Learning)이란?

머신러닝은 간단히 말해 **"데이터를 통해 학습하는 알고리즘"**입니다.

핵심 정의:
1. 데이터를 통해 학습할 수 있는 알고리즘 또는 통계 모형.
2. 사람이 일일이 규칙을 입력하는 하드코딩(Hard-coding) 방식이 아니라, 데이터 속의 패턴을 스스로 학습하여 판단합니다.

비유:
1. 하드코딩: "체온이 37.5도 이상이고 기침을 하면 감기다" (규칙을 직접 입력)
2. 머신러닝: 환자 1,000명의 데이터를 줬더니 "이런 패턴을 가진 사람은 감기더라" (스스로 규칙 발견)

학습 방식과 정답(Target)의 유무에 따라 크게 세 가지로 나뉩니다.

가장 큰 차이는 종속변수(Y, 정답)가 있느냐 없느냐입니다.

우리가 실무에서 가장 많이 접하게 될 지도학습은 "우리가 맞혀야 할 Y(종속변수)가 어떻게 생겼느냐"에 따라 두 갈래로 나뉩니다.

Y의 형태에 따라 사용할 수 있는 알고리즘이 달라집니다.

구분	Regression(회귀형)	Classification(분류형)
	수치형 Y 예측	명목형 Y분류
기본 모델	Linear Regression (선형회귀)	Logistic Regression(로지스틱 회귀)
거리 기반	K-Nearest Neighbor Regressor	K-Nearest Neighbor Classifier
트리 기반(앙상블)	Random Forest Regressor	Random Forest Classifier
부스팅(최신 기법)	XGBoost Regressor	XGBoost Classifier

Analyst Note:

로지스틱 회귀(Logistic Regression)는 이름에 'Regression'이 붙어 있지만, 실제로는 분류(Classification) 알고리즘이라는 점을 주의하세요! (주로 0과 1을 분류할 때 사용)
Random Forest나 XGBoost 같은 강력한 모델들은 회귀와 분류 모두에 사용 가능합니다.

모델을 다 만들었다면 성능을 평가해야 합니다. 이때도 Y의 종류에 따라 채점 기준이 다릅니다.

실제 값과 예측 값의 차이(Error)가 작을수록 좋습니다.

얼마나 정확하게 분류했는지를 봅니다.

머신러닝: 데이터의 패턴을 스스로 학습하는 통계 모형.
지도학습: 정답(Y)이 있는 데이터로 학습.
알고리즘 선택:
- Y가 숫자다 -> Regression (Linear Reg, XGBoost Reg...)
- Y가 그룹이다 -> Classification (Logistic Reg, XGBoost Cls...)
평가: 회귀는 에러(RMSE 등) 최소화, 분류는 정확도(Accuracy 등) 최대화.

선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리 (0)	2025.12.12
[머신러닝 기초] 숫자를 예측하는 가장 강력한 직선, 선형회귀(Linear Regression) 완벽 해부 (0)	2025.12.10
비모수 검정(Non-parametric Test) 총정리 (0)	2025.12.08
ANOVA(분산분석)와 정규분포 (1)	2025.12.04
[통계 기초] T검정 vs Z검정, 그리고 양측/단측 검정 정리 (0)	2025.12.04