RyanNerd
라덕'Story
RyanNerd
  • 분류 전체보기 (62) N
    • Study Note (27) N
      • Python (3)
      • R (1)
      • Airflow (7)
      • 통계 (16) N
    • 빅데이터분석기사 (1)
      • 필기 (1)
    • Programmers (28)
      • Python (13)
      • SQL (15)
    • Project (3)
      • Django (3)
    • Mac (2)
    • 맛집 (0)

블로그 메뉴

  • NaverBlog
  • 홈

최근 글

전체 방문자
오늘
어제
hELLO · Designed By 정상우.
RyanNerd

라덕'Story

Study Note/통계

[머신러닝 기초] 통계 예측 모형과 지도학습

2025. 12. 10. 14:14

데이터 분석의 꽃, 머신러닝(Machine Learning)

오늘은 통계 예측 모형의 기본 개념부터, 데이터의 형태에 따라 어떤 알고리즘을 선택해야 하는지, 그리고 모델을 어떻게 평가하는지까지 하나의 로드맵으로 정리해 보겠습니다.

1. 머신러닝(Machine Learning)이란?

머신러닝은 간단히 말해 **"데이터를 통해 학습하는 알고리즘"**입니다.

  • 핵심 정의:
    1. 데이터를 통해 학습할 수 있는 알고리즘 또는 통계 모형.
    2. 사람이 일일이 규칙을 입력하는 하드코딩(Hard-coding) 방식이 아니라, 데이터 속의 패턴을 스스로 학습하여 판단합니다.
  • 비유:
    1. 하드코딩: "체온이 37.5도 이상이고 기침을 하면 감기다" (규칙을 직접 입력)
    2. 머신러닝: 환자 1,000명의 데이터를 줬더니 "이런 패턴을 가진 사람은 감기더라" (스스로 규칙 발견)

 

2. 머신러닝의 3가지 유형

학습 방식과 정답(Target)의 유무에 따라 크게 세 가지로 나뉩니다.

유형 설명 키워드
지도학습(Supervised) 정답(Y)이 주어진 상태에서 학습 예측,분류
비지도학습(Unsupervised) 정답(Y)없이 데이터의 특성(X)만으로 학습 군집화,패턴 발견
강화학습(Reinforcement) 행동에 대한 보상을 통해 최적의 정책 학습 알파고, 게임AI

데이터 구조의 차이

가장 큰 차이는 종속변수(Y, 정답)가 있느냐 없느냐입니다.

  • 지도학습: Y(정답) + X1, X2,  (독립변수/특성) -> 정답을 맞히도록 훈련
  • 비지도학습: X1, X2,(독립변수만 존재) -> 데이터끼리 뭉치거나 구조 파악

3. 지도학습(Supervised Learning)의 세분화

우리가 실무에서 가장 많이 접하게 될 지도학습은 "우리가 맞혀야 할 Y(종속변수)가 어떻게 생겼느냐"에 따라 두 갈래로 나뉩니다.

① 회귀 (Regression)

  • Target (Y): 수치형 (Numeric)
  • 특징: 연속적인 숫자를 예측합니다.
  • 예시: Y = 13.45, 73, 9.5  (혈압, 키, 주가, 판매량 등)

② 분류 (Classification)

  • Target (Y): 명목형 (Nominal/Categorical)
  • 특징: 정해진 클래스(카테고리) 중 하나를 선택합니다.
  • 예시: Y = {Red, Green, Blue} (생존/사망, 암/정상, A/B/C 등급)

 

4. 알고리즘 메뉴판 (Algorithm List)

Y의 형태에 따라 사용할 수 있는 알고리즘이 달라집니다. 

구분 Regression(회귀형) Classification(분류형)
  수치형 Y 예측 명목형 Y분류
기본 모델 Linear Regression (선형회귀) Logistic Regression(로지스틱 회귀)
거리 기반 K-Nearest Neighbor Regressor K-Nearest Neighbor Classifier
트리 기반(앙상블) Random Forest Regressor Random Forest Classifier
부스팅(최신 기법) XGBoost Regressor XGBoost Classifier

 

Analyst Note:

  • 로지스틱 회귀(Logistic Regression)는 이름에 'Regression'이 붙어 있지만, 실제로는 분류(Classification) 알고리즘이라는 점을 주의하세요! (주로 0과 1을 분류할 때 사용)
  • Random Forest나 XGBoost 같은 강력한 모델들은 회귀와 분류 모두에 사용 가능합니다.

5. 모델 평가 (Evaluation) : 얼마나 잘 맞췄나?

모델을 다 만들었다면 성능을 평가해야 합니다. 이때도 Y의 종류에 따라 채점 기준이 다릅니다.

① 회귀 모델 평가 (수치형 Y)

실제 값과 예측 값의 차이(Error)가 작을수록 좋습니다.

  • MSE (Mean Squared Error)
  • MAE (Mean Absolute Error)
  • RMSE (Root Mean Squared Error)
  • Correlation (상관계수)

② 분류 모델 평가 (명목형 Y)

얼마나 정확하게 분류했는지를 봅니다.

  • Confusion Matrix (오차 행렬)
  • Accuracy (정확도)
  • Precision (정밀도)
  • Recall (재현율)
  • Specificity (특이도)

요약

  1. 머신러닝: 데이터의 패턴을 스스로 학습하는 통계 모형.
  2. 지도학습: 정답(Y)이 있는 데이터로 학습.
  3. 알고리즘 선택:
    • Y가 숫자다 ->  Regression (Linear Reg, XGBoost Reg...)
    • Y가 그룹이다 -> Classification (Logistic Reg, XGBoost Cls...)
  4. 평가: 회귀는 에러(RMSE 등) 최소화, 분류는 정확도(Accuracy 등) 최대화.

 

'Study Note > 통계' 카테고리의 다른 글

선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리  (0) 2025.12.12
[머신러닝 기초] 숫자를 예측하는 가장 강력한 직선, 선형회귀(Linear Regression) 완벽 해부  (0) 2025.12.10
비모수 검정(Non-parametric Test) 총정리  (0) 2025.12.08
ANOVA(분산분석)와 정규분포  (1) 2025.12.04
[통계 기초] T검정 vs Z검정, 그리고 양측/단측 검정 정리  (0) 2025.12.04
    'Study Note/통계' 카테고리의 다른 글
    • 선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리
    • [머신러닝 기초] 숫자를 예측하는 가장 강력한 직선, 선형회귀(Linear Regression) 완벽 해부
    • 비모수 검정(Non-parametric Test) 총정리
    • ANOVA(분산분석)와 정규분포
    RyanNerd
    RyanNerd
    라이언 덕후의 일상 스토리~

    티스토리툴바