RyanNerd
라덕'Story
RyanNerd
  • 분류 전체보기 (60) N
    • Study Note (25) N
      • Python (3)
      • R (1)
      • Airflow (7)
      • 통계 (14) N
    • 빅데이터분석기사 (1)
      • 필기 (1)
    • Programmers (28)
      • Python (13)
      • SQL (15)
    • Project (3)
      • Django (3)
    • Mac (2)
    • 맛집 (0)

블로그 메뉴

  • NaverBlog
  • 홈

최근 글

전체 방문자
오늘
어제
hELLO · Designed By 정상우.
RyanNerd

라덕'Story

Study Note/통계

직선을 넘어 곡선으로, 그리고 모델의 성적표 AIC

2025. 12. 15. 16:34

1. 다항식 회귀(Polynomial Regression): "세상은 직선이 아니다"

일반적인 선형회귀($Y = \beta X + \epsilon$)는 "X가 늘어나면 Y도 일정하게 늘어난다"는 가정입니다. 하지만 의료 현상은 그렇지 않을 때가 많습니다. 이때 $X$를 제곱($X^2$)하거나 세제곱($X^3$)하여 곡선을 그리는 것이 다항식 회귀입니다.

① 정확히 언제 쓰는가? (의료 예시 BEST 3)

가장 대표적인 것은 '적당한 게 최고(Goldilocks)'이거나 '한계 체감(Diminishing Returns)'의 상황입니다.

  1. BMI와 사망 위험도 (U자형 곡선)
    • 현상: 저체중도 위험하고, 비만도 위험합니다. 정상 체중일 때 사망률이 가장 낮습니다.
    • 직선 모델: "BMI가 높을수록 위험하다" $\rightarrow$ 저체중의 위험성을 설명 못 함.
    • 다항식 모델 ($X^2$): 이차함수(포물선)를 그려서 양쪽 끝이 올라가는 U자 형태를 완벽하게 설명합니다.
  2. 약물 투여량과 치료 효과 (한계 효용)
    • 현상: 약을 조금 쓰면 효과가 급격히 늘지만, 어느 시점(포화 상태)이 지나면 약을 더 써도 효과가 거의 늘지 않거나 부작용으로 오히려 떨어집니다.
    • 다항식 모델: $X^2$ 항의 계수가 음수(-)라면 위로 볼록한 곡선이 되어 이 현상을 잡아냅니다.
  3. 나이와 특정 호르몬/골밀도
    • 현상: 어릴 때 급격히 성장하다가(상승), 성인이 되어 유지되고, 노년기에 감소(하강)합니다.
    • 다항식 모델: 상승과 하강이 모두 있는 복잡한 패턴을 설명할 때 사용합니다.

② 수식의 의미 다시 보기

$$Y = \beta_0 + \beta_1 X + \beta_2 X^2$$
  • 여기서 $X$와 $X^2$는 같은 변수(예: 나이)입니다.
  • $\beta_1$ (일차항): 기본적인 방향(증가/감소)을 잡습니다.
  • $\beta_2$ (이차항): "얼마나 휘어지는가(곡률)"를 결정합니다.
    • $\beta_2 > 0$: 아래로 볼록 (U자형) $\rightarrow$ 최솟값이 존재.
    • $\beta_2 < 0$: 위로 볼록 (∩자형) $\rightarrow$ 최댓값(최적점)이 존재.

 

2. 푸아송 회귀에서의 AIC (Akaike Information Criterion)

과적합 방지와 데이터 특성에 맞는 모델링 결과 있던 AIC: 22.906이라는 숫자, 이게 무엇일까요?

한마디로 "가성비 점수"입니다.

① 정확한 정의

모델이 데이터를 얼마나 잘 설명하는지(적합도)와 모델이 얼마나 복잡한지(변수 개수)를 동시에 고려한 평가 지표입니다.

$$AIC = 2k - 2\ln(L)$$
  • $k$: 변수의 개수 (복잡도 페널티)
  • $L$: 우도 (Likelihood, 모델이 데이터를 얼마나 잘 설명하는가)

② 왜 확인해야 하는가? (낮을수록 좋다!)

우리는 모델을 만들 때 딜레마에 빠집니다.

  • 변수를 많이 넣으면 설명력은 좋아지지만, 모델이 복잡해져서 과적합(Overfitting)됩니다.
  • 변수를 너무 적게 쓰면 설명력이 떨어집니다(과소적합).

AIC는 이 둘 사이의 심판입니다.

 

"야, 너 변수 하나 더 넣어서 설명력이 찔끔 올랐는데, 복잡도는 확 늘었잖아? 그럼 감점이야."

 

③ 해석 방법 (The Golf Score Rule)

골프 스코어처럼 AIC 숫자가 작을수록 좋은 모델입니다.

  • Model A (나이만 넣음): AIC = 100
  • Model B (나이 + 성별 넣음): AIC = 95
    • $\rightarrow$ Model B 선택! (성별을 넣는 게 더 이득이다.)
  • Model C (나이 + 성별 + 혈액형 넣음): AIC = 98
    • $\rightarrow$ Model B 유지! (혈액형 넣어봤자 AIC만 오르네? 혈액형은 굳이 필요 없다.)

④ 푸아송 회귀에서의 활용

푸아송 회귀 결과에서 AIC는 다른 모델과 비교할 때 씁니다.

단독으로는 "22.9가 좋은 점수인가?"를 알 수 없습니다.

  • "변수 Age만 넣었을 때 AIC가 22.9인데, BMI를 추가하니 20.1이 되었다. 그러므로 BMI를 추가하는 것이 맞다." 라는 식으로 논리를 전개할 때 사용합니다.

요약 정리

  1. 다항식 회귀:
    • 데이터가 U자형(BMI)이나 성장 곡선처럼 휘어져 있을 때 사용합니다.
    • $X$를 제곱($X^2$)해서 모델에 넣어주면 됩니다.
  2. AIC (아카이케 정보 기준):
    • 모델의 '가성비 성적표'입니다.
    • 값이 작을수록 더 좋고 효율적인 모델입니다.
    • 변수를 더 넣을지 말지 고민될 때, AIC가 떨어지는 쪽을 선택하면 됩니다.

 

'Study Note > 통계' 카테고리의 다른 글

분류 문제의 시작, 로지스틱 회귀(Logistic Regression) 완벽 해부  (0) 2025.12.16
숫자를 센다? 무조건 '푸아송 회귀'입니다. (feat. 의료 데이터 활용법)  (0) 2025.12.15
회귀분석의 확장: 과적합 방지와 데이터 특성에 맞는 모델링  (0) 2025.12.15
회귀모형의 진단: 잔차, 레버리지, 그리고 쿡의 거리  (0) 2025.12.15
선형회귀모형의 진단과 선별 (T검정, F검정, AIC, VIF)  (0) 2025.12.15
    'Study Note/통계' 카테고리의 다른 글
    • 분류 문제의 시작, 로지스틱 회귀(Logistic Regression) 완벽 해부
    • 숫자를 센다? 무조건 '푸아송 회귀'입니다. (feat. 의료 데이터 활용법)
    • 회귀분석의 확장: 과적합 방지와 데이터 특성에 맞는 모델링
    • 회귀모형의 진단: 잔차, 레버리지, 그리고 쿡의 거리
    RyanNerd
    RyanNerd
    라이언 덕후의 일상 스토리~

    티스토리툴바