전체 글
분류 문제의 시작, 로지스틱 회귀(Logistic Regression) 완벽 해부
이름은 '회귀(Regression)'지만 사실은 '분류(Classification)' 알고리즘인 로지스틱 회귀. 의료 데이터 분석에서 질병 유무(0/1), 생존 여부(Alive/Dead)를 예측할 때 가장 기본이 되는 모델입니다. 오늘은 그 작동 원리부터 학습 방법, 그리고 실제 코드 구현까지 알아보겠습니다. 1. 로지스틱 회귀란 무엇인가?1) 정의종속변수($Y$)가 이분법적인 값(0 또는 1)을 가질 때, 특정 사건이 발생할 확률(Probability)을 예측하는 통계 모형입니다.입력($X$): 나이, 혈압, BMI 등 (연속형 실수 가능)출력($Y$): 암(1) vs 정상(0), 합격(1) vs 불합격(0)2) 왜 선형회귀를 쓰지 않을까?선형회귀($Y = \beta X$)는 결과값이 $-\infty$..
숫자를 센다? 무조건 '푸아송 회귀'입니다. (feat. 의료 데이터 활용법)
데이터를 받았는데 결과값($Y$)이 '횟수(Count)'라면? 고민하지 말고 푸아송 회귀를 떠올려야 합니다. 하지만 모든 횟수 데이터에 쓸 수 있는 건 아닙니다.오늘은 푸아송 회귀의 정확한 사용 조건과 의료 현장에서의 대표적인 예시, 그리고 주의할 점(과산포)까지 정리해 보겠습니다. 1. 언제 쓰는가? : "발생 횟수"를 셀 때가장 중요한 키워드는 "단위 시간/공간 동안 발생한 사건의 횟수"입니다.핵심 조건 3가지결과값($Y$)이 0 이상의 정수(Non-negative Integer)여야 합니다.$Y = 0, 1, 2, 3 \dots$ (OK)$Y = 1.5, -2, 3.7$ (NO - 이런 데이터는 푸아송 불가능)발생 횟수가 드문(Rare) 사건일수록 잘 맞습니다.예: 희귀병 발병, 교통사고 발생, 기..
직선을 넘어 곡선으로, 그리고 모델의 성적표 AIC
1. 다항식 회귀(Polynomial Regression): "세상은 직선이 아니다"일반적인 선형회귀($Y = \beta X + \epsilon$)는 "X가 늘어나면 Y도 일정하게 늘어난다"는 가정입니다. 하지만 의료 현상은 그렇지 않을 때가 많습니다. 이때 $X$를 제곱($X^2$)하거나 세제곱($X^3$)하여 곡선을 그리는 것이 다항식 회귀입니다.① 정확히 언제 쓰는가? (의료 예시 BEST 3)가장 대표적인 것은 '적당한 게 최고(Goldilocks)'이거나 '한계 체감(Diminishing Returns)'의 상황입니다.BMI와 사망 위험도 (U자형 곡선)현상: 저체중도 위험하고, 비만도 위험합니다. 정상 체중일 때 사망률이 가장 낮습니다.직선 모델: "BMI가 높을수록 위험하다" $\righta..
회귀분석의 확장: 과적합 방지와 데이터 특성에 맞는 모델링
기본적인 선형회귀(OLS)는 강력하지만 만능은 아닙니다. 변수가 너무 많아지면 모델이 데이터를 외워버리는 과적합(Overfitting)이 발생하고, 데이터가 직선이 아니거나 결과값이 '횟수(Count)'인 경우에는 잘 맞지 않습니다.오늘은 이러한 문제를 해결하는 고급 회귀 기법 4가지(Ridge, Lasso, Polynomial, Poisson)와, 그 배경이 되는 편향-분산 트레이드오프를 정리해 보겠습니다. 1. 배경 지식: 편향(Bias)과 분산(Variance)모델의 성능을 떨어뜨리는 두 가지 주범입니다.1) 편향 오류 (Bias Error) = 과소적합 (Underfitting)상황: 모델이 너무 단순해서 데이터의 패턴을 제대로 잡아내지 못하는 경우.증상: 학습 데이터에서도 오차가 크고, 테스트 ..
회귀모형의 진단: 잔차, 레버리지, 그리고 쿡의 거리
회귀분석을 통해 $R^2$가 높고 P-value가 유의한 모델을 만들었다고 끝이 아닙니다."과연 이 모델은 데이터를 올바르게 설명하고 있는가?", "결과를 왜곡하는 특이한 환자(Outlier)는 없는가?"를 확인해야 합니다.오늘은 선형회귀의 4가지 전제조건을 확인하는 잔차 분석과, 모델을 뒤흔드는 영향력 있는 데이터를 찾아내는 레버리지 및 쿡의 거리에 대해 알아보겠습니다. 1. 잔차(Residual)와 선형회귀의 4대 전제조건잔차($e$)는 실제값($Y$)과 예측값($\hat{Y}$)의 차이입니다. ($e = Y - \hat{Y}$)좋은 회귀모델이라면 잔차는 특정한 패턴 없이 무작위 잡음(White Noise)처럼 보여야 합니다.잔차 분석으로 확인해야 할 4가지 (LINH)선형성 (Linearity): ..
선형회귀모형의 진단과 선별 (T검정, F검정, AIC, VIF)
선형회귀분석을 통해 모델($Y = \beta X + \epsilon$)을 만들었다면, 이제 분석가는 냉철한 심판관이 되어야 합니다."이 모델이 통계적으로 유의한가?", "변수끼리 겹치는 부분은 없는가?", "과적합되지는 않았는가?"이번 포스팅에서는 회귀모형을 평가하는 통계적 검정 방법(T-test, F-test)과 진단 지표($R^2$, VIF), 그리고 최적의 모형을 고르는 정보량 기준(AIC, BIC)에 대해 정리해 보겠습니다.1. 모형의 유의성 검정 (Testing Significance)모델을 만들었을 때 가장 먼저 확인해야 할 두 가지 검정입니다.1) T-검정 (T-test): "이 변수가 정말 필요한가?"개별 독립변수($X$)의 회귀계수($\beta$)가 통계적으로 의미가 있는지 확인합니다.가..
[의료 통계] 내 BMI가 1 오르면 혈압은 얼마나 오를까? (Python vs R 선형회귀 완벽 비교)
의료 데이터를 분석하다 보면 가장 궁금한 것은 "인과관계"입니다. "체중이 늘면 정말 혈압이 오를까?", "남녀 간에 차이가 있을까?" 오늘은 가상의 환자 데이터를 이용해 이 질문을 통계적으로 검증해보고, 대표적인 분석 도구인 Python과 R의 결과를 비교해 보겠습니다. 또한, 이 분석의 핵심인 선형회귀(OLS)의 원리와 역사까지 한 번에 정리합니다. 1. 오늘의 핵심 개념: 선형회귀와 OLS분석에 앞서, 우리가 사용할 무기가 무엇인지 알아야겠죠?1) 선형회귀 (Linear Regression)원인($X$, 독립변수)과 결과($Y$, 종속변수) 사이의 관계를 직선으로 그어 예측하는 방법입니다. 가설: "BMI($X$)가 증가하면 수축기 혈압($Y$)도 비례해서 증가할 것이다."2) OLS (Ordina..
선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리
1. 선형회귀의 해(Solution): 컴퓨터는 어떻게 정답을 찾을까?우리는 눈대중으로 선을 긋지만, 컴퓨터는 수학적으로 가장 오차가 적은 선을 찾아냅니다. 이때 사용하는 방법이 바로 최소자승법(OLS, Ordinary Least Squares)입니다.1) 행렬(Matrix)로 표현하기데이터가 수백, 수천 개일 때 이를 $Y = \beta_0 + \beta_1 X + \dots$ 처럼 길게 쓸 수 없습니다. 그래서 행렬을 사용해 심플하게 표현합니다. $$Y = X\beta + \varepsilon$$$Y$ (종속변수 벡터): 예측 대상 (예: 환자들의 혈압)$X$ (디자인 행렬): 독립변수들 (예: 나이, BMI, $[1, 1, \dots]$인 절편항 포함)$\beta$ (계수 벡터): 우리가 구해야 할..