Study Note

    PCA 활용: 복잡한 데이터를 한눈에 보는 법 (차원 축소 & 시각화)

    저번 포스팅에서 PCA의 원리를 배웠다면, 오늘은 "그래서 이걸 어디에 쓰는데?"에 대한 답입니다. 의료 데이터 분석에서 변수(Feature)가 수십, 수백 개일 때, PCA는 핵심 신호만 남기는 압축기이자, 고차원 데이터를 2D 화면에 뿌려주는 내비게이션 역할을 합니다.오늘은 PCA를 활용한 차원 축소의 원리와, "실린더(Cylinder) 예시"를 통해 PCA가 어떻게 최적의 시각화 각도를 찾아내는지 코드로 직접 구현해 보겠습니다. 1. 차원 축소 (Dimensionality Reduction)원리: "중요하지 않은 건 버린다"주성분($PC$)들은 정보량(분산, $\sigma^2$)이 큰 순서대로 정렬되어 있습니다. \sigma_2^2 > \dots > \sigma_k^2">$\sigma_1^2 > \..

    차원 축소의 핵심, 주성분분석(PCA) 완벽 가이드

    데이터 분석을 하다 보면 변수(Feature)가 너무 많아 모델이 복잡해지거나, 변수들끼리 상관관계가 높아(다중공선성) 분석이 어려울 때가 있습니다. 이때 사용하는 가장 강력한 무기가 바로 주성분분석(PCA, Principal Component Analysis)입니다.오늘은 복잡한 데이터를 심플하게 압축하면서도 정보 손실을 최소화하는 PCA의 원리와 해석 방법을 정리해 보겠습니다. 1. 주성분분석(PCA)이란?PCA는 고차원의 데이터를 저차원으로 축소하는 기법입니다. 쉽게 말해, "데이터의 분포를 가장 잘 표현하는 새로운 좌표축(주성분)을 찾아 데이터를 회전시키는 것"입니다. PCA의 핵심 목적상관성 제거: 서로 상관성이 있는 변수들을 상관성이 없는(0에 가까운) 변수들로 변환합니다.차원 축소: 데이터의..

    정확도(Accuracy)의 함정: 민감도, 특이도, 그리고 베이즈 정리

    의료 데이터 분석가로서 분류 모델(로지스틱 회귀 등)을 만들었을 때, 가장 먼저 듣게 되는 질문은 "정확도가 몇 %인가?"입니다. 하지만 의료 데이터, 특히 희귀 질환(Imbalanced Data)을 다룰 때 정확도는 가장 위험한 지표가 될 수 있습니다. 오늘은 혼동행렬(Confusion Matrix)을 해부하고, 의료 현장에서 진짜 중요한 지표인 민감도, 특이도, 그리고 ROC 곡선을 정리해보겠습니다. 또한, 베이즈 정리를 통해 "AI가 양성이라고 했을 때 진짜 양성일 확률"을 계산하는 법을 알아봅니다. 1. 혼동행렬 (Confusion Matrix): 4가지 경우의 수모델의 예측 결과는 딱 4가지로 나뉩니다. (암 환자 예측 예시)구분실체 환자(Disease,1)실제 정상(Normal,0)예측 환자(..

    분류 문제의 시작, 로지스틱 회귀(Logistic Regression) 완벽 해부

    이름은 '회귀(Regression)'지만 사실은 '분류(Classification)' 알고리즘인 로지스틱 회귀. 의료 데이터 분석에서 질병 유무(0/1), 생존 여부(Alive/Dead)를 예측할 때 가장 기본이 되는 모델입니다. 오늘은 그 작동 원리부터 학습 방법, 그리고 실제 코드 구현까지 알아보겠습니다. 1. 로지스틱 회귀란 무엇인가?1) 정의종속변수($Y$)가 이분법적인 값(0 또는 1)을 가질 때, 특정 사건이 발생할 확률(Probability)을 예측하는 통계 모형입니다.입력($X$): 나이, 혈압, BMI 등 (연속형 실수 가능)출력($Y$): 암(1) vs 정상(0), 합격(1) vs 불합격(0)2) 왜 선형회귀를 쓰지 않을까?선형회귀($Y = \beta X$)는 결과값이 $-\infty$..

    숫자를 센다? 무조건 '푸아송 회귀'입니다. (feat. 의료 데이터 활용법)

    데이터를 받았는데 결과값($Y$)이 '횟수(Count)'라면? 고민하지 말고 푸아송 회귀를 떠올려야 합니다. 하지만 모든 횟수 데이터에 쓸 수 있는 건 아닙니다.오늘은 푸아송 회귀의 정확한 사용 조건과 의료 현장에서의 대표적인 예시, 그리고 주의할 점(과산포)까지 정리해 보겠습니다. 1. 언제 쓰는가? : "발생 횟수"를 셀 때가장 중요한 키워드는 "단위 시간/공간 동안 발생한 사건의 횟수"입니다.핵심 조건 3가지결과값($Y$)이 0 이상의 정수(Non-negative Integer)여야 합니다.$Y = 0, 1, 2, 3 \dots$ (OK)$Y = 1.5, -2, 3.7$ (NO - 이런 데이터는 푸아송 불가능)발생 횟수가 드문(Rare) 사건일수록 잘 맞습니다.예: 희귀병 발병, 교통사고 발생, 기..

    직선을 넘어 곡선으로, 그리고 모델의 성적표 AIC

    1. 다항식 회귀(Polynomial Regression): "세상은 직선이 아니다"일반적인 선형회귀($Y = \beta X + \epsilon$)는 "X가 늘어나면 Y도 일정하게 늘어난다"는 가정입니다. 하지만 의료 현상은 그렇지 않을 때가 많습니다. 이때 $X$를 제곱($X^2$)하거나 세제곱($X^3$)하여 곡선을 그리는 것이 다항식 회귀입니다.① 정확히 언제 쓰는가? (의료 예시 BEST 3)가장 대표적인 것은 '적당한 게 최고(Goldilocks)'이거나 '한계 체감(Diminishing Returns)'의 상황입니다.BMI와 사망 위험도 (U자형 곡선)현상: 저체중도 위험하고, 비만도 위험합니다. 정상 체중일 때 사망률이 가장 낮습니다.직선 모델: "BMI가 높을수록 위험하다" $\righta..

    회귀분석의 확장: 과적합 방지와 데이터 특성에 맞는 모델링

    기본적인 선형회귀(OLS)는 강력하지만 만능은 아닙니다. 변수가 너무 많아지면 모델이 데이터를 외워버리는 과적합(Overfitting)이 발생하고, 데이터가 직선이 아니거나 결과값이 '횟수(Count)'인 경우에는 잘 맞지 않습니다.오늘은 이러한 문제를 해결하는 고급 회귀 기법 4가지(Ridge, Lasso, Polynomial, Poisson)와, 그 배경이 되는 편향-분산 트레이드오프를 정리해 보겠습니다. 1. 배경 지식: 편향(Bias)과 분산(Variance)모델의 성능을 떨어뜨리는 두 가지 주범입니다.1) 편향 오류 (Bias Error) = 과소적합 (Underfitting)상황: 모델이 너무 단순해서 데이터의 패턴을 제대로 잡아내지 못하는 경우.증상: 학습 데이터에서도 오차가 크고, 테스트 ..

    회귀모형의 진단: 잔차, 레버리지, 그리고 쿡의 거리

    회귀분석을 통해 $R^2$가 높고 P-value가 유의한 모델을 만들었다고 끝이 아닙니다."과연 이 모델은 데이터를 올바르게 설명하고 있는가?", "결과를 왜곡하는 특이한 환자(Outlier)는 없는가?"를 확인해야 합니다.오늘은 선형회귀의 4가지 전제조건을 확인하는 잔차 분석과, 모델을 뒤흔드는 영향력 있는 데이터를 찾아내는 레버리지 및 쿡의 거리에 대해 알아보겠습니다. 1. 잔차(Residual)와 선형회귀의 4대 전제조건잔차($e$)는 실제값($Y$)과 예측값($\hat{Y}$)의 차이입니다. ($e = Y - \hat{Y}$)좋은 회귀모델이라면 잔차는 특정한 패턴 없이 무작위 잡음(White Noise)처럼 보여야 합니다.잔차 분석으로 확인해야 할 4가지 (LINH)선형성 (Linearity): ..