분류 전체보기

    회귀분석의 확장: 과적합 방지와 데이터 특성에 맞는 모델링

    기본적인 선형회귀(OLS)는 강력하지만 만능은 아닙니다. 변수가 너무 많아지면 모델이 데이터를 외워버리는 과적합(Overfitting)이 발생하고, 데이터가 직선이 아니거나 결과값이 '횟수(Count)'인 경우에는 잘 맞지 않습니다.오늘은 이러한 문제를 해결하는 고급 회귀 기법 4가지(Ridge, Lasso, Polynomial, Poisson)와, 그 배경이 되는 편향-분산 트레이드오프를 정리해 보겠습니다. 1. 배경 지식: 편향(Bias)과 분산(Variance)모델의 성능을 떨어뜨리는 두 가지 주범입니다.1) 편향 오류 (Bias Error) = 과소적합 (Underfitting)상황: 모델이 너무 단순해서 데이터의 패턴을 제대로 잡아내지 못하는 경우.증상: 학습 데이터에서도 오차가 크고, 테스트 ..

    회귀모형의 진단: 잔차, 레버리지, 그리고 쿡의 거리

    회귀분석을 통해 $R^2$가 높고 P-value가 유의한 모델을 만들었다고 끝이 아닙니다."과연 이 모델은 데이터를 올바르게 설명하고 있는가?", "결과를 왜곡하는 특이한 환자(Outlier)는 없는가?"를 확인해야 합니다.오늘은 선형회귀의 4가지 전제조건을 확인하는 잔차 분석과, 모델을 뒤흔드는 영향력 있는 데이터를 찾아내는 레버리지 및 쿡의 거리에 대해 알아보겠습니다. 1. 잔차(Residual)와 선형회귀의 4대 전제조건잔차($e$)는 실제값($Y$)과 예측값($\hat{Y}$)의 차이입니다. ($e = Y - \hat{Y}$)좋은 회귀모델이라면 잔차는 특정한 패턴 없이 무작위 잡음(White Noise)처럼 보여야 합니다.잔차 분석으로 확인해야 할 4가지 (LINH)선형성 (Linearity): ..

    선형회귀모형의 진단과 선별 (T검정, F검정, AIC, VIF)

    선형회귀분석을 통해 모델($Y = \beta X + \epsilon$)을 만들었다면, 이제 분석가는 냉철한 심판관이 되어야 합니다."이 모델이 통계적으로 유의한가?", "변수끼리 겹치는 부분은 없는가?", "과적합되지는 않았는가?"이번 포스팅에서는 회귀모형을 평가하는 통계적 검정 방법(T-test, F-test)과 진단 지표($R^2$, VIF), 그리고 최적의 모형을 고르는 정보량 기준(AIC, BIC)에 대해 정리해 보겠습니다.1. 모형의 유의성 검정 (Testing Significance)모델을 만들었을 때 가장 먼저 확인해야 할 두 가지 검정입니다.1) T-검정 (T-test): "이 변수가 정말 필요한가?"개별 독립변수($X$)의 회귀계수($\beta$)가 통계적으로 의미가 있는지 확인합니다.가..

    [의료 통계] 내 BMI가 1 오르면 혈압은 얼마나 오를까? (Python vs R 선형회귀 완벽 비교)

    의료 데이터를 분석하다 보면 가장 궁금한 것은 "인과관계"입니다. "체중이 늘면 정말 혈압이 오를까?", "남녀 간에 차이가 있을까?" 오늘은 가상의 환자 데이터를 이용해 이 질문을 통계적으로 검증해보고, 대표적인 분석 도구인 Python과 R의 결과를 비교해 보겠습니다. 또한, 이 분석의 핵심인 선형회귀(OLS)의 원리와 역사까지 한 번에 정리합니다. 1. 오늘의 핵심 개념: 선형회귀와 OLS분석에 앞서, 우리가 사용할 무기가 무엇인지 알아야겠죠?1) 선형회귀 (Linear Regression)원인($X$, 독립변수)과 결과($Y$, 종속변수) 사이의 관계를 직선으로 그어 예측하는 방법입니다. 가설: "BMI($X$)가 증가하면 수축기 혈압($Y$)도 비례해서 증가할 것이다."2) OLS (Ordina..

    선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리

    1. 선형회귀의 해(Solution): 컴퓨터는 어떻게 정답을 찾을까?우리는 눈대중으로 선을 긋지만, 컴퓨터는 수학적으로 가장 오차가 적은 선을 찾아냅니다. 이때 사용하는 방법이 바로 최소자승법(OLS, Ordinary Least Squares)입니다.1) 행렬(Matrix)로 표현하기데이터가 수백, 수천 개일 때 이를 $Y = \beta_0 + \beta_1 X + \dots$ 처럼 길게 쓸 수 없습니다. 그래서 행렬을 사용해 심플하게 표현합니다. $$Y = X\beta + \varepsilon$$$Y$ (종속변수 벡터): 예측 대상 (예: 환자들의 혈압)$X$ (디자인 행렬): 독립변수들 (예: 나이, BMI, $[1, 1, \dots]$인 절편항 포함)$\beta$ (계수 벡터): 우리가 구해야 할..

    [머신러닝 기초] 숫자를 예측하는 가장 강력한 직선, 선형회귀(Linear Regression) 완벽 해부

    데이터 분석을 공부하다 보면 가장 먼저 마주치는 알고리즘, 바로 선형회귀(Linear Regression)입니다. "너무 기초적인 거 아냐?"라고 생각할 수 있지만, 현업에서 결과를 설명하고 해석하는 데 있어 선형회귀만큼 강력한 도구는 없습니다. 오늘은 19세기 프랜시스 골턴(Francis Galton)이 발견한 '회귀'의 개념부터, 수식의 의미, 그리고 결과를 해석하는 방법까지 완벽하게 정리해 보겠습니다.1. 선형회귀(Linear Regression)란?1) 정의와 역사선형회귀는 종속변수($Y$, 결과)와 한 개 이상의 독립변수($X$, 원인) 사이의 선형적인 관계(Linear Relationship)를 모델링하는 방법입니다.역사적 배경: 19세기 영국의 유전학자 프랜시스 골턴(Francis Galto..

    [머신러닝 기초] 통계 예측 모형과 지도학습

    데이터 분석의 꽃, 머신러닝(Machine Learning)오늘은 통계 예측 모형의 기본 개념부터, 데이터의 형태에 따라 어떤 알고리즘을 선택해야 하는지, 그리고 모델을 어떻게 평가하는지까지 하나의 로드맵으로 정리해 보겠습니다.1. 머신러닝(Machine Learning)이란?머신러닝은 간단히 말해 **"데이터를 통해 학습하는 알고리즘"**입니다.핵심 정의:데이터를 통해 학습할 수 있는 알고리즘 또는 통계 모형.사람이 일일이 규칙을 입력하는 하드코딩(Hard-coding) 방식이 아니라, 데이터 속의 패턴을 스스로 학습하여 판단합니다. 비유:하드코딩: "체온이 37.5도 이상이고 기침을 하면 감기다" (규칙을 직접 입력)머신러닝: 환자 1,000명의 데이터를 줬더니 "이런 패턴을 가진 사람은 감기더라" ..

    비모수 검정(Non-parametric Test) 총정리

    의료 데이터를 다루다 보면 항상 이상적인 상황(데이터 수 30개 이상, 예쁜 정규분포)만 마주하는 것은 아니다.희귀 질환이라 환자 수가 6명뿐이거나, 설문조사 결과처럼 순위만 있는 데이터도 존재함.이럴 때 사용하는 것이 바로 비모수 검정입니다. 모수적 방법(T검정, ANOVA)의 대안이 되는 비모수 검정 4총사(부호, Mann-Whitney, Wilcoxon, Shapiro-Wilk)를 완벽하게 정리해 보겠습니다. 1. 비모수 검정이란?"모수(Parameter, 평균이나 분산)에 집착하지 않는다"는 뜻입니다.언제 쓰는가?1. 모집단의 분포를 모를 때: 데이터가 정규분포를 따른다는 보장이 없을 때 (H0: 정규성 가정 없음).2. 소표본일 때: 표본의 크기(n)가 매우 작아(보통 30 미만) 중심극한정리를..