전체 글

전체 글

    [의료 통계] 내 BMI가 1 오르면 혈압은 얼마나 오를까? (Python vs R 선형회귀 완벽 비교)

    의료 데이터를 분석하다 보면 가장 궁금한 것은 "인과관계"입니다. "체중이 늘면 정말 혈압이 오를까?", "남녀 간에 차이가 있을까?" 오늘은 가상의 환자 데이터를 이용해 이 질문을 통계적으로 검증해보고, 대표적인 분석 도구인 Python과 R의 결과를 비교해 보겠습니다. 또한, 이 분석의 핵심인 선형회귀(OLS)의 원리와 역사까지 한 번에 정리합니다. 1. 오늘의 핵심 개념: 선형회귀와 OLS분석에 앞서, 우리가 사용할 무기가 무엇인지 알아야겠죠?1) 선형회귀 (Linear Regression)원인($X$, 독립변수)과 결과($Y$, 종속변수) 사이의 관계를 직선으로 그어 예측하는 방법입니다. 가설: "BMI($X$)가 증가하면 수축기 혈압($Y$)도 비례해서 증가할 것이다."2) OLS (Ordina..

    선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리

    1. 선형회귀의 해(Solution): 컴퓨터는 어떻게 정답을 찾을까?우리는 눈대중으로 선을 긋지만, 컴퓨터는 수학적으로 가장 오차가 적은 선을 찾아냅니다. 이때 사용하는 방법이 바로 최소자승법(OLS, Ordinary Least Squares)입니다.1) 행렬(Matrix)로 표현하기데이터가 수백, 수천 개일 때 이를 $Y = \beta_0 + \beta_1 X + \dots$ 처럼 길게 쓸 수 없습니다. 그래서 행렬을 사용해 심플하게 표현합니다. $$Y = X\beta + \varepsilon$$$Y$ (종속변수 벡터): 예측 대상 (예: 환자들의 혈압)$X$ (디자인 행렬): 독립변수들 (예: 나이, BMI, $[1, 1, \dots]$인 절편항 포함)$\beta$ (계수 벡터): 우리가 구해야 할..

    [머신러닝 기초] 숫자를 예측하는 가장 강력한 직선, 선형회귀(Linear Regression) 완벽 해부

    데이터 분석을 공부하다 보면 가장 먼저 마주치는 알고리즘, 바로 선형회귀(Linear Regression)입니다. "너무 기초적인 거 아냐?"라고 생각할 수 있지만, 현업에서 결과를 설명하고 해석하는 데 있어 선형회귀만큼 강력한 도구는 없습니다. 오늘은 19세기 프랜시스 골턴(Francis Galton)이 발견한 '회귀'의 개념부터, 수식의 의미, 그리고 결과를 해석하는 방법까지 완벽하게 정리해 보겠습니다.1. 선형회귀(Linear Regression)란?1) 정의와 역사선형회귀는 종속변수($Y$, 결과)와 한 개 이상의 독립변수($X$, 원인) 사이의 선형적인 관계(Linear Relationship)를 모델링하는 방법입니다.역사적 배경: 19세기 영국의 유전학자 프랜시스 골턴(Francis Galto..

    [머신러닝 기초] 통계 예측 모형과 지도학습

    데이터 분석의 꽃, 머신러닝(Machine Learning)오늘은 통계 예측 모형의 기본 개념부터, 데이터의 형태에 따라 어떤 알고리즘을 선택해야 하는지, 그리고 모델을 어떻게 평가하는지까지 하나의 로드맵으로 정리해 보겠습니다.1. 머신러닝(Machine Learning)이란?머신러닝은 간단히 말해 **"데이터를 통해 학습하는 알고리즘"**입니다.핵심 정의:데이터를 통해 학습할 수 있는 알고리즘 또는 통계 모형.사람이 일일이 규칙을 입력하는 하드코딩(Hard-coding) 방식이 아니라, 데이터 속의 패턴을 스스로 학습하여 판단합니다. 비유:하드코딩: "체온이 37.5도 이상이고 기침을 하면 감기다" (규칙을 직접 입력)머신러닝: 환자 1,000명의 데이터를 줬더니 "이런 패턴을 가진 사람은 감기더라" ..

    비모수 검정(Non-parametric Test) 총정리

    의료 데이터를 다루다 보면 항상 이상적인 상황(데이터 수 30개 이상, 예쁜 정규분포)만 마주하는 것은 아니다.희귀 질환이라 환자 수가 6명뿐이거나, 설문조사 결과처럼 순위만 있는 데이터도 존재함.이럴 때 사용하는 것이 바로 비모수 검정입니다. 모수적 방법(T검정, ANOVA)의 대안이 되는 비모수 검정 4총사(부호, Mann-Whitney, Wilcoxon, Shapiro-Wilk)를 완벽하게 정리해 보겠습니다. 1. 비모수 검정이란?"모수(Parameter, 평균이나 분산)에 집착하지 않는다"는 뜻입니다.언제 쓰는가?1. 모집단의 분포를 모를 때: 데이터가 정규분포를 따른다는 보장이 없을 때 (H0: 정규성 가정 없음).2. 소표본일 때: 표본의 크기(n)가 매우 작아(보통 30 미만) 중심극한정리를..

    ANOVA(분산분석)와 정규분포

    비교해야 할 그룹이 3개 이상이라면 어떻게 해야 할까요? A약, B약, C약의 효과를 한 번에 비교하고 싶을 때 사용하는 것이 바로 ANOVA(Analysis of Variance, 분산분석)입니다. ANOVA의 핵심 개념인 일원/이원 분산분석과, 모든 통계 분석의 베이스가 되는 정규분포에 대해 정리해 보겠습니다. 1. 분석의 대전제: 정규분포 (Normal Distribution)ANOVA를 돌리기 전, 우리는 항상 데이터가 정규분포를 따른다는 가정을 확인해야 합니다. 도대체 정규분포가 뭐길래 이렇게 중요할까요? 1) 개념: 세상의 질서, 종 모양(Bell Curve)정규분포란 데이터가 평균을 중심으로 좌우 대칭인 종 모양으로 흩어져 있는 분포를 말합니다.중심: 평균 = 중앙값 = 최빈값. 가장 많은 ..

    [통계 기초] T검정 vs Z검정, 그리고 양측/단측 검정 정리

    의료 데이터를 분석하다 보면 가장 많이 마주치는 것이 바로 가설 검정입니다. "이 약이 효과가 있는가?", "두 그룹 간에 차이가 있는가?"를 수학적으로 증명하는 과정이죠. 오늘은 헷갈리기 쉬운 통계 검정의 기초 개념을 '법정 싸움'에 비유하여 정리하고, 실무에서 T검정을 주로 쓰는 이유와 양측/단측 검정의 차이까지 명확하게 알아보겠습니다. 1. 기초 정리: 통계는 '법정 싸움'이다가설 검정은 검사(연구자)가 피고인(약/치료법)의 유죄(효과 있음)를 입증하는 과정과 같습니다. 판결이 나기 전까지 피고인은 무죄로 추정되는 것처럼, 통계에서도 기본은 "효과가 없다"에서 시작합니다. 1) 가설의 설정 (무죄 추정의 원칙)- Ho (귀무가설, Null Hypothesis): "피고인은 무죄다"기존의 상태. 약은..

    [Airflow] 날짜 개념

    1. 데이터 추출 예시 REG_DATE NAME ADDRESS 2023-02-24 15:34:35 김아무개 Seoul 2023-02-24 19:14:42 홍박사 Iksan 2023-02-24 23:52:19 비빔밥 Jeonju - Daily ETL 처리를 위한 조회 쿼리 (2023/02/25 0시 실행) select name,address from tbl_reg where reg_date between timestamp('2023-02-24 00:00:00') and timestamp('2023-02-24 23:59:59') -> 데이터 관점의 시작일 : 2023-02-24 데이터 관점의 종료일 : 2023-02-25