의료 데이터를 분석하다 보면 가장 많이 마주치는 것이 바로 가설 검정입니다. "이 약이 효과가 있는가?", "두 그룹 간에 차이가 있는가?"를 수학적으로 증명하는 과정이죠.
오늘은 헷갈리기 쉬운 통계 검정의 기초 개념을 '법정 싸움'에 비유하여 정리하고, 실무에서 T검정을 주로 쓰는 이유와 양측/단측 검정의 차이까지 명확하게 알아보겠습니다.
1. 기초 정리: 통계는 '법정 싸움'이다
가설 검정은 검사(연구자)가 피고인(약/치료법)의 유죄(효과 있음)를 입증하는 과정과 같습니다. 판결이 나기 전까지 피고인은 무죄로 추정되는 것처럼, 통계에서도 기본은 "효과가 없다"에서 시작합니다.
1) 가설의 설정 (무죄 추정의 원칙)
- Ho (귀무가설, Null Hypothesis): "피고인은 무죄다"기존의 상태. 약은 효과가 없다. 차이가 없다.
- H1 (대립가설, Alternative Hypothesis): "피고인은 유죄다"연구자가 입증하고 싶은 것. 약은 효과가 있다. 차이가 있다.
결국 데이터 분석이란? 귀무가설이 틀렸다는 강력한 증거(데이터)를 제시하여, 대립가설을 채택하게 만드는 과정입니다.
2) 변수의 구분
데이터를 볼 때 가장 먼저 파악해야 할 두 가지 변수입니다.
-> 독립변수 (Independent Variable): 원인. 다른 값에 영향을 주는 변수.
(예: 나이, 키, 약물 투여 여부 등)
-> 종속변수 (Dependent Variable): 결과. 독립변수에 의해 영향을 받는 변수.
(예: 혈압, 혈당 수치, 생존 기간 등)
2. Z검정 vs T검정: 왜 의료에선 T검정일까?
두 검정 모두 평균의 차이를 비교하지만, 결정적인 차이는 '모집단의 정보'를 얼마나 알고 있느냐에 있습니다.
1) Z검정 (Z-test)조건: 모집단의 표준편차를 이미 알고 있거나, 표본의 크기가 매우 클 때
현실: 의료 데이터 분석 실무에서 전 세계 모든 환자(모집단)의 분산을 미리 알고 있는 경우는 사실상 0%에 가깝습니다. 그래서 거의 쓰이지 않습니다.
2) T검정 (T-test)조건: 모집단의 표준편차를 모를 때 사용합니다.해결책: 모집단 대신 표본의 표준편차를 활용하여 검정합니다.
결론: 임상 데이터는 대부분 일부 환자를 대상으로 한 표본 데이터이므로, T검정이 표준입니다.
3. 양측 검정 vs 우측(단측) 검정
검정을 수행할 때 "어떤 방향으로 차이를 볼 것인가"에 대한 기준입니다. 의료 통계에서는 이 설정이 P-value(유의확률)에 직접적인 영향을 줍니다.
1) 양측 검정 (Two-tailed Test)
가장 보수적이고 일반적인 접근 방식입니다.
질문: "A약과 B약의 효과가 다른가?" (다르기만 하면 됨)
방향: A가 B보다 효과가 좋을 수도 있고, 오히려 더 나쁠 수도 있습니다. 이 양쪽 가능성을 모두 열어둡니다.
임상 예시: "새로운 혈압약이 기존 약과 효능 차이가 있는가?"
(혈압이 너무 안 떨어져도 문제지만, 너무 급격히 떨어져 저혈압이 와도 문제이므로 양쪽을 다 봐야 함)
특징:기각역(유의하다고 판단하는 구간)이 양쪽 끝으로 2.5%씩 쪼개집니다.
따라서 한쪽으로 몰아주는 단측 검정보다 P-value를 확보하기(유의성을 입증하기) 더 어렵습니다.
2) 우측 검정 (Right-tailed Test, 단측 검정)
특정한 방향의 효과만 입증하고 싶을 때 사용합니다.
질문: "A약의 효과가 B약보다 큰가(더 좋은가)?"
방향: 오직 "크다"는 것만 증명합니다. 작거나 같은 경우는 관심 대상에서 제외합니다.
임상 예시:"새로운 진통제가 기존 진통제보다 통증 감소 효과가 더 큰가?"
(성능 개선이 목적이므로, 효과가 같거나 오히려 통증을 못 줄인다면 '실패'로 간주)
특징: 기각역 5%를 한쪽(우측)에 몰아줍니다.
장점: 양측 검정보다 유의성(P < 0.05)을 확보하기 쉽습니다.
단점(위험): 반대 방향의 결과(예: 신약이 오히려 더 나쁨)가 나왔을 때, 이를 통계적으로 해석할 수 없습니다. 연구 설계 단계에서 명확한 근거가 없다면 지양해야 합니다.
'Study Note > 통계' 카테고리의 다른 글
| 선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리 (0) | 2025.12.12 |
|---|---|
| [머신러닝 기초] 숫자를 예측하는 가장 강력한 직선, 선형회귀(Linear Regression) 완벽 해부 (0) | 2025.12.10 |
| [머신러닝 기초] 통계 예측 모형과 지도학습 (0) | 2025.12.10 |
| 비모수 검정(Non-parametric Test) 총정리 (0) | 2025.12.08 |
| ANOVA(분산분석)와 정규분포 (1) | 2025.12.04 |