의료 데이터를 다루다 보면 항상 이상적인 상황(데이터 수 30개 이상, 예쁜 정규분포)만 마주하는 것은 아니다.
희귀 질환이라 환자 수가 6명뿐이거나, 설문조사 결과처럼 순위만 있는 데이터도 존재함.
이럴 때 사용하는 것이 바로 비모수 검정입니다. 모수적 방법(T검정, ANOVA)의 대안이 되는 비모수 검정 4총사(부호, Mann-Whitney, Wilcoxon, Shapiro-Wilk)를 완벽하게 정리해 보겠습니다.
1. 비모수 검정이란?
"모수(Parameter, 평균이나 분산)에 집착하지 않는다"는 뜻입니다.
언제 쓰는가?
1. 모집단의 분포를 모를 때: 데이터가 정규분포를 따른다는 보장이 없을 때 (H0: 정규성 가정 없음).
2. 소표본일 때: 표본의 크기(n)가 매우 작아(보통 30 미만) 중심극한정리를 쓸 수 없을 때.
3. 데이터 척도: 데이터가 서열(순위) 척도일 때.
2. 부호 검정 (Sign Test)
가장 직관적이고 계산이 간단한 검정법입니다. 값의 크기는 무시하고 오직 방향(+, -)만 봅니다.
1) 기본 원리
-> 핵심: 어떤 사건(+)이 반대 사건(-)보다 더 많이 일어나는가?
-> 분포: 결과가 둘 중 하나(+, -)이므로 이항분포(Binomial Distribution)를 따릅니다.
-> 가설 (우측 검정 예시):
H0 (귀무가설): p ≤ 0.5 ('+'가 나올 확률은 반반이거나 적다)
H1 (대립가설): p > 0.5 ('+'가 더 자주 나온다)
2) Case Study: 임계치 계산 (n=6일 때)
질문: 환자 6명(n=6)에게 신약을 썼을 때, 몇 명 이상 효과가 있어야(‘+’) 통계적으로 유의하다고(a=0.05) 할 수 있을까?
이항분포 (n=6, p=0.5)를 이용하여 확률을 계산해 봅시다. ('+'의 개수 = Q)
● Q = 6 (6명 모두 효과 있음):
P(Q=6) = 0.0156
-> 0.0156 < 0.05 (유의수준) 기각 (유의함)
● Q = 5 (5명 이상 효과 있음 - 누적):
P(Q ≥ 5) = P(Q=5) + P(Q=6) = 0.09375 + 0.0156 = 0.109375
-> 0.109 > 0.05 (유의수준) 유지 (유의하지 않음)
● 결론: 6명 중 6명 전원에게서 '+' 반응이 나와야만 "이 약은 효과가 있다"고 말할 수 있습니다. (5명도 통계적으로는 우연일 수 있다고 봅니다.)
3) 두 가지 적용 상황
-> 일표본 (One Sample):
예: 회사의 월간 수익률이 '+'인 달이 '-'인 달보다 많은가?
->대응표본 (Paired Sample):예: (투여 후 - 투여 전)의 값이 양수(+)인 환자가 더 많은가?신약 X와 기존약 Y의 효과 지속시간 차이(X-Y) 검정.
3. Mann-Whitney U 검정
독립표본 T-검정의 비모수 버전입니다. 두 그룹의 평균 대신 "순위(Rank)의 평균"을 비교합니다.
1) 상황:
-> 자료가 서열(1등, 2등...)로 되어 있어 평균/분산 계산 불가.
-> 0 < 30이라 정규성을 만족 못 함.
2) 가설:
-> H0: A그룹의 순위 평균과 B그룹의 순위 평균은 같다.
-> H1: 다르다.
계산 예시 (랭크 합치기)두 그룹을 섞어서 줄을 세운 뒤, 원래 그룹의 등수를 확인합니다.
● Data:
남학생: 100, 80
여학생: 95, 75, 68
● 통합 순위 매기기:
100점 (남) -> 1등
95점 (여) -> 2등
80점 (남) -> 3등
75점 (여) -> 4등
68점 (여) -> 5등
● 결과 비교:
남학생 순위합: 1+3 = 4
여학생 순위합: 2+4+5 = 11
-> 이 순위 합의 차이를 이용해 U값을 계산하고 검정합니다.
4. Wilcoxon 부호 순위 검정 (Signed-Rank Test)
대응표본 T-검정의 비모수 버전입니다. 부호 검정의 업그레이드판입니다.
● 특징: 부호 검정은 단순히 +/- 방향만 보지만, 윌콕슨은 차이의 크기(순위)까지 고려합니다.
● 예: 약을 먹고 혈압이 1 떨어진 것(-)과 50 떨어진 것(-)을 부호 검정은 똑같이 취급하지만, 윌콕슨은 50 떨어진 것에 더 큰 가중치(순위)를 줍니다.
가설:
H0: 짝지어진 두 집단(A, B) 간에 차이가 없다.
H1: 차이가 있다.
5. Shapiro-Wilk 검정 (정규성 검정)
분석을 시작하기 전, "데이터가 정규분포인지 아닌지" 판별하는 심판관입니다.
● 특징: 히스토그램이나 QQ-Plot 같은 시각적 확인보다 통계적으로 엄밀합니다.
● 주의할 점 (가설의 방향): 보통의 검정과는 목표가 반대입니다.
H0 (귀무가설): 데이터는 정규분포를 따른다. (우리가 바라는 것)
H1 (대립가설): 데이터는 정규분포를 따르지 않는다.
Analyst Tip:
Shapiro-Wilk 검정 결과 P-value > 0.05여야 귀무가설이 유지되어 "정규분포를 따른다(OK)"라고 판단하고 T-검정이나 ANOVA를 쓸 수 있습니다.반대로 P < 0.05면 정규성이 깨진 것이므로 위에서 배운 비모수 검정(Mann-Whitney 등)을 써야 합니다.
| 검정방법 | 대응되는 모수 검정 | 사용 데이터 | 핵심 키워드 |
| 부호 검정 | (단순 비교) | 1개 OR 짝지어진 2개 | 이분법(+,-), 이항분포 |
| Mann-Whitney U | 독립표본 T-검정 | 서로 다른 2개 그룹 | 통합 순위(Rank) 비교 |
| Wilcoxon | 대응표본 T-검정 | 짝지어진 2개 그룹 | 부호 + 순위 동시 고려 |
| Shapiro-Wilk | (정규성 가정 확인) | 모든 연속형 데이터 | Ho : 정규분포이다. |
'Study Note > 통계' 카테고리의 다른 글
| 선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리 (0) | 2025.12.12 |
|---|---|
| [머신러닝 기초] 숫자를 예측하는 가장 강력한 직선, 선형회귀(Linear Regression) 완벽 해부 (0) | 2025.12.10 |
| [머신러닝 기초] 통계 예측 모형과 지도학습 (0) | 2025.12.10 |
| ANOVA(분산분석)와 정규분포 (1) | 2025.12.04 |
| [통계 기초] T검정 vs Z검정, 그리고 양측/단측 검정 정리 (0) | 2025.12.04 |