RyanNerd
라덕'Story
RyanNerd
  • 분류 전체보기 (62) N
    • Study Note (27) N
      • Python (3)
      • R (1)
      • Airflow (7)
      • 통계 (16) N
    • 빅데이터분석기사 (1)
      • 필기 (1)
    • Programmers (28)
      • Python (13)
      • SQL (15)
    • Project (3)
      • Django (3)
    • Mac (2)
    • 맛집 (0)

블로그 메뉴

  • NaverBlog
  • 홈

최근 글

전체 방문자
오늘
어제
hELLO · Designed By 정상우.
RyanNerd

라덕'Story

Study Note/통계

비모수 검정(Non-parametric Test) 총정리

2025. 12. 8. 17:24

의료 데이터를 다루다 보면 항상 이상적인 상황(데이터 수 30개 이상, 예쁜 정규분포)만 마주하는 것은 아니다.

희귀 질환이라 환자 수가 6명뿐이거나, 설문조사 결과처럼 순위만 있는 데이터도 존재함.

이럴 때 사용하는 것이 바로 비모수 검정입니다. 모수적 방법(T검정, ANOVA)의 대안이 되는 비모수 검정 4총사(부호, Mann-Whitney, Wilcoxon, Shapiro-Wilk)를 완벽하게 정리해 보겠습니다.

 

1. 비모수 검정이란?

"모수(Parameter, 평균이나 분산)에 집착하지 않는다"는 뜻입니다.

언제 쓰는가?

1. 모집단의 분포를 모를 때: 데이터가 정규분포를 따른다는 보장이 없을 때 (H0: 정규성 가정 없음).

2. 소표본일 때: 표본의 크기(n)가 매우 작아(보통 30 미만) 중심극한정리를 쓸 수 없을 때.

3. 데이터 척도: 데이터가 서열(순위) 척도일 때.

 

2. 부호 검정 (Sign Test)

가장 직관적이고 계산이 간단한 검정법입니다. 값의 크기는 무시하고 오직 방향(+, -)만 봅니다.

 

1) 기본 원리

-> 핵심: 어떤 사건(+)이 반대 사건(-)보다 더 많이 일어나는가?

-> 분포: 결과가 둘 중 하나(+, -)이므로 이항분포(Binomial Distribution)를 따릅니다.

-> 가설 (우측 검정 예시):

     H0 (귀무가설): p ≤ 0.5 ('+'가 나올 확률은 반반이거나 적다)

     H1 (대립가설): p > 0.5 ('+'가 더 자주 나온다)

 

2) Case Study: 임계치 계산 (n=6일 때)

질문: 환자 6명(n=6)에게 신약을 썼을 때, 몇 명 이상 효과가 있어야(‘+’) 통계적으로 유의하다고(a=0.05) 할 수 있을까?

 

이항분포 (n=6, p=0.5)를 이용하여 확률을 계산해 봅시다. ('+'의 개수 = Q)

 

●  Q = 6 (6명 모두 효과 있음):

    P(Q=6) = 0.0156

    -> 0.0156 < 0.05 (유의수준) 기각 (유의함)

 

●   Q = 5 (5명 이상 효과 있음 - 누적):

     P(Q ≥ 5) = P(Q=5) + P(Q=6) = 0.09375 + 0.0156 = 0.109375

    -> 0.109 > 0.05 (유의수준) 유지 (유의하지 않음)

 

●   결론: 6명 중 6명 전원에게서 '+' 반응이 나와야만 "이 약은 효과가 있다"고 말할 수 있습니다. (5명도 통계적으로는 우연일 수 있다고 봅니다.)

 

3) 두 가지 적용 상황

-> 일표본 (One Sample):

예: 회사의 월간 수익률이 '+'인 달이 '-'인 달보다 많은가?

 

->대응표본 (Paired Sample):예: (투여 후 - 투여 전)의 값이 양수(+)인 환자가 더 많은가?신약 X와 기존약 Y의 효과 지속시간 차이(X-Y) 검정.

 

3. Mann-Whitney U 검정

독립표본 T-검정의 비모수 버전입니다. 두 그룹의 평균 대신 "순위(Rank)의 평균"을 비교합니다.

 

1) 상황:

-> 자료가 서열(1등, 2등...)로 되어 있어 평균/분산 계산 불가.

-> 0 < 30이라 정규성을 만족 못 함.

 

2) 가설:

-> H0: A그룹의 순위 평균과 B그룹의 순위 평균은 같다.

-> H1: 다르다.

 

계산 예시 (랭크 합치기)두 그룹을 섞어서 줄을 세운 뒤, 원래 그룹의 등수를 확인합니다.

● Data:

   남학생: 100, 80

   여학생: 95, 75, 68

●  통합 순위 매기기:

    100점 (남) -> 1등

    95점 (여) -> 2등

    80점 (남) -> 3등

    75점 (여) -> 4등

    68점 (여) -> 5등

●  결과 비교:

    남학생 순위합: 1+3 = 4

    여학생 순위합: 2+4+5 = 11

   -> 이 순위 합의 차이를 이용해 U값을 계산하고 검정합니다.

 

4. Wilcoxon 부호 순위 검정 (Signed-Rank Test)

대응표본 T-검정의 비모수 버전입니다. 부호 검정의 업그레이드판입니다.

●  특징: 부호 검정은 단순히 +/- 방향만 보지만, 윌콕슨은 차이의 크기(순위)까지 고려합니다.

●   예: 약을 먹고 혈압이 1 떨어진 것(-)과 50 떨어진 것(-)을 부호 검정은 똑같이 취급하지만, 윌콕슨은 50 떨어진 것에 더 큰 가중치(순위)를 줍니다.

가설:

H0: 짝지어진 두 집단(A, B) 간에 차이가 없다.

H1: 차이가 있다.

 

5. Shapiro-Wilk 검정 (정규성 검정)

분석을 시작하기 전, "데이터가 정규분포인지 아닌지" 판별하는 심판관입니다.

●  특징: 히스토그램이나 QQ-Plot 같은 시각적 확인보다 통계적으로 엄밀합니다.

●  주의할 점 (가설의 방향): 보통의 검정과는 목표가 반대입니다.

H0 (귀무가설): 데이터는 정규분포를 따른다. (우리가 바라는 것)

H1 (대립가설): 데이터는 정규분포를 따르지 않는다.

 

Analyst Tip:

Shapiro-Wilk 검정 결과 P-value > 0.05여야 귀무가설이 유지되어 "정규분포를 따른다(OK)"라고 판단하고 T-검정이나 ANOVA를 쓸 수 있습니다.반대로 P < 0.05면 정규성이 깨진 것이므로 위에서 배운 비모수 검정(Mann-Whitney 등)을 써야 합니다.

 

검정방법 대응되는 모수 검정 사용 데이터 핵심 키워드
부호 검정 (단순 비교) 1개 OR 짝지어진 2개 이분법(+,-), 이항분포
Mann-Whitney U 독립표본 T-검정 서로 다른 2개 그룹 통합 순위(Rank) 비교
Wilcoxon 대응표본 T-검정 짝지어진 2개 그룹 부호 + 순위 동시 고려
Shapiro-Wilk (정규성 가정 확인) 모든 연속형 데이터 Ho : 정규분포이다.

 

'Study Note > 통계' 카테고리의 다른 글

선형회귀 Part 2: 최소자승법(OLS)과 더미변수 완벽 정리  (0) 2025.12.12
[머신러닝 기초] 숫자를 예측하는 가장 강력한 직선, 선형회귀(Linear Regression) 완벽 해부  (0) 2025.12.10
[머신러닝 기초] 통계 예측 모형과 지도학습  (0) 2025.12.10
ANOVA(분산분석)와 정규분포  (1) 2025.12.04
[통계 기초] T검정 vs Z검정, 그리고 양측/단측 검정 정리  (0) 2025.12.04
    'Study Note/통계' 카테고리의 다른 글
    • [머신러닝 기초] 숫자를 예측하는 가장 강력한 직선, 선형회귀(Linear Regression) 완벽 해부
    • [머신러닝 기초] 통계 예측 모형과 지도학습
    • ANOVA(분산분석)와 정규분포
    • [통계 기초] T검정 vs Z검정, 그리고 양측/단측 검정 정리
    RyanNerd
    RyanNerd
    라이언 덕후의 일상 스토리~

    티스토리툴바