Study Note
내 모델 믿어도 될까? 교차 검증(Cross Validation) 완벽 가이드
머신러닝 모델을 만들고 "정확도 99%입니다!"라고 자랑했는데, 막상 새로운 환자 데이터를 넣으니 다 틀린다면? 이는 모델이 운 좋게 쉬운 시험 문제(Test Set)만 풀었거나, 학습 데이터에만 너무 익숙해진 과적합(Overfitting) 상태일 가능성이 큽니다.이를 방지하기 위해 반드시 거쳐야 하는 과정, 교차 검증(Cross Validation)을 알아봅니다. 1. 홀드아웃(Holdout) vs K-폴드(K-Fold)① 홀드아웃 (Holdout) 교차 검증개념: 데이터를 한 번만 딱 잘라서(예: 8:2) 학습용과 검증용으로 나눕니다문제점: 하필이면 검증 데이터가 너무 쉽거나 특이한 케이스만 모여 있다면? 모델의 진짜 성능을 알 수 없게 됩니다(검증 데이터에 Overfit)② K-폴드 (K-Fold)..
머신러닝의 꽃, 앙상블과 부스팅 (XGBoost, LightGBM) 완전 정복
오늘 정리할 내용은 "실전에서 성능을 극한으로 끌어올리는 기술"입니다. 단일 모델 하나만 쓰는 것이 아니라, 여러 모델을 합쳐서(Ensemble) 더 똑똑한 AI를 만드는 과정을 배워봅니다. 1. 기본기를 다지는 단일 모델 4대장앙상블로 넘어가기 전, 가장 기본이 되는 단일 모델들을 먼저 이해해야 합니다.① KNN (K-Nearest Neighbor)컨셉: "유유상종". 새로운 데이터가 들어오면 가장 가까운 이웃 $k$개를 봅니다.특징: 학습이 따로 필요 없고 단순하지만, 데이터가 많아지면 계산 속도가 느려집니다. (게으른 학습)② 로지스틱 회귀 (Logistic Regression)컨셉: 이름은 회귀지만 사실은 '분류' 모델입니다. 선형 회귀 결과에 시그모이드(Sigmoid) 함수를 씌워 0~1 사이의..
[ML 기초] 통계가 머신러닝이 되는 순간: 나이브 베이즈와 ML 프로세스
머신러닝이라고 하면 거창해 보이지만, 사실 그 시작은 우리가 배웠던 '베이즈 정리'에서 출발합니다.오늘은 스팸 메일 필터링의 원리가 되는 나이브 베이즈 분류(Naive Bayes Classification)와, 앞으로 계속 보게 될 머신러닝의 전체적인 학습 프로세스를 정리해 봅니다. 1. 베이즈 정리: 사후 확률을 계산하는 마법우리가 머신러닝을 통해 알고 싶은 것은 "결과(데이터)를 보고 원인(클래스)을 예측하는 것"입니다. 이를 통계 용어로 사후 확률(Posterior Probability)이라고 합니다.$$P(\text{원인}|\text{결과}) = \frac{P(\text{결과}|\text{원인}) \times P(\text{원인})}{P(\text{결과})}$$사전 확률 ($P(\text{원인})..
눈에 보이지 않는 원인을 찾아라: 은닉 마르코프 모델 (HMM)
일반적인 마르코프 연쇄가 "눈에 보이는 상태의 변화"를 다룬다면, HMM은 "겉으로 드러난 결과(Observation)를 통해 숨겨진 원인(Hidden State)을 추론"하는 더욱 고차원적인 모델입니다. 우리는 살면서 겉으로 드러난 현상만 보고 그 이면의 진실을 파악해야 할 때가 많습니다.환자의 '증상(기침, 열)'을 보고 '병명(감기, 폐렴)'을 진단하거나, 친구의 '목소리 톤'을 듣고 '기분'을 맞히는 것처럼요.이처럼 관찰 가능한 결과($O$)를 통해 숨겨진 상태($S$)를 확률적으로 추론하는 알고리즘, 은닉 마르코프 모델(HMM)에 대해 알아보겠습니다. 1. 마르코프 연쇄 vs 은닉 마르코프 모델① 마르코프 연쇄 (Markov Chain)모든 상태가 눈에 보입니다.예시: 오늘의 주가(상승) $\r..
어려운 적분은 가라, 뽑아서 푼다! MCMC와 메트로폴리스-헤이스팅스
베이즈 통계를 공부하다 보면 "사후 확률을 계산하기 너무 어렵다"는 벽에 부딪히는데, MCMC는 이 문제를 "계산하지 않고, 뽑아서(Sampling) 해결한다"는 혁명적인 아이디어입니다. 특히 Metropolis-Hastings 알고리즘은 현대 데이터 과학의 10대 알고리즘으로 꼽힐 만큼 중요합니다. 베이즈 통계에서 사후 확률(Posterior)을 구하려면 복잡한 적분을 해야 합니다. 공식이 딱 떨어지는(켤레 사전확률) 운 좋은 경우도 있지만, 현실은 그렇지 않습니다."수식을 못 풀겠다면, 그냥 컴퓨터로 수만 번 시뮬레이션해서 맞히면 되지 않을까?"이것이 바로 MCMC(Markov Chain Monte Carlo)의 핵심입니다. 오늘은 MCMC의 원리와 대표적인 알고리즘인 Metropolis-Hastin..
확률은 변한다? 베이즈 통계와 켤레 사전 확률
기존의 고전 통계(Frequentist)가 "동전 던지기의 확률은 무조건 50%다"라고 고정한다면, 베이즈 통계는 "처음엔 50%라고 생각했는데, 던져보니 앞면이 자꾸 나오네? 그럼 앞면 확률을 60%로 올려야겠다"라며 경험(데이터)에 따라 확률을 업데이트하는 방식입니다. 의료 데이터처럼 새로운 환자 데이터가 계속 쌓이는 환경에서 매우 강력한 도구입니다. 우리가 지금까지 배운 통계(t-test, ANOVA 등)는 빈도주의(Frequentist) 통계였습니다. 모수(평균, 분산)는 변하지 않는 '고정된 상수'라고 믿었죠.하지만 베이즈 통계(Bayesian Statistics)는 다릅니다. "모수도 확률적으로 변한다"고 봅니다. 처음엔 잘 몰랐던 확률(사전 확률)이 새로운 데이터(우도)를 만나면 더 똑똑한 ..
최적의 선택을 찾아라: 마르코프 의사결정 과정 (MDP)
마르코프 연쇄가 "시간의 흐름에 따라 상태가 어떻게 변하는지(관찰)"에 대한 것이었다면, MDP는 여기에 '우리의 선택(Action)'과 그에 따른 '보상(Reward)'을 추가한 개념입니다.즉, "어떤 행동을 해야 미래에 가장 큰 보상을 받을 수 있을까?"를 수학적으로 풀어내는 과정입니다. 1. MDP의 5가지 핵심 요소 $(S, A, P, R, \gamma)$MDP는 다음 5가지 요소로 정의됩니다.상태 (State, $S$): 현재의 상황. (예: 환자의 현재 건강 상태, 게임판의 위치)행동 (Action, $A$): 에이전트가 선택할 수 있는 행동. (예: 약물 투여, 수술, 대기)전이 확률 (Transition Probability, $P$): 행동 $a$를 했을 때, 상태가 $s \to s'$로..
어제는 잊어라, 오직 오늘만 본다: 마르코프 연쇄 (Markov Chain)
우리는 미래를 예측하고 싶어 합니다. 보통 미래를 예측하려면 과거의 모든 데이터가 필요하다고 생각하지만, 통계학에는 "바로 직전의 상태만 알면 미래를 예측할 수 있다"고 가정하는 쿨한 모델이 있습니다. 바로 마르코프 연쇄(Markov Chain)입니다. 오늘은 확률 과정의 기초인 마르코프 연쇄의 정의와 전이행렬, 그리고 시간이 흐른 뒤 도달하게 되는 안정 상태(Steady State)에 대해 알아보겠습니다. 1. 확률 과정(Stochastic Process)이란?시간이 지남에 따라 변하는 확률 변수들의 집합입니다.쉽게 말해, "시간의 흐름에 따라 상태가 확률적으로 변하는 과정"을 기록한 것입니다.$$X_0, X_1, X_2, \dots, X_t$$예시: 매일 변하는 주가, 매시간 변하는 환자의 바이탈 사..