본문 바로가기
데이터 분석/머신 러닝

머신러닝 분류모델 결과 평가 지표 혼동행렬 이진분류 다진분류 지도학습 비지도학습

by 윤슬새벽 2025. 8. 26.
반응형

1. 요즘 데이터 분석 AI 이슈 25.08.26

  • 구글, 소형 원자로 전력 계약
    • AI 데이터센터는 전기가 엄청 많이 필요해요.
    • 구글이 **작은 원자로(SMR)**를 개발하는 회사와 전력 공급 계약을 했어요.
    • 의미: 친환경 + 안정적인 전력 확보를 위한 새로운 시도.
  • 성능은 무조건 높일 수 있을까?
    • 컴퓨터 코어, 모델 파라미터(변수)를 늘려도 항상 성능이 비례해서 올라가지 않아요.
    • 이유: 한 부분이 느리면(병목) 전체 속도가 거기서 막혀요.

2. 분류 모델이란? (예: 타이타닉 생존 예측)

데이터 준비

  • 머신러닝: 표 형태 데이터(X=입력, Y=정답)
  • 딥러닝: 이미지, 음성 같은 비정형 데이터

데이터 불균형 시

  • 예: 생존자 100명, 사망자 900명 → 그냥 학습하면 "죽었다"만 예측하는 모델이 될 수 있음.
  • 해결: 데이터 비율을 맞추거나 평가 지표를 다르게 사용

결과 평가 지표 설명

  • 정확도(Accuracy): 전체 중 맞춘 비율
  • 정밀도(Precision): "살았다"라고 예측한 사람 중 실제로 산 비율
  • 재현율(Recall): 실제로 산 사람 중 "살았다"라고 제대로 맞춘 비율
  • F1-score: 정밀도와 재현율의 균형 (불균형 데이터에 특히 중요)

오류 유형 이해 (혼동행렬)

  • 1종 오류(False Positive): 멀쩡한 사람을 범죄자라고 판단 (실제 No → Yes로 잘못 판단)
    정밀도(Precision) 높여야 함.
  • 2종 오류(False Negative): 범죄자를 놓침 (실제 Yes → No로 잘못 판단)
    재현율(Recall) 높여야 함.
  • 상황 따라 중요도가 다름
    • 병원 진단: 놓치면 큰일 → 재현율 중요
    • 스팸메일: 정상메일을 스팸으로 넣으면 불편 → 정밀도 중요

3. 모델의 종류

  • 이진분류: 두 가지 결과(살았다/죽었다, 합격/불합격)
  • 다중분류: 여러 가지 결과(꽃 종류 3가지 분류)

4. 모델 개발 과정

  1. 문제 파악: 정답(Y)이 있나? → 있으면 지도학습, 없으면 비지도학습
  2. 지도학습: 정답을 맞추도록 학습 → 평가지표(Accuracy, F1 등)로 평가
  3. 비지도학습: 정답이 없음 → 데이터 안에서 패턴 찾기(군집, PCA)

5. 자동화 & 실무

  • 파이프라인: 작업 순서를 자동으로 이어주는 도구
    • 데이터 전처리 → 학습 → 평가
  • Airflow: 실제로 자동화할 때 많이 씀.

핵심 포인트 한 줄 정리

  • 문제 상황에 따라 무엇이 더 중요한지(정밀도 vs 재현율) 결정해야 함.
  • 데이터가 불균형하면 F1-score로 모델을 평가.
  • 지도/비지도 구분을 확실히 하고, 자동화로 효율을 높인다.

흐름도 (텍스트)

 
[문제 정의]
 ├─ 정답(Y)이 있다 → 지도학습
 │    ├─ 정확도, 정밀도, 재현율로 평가
 │    └─ 불균형? → F1-score 활용
 └─ 정답(Y)이 없다 → 비지도학습
      ├─ 패턴 찾기(군집, PCA)
      └─ 평가 지표 직접 정의 필요

[모델 활용]
 ├─ 이진분류(Yes/No)
 └─ 다중분류(여러 클래스)

[실무]
 ├─ 중요한 오류 종류 파악(1종/2종)
 ├─ 도메인에 맞게 Threshold 조정
 └─ 파이프라인 & 자동화(Airflow)

 

시각적 구조 예시 (텍스트 기반 마인드맵)

[머신러닝]
 ├─ 분류 모델
 │   ├─ 데이터 특성(표 vs 비정형)
 │   ├─ 불균형 데이터 → EDA 그룹핑
 │   ├─ 평가 지표
 │   │   ├─ Accuracy
 │   │   ├─ Precision(FP↓)
 │   │   ├─ Recall(FN↓)
 │   │   └─ F1-score
 │   └─ 오류 유형
 │       ├─ 1종오류(FP) → Precision
 │       ├─ 2종오류(FN) → Recall
 │       └─ Context 기반 Threshold
 ├─ 모델 유형
 │   ├─ 이진분류 (Confusion Matrix)
 │   └─ 다중분류 (F1: Micro/Macro/Weighted)
 ├─ 개발 절차
 │   ├─ 지도 vs 비지도 구분
 │   ├─ 지도 → 평가지표, 모델 개선
 │   └─ 비지도 → PCA, 군집, 평가 지표 설정
 └─ 자동화
     ├─ 파이프라인(전처리-학습-평가)
     └─ Airflow 활용

#머신러닝 #AI #데이터센터전력 #SMR #구글PPA
#병목현상 #성능최적화 #타이타닉분류 #데이터불균형
#정확도 #정밀도 #재현율 #F1스코어 #혼동행렬
#1종오류 #2종오류 #Threshold조정 #Precision #Recall
#이진분류 #다중분류 #지도학습 #비지도학습 #PCA #군집
#도메인비용분석 #모델평가지표 #자동화 #파이프라인 #Airflow
#데이터과학 #모델개선 #RandomSearch #GridSearch
#문제정의 #의사결정 #모델해석 #실무적용

 

머신러닝 학습 유형 비교표

  
구분 이진분류(Binary Classification)  지도학습(Supervised Learning) 비지도학습(Unsupervised Learning)  선형회귀(Linear Regression)
목적 두 가지 결과 중 하나를 예측 입력(X)과 정답(Y) 관계 학습 정답 없는 데이터에서 패턴 찾기 숫자(Y) 예측(연속값)
입력/출력 X(입력), Y(0/1, 두 가지 범주) X(입력), Y(정답) X(입력만), Y 없음 X(입력), Y(연속형 정답)
알고리즘 로지스틱회귀, 랜덤포레스트, SVM 분류(Classification), 회귀(Regression) 군집(K-Means, DBSCAN), 차원축소(PCA) 선형회귀, 다중선형회귀
평가방법 Accuracy, Precision, Recall, F1-score 분류 → Accuracy, F1 / 회귀 → R², RMSE 내부 지표(Silhouette) 또는 도메인 평가 R², RMSE, MAE
특징/팁 FP/FN 비용 고려, Threshold 조정 필요 데이터 전처리·검증, 하이퍼파라미터 튜닝 결과 해석 중요, 라벨링 없이 그룹 찾음 변수관계 시각화, 이상치·다중공선성 점검

1. 이진분류(Binary Classification)

예: 스팸메일(스팸/정상), 환자(질병/정상)
목표: 두 가지 결과 중 하나를 정확히 맞추기

어떻게 하면 되나?

  • 데이터 준비: X(입력)와 Y(정답, 0 or 1) 필요
  • 모델 학습: 로지스틱 회귀, 랜덤포레스트, SVM 등 사용
  • 평가지표:
    • 정확도(Accuracy): 전체 중 맞춘 비율
    • 정밀도(Precision): Positive 예측 중 실제 Positive
    • 재현율(Recall): 실제 Positive 중 제대로 맞춘 비율
    • F1-score: 정밀도와 재현율의 균형
  • 실무 팁:
    • 무엇이 더 중요한지 결정 (False Positive vs False Negative)
    • Threshold 조정으로 Precision/Recall 밸런스 조절

2. 지도학습(Supervised Learning)

예: 시험 점수 예측, 이미지 분류, 매출 예측
목표: 입력(X) → 정답(Y)을 최대한 잘 맞추도록 학습

어떻게 하면 되나?

  • 데이터: 반드시 X(입력)와 Y(정답)가 있어야 함
  • 알고리즘 종류:
    • 분류(Classification): 결과가 범주형(합격/불합격)
    • 회귀(Regression): 결과가 숫자형(점수, 가격)
  • 평가지표:
    • 분류 → Accuracy, Precision, Recall, F1
    • 회귀 → R², RMSE, MAE
  • 실무 팁:
    • 데이터 전처리(결측치, 스케일링)
    • 학습/검증 데이터 분리(Train/Test Split)
    • 하이퍼파라미터 튜닝(Grid Search, Random Search)

3. 비지도학습(Unsupervised Learning)

예: 고객 세분화, 포트폴리오 자산 분류, 차원축소
목표: 정답(Y)이 없는 데이터에서 패턴 찾기

어떻게 하면 되나?

  • 데이터: X(입력)만 있음, Y 없음
  • 알고리즘 종류:
    • 군집(Clustering): K-Means, DBSCAN → 그룹화
    • 차원축소(Dimensionality Reduction): PCA
  • 평가방법:
    • 정답이 없으므로 내부 지표 사용(Silhouette Score 등)
    • 또는 도메인 해석으로 타당성 평가
  • 실무 팁:
    • 결과 해석이 중요: 왜 그 그룹이 나왔는지?
    • 이후 지도학습용 Y 생성(라벨링)

4. 선형회귀(Linear Regression, 지도학습 중 하나)

예: 집값 예측, 키로 몸무게 예측
목표: 입력(X)와 출력(Y) 간 연속적 관계를 직선으로 모델링

어떻게 하면 되나?

  • 데이터: X(입력), Y(연속형 정답)
  • 모델 식:Y=aX+bY = aX + b
  • 평가지표:
    • R²: 설명력 (1에 가까울수록 좋음)
    • RMSE, MAE: 오차 크기 (작을수록 좋음)
  • 실무 팁:
    • 변수 간 관계 시각화(산점도)
    • 다중공선성 체크(변수 간 상관관계)
    • 이상치 제거, 스케일링 필요

핵심 한 줄 요약

  • 이진분류: 두 결과 중 하나 예측 → Precision/Recall/F1로 평가
  • 지도학습: 정답(Y) 있는 문제 해결 → 분류/회귀 지표로 평가
  • 비지도학습: 정답 없는 데이터 패턴 찾기 → 군집, PCA 활용
  • 선형회귀: 지도학습 회귀의 기본 → R², RMSE로 성능 확인

 

반응형