반응형
1. 요즘 데이터 분석 AI 이슈 25.08.26
- 구글, 소형 원자로 전력 계약
- AI 데이터센터는 전기가 엄청 많이 필요해요.
- 구글이 **작은 원자로(SMR)**를 개발하는 회사와 전력 공급 계약을 했어요.
- 의미: 친환경 + 안정적인 전력 확보를 위한 새로운 시도.
- 성능은 무조건 높일 수 있을까?
- 컴퓨터 코어, 모델 파라미터(변수)를 늘려도 항상 성능이 비례해서 올라가지 않아요.
- 이유: 한 부분이 느리면(병목) 전체 속도가 거기서 막혀요.
2. 분류 모델이란? (예: 타이타닉 생존 예측)
데이터 준비
- 머신러닝: 표 형태 데이터(X=입력, Y=정답)
- 딥러닝: 이미지, 음성 같은 비정형 데이터
데이터 불균형 시
- 예: 생존자 100명, 사망자 900명 → 그냥 학습하면 "죽었다"만 예측하는 모델이 될 수 있음.
- 해결: 데이터 비율을 맞추거나 평가 지표를 다르게 사용
결과 평가 지표 설명
- 정확도(Accuracy): 전체 중 맞춘 비율
- 정밀도(Precision): "살았다"라고 예측한 사람 중 실제로 산 비율
- 재현율(Recall): 실제로 산 사람 중 "살았다"라고 제대로 맞춘 비율
- F1-score: 정밀도와 재현율의 균형 (불균형 데이터에 특히 중요)
오류 유형 이해 (혼동행렬)
- 1종 오류(False Positive): 멀쩡한 사람을 범죄자라고 판단 (실제 No → Yes로 잘못 판단)
→ 정밀도(Precision) 높여야 함. - 2종 오류(False Negative): 범죄자를 놓침 (실제 Yes → No로 잘못 판단)
→ 재현율(Recall) 높여야 함. - 상황 따라 중요도가 다름
- 병원 진단: 놓치면 큰일 → 재현율 중요
- 스팸메일: 정상메일을 스팸으로 넣으면 불편 → 정밀도 중요
3. 모델의 종류
- 이진분류: 두 가지 결과(살았다/죽었다, 합격/불합격)
- 다중분류: 여러 가지 결과(꽃 종류 3가지 분류)
4. 모델 개발 과정
- 문제 파악: 정답(Y)이 있나? → 있으면 지도학습, 없으면 비지도학습
- 지도학습: 정답을 맞추도록 학습 → 평가지표(Accuracy, F1 등)로 평가
- 비지도학습: 정답이 없음 → 데이터 안에서 패턴 찾기(군집, PCA)
5. 자동화 & 실무
- 파이프라인: 작업 순서를 자동으로 이어주는 도구
- 데이터 전처리 → 학습 → 평가
- Airflow: 실제로 자동화할 때 많이 씀.
핵심 포인트 한 줄 정리
- 문제 상황에 따라 무엇이 더 중요한지(정밀도 vs 재현율) 결정해야 함.
- 데이터가 불균형하면 F1-score로 모델을 평가.
- 지도/비지도 구분을 확실히 하고, 자동화로 효율을 높인다.
흐름도 (텍스트)
[문제 정의]
├─ 정답(Y)이 있다 → 지도학습
│ ├─ 정확도, 정밀도, 재현율로 평가
│ └─ 불균형? → F1-score 활용
└─ 정답(Y)이 없다 → 비지도학습
├─ 패턴 찾기(군집, PCA)
└─ 평가 지표 직접 정의 필요
[모델 활용]
├─ 이진분류(Yes/No)
└─ 다중분류(여러 클래스)
[실무]
├─ 중요한 오류 종류 파악(1종/2종)
├─ 도메인에 맞게 Threshold 조정
└─ 파이프라인 & 자동화(Airflow)
시각적 구조 예시 (텍스트 기반 마인드맵)
[머신러닝]
├─ 분류 모델
│ ├─ 데이터 특성(표 vs 비정형)
│ ├─ 불균형 데이터 → EDA 그룹핑
│ ├─ 평가 지표
│ │ ├─ Accuracy
│ │ ├─ Precision(FP↓)
│ │ ├─ Recall(FN↓)
│ │ └─ F1-score
│ └─ 오류 유형
│ ├─ 1종오류(FP) → Precision
│ ├─ 2종오류(FN) → Recall
│ └─ Context 기반 Threshold
├─ 모델 유형
│ ├─ 이진분류 (Confusion Matrix)
│ └─ 다중분류 (F1: Micro/Macro/Weighted)
├─ 개발 절차
│ ├─ 지도 vs 비지도 구분
│ ├─ 지도 → 평가지표, 모델 개선
│ └─ 비지도 → PCA, 군집, 평가 지표 설정
└─ 자동화
├─ 파이프라인(전처리-학습-평가)
└─ Airflow 활용
#머신러닝 #AI #데이터센터전력 #SMR #구글PPA
#병목현상 #성능최적화 #타이타닉분류 #데이터불균형
#정확도 #정밀도 #재현율 #F1스코어 #혼동행렬
#1종오류 #2종오류 #Threshold조정 #Precision #Recall
#이진분류 #다중분류 #지도학습 #비지도학습 #PCA #군집
#도메인비용분석 #모델평가지표 #자동화 #파이프라인 #Airflow
#데이터과학 #모델개선 #RandomSearch #GridSearch
#문제정의 #의사결정 #모델해석 #실무적용
머신러닝 학습 유형 비교표
구분 | 이진분류(Binary Classification) | 지도학습(Supervised Learning) | 비지도학습(Unsupervised Learning) | 선형회귀(Linear Regression) |
목적 | 두 가지 결과 중 하나를 예측 | 입력(X)과 정답(Y) 관계 학습 | 정답 없는 데이터에서 패턴 찾기 | 숫자(Y) 예측(연속값) |
입력/출력 | X(입력), Y(0/1, 두 가지 범주) | X(입력), Y(정답) | X(입력만), Y 없음 | X(입력), Y(연속형 정답) |
알고리즘 | 로지스틱회귀, 랜덤포레스트, SVM | 분류(Classification), 회귀(Regression) | 군집(K-Means, DBSCAN), 차원축소(PCA) | 선형회귀, 다중선형회귀 |
평가방법 | Accuracy, Precision, Recall, F1-score | 분류 → Accuracy, F1 / 회귀 → R², RMSE | 내부 지표(Silhouette) 또는 도메인 평가 | R², RMSE, MAE |
특징/팁 | FP/FN 비용 고려, Threshold 조정 필요 | 데이터 전처리·검증, 하이퍼파라미터 튜닝 | 결과 해석 중요, 라벨링 없이 그룹 찾음 | 변수관계 시각화, 이상치·다중공선성 점검 |
1. 이진분류(Binary Classification)
예: 스팸메일(스팸/정상), 환자(질병/정상)
목표: 두 가지 결과 중 하나를 정확히 맞추기
어떻게 하면 되나?
- 데이터 준비: X(입력)와 Y(정답, 0 or 1) 필요
- 모델 학습: 로지스틱 회귀, 랜덤포레스트, SVM 등 사용
- 평가지표:
- 정확도(Accuracy): 전체 중 맞춘 비율
- 정밀도(Precision): Positive 예측 중 실제 Positive
- 재현율(Recall): 실제 Positive 중 제대로 맞춘 비율
- F1-score: 정밀도와 재현율의 균형
- 실무 팁:
- 무엇이 더 중요한지 결정 (False Positive vs False Negative)
- Threshold 조정으로 Precision/Recall 밸런스 조절
2. 지도학습(Supervised Learning)
예: 시험 점수 예측, 이미지 분류, 매출 예측
목표: 입력(X) → 정답(Y)을 최대한 잘 맞추도록 학습
어떻게 하면 되나?
- 데이터: 반드시 X(입력)와 Y(정답)가 있어야 함
- 알고리즘 종류:
- 분류(Classification): 결과가 범주형(합격/불합격)
- 회귀(Regression): 결과가 숫자형(점수, 가격)
- 평가지표:
- 분류 → Accuracy, Precision, Recall, F1
- 회귀 → R², RMSE, MAE
- 실무 팁:
- 데이터 전처리(결측치, 스케일링)
- 학습/검증 데이터 분리(Train/Test Split)
- 하이퍼파라미터 튜닝(Grid Search, Random Search)
3. 비지도학습(Unsupervised Learning)
예: 고객 세분화, 포트폴리오 자산 분류, 차원축소
목표: 정답(Y)이 없는 데이터에서 패턴 찾기
어떻게 하면 되나?
- 데이터: X(입력)만 있음, Y 없음
- 알고리즘 종류:
- 군집(Clustering): K-Means, DBSCAN → 그룹화
- 차원축소(Dimensionality Reduction): PCA
- 평가방법:
- 정답이 없으므로 내부 지표 사용(Silhouette Score 등)
- 또는 도메인 해석으로 타당성 평가
- 실무 팁:
- 결과 해석이 중요: 왜 그 그룹이 나왔는지?
- 이후 지도학습용 Y 생성(라벨링)
4. 선형회귀(Linear Regression, 지도학습 중 하나)
예: 집값 예측, 키로 몸무게 예측
목표: 입력(X)와 출력(Y) 간 연속적 관계를 직선으로 모델링
어떻게 하면 되나?
- 데이터: X(입력), Y(연속형 정답)
- 모델 식:Y=aX+bY = aX + b
- 평가지표:
- R²: 설명력 (1에 가까울수록 좋음)
- RMSE, MAE: 오차 크기 (작을수록 좋음)
- 실무 팁:
- 변수 간 관계 시각화(산점도)
- 다중공선성 체크(변수 간 상관관계)
- 이상치 제거, 스케일링 필요
핵심 한 줄 요약
- 이진분류: 두 결과 중 하나 예측 → Precision/Recall/F1로 평가
- 지도학습: 정답(Y) 있는 문제 해결 → 분류/회귀 지표로 평가
- 비지도학습: 정답 없는 데이터 패턴 찾기 → 군집, PCA 활용
- 선형회귀: 지도학습 회귀의 기본 → R², RMSE로 성능 확인
반응형