ADsP
회귀 분류 군집 분석 개념
aiyoon
2025. 6. 13. 09:24
반응형
✅ 회귀 + 분류 + 군집 분석의 핵심 3축 개념 정리 (완성본)
1. 📈 회귀분석 (Regression) – 수치 예측
요소내용
목적 | 연속형 Y 예측 (예: 매출, 점수) |
주요 기법 | 단순 회귀, 다중 회귀, 로지스틱 회귀(이진 분류지만 회귀로 분류됨) |
필수 개념 |
- R² (결정계수): 설명력
- p-value: 유의성 판단
- 잔차: 예측과 실제의 차이
- 다중공선성: 독립변수 간 중복 정보
- 선형성, 정규성, 등분산성 가정
| 관련 함수 (R) | lm(), summary(), plot() |
📌 헷갈리는 포인트: 로지스틱 회귀는 종속변수가 범주형 → 사실은 분류에 가까운 회귀입니다.
2. 🎯 분류분석 (Classification) – 범주 예측
요소내용
목적 | 범주형 Y 예측 (예: 합격/불합격, 스팸/정상) |
주요 기법 | 로지스틱 회귀, 결정트리, K-NN, 나이브베이즈 등 |
필수 개념 |
- 혼동행렬 (Confusion Matrix)
→ TP, FP, TN, FN - 정확도 (Accuracy)
- 정밀도 (Precision)
- 재현율 (Recall)
- F1 Score
- ROC Curve, AUC
| 관련 함수 (R) | glm(), predict(), table(), caret::confusionMatrix() |
📌 헷갈리는 포인트: 높은 Accuracy가 항상 좋은 것은 아님 → 불균형 데이터에서는 Recall/Precision이 더 중요
3. 🧩 군집분석 (Clustering) – 비지도 그룹화
요소내용
목적 | 라벨 없는 데이터를 유사도 기반으로 그룹화 |
주요 기법 | K-means, 계층적 군집(Hierarchical), DBSCAN 등 |
필수 개념 |
- K 설정: Elbow Method
- 거리 기반 (유클리디안)
- 초기 중심점 선택 민감도
- 계층적 분석에서는 덴드로그램(Dendrogram)
| 관련 함수 (R) | kmeans(), dist(), hclust(), cutree() |
📌 헷갈리는 포인트: 군집 결과는 정답(label)이 없으므로 평가가 어려움 → 시각화와 해석 중심
🔁 핵심 비교 요약표
분석 유형지도/비지도예측값대표 기법평가 방법
회귀 | 지도 | 연속형(Y) | 선형, 다중, 로지스틱 | R², MSE, p-value |
분류 | 지도 | 범주형(Y) | 로지스틱, 트리, KNN | 정확도, 정밀도, 재현율 |
군집 | 비지도 | 없음 (그룹) | K-means, 계층 | SSE, 실루엣계수, 시각화 |
📘 ADSP 시험 대비용 “꼭 알아야 할 개념 Top 10” 정리
번호개념설명
1 | 회귀 vs 분류 vs 군집 차이 | 목적, 결과, 방법 구분 필수 |
2 | R², p-value 해석 | 회귀의 핵심 성능 지표 |
3 | 로지스틱 회귀 | 범주형 예측이지만 회귀로 등장 |
4 | 혼동행렬 | TP, FP, TN, FN 정확하게 이해 |
5 | 정밀도/재현율/F1 | 분류 모델 평가 필수 |
6 | Elbow Method | 군집 수 정하는 핵심 기법 |
7 | 다중공선성 / VIF | 회귀에서 빠질 수 없는 개념 |
8 | 잔차분석 | 정규성, 등분산성 확인 이유 |
9 | 군집분석과 라벨의 부재 | 군집 결과는 평가 방식이 다름 |
10 | 분류 vs 군집 차이 | “지도 vs 비지도” 명확하게 구분 |
🧠 보너스 팁: 학습 순서 추천
① 회귀 → ② 분류 → ③ 군집 순으로 학습하면 논리 흐름과 평가 지표의 차이를 자연스럽게 이해할 수 있습니다.
🎯 ADSP 자격증 기준으로 본 “분석” 카테고리 구성
3과목: 데이터 분석은 보통 다음 3개 파트로 구성됩니다:
- 회귀 분석
- 단순/다중 회귀, 로지스틱 회귀
- p-value, R², 잔차 등 포함
- 분류 분석
- 결정트리, 혼동행렬, 정밀도/재현율/정확도
- 머신러닝적 분류 접근 (지도학습)
- 군집 분석
- K-means, 계층적 군집, Elbow method
- 비지도학습 기반 분류
반응형