반응형
🟦 1. 회귀분석 (Regression Analysis)
🔍 개념
**하나 이상의 독립변수(X)**를 사용하여 **연속적인 종속변수(Y)**를 예측하는 분석기법
📘 쉽게 말하면?
공부 시간(X)을 입력했을 때, 예상 점수(Y)를 예측하는 모델
📈 “원인(입력)을 알면 결과(출력)를 예측한다”는 원리
🔹 1-1. 단순 선형 회귀 (Simple Linear Regression)
항목 | 설명 |
목적 | X가 1개일 때 Y를 예측 |
형태 | Y = a + bX |
예시 | 공부시간으로 시험점수 예측 |
📌 a: 절편 (기본값), b: 기울기 (영향력)
🔹 1-2. 다중 선형 회귀 (Multiple Linear Regression)
항목 | 설명 |
목적 | X가 2개 이상일 때 Y를 예측 |
형태 | Y = a + b₁X₁ + b₂X₂ + ... |
예시 | 공부시간 + 수면시간 → 시험점수 예측 |
🔹 1-3. 회귀분석에서 확인해야 할 요소
개념 | 설명 |
R² (결정계수) | 예측력이 얼마나 좋은가? (0~1 사이, 높을수록 좋음) |
p-value | 해당 변수가 유의미한가? (0.05 미만이면 의미 있음) |
다중공선성 | 독립변수들끼리 너무 비슷하면 해석이 어려움 → VIF 확인 |
잔차 분석 | 예측 오류가 규칙적으로 남아있진 않는가? → 등분산성, 정규성 등 체크 |
🟦 2. 로지스틱 회귀 (Logistic Regression)
🔍 개념
종속변수가 범주형 (예: 합격/불합격, 구매/비구매) 일 때 사용
항목 | 선형 회귀 | 로지스틱 회귀 |
Y값 | 연속형 | 범주형 (0 or 1) |
목적 | 예측값의 크기 | 분류 (Yes/No, True/False) |
예시 | 점수 예측 | 합격 여부 예측 |
📌 결과값은 0~1 사이 확률로 나옴 → 0.5 이상이면 ‘1’, 아니면 ‘0’로 분류
🟩 3. 군집분석 (Clustering)
🔍 개념
비슷한 특성을 가진 데이터를 그룹(Cluster) 으로 자동으로 묶는 분석기법
(즉, 라벨 없이 데이터끼리 알아서 뭉치게 함)
📘 쉽게 말하면?
마트 고객들을 구매패턴 기준으로 나눠서
“이 고객은 1번 그룹(충성고객), 저 고객은 2번 그룹(할인고객)” 처럼 자동 분류하는 것.
🔹 3-1. K-means 군집 분석
항목 | 설명 |
목적 | 데이터를 K개의 그룹으로 나눔 |
입력 | 군집 수(K)를 사용자가 설정 |
방식 | 거리 기반으로 가까운 점들끼리 묶음 |
예시 | 앱 사용 패턴으로 사용자 3그룹 나누기 |
📌 클러스터의 중심점(Centroid)을 기준으로 반복적으로 점들을 재할당
🔹 3-2. 계층적 군집 분석
항목 | 설명 |
방식 | 하나씩 묶어가며 트리(덴드로그램) 생성 |
특징 | 군집 수 자동 시각화 가능 |
사용 | 소규모 데이터에 적합 |
📊 군집 수는 어떻게 정하나요?
→ Elbow Method (엘보우 방법)
- SSE(오차 제곱합)를 군집 수에 따라 그려서, 꺾이는 지점에서 군집 수 결정
🔁 회귀 vs 군집 비교 요약
항목 | 회귀분석 | 군집분석 |
목적 | 예측 (Y값 있음) | 분류 (Y 없음) |
데이터 | 지도학습 (입력+출력) | 비지도학습 (입력만 있음) |
예시 | 매출 예측 | 고객 유형 분류 |
대표 기법 | 선형회귀, 로지스틱 | K-means, 계층적 군집 |
✨ 추천 암기 포인트 요약
- 회귀는 예측, 군집은 분류
- 선형 → 연속형 Y, 로지스틱 → 범주형 Y
- 다중공선성은 독립변수끼리 중복 문제
- K-means는 거리 기반, Elbow로 군집 수 결정
✅ 데이터 분석에서의 주요 분석 기법 분류
분석 | 유형대표 | 기법목적 |
회귀분석 (Regression) | 선형회귀, 다중회귀, 로지스틱회귀 등 | 예측 (수치 or 확률) |
분류분석 (Classification) | 결정트리, 로지스틱 회귀, 나이브베이즈, KNN 등 | 이진/다중 분류 (예: 합격/불합격) |
군집분석 (Clustering) | K-means, 계층적 군집, DBSCAN 등 | 라벨 없는 그룹화 |
연관분석 (Association) | Apriori, FP-Growth 등 | 장바구니 분석, 규칙 발견 |
차원축소 (Dimensionality Reduction) | PCA, t-SNE 등 | 변수 축소, 시각화, 전처리 |
시계열 분석 (Time Series) | ARIMA, Prophet 등 | 시간 흐름에 따른 패턴 예측 |
이상치 탐지 (Anomaly Detection) | Z-score, Isolation Forest 등 | 비정상 데이터 탐지 |
🧠 이해를 돕는 비유
분석기법은 마치 의사의 진료도구처럼 “무엇을 알고 싶은가”에 따라 도구가 다릅니다.
알고싶은것 | 적합한 분석 |
미래값 예측 | 회귀분석 |
그룹 구분 (라벨 X) | 군집분석 |
정답 있는 그룹 구분 (라벨 O) | 분류분석 |
함께 사는 항목 찾기 | 연관분석 |
데이터 구조 단순화 | 차원축소 |
이상현상 탐지 | 이상치 분석 |
✅ 정리
- 회귀와 군집은 대표 분석 중 일부일 뿐입니다.
- ADSP 시험에서는 회귀 + 군집 + 분류가 핵심 3축입니다.
- 이외에도 연관분석, 차원축소, 이상치 탐지 등이 종종 등장합니다.
반응형
'ADsP' 카테고리의 다른 글
회귀 분류 군집 분석 개념 (0) | 2025.06.13 |
---|