본문 바로가기
ADsP

통계 분석 개념 회귀분석 군집분석 ADsP

by aiyoon 2025. 6. 13.
반응형

🟦 1. 회귀분석 (Regression Analysis)

🔍 개념

**하나 이상의 독립변수(X)**를 사용하여 **연속적인 종속변수(Y)**를 예측하는 분석기법

📘 쉽게 말하면?

공부 시간(X)을 입력했을 때, 예상 점수(Y)를 예측하는 모델
📈 “원인(입력)을 알면 결과(출력)를 예측한다”는 원리


🔹 1-1. 단순 선형 회귀 (Simple Linear Regression)

항목 설명
목적 X가 1개일 때 Y를 예측
형태 Y = a + bX
예시 공부시간으로 시험점수 예측
 

📌 a: 절편 (기본값), b: 기울기 (영향력)


🔹 1-2. 다중 선형 회귀 (Multiple Linear Regression)

항목 설명
목적 X가 2개 이상일 때 Y를 예측
형태 Y = a + b₁X₁ + b₂X₂ + ...
예시 공부시간 + 수면시간 → 시험점수 예측
 

🔹 1-3. 회귀분석에서 확인해야 할 요소

개념 설명
R² (결정계수) 예측력이 얼마나 좋은가? (0~1 사이, 높을수록 좋음)
p-value 해당 변수가 유의미한가? (0.05 미만이면 의미 있음)
다중공선성 독립변수들끼리 너무 비슷하면 해석이 어려움 → VIF 확인
잔차 분석 예측 오류가 규칙적으로 남아있진 않는가? → 등분산성, 정규성 등 체크
 

🟦 2. 로지스틱 회귀 (Logistic Regression)

🔍 개념

종속변수가 범주형 (예: 합격/불합격, 구매/비구매) 일 때 사용

항목 선형 회귀 로지스틱 회귀
Y값 연속형 범주형 (0 or 1)
목적 예측값의 크기 분류 (Yes/No, True/False)
예시 점수 예측 합격 여부 예측
 

📌 결과값은 0~1 사이 확률로 나옴 → 0.5 이상이면 ‘1’, 아니면 ‘0’로 분류


🟩 3. 군집분석 (Clustering)

🔍 개념

비슷한 특성을 가진 데이터를 그룹(Cluster) 으로 자동으로 묶는 분석기법
(즉, 라벨 없이 데이터끼리 알아서 뭉치게 함)


📘 쉽게 말하면?

마트 고객들을 구매패턴 기준으로 나눠서
“이 고객은 1번 그룹(충성고객), 저 고객은 2번 그룹(할인고객)” 처럼 자동 분류하는 것.


🔹 3-1. K-means 군집 분석

항목 설명
목적 데이터를 K개의 그룹으로 나눔
입력 군집 수(K)를 사용자가 설정
방식 거리 기반으로 가까운 점들끼리 묶음
예시 앱 사용 패턴으로 사용자 3그룹 나누기
 

📌 클러스터의 중심점(Centroid)을 기준으로 반복적으로 점들을 재할당


🔹 3-2. 계층적 군집 분석

항목 설명
방식 하나씩 묶어가며 트리(덴드로그램) 생성
특징 군집 수 자동 시각화 가능
사용 소규모 데이터에 적합
 

📊 군집 수는 어떻게 정하나요?

Elbow Method (엘보우 방법)

  • SSE(오차 제곱합)를 군집 수에 따라 그려서, 꺾이는 지점에서 군집 수 결정

🔁 회귀 vs 군집 비교 요약

항목 회귀분석 군집분석
목적 예측 (Y값 있음) 분류 (Y 없음)
데이터 지도학습 (입력+출력) 비지도학습 (입력만 있음)
예시 매출 예측 고객 유형 분류
대표 기법 선형회귀, 로지스틱 K-means, 계층적 군집
 

✨ 추천 암기 포인트 요약

  • 회귀는 예측, 군집은 분류
  • 선형 → 연속형 Y, 로지스틱 → 범주형 Y
  • 다중공선성은 독립변수끼리 중복 문제
  • K-means는 거리 기반, Elbow로 군집 수 결정

 

✅ 데이터 분석에서의 주요 분석 기법 분류


분석 유형대표 기법목적
회귀분석 (Regression) 선형회귀, 다중회귀, 로지스틱회귀 등 예측 (수치 or 확률)
분류분석 (Classification) 결정트리, 로지스틱 회귀, 나이브베이즈, KNN 등 이진/다중 분류 (예: 합격/불합격)
군집분석 (Clustering) K-means, 계층적 군집, DBSCAN 등 라벨 없는 그룹화
연관분석 (Association) Apriori, FP-Growth 등 장바구니 분석, 규칙 발견
차원축소 (Dimensionality Reduction) PCA, t-SNE 등 변수 축소, 시각화, 전처리
시계열 분석 (Time Series) ARIMA, Prophet 등 시간 흐름에 따른 패턴 예측
이상치 탐지 (Anomaly Detection) Z-score, Isolation Forest 등 비정상 데이터 탐지

🧠 이해를 돕는 비유

분석기법은 마치 의사의 진료도구처럼 “무엇을 알고 싶은가”에 따라 도구가 다릅니다.

알고싶은것 적합한 분석
미래값 예측 회귀분석
그룹 구분 (라벨 X) 군집분석
정답 있는 그룹 구분 (라벨 O) 분류분석
함께 사는 항목 찾기 연관분석
데이터 구조 단순화 차원축소
이상현상 탐지 이상치 분석
 

✅ 정리

  • 회귀와 군집은 대표 분석 중 일부일 뿐입니다.
  • ADSP 시험에서는 회귀 + 군집 + 분류가 핵심 3축입니다.
  • 이외에도 연관분석, 차원축소, 이상치 탐지 등이 종종 등장합니다.

 

 

반응형

'ADsP' 카테고리의 다른 글

회귀 분류 군집 분석 개념  (0) 2025.06.13