NumPy 브로드캐스팅(Broadcasting) 마스크(Mask) 팬시 인덱스(Fancy Indexing) 데이터 분석 벡터화 연산
✅ 1. 브로드캐스팅 (Broadcasting)📌 정의브로드캐스팅이란, 서로 다른 shape을 가진 배열들끼리도 연산이 가능하도록 자동으로 shape을 맞춰주는 NumPy의 기능입니다.📐 규칙 요약작은 배열의 shape이 큰 배열의 shape에 자동으로 확장됩니다.하지만 일정한 규칙을 따라야 합니다.📊 예시import numpy as npa = np.array([1, 2, 3]) # shape: (3,)b = np.array([[10], [20], [30]]) # shape: (3, 1)result = a + b # shape: (3, 3)print(result)🧠 내부 동작 (브로드캐스팅 규칙)a: (3,) → (1, 3)b: (3, 1)두 배열이 자동으로 (3, 3)으로 맞춰지고..
2025. 7. 17.
이터레이터(iterator) 메모리 효율성과 속도 스트리밍 처리 대규모 데이터 다루기
이터레이터(iterator)를 잘 다루는 것은 데이터 분석에서 상당히 큰 활용 가치를 가집니다. 단순히 반복문을 효율적으로 돌리는 차원을 넘어서, 메모리 효율성과 속도, 스트리밍 처리, 대규모 데이터 다루기 같은 실무적인 문제 해결에 직접 연결되기 때문입니다.🔍 왜 이터레이터가 데이터 분석에서 중요한가?항목설명이터레이터 사용 시 장점메모리 효율성CSV, 로그 파일, 데이터베이스 쿼리 결과는 수십 GB 이상일 수 있음readline(), yield, itertools 등을 쓰면 전체를 메모리에 올리지 않아도 처리 가능스트리밍 처리실시간 로그, IoT 데이터, Kafka 등이터레이터는 순차적 처리에 최적화되어 있어 스트리밍 분석에 적합지연 평가(lazy evaluation)NumPy, Pandas는 eag..
2025. 7. 3.