개념 이해 on Advanced Beginner

아키텍처

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

Spark는 Driver(조율자) + Executor(작업자) + Cluster Manager(리소스 관리)로 구성

모든 Transformation은 DAG로 표현되고, Action 호출 시 Job → Stage → Task로 분할되어 실행

메모리는 Execution(연산)과 Storage(캐시)가 동적으로 공유하는 Unified Memory 모델 사용

Java/Spring 개발자에게 SparkSession은 Spring Container, Executor는 Thread Pool Worker와 유사

대상 독자: Java/Spring 기반 백엔드 개발 경험이 있는 개발자

선수 지식:

Java 기본 문법 및 JVM 메모리 구조 이해
멀티스레딩 기초 개념 (Thread, ExecutorService)
분산 시스템의 기본 개념 (선택 사항)

소요 시간: 약 25-30분

RDD 기초

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

RDD(Resilient Distributed Dataset)는 분산 불변 데이터 컬렉션으로 Spark의 기본 데이터 추상화

Transformation(지연 평가)과 Action(즉시 실행)으로 데이터 처리

Lineage를 통해 장애 발생 시 자동 복구 가능

현재는 DataFrame/Dataset을 권장하지만, 저수준 제어가 필요할 때 RDD 사용

대상 독자: Java/Spring 개발자, Spark 기본 개념을 학습하려는 초급자

선수 지식:

Java 컬렉션 API (List, Map 등)
람다 표현식 및 함수형 프로그래밍 기초
아키텍처 문서 이해

소요 시간: 약 25-30분

RDD는 Spark의 가장 기본적인 데이터 추상화입니다. DataFrame과 Dataset의 기반이 되는 저수준 API로, Spark의 동작 원리를 이해하는 데 필수적입니다.

DataFrame과 Dataset

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

DataFrame은 스키마가 있는 분산 테이블, Dataset은 타입 안전한 분산 컬렉션

Java에서 DataFrame = Dataset<Row>, 타입 Dataset = Dataset<T>

Catalyst Optimizer를 통한 자동 최적화로 RDD보다 성능 우수

SQL 스타일 작업은 DataFrame, 복잡한 비즈니스 로직은 Dataset 권장

대상 독자: Java/Spring 개발자, Spark 데이터 처리를 시작하는 중급자

선수 지식:

Java Generics 및 함수형 인터페이스 (Function, Consumer 등)
SQL 기본 문법 (SELECT, WHERE, GROUP BY)
RDD 기초 문서 이해 권장

소요 시간: 약 25-30분

Spark SQL

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

Spark SQL은 SQL 문법으로 DataFrame을 쿼리할 수 있는 모듈

Catalyst Optimizer가 4단계(Analysis → Optimization → Planning → CodeGen)로 쿼리 최적화

AQE(Adaptive Query Execution)로 런타임 최적화 (Spark 3.0+)

DataFrame API와 SQL은 동일한 실행 엔진 사용, 성능 차이 없음

대상 독자: SQL에 익숙한 데이터 엔지니어 및 분석가

선수 지식:

표준 SQL 문법 (SELECT, JOIN, GROUP BY, Window 함수)
DataFrame과 Dataset 기본 이해

소요 시간: 약 25-30분

Spark SQL은 구조화된 데이터 처리를 위한 Spark 모듈입니다. SQL 쿼리와 DataFrame API를 모두 지원하며, 동일한 실행 엔진(Catalyst Optimizer)을 사용합니다.

Transformation과 Action

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

Transformation은 지연 평가(Lazy)되어 DAG에 추가만 됨

Action 호출 시 전체 DAG가 실행되어 Job 생성

Narrow(셔플 없음) vs Wide(셔플 발생) Transformation 구분이 성능 핵심

같은 DataFrame을 여러 번 사용하면 매번 재계산 → 캐싱 필요

대상 독자: Spark 연산의 실행 시점을 이해하고자 하는 개발자

선수 지식:

아키텍처 문서의 Job, Stage, Task 개념
Java Stream API의 지연 평가 개념

소요 시간: 약 25-30분

Spark의 모든 연산은 Transformation과 Action 두 가지로 분류됩니다. 이 구분을 이해하는 것이 Spark 프로그래밍의 핵심입니다.

파티셔닝과 셔플

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

파티션은 데이터의 논리적 분할 단위, 각 파티션이 하나의 Task로 처리

셔플은 파티션 간 데이터 재분배로 Spark에서 가장 비용이 높은 연산

권장 파티션 크기: 100~~200MB, 파티션 수 = 코어 수 x 2~~4

AQE(Spark 3.0+)가 런타임에 파티션 수 자동 조정

대상 독자: Spark 성능 튜닝을 시작하는 데이터 엔지니어

선수 지식:

아키텍처 문서의 Stage, Task 개념
Transformation과 Action의 Wide/Narrow 구분

소요 시간: 약 25-30분

파티셔닝은 Spark 성능의 핵심입니다. 데이터가 어떻게 분산되는지 이해하고 최적화하는 것이 대규모 데이터 처리의 관건입니다.

캐싱과 영속성

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

cache() = persist(MEMORY_ONLY), 여러 Action에서 재사용할 데이터 캐싱

Storage Level: MEMORY_ONLY(빠름), MEMORY_AND_DISK(안정), *_SER(메모리 절약)

캐시는 첫 Action 시 저장되고, unpersist()로 해제

체크포인트는 Lineage를 끊어 장애 복구와 긴 계보 문제 해결

대상 독자: 반복 연산 최적화가 필요한 데이터 엔지니어

선수 지식:

Transformation과 Action 지연 평가 이해
JVM 메모리 구조 기초

소요 시간: 약 25-30분

Spark의 인메모리 컴퓨팅 능력을 활용하여 중간 결과를 캐시하고 재사용하는 방법을 알아봅니다.

비유로 이해하는 캐싱#

개념	비유	핵심 아이디어
cache()	자주 쓰는 재료 냉장고 보관	매번 장 보러 가는 대신 냉장고에서 바로 꺼내 사용
persist()	보관 위치 선택	냉장고(메모리) vs 창고(디스크) vs 진공포장(직렬화)
MEMORY_ONLY	냉장 보관	빠르게 꺼내 쓰지만 공간 많이 차지
MEMORY_AND_DISK	냉장고 + 창고	냉장고 가득 차면 창고로 이동
직렬화 (_SER)	진공 포장	부피는 줄지만 사용 시 포장 해체 시간 필요
checkpoint	요리 중간 상태 사진 촬영	실수해도 사진 시점부터 다시 시작 가능
unpersist()	냉장고 정리	안 쓰는 재료 치워서 공간 확보

핵심 원리: 캐싱은 “계산 시간"과 “저장 공간"을 교환하는 것입니다. 자주 사용하는 데이터는 저장해두고, 한 번만 쓰는 데이터는 매번 계산하는 게 효율적입니다.

Structured Streaming

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

Structured Streaming은 스트림을 무한히 추가되는 테이블로 처리

배치와 동일한 DataFrame API 사용 (readStream/writeStream만 변경)

Output Mode: append(새 행), complete(전체), update(변경분)

Watermark로 늦게 도착하는 데이터(late data) 처리

대상 독자: 실시간 데이터 처리가 필요한 데이터 엔지니어

선수 지식:

DataFrame과 Dataset API
Kafka 기본 개념 (선택 사항)
이벤트 시간 vs 처리 시간 개념

소요 시간: 약 25-30분

Structured Streaming은 Spark의 스트림 처리 엔진입니다. 배치 처리와 동일한 DataFrame/Dataset API를 사용하여 실시간 데이터를 처리합니다.

MLlib

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

MLlib은 DataFrame 기반 분산 머신러닝 라이브러리 (spark.ml 패키지)

Pipeline으로 전처리 → 학습 → 예측 단계를 연결

Transformer(변환), Estimator(학습), Evaluator(평가) 패턴

CrossValidator/TrainValidationSplit로 하이퍼파라미터 튜닝

대상 독자: 대규모 데이터에서 머신러닝을 수행하려는 ML 엔지니어

선수 지식:

DataFrame과 Dataset API
머신러닝 기본 개념 (분류, 회귀, 클러스터링)
특성 공학(Feature Engineering) 기초

소요 시간: 약 25-30분

MLlib은 Spark의 분산 머신러닝 라이브러리입니다. 대규모 데이터셋에서 머신러닝 모델을 학습하고 예측할 수 있습니다.

비유로 이해하는 MLlib#

개념	비유	핵심 아이디어
Transformer	재료 손질사	원재료(데이터)를 조리 가능한 형태로 변환. 학습 없이 규칙대로 처리
Estimator	요리사	레시피(알고리즘)로 연습(학습)하여 실력(모델)을 갖춤
Model	숙련된 요리사	학습 완료된 상태. 새 재료가 와도 바로 요리(예측) 가능
Pipeline	조리 라인	재료 손질 → 양념 → 조리 → 플레이팅을 하나로 연결
Evaluator	음식 평론가	완성된 요리(모델)의 품질(정확도)을 평가
CrossValidator	맛 테스트 반복	여러 번 맛보고 가장 좋은 레시피(하이퍼파라미터) 선택
Feature Vector	표준화된 재료 목록	모든 재료를 동일한 형식(벡터)으로 정리

핵심 원리: MLlib은 “전처리 → 학습 → 예측 → 평가"의 반복 가능한 파이프라인을 구축하여, 대규모 데이터에서도 일관된 ML 워크플로우를 제공합니다.

성능 튜닝

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

튜닝 순서: 코드 최적화 → 데이터 구조 → 리소스 설정 → 세부 설정

핵심 전략: 셔플 최소화, 조기 필터링, Broadcast Join, 캐싱

Executor 권장: 코어당 5GB, 4~5코어가 최적

AQE + Kryo 직렬화 + 적절한 파티션 수가 기본 설정

대상 독자: 프로덕션 Spark 워크로드를 최적화하는 시니어 엔지니어

선수 지식:

파티셔닝과 셔플 이해
캐싱과 영속성 이해
Spark UI 기본 사용법

소요 시간: 약 25-30분

Spark 애플리케이션의 성능을 최적화하는 전략과 구체적인 설정 방법을 알아봅니다.

배포와 클러스터 관리

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

클러스터 매니저: Local(개발), Standalone(소규모), YARN(Hadoop), K8s(클라우드)

배포 모드: Client(디버깅), Cluster(프로덕션)

동적 할당으로 워크로드에 따라 Executor 자동 조절

Fat JAR로 의존성 포함하여 spark-submit 실행

대상 독자: Spark 클러스터를 운영하는 DevOps/플랫폼 엔지니어

선수 지식:

아키텍처 문서의 Driver/Executor 개념
Docker/Kubernetes 기초 (K8s 배포 시)
Hadoop YARN 기초 (YARN 배포 시)

소요 시간: 약 25-30분

Spark 애플리케이션을 다양한 클러스터 환경에 배포하고 관리하는 방법을 알아봅니다.

비유로 이해하는 배포#

개념	비유	핵심 아이디어
Local 모드	1인 식당 운영	주방장(Driver)이 혼자 요리(Executor 역할)도 함. 빠른 테스트용
Standalone	소규모 자체 주방	직접 관리하는 주방. 간단하지만 확장에 한계
YARN	대형 호텔 총괄 주방	호텔(Hadoop) 전체 리소스를 관리하는 주방장이 따로 있음
Kubernetes	푸드코트 공유 주방	컨테이너 단위로 공간 임대. 유연하게 확장/축소 가능
Client 모드	주방장이 손님 옆에서 조리	바로 피드백 가능하지만, 손님(클라이언트)이 떠나면 요리 중단
Cluster 모드	주방장이 백주방에서 조리	손님이 떠나도 요리 계속. 완성되면 전달
동적 할당	바쁠 때만 알바생 추가	주문량(워크로드)에 따라 인력 자동 조절

핵심 원리: 배포 환경 선택은 “기존 인프라”, “확장 요구”, “운영 복잡도"의 균형점을 찾는 것입니다.

Spark Connect

d8lzz1gpw@mozmail.com (kimbenji) — Thu, 15 Jan 2026 00:00:00 +0000

TL;DR

Spark Connect는 gRPC 기반 클라이언트-서버 분리 아키텍처 (Spark 3.4+)

경량 클라이언트(~10MB)로 원격 Spark 클러스터 접근

SparkSession.builder().remote("sc://host:port") 로 연결

DataFrame API 완전 지원, RDD API/Streaming은 제한적

대상 독자: 마이크로서비스 환경에서 Spark를 사용하려는 개발자

선수 지식:

아키텍처 문서의 Driver/Executor 개념
gRPC 기본 개념 (선택 사항)
DataFrame과 Dataset API

소요 시간: 약 25-30분

Spark Connect는 Spark 3.4에서 도입된 새로운 클라이언트-서버 아키텍처입니다. 씬 클라이언트(Thin Client)로 원격 Spark 클러스터에 연결할 수 있습니다.

비유로 이해하는 Spark Connect#

개념	비유	핵심 아이디어
기존 방식	자가용 직접 운전	내 차(Driver)에 모든 장비 실어서 직접 운전. 차가 고장나면 여행 중단
Spark Connect	택시 호출	스마트폰(Thin Client)으로 택시(서버) 호출. 기사(Driver)가 목적지까지 데려다줌
gRPC	무전기 통신	표준화된 통신 규약으로 어떤 택시든 같은 방식으로 호출
Thin Client	가벼운 스마트폰 앱	목적지만 입력하면 됨. 내비게이션은 택시 기사가 알아서
서버 업그레이드	택시 회사 차량 교체	앱 업데이트 없이 새 차량(Spark 버전) 이용 가능

핵심 원리: Spark Connect는 “무거운 연산 로직"을 클라이언트에서 서버로 분리합니다. 클라이언트는 “무엇을 원하는지"만 전달하고, 서버가 “어떻게 할지"를 결정합니다.