참고 자료

Apache Spark 학습을 위한 공식 문서와 추가 자료를 안내합니다.

TL;DR
공식 문서: spark.apache.org/docs/latest - 가장 정확한 최신 정보
Java API: Javadoc - Dataset, SparkSession, functions 클래스 참조
학습 추천: Databricks Academy(공식), Baeldung(Java 개발자용)
입문서 추천: “Learning Spark, 2nd Edition”, “Spark: The Definitive Guide”
커뮤니티: Stack Overflow apache-spark 태그, GitHub Issues

공식 문서#

Apache Spark 공식 사이트

Spark 공식 사이트 — 다운로드, 뉴스, 릴리즈 정보
Spark 3.5 문서 — 현재 안정 버전 문서
Spark 최신 문서 — 최신 버전 문서

프로그래밍 가이드

RDD Programming Guide — RDD API 상세 설명
Spark SQL, DataFrames and Datasets Guide — SQL과 DataFrame API
Structured Streaming Programming Guide — 실시간 스트림 처리
MLlib Guide — 머신러닝 라이브러리
GraphX Programming Guide — 그래프 처리

운영 가이드

Cluster Overview — 클러스터 아키텍처
Tuning Guide — 성능 튜닝
Monitoring Guide — 모니터링
Configuration — 설정 옵션
Security — 보안 설정

클러스터 매니저별 가이드

공식 문서 핵심 포인트
시작점: Spark 3.5 문서 또는 latest 문서
프로그래밍: SQL/DataFrame 가이드가 가장 많이 사용됨
운영: Tuning Guide와 Monitoring Guide 필수 숙지
클러스터: 환경에 따라 YARN, Kubernetes, Standalone 중 선택

API 문서#

Java API

Spark Java API (Javadoc) — Java API 레퍼런스
Dataset — DataFrame 클래스
SparkSession — 진입점 클래스
functions — 내장 함수

Scala API

Spark Scala API (Scaladoc)

API 문서 핵심 포인트
Java 개발자 필수: Dataset, SparkSession, functions 클래스
functions 클래스: 모든 내장 함수 (col, lit, when, sum, avg 등) 포함
Scala API도 참조하면 더 많은 예제와 설명 확인 가능

추가 학습 자료#

온라인 강좌

Databricks Academy — Spark 공동 창시자 회사의 공식 교육
Coursera: Big Data Analysis with Scala and Spark — EPFL의 Scala/Spark 강좌
edX: Big Data Analytics Using Spark — UC San Diego 강좌

블로그 및 문서

Databricks Blog — Spark 최신 기술과 사례
Spark By Examples — Java, Scala, Python 예제
Baeldung Spark Tutorials — Java 개발자를 위한 Spark 튜토리얼

커뮤니티

Stack Overflow - apache-spark — Q&A
Spark Mailing Lists — 개발자 메일링 리스트
GitHub - apache/spark — 소스 코드와 이슈 트래커

추가 학습 자료 핵심 포인트
공식 교육: Databricks Academy - 체계적인 커리큘럼 제공
Java 개발자: Baeldung Spark Tutorials 추천
실무 예제: Spark By Examples - 다양한 언어별 코드 예제
문제 해결: Stack Overflow apache-spark 태그 검색

버전별 릴리즈 노트#

성능 벤치마크#

TPC-DS Benchmark — 결정 지원 시스템 벤치마크
Spark SQL Performance Tests — Databricks 성능 테스트 도구

참고 도서#

입문서

Learning Spark, 2nd Edition (O’Reilly) — Jules S. Damji 외
Spark: The Definitive Guide (O’Reilly) — Bill Chambers, Matei Zaharia

심화

High Performance Spark (O’Reilly) — Holden Karau, Rachel Warren
Spark in Action, 2nd Edition (Manning) — Jean-Georges Perrin

참고 도서 핵심 포인트
입문 추천: “Learning Spark, 2nd Edition” - 최신 Spark 3.x 기준 종합 입문서
심화 추천: “High Performance Spark” - 성능 최적화와 내부 구조 이해
실무 지향: “Spark in Action, 2nd Edition” - 실무 예제 중심

공식 문서#

API 문서#

추가 학습 자료#

관련 기술 문서#

버전별 릴리즈 노트#

성능 벤치마크#

참고 도서#