Apache Spark 학습을 위한 공식 문서와 추가 자료를 안내합니다.

TL;DR
  • 공식 문서: spark.apache.org/docs/latest - 가장 정확한 최신 정보
  • Java API: Javadoc - Dataset, SparkSession, functions 클래스 참조
  • 학습 추천: Databricks Academy(공식), Baeldung(Java 개발자용)
  • 입문서 추천: “Learning Spark, 2nd Edition”, “Spark: The Definitive Guide”
  • 커뮤니티: Stack Overflow apache-spark 태그, GitHub Issues

공식 문서#

Apache Spark 공식 사이트

프로그래밍 가이드

운영 가이드

클러스터 매니저별 가이드

공식 문서 핵심 포인트
  • 시작점: Spark 3.5 문서 또는 latest 문서
  • 프로그래밍: SQL/DataFrame 가이드가 가장 많이 사용됨
  • 운영: Tuning Guide와 Monitoring Guide 필수 숙지
  • 클러스터: 환경에 따라 YARN, Kubernetes, Standalone 중 선택

API 문서#

Java API

Scala API

API 문서 핵심 포인트
  • Java 개발자 필수: Dataset, SparkSession, functions 클래스
  • functions 클래스: 모든 내장 함수 (col, lit, when, sum, avg 등) 포함
  • Scala API도 참조하면 더 많은 예제와 설명 확인 가능

추가 학습 자료#

온라인 강좌

블로그 및 문서

커뮤니티

추가 학습 자료 핵심 포인트
  • 공식 교육: Databricks Academy - 체계적인 커리큘럼 제공
  • Java 개발자: Baeldung Spark Tutorials 추천
  • 실무 예제: Spark By Examples - 다양한 언어별 코드 예제
  • 문제 해결: Stack Overflow apache-spark 태그 검색

관련 기술 문서#

데이터 소스

  • Kafka — 스트리밍 데이터 소스
  • HDFS — 분산 파일 시스템
  • Parquet — 컬럼 기반 포맷
  • Delta Lake — ACID 트랜잭션 지원 저장소

클러스터 환경

클라우드 서비스

관련 기술 문서 핵심 포인트
  • 데이터 소스: Kafka(스트리밍), HDFS(분산 저장), Parquet(컬럼 포맷), Delta Lake(ACID)
  • 클러스터: YARN(Hadoop 환경), Kubernetes(컨테이너)
  • 클라우드: AWS EMR, GCP Dataproc, Azure HDInsight, Databricks

버전별 릴리즈 노트#

성능 벤치마크#

참고 도서#

입문서

  • Learning Spark, 2nd Edition (O’Reilly) — Jules S. Damji 외
  • Spark: The Definitive Guide (O’Reilly) — Bill Chambers, Matei Zaharia

심화

  • High Performance Spark (O’Reilly) — Holden Karau, Rachel Warren
  • Spark in Action, 2nd Edition (Manning) — Jean-Georges Perrin
참고 도서 핵심 포인트
  • 입문 추천: “Learning Spark, 2nd Edition” - 최신 Spark 3.x 기준 종합 입문서
  • 심화 추천: “High Performance Spark” - 성능 최적화와 내부 구조 이해
  • 실무 지향: “Spark in Action, 2nd Edition” - 실무 예제 중심