Apache Spark 학습을 위한 공식 문서와 추가 자료를 안내합니다.
TL;DR
- 공식 문서: spark.apache.org/docs/latest - 가장 정확한 최신 정보
- Java API: Javadoc - Dataset, SparkSession, functions 클래스 참조
- 학습 추천: Databricks Academy(공식), Baeldung(Java 개발자용)
- 입문서 추천: “Learning Spark, 2nd Edition”, “Spark: The Definitive Guide”
- 커뮤니티: Stack Overflow
apache-spark태그, GitHub Issues
공식 문서#
Apache Spark 공식 사이트
- Spark 공식 사이트 — 다운로드, 뉴스, 릴리즈 정보
- Spark 3.5 문서 — 현재 안정 버전 문서
- Spark 최신 문서 — 최신 버전 문서
프로그래밍 가이드
- RDD Programming Guide — RDD API 상세 설명
- Spark SQL, DataFrames and Datasets Guide — SQL과 DataFrame API
- Structured Streaming Programming Guide — 실시간 스트림 처리
- MLlib Guide — 머신러닝 라이브러리
- GraphX Programming Guide — 그래프 처리
운영 가이드
- Cluster Overview — 클러스터 아키텍처
- Tuning Guide — 성능 튜닝
- Monitoring Guide — 모니터링
- Configuration — 설정 옵션
- Security — 보안 설정
클러스터 매니저별 가이드
공식 문서 핵심 포인트
- 시작점: Spark 3.5 문서 또는 latest 문서
- 프로그래밍: SQL/DataFrame 가이드가 가장 많이 사용됨
- 운영: Tuning Guide와 Monitoring Guide 필수 숙지
- 클러스터: 환경에 따라 YARN, Kubernetes, Standalone 중 선택
API 문서#
Java API
- Spark Java API (Javadoc) — Java API 레퍼런스
- Dataset
— DataFrame 클래스
- SparkSession — 진입점 클래스
- functions — 내장 함수
Scala API
API 문서 핵심 포인트
- Java 개발자 필수: Dataset, SparkSession, functions 클래스
- functions 클래스: 모든 내장 함수 (col, lit, when, sum, avg 등) 포함
- Scala API도 참조하면 더 많은 예제와 설명 확인 가능
추가 학습 자료#
온라인 강좌
- Databricks Academy — Spark 공동 창시자 회사의 공식 교육
- Coursera: Big Data Analysis with Scala and Spark — EPFL의 Scala/Spark 강좌
- edX: Big Data Analytics Using Spark — UC San Diego 강좌
블로그 및 문서
- Databricks Blog — Spark 최신 기술과 사례
- Spark By Examples — Java, Scala, Python 예제
- Baeldung Spark Tutorials — Java 개발자를 위한 Spark 튜토리얼
커뮤니티
- Stack Overflow - apache-spark — Q&A
- Spark Mailing Lists — 개발자 메일링 리스트
- GitHub - apache/spark — 소스 코드와 이슈 트래커
추가 학습 자료 핵심 포인트
- 공식 교육: Databricks Academy - 체계적인 커리큘럼 제공
- Java 개발자: Baeldung Spark Tutorials 추천
- 실무 예제: Spark By Examples - 다양한 언어별 코드 예제
- 문제 해결: Stack Overflow
apache-spark태그 검색
관련 기술 문서#
데이터 소스
- Kafka — 스트리밍 데이터 소스
- HDFS — 분산 파일 시스템
- Parquet — 컬럼 기반 포맷
- Delta Lake — ACID 트랜잭션 지원 저장소
클러스터 환경
- Hadoop YARN — 리소스 관리
- Kubernetes — 컨테이너 오케스트레이션
클라우드 서비스
- AWS EMR — AWS 관리형 Spark
- Google Dataproc — GCP 관리형 Spark
- Azure HDInsight — Azure 관리형 Hadoop/Spark
- Databricks — Unified Data Analytics Platform
관련 기술 문서 핵심 포인트
- 데이터 소스: Kafka(스트리밍), HDFS(분산 저장), Parquet(컬럼 포맷), Delta Lake(ACID)
- 클러스터: YARN(Hadoop 환경), Kubernetes(컨테이너)
- 클라우드: AWS EMR, GCP Dataproc, Azure HDInsight, Databricks
버전별 릴리즈 노트#
성능 벤치마크#
- TPC-DS Benchmark — 결정 지원 시스템 벤치마크
- Spark SQL Performance Tests — Databricks 성능 테스트 도구
참고 도서#
입문서
- Learning Spark, 2nd Edition (O’Reilly) — Jules S. Damji 외
- Spark: The Definitive Guide (O’Reilly) — Bill Chambers, Matei Zaharia
심화
- High Performance Spark (O’Reilly) — Holden Karau, Rachel Warren
- Spark in Action, 2nd Edition (Manning) — Jean-Georges Perrin
참고 도서 핵심 포인트
- 입문 추천: “Learning Spark, 2nd Edition” - 최신 Spark 3.x 기준 종합 입문서
- 심화 추천: “High Performance Spark” - 성능 최적화와 내부 구조 이해
- 실무 지향: “Spark in Action, 2nd Edition” - 실무 예제 중심