아파치 스파크(Apache Spark)는 2009년 버클리대학교에서 시작한 이후 이제는 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크로 자리 잡았다. 스파크는 다양한 방법으로 배포할 수 있고 여러 프로그래밍 언어용 네이티브 바인딩을 제공한다. SQL과 스트리밍 데이터, 머신러닝, 그래프를 지원하는 것도 강점이다.
현재 은행과 통신, 게임, 공공 등 다양한 업종에서 활용하고 있고, 애플, 페이스북, IBM, 마이크로소프트 등 유명 IT 업체도 아파치 스파크를 사용한다. 아파치 스파크의 특징과 머신러닝 활용 가능성을 살펴보고, 입문자를 위한 간단한 단계별 가이드도 제시한다.