SparkがApacheのTLPに - 高速さが売りの分散データ処理環境

Apache Spark is a fast and general engine for large-scale data processing.

Apache Software Foundationブログに掲載された記事「The Apache Software Foundation Announces Apache Spark as a Top-Level Project」が、「Apache Spark」をトップレベルプロジェクトとして認めたことを伝えた。Webサイトは「Apache Spark - Lightning-Fast Cluster Computing」にあり、すでにドキュメントを含めて豊富な情報がまとまっている。

「Apache Spark」はデータの分散処理を実現するためのプラットフォームでありまたそのエンジンの実装系。ソフトウェアの種類としてはHadoopに近い。実装にはScalaが使われている。Hadoopと競合するソフトウェアというよりも、Hadoopで処理するデータのうち、すべてがオンメモリで処理可能でしかも繰り返し使われるようなケースで処理が高速になるという類いのソフトウェアといえる。

「Apache Spark」ではHadoopよりも処理が高速であることを特徴として謳っており、WebサイトにはHadoop MapReduceの100倍以上高速、ディスクにおいても10倍以上高速であると説明がある。利用するためのプログラミング言語としてはScala以外にもJavaやPythonを選択できる。