ゲスト執筆者のピーター・シュランプはビッグデータ分析プラットフォームのプロバイダ、Platforaの副社長である。

Apache Sparkはあっという間にビッグデータアナリティクスのコアテクノロジになった。しかしこの事は他の多くの技術でおこったよう、同じくあっという間にフェードアウトしてしまわないかという懸念もある。だが私は逆に、Sparkは始まったばかりだと信じている。

ここ数年で、Hadoopの爆発的普及とビッグデータが大きなものになったおかげでいくつかの事が明らかになった。まずHadoop Distributed ファイルシステム(HDFS)がデータのストレージとして適していること、そしてYARN(リソースの配備および管理)がビッグデータのフレームワークとして選ばれていることだ。

そして第三に、最も重要なことだろうがあらゆる問題に適した唯一つのフレームワークは無いということだ。マップリデュースは驚くべき技術ではあるが、全ての問題に対する回答とはなっていない。

しかしながらSparkはビッグデータの主な問題の多くにおいてソリューションとなっており、この事から驚くべき勢いで成長してきている。弊社PlatforaがSparkに掛けている理由のひとつだ。我々のビッグデータディスカバリプラットフォームでは、データの処理、分析にApache Sparkの技術が基礎となっている。我々が選ぶ理由は以下の通りだ。

Sparkの時代がやって来ようとしているかもしれない

Hadoopに依存する企業は重要な問題を解決するために様々なインフラやプロセスを必要とする。データの下処理、記述的分析、検索の他、マシンラーニングやグラフ処理などの能力も必要になる。

スキルやその他のリソースを活用するための一連のツールが必要となり、今日のところまではあらゆるカテゴリーの問題に対応できる単一の処理フレームワークは存在しない。

しかしSparkにはビッグデータに取り組む企業にとって、6つの分野で利点がある。

先進的な分析

多くの革新的な企業はデータ分析能力を向上する術を模索している。しかしながら最近NYで行われたビッグデータのイベントでは、20%の企業だけが先進的な分析を社内で採用しているという。

残りの80%はデータの準備処理と基本的な分析をするのがやっとであり、数えるほどのデータサイエンティストはその時間のほとんどを記述的分析の実装と管理に費やしているという。

Sparkを使えば先進的な分析機能を即座に提供できる。アクセラレーテッドクエリーのためのツール、マシンラーニングのためのライブラリ、グラフ処理エンジンにストリーミング分析のエンジンが含まれている。マップリデュースを使ってこれらの分析を実装する(めったにいないレベルのデータサイエンティストでもほぼ不可能だが)代わりに、Sparkではより早く簡単に使えるビルド済みのライブラリが用意されている。

この事により、データサイエンティストはデータの準備処理や品質管理といった事の先のタスクを手がけることが出来る。分析結果の解釈が正しいことの検証もSparkでなら可能だ。

単純さ

Hadoopが出てきた頃は、それ自体の使いづらさだけでなくそれを使える人がほとんどいない事も槍玉に挙げられていた。それからより簡単に、高機能になってはきているが、問題は解決したとはいえる状態ではない。

Javaやマップリデュースプログラミングパターンなど様々な複雑なことをユーザーに理解してもらう代わりに、Sparkはデータベースとスクリプト(PythonかScala)の知識があれば使えるように出来ている。

企業にとってデータとツールの使い方を知っている人を探す方がよっぽど簡単なことであり、ベンダーにとってもSparkを使うことで企業により早くイノベーションを起こすことが出来る。

複数の言語

SQLはデータ分析全般に使えるツールではない。解答にいたるためにより柔軟性が求められ、データをまとめて分析フレームワークに投入するためのより多くの選択肢が必要だ。

SparkではSQLオンリーの考え方を捨て、データを分析であれなんであれ、より早くエレガントな方法で投入できる選択肢を提供している。

処理速度

ビジネスのテンポは加速し続ける以上、結果にリアルタイム性は求められる。

Sparkはメモリ内で並列処理を行い、ディスクアクセスを必要とするその他のアプローチの何倍も早く結果を返してくる。結果の即時性によりビジネスプロセスおよび分析を著しく遅くしている遅延が解消される。

ベンダーもSparkを使ってアプリケーションを構築しだしており、アナリストのワークフローに劇的な改善が見られることになるだろう。回答を得るまでの時間が短くなることで、アナリストたちはより正確、完全な答えを得ることが出来るようになる。

Hadoopベンダーに依存しない

多くのHadoopのディストリビューションではSparkがサポートされている。これはベンダーニュートラルなものであり、ユーザーは特定のベンダーに縛られることは無い。

Sparkはオープンソースであるため、企業はHadoopのベンダーを他所に代えたときの事を気にせずにSparkベースの分析インフラを構築できる。

急速な普及

Apache Sparkはきわめて短い間に勢いを得た。2014年後半、Daytona Gray Sort 100TBベンチマークで世界記録をとった。

サービスなり製品なりが短い期間で注目を集めれば、たいていの場合非難中傷が殺到することが多い。

しかしTypesafeによる最近のアンケートによれば、Sparkの注目は上昇し続けているという。2100を超える開発者達の回答によれば、彼らのうち71%はSparkフレームワークを触った経験があるという。今日では大小500社を超える企業に浸透しており、プロジェクトには大量の開発者とリソースが投入されている。

Sparkはまだビッグデータ分析で基本となるテクノロジーとして、その足場を固めてないが、着実にその道を歩んでいる。言い換えれば、Sparkはまだ始まったばかりだ。

トップ画像提供:Chris Young

Pocket