Pocket

誰もがビッグデータのことを口にするが、どの程度実際に浸透しているかについてはひどく誇張されている部分があるかも知れない。統計によれば、ビッグデータは確かに需要があるように見える。しかし別のソースによると、企業はまだ導入には早々だと感じている事が読み取れる。

ビッグデータの普及率は幻想じみたものなのかも知れないが、そうでないものの1つがオープンソースのサーバー設定自動化ツールの「Puppet」だ。これは「DevOps」(開発者がITインフラの運用にも関わることでアプリケーションの導入・監視を効率的に行う)の基礎となるフレームワークの1つだ。

ダイスによる統計から分かることは、Puppetはスケールの大きなITインフラを容易に管理できる手段として、企業に爆発的に普及している。これは取り組んでいる問題がビッグデータであろうと、単に沢山のサーバーを運営している場合であろうと当てはまる。

Puppetが状況をリードする

テクノロジーのプロフェッショナル達から注目を集めているダイスは、テクノロジーの隆盛を測るバロメータとして悪い選択ではない。ダイスはグーグル検索や他の要素から予測するのではなく、毎日Dice.comに寄せられる8万前後の就職情報で求められているスキルを分析し、その中から前年と比べて需要が上がったもののTop10を割り出す。

最新のダイスの報告によれば、Puppetがリードしている。以下のチャートを見て欲しい。

MTE5NTU2MzI1MTAxMTc2MzMx
「急成長している技術スキル(Source: Dice.com)」

これらの数字から2つの事が浮かび上がってくる。

1.ビッグデータおよびその関連技術が話題になってきているのと同時に、旧来のITマネジメントも変わらず非常に注目を集め続けている。その理由として….

2.Puppetがビッグデータを現実のものにしてくれる。これらデータを支えるのはサーバーであり、サーバーは管理されなければならない。Puppetは大規模なインフラの管理を簡単にしてくれるものであり、既にBigtopの様なHadoop関連の管理ツールの中核になっている。

ビッグデータのオペレーションであろうがなかろうが、企業は管理の自動化の道を選ぶか、さもなくば絶滅を選ぶかしかないという事に気付き始めている。DevOpsのプロ、シーン・キャロランは「シェルスクリプトは継続的(ソフトウェア)デリバリーの時代に適合しない」と、Twitterで述べた。PuppetにはChef、Ansible、Saltといった手強い競争相手がいるものの、今の所マーケットリーダーだ。

Puppet LabsのCEOであり、創業者でもあるルーク・カニーズに、データについての考え方を質問した所、以下の回答が得られた。

Puppetの立ち位置である管理の自動化は、その他のものと比べると大きく違うので比較することは難しい。企業は長年データベースに関わってきていたため、NoSQLの普及についてはその歴史によって進行し、あるいは阻害されてきた。基本的には既存のものの入れ替えビジネスだ。

Puppetの場合、ニーズのギャップを埋める作業になる。Puppetを導入する人々の殆どは手作業やスクリプトによる作業から、幅広いコミュニティとエコシステムを有した業界標準の自動化へのシフトを望む人たちだ。彼らが自動化を行うにあたって、過去に行っていた何かを止めなければならないということはなく、それまで使っていたスキルが役に立たなくなるという事もない。文化的に受け入れやすいだろう。現在、彼らは(管理に)忙殺されており、この状況をどうにか解決しなければならない事を理解している。Puppetはこれまでやっていた事を更に上手くやる為のものというよりは、根本的なニーズを埋めるためのものだ。

カニーズはPuppetがホットだと言える幾つかの理由を挙げてくれたが、だからといってこれはビッグデータよりも大きな話題になるのだろうか?

Big DataにおけるPuppetの不利な状況

Puppetの急成長の見方の1つに、この数字の伸びはその他の成熟したマーケットとの相対的なものでしかないという事がある。コンサルタントのクリス・バイタートはTwitterで次のような投稿をしている。「設定管理ツールの市場はまだ未成熟であり、伸び代がまだまだある分成長も早い」 ダイスのリストに見られる数字は、Puppetの急成長は、単に規模の小さなマーケットでの出来事に過ぎないことを表しているのかも知れない。

また、ダイスとIndeedの就活データが一致しているとも限らない。

Indeedは1000以上の就活サイトのデータをカバーしており、その中にはダイスも含まれている。ということは、職業のトレンド分析の為のデータもはるかに多いということだ。Indeedによれば、実際の求人の数では、ビッグデータとHadoopが、Puppetよりもずっと多いという。

MTIzMDQ5NjY1MTUwNjgyNjM2
「Indeed.comにおけるジョブトレンド[求人数](Source: Indeed.com)」

また、まさにダイスが指標としている相対的な成長率においても、IndeedではHadoopとNoSQLが他を大きくリードしている。

1
「Indeed.comにおけるジョブトレンド[成長率](Source: Indeed.com)」

しかしこれで全てが明らかになったわけではない。例えばHadoop単一のプロダクトではなく、Hive(分散ストレージに蓄積されてる巨大なデータセットのクエリー、マネジメントを行う)、Hbase(キー・バリューデータストア)、Pig(データ解析を行うプラットフォーム)や、その他の拡張を続けているテクノロジーからなるエコシステムだ。

NoSQLについても同じことが言える。NoSQLデータベース同士は、似通った点よりも異なる点のほうが目立つ。ドキュメントデータベースとキー・バリュー・データストアは大きく異なる。一般的なNoSQLデータベースへのジョブ投入では、企業は何が必要なのかをよく知らない。この事はビッグデータの専門技術を要求する他のことでも当てはまる。

この点が重要なところである。

未だ求めているものが見つからない

ビッグデータを扱う企業は、成功するために何をやらなければいけないのかについてきちんと分かっていない。前回書いた通り、ガートナーのデータがこの点を明らかにしている:全ての人々はビッグデータで何かをする必要がある事は理解しているが、どの様に何をするのかについてはよく分かっていないままだ。

451 Researchのアナリスト、マイケル・コートによるビッグデータ関連のストレージの使用について詳細な分析が示すように、実際のビッグデータの普及率が伸びない為、メディアの動きも鈍いが、これは驚くことではない。

MTI0NTgzODQxMjA4NzkwNTcw
「ビッグデータはコア・インフラにおいてはまだ大きな影響を与えていない(Source: 451 Research)」

未だ彼ら企業がビッグデータの領域で手探り状態であったとしても、これまで以上にインフラを効率的に管理する事のニーズの高まりは分かっている。Puppetはこのインフラ管理をどうやって解決するかの手段を提供するものだ。

ダイスとIndeedとの間にある見掛け上のデータの不整合は、単にビッグデータ関連の求人情報のほとんどが、意味する処が不明瞭であったり、話題ばかりが先行している処があるという事から簡単に説明が付くと思う。 企業はビッグデータを使って何か意味のあることをする必要がある事は分かっていつつも、自分たちが何をするべきかを理解しないまま、色々試そうとしている。

もし彼ら企業がPuppetの専門家を探しており、五万とあるサーバーの管理をどうにかしないといけないというニーズをきちんと理解しているのであれば、これらサーバーは究極的には「ビッグデータ」と言えるのである。名前はどうであれ、これらは管理されなければならない。

トップ画像提供:Shutterstock

Pocket