Project BlackboxからSun Modular Datacenterへ

6月3日、カリフォルニア州サンフランシスコで開催されている2009 JavaOne Conferenceの場において、Internet ArchiveのBrewster Kahle氏とSunのIntegration Enginner ManagerであるRuss Rinfret氏は、Sunの提供しているコンテナ型データセンターソリューション「Sun Modular Datacenter(以下、Sun MD)」によるWeb上のマルチメディアデータのアーカイビングについて説明した。

Brewster Kahle氏(左)とRuss Rinfret氏(右)

Internet Archiveは、インターネット上で公開されているWebページやマルチメディアデータのアーカイブを運営している団体である。Internet Archiveの運営するWayback MachineではWeb上に存在したデータのある時点でのスナップショットに(たとえその情報がすでにWeb上に存在しなくても)アクセスすることができる。

しかし、現在インターネット上に公開されるデータ量は驚くべき速度で増加し続けている。Wayback Machineが保持するデータ量も月に20テラバイト以上の割合で増加し続けているとのことで、それに対応するために必要となるストレージのスケールアップが、通常のデータセンター(以下、DC)では困難になりつつあったという。そこに登場したのはSun MDだ。Sunの協力によってWayback MachineのバックエンドにSun MDが採用され、アーカイブの増加に適切に対応できるようになったとのことだ。

Sun MDは輸送コンテナの中にサーバやストレージ、ネットワーク機器、空調設備や水冷装置などデータセンターとしてのあらゆる機能を詰め込んだ、移動型のデータセンタープロダクト。2006年より「Project Blackbox」というコード名でコンセプトモデルが公開され、2008年にSun MDとして正式にリリースされた。外観や内部の様子などは2007年のJavaOneレポートや、日本に上陸した際のレポートで見ることができる。

コンテナのなかにあらゆるネットワーク関連デバイスとSunの技術を詰め込んだ"ミニデータセンター"とも言えるSun MD

ペタバイト級のデータアーカイブを支えるSun MD

Kahle氏によれば、現在Wayback Machineには約1,500億ページ分のアーカイブデータが保存されており、毎秒約500回のリクエストがあるという。Webページ以外には書籍100万冊分、動画10万本分、音声20万本分のマルチメディアデータがあり、トータルのデータサイズは圧縮された状態でも2ペタバイトになるとのこと。

今回導入されたSun MDにはクアッドコアCPUと48テラバイト(1TバイトのHDDを48台)のストレージを搭載したSun Fire X4500が63台設置されている。したがってストレージサイズの合計は3ペタバイト以上であり、現在のWayback Machineの全アーカイブを1台のSun DCでカバーできているとのことだ。ちなみにOSはSolaris 10、ファイルシステムはZFSが採用されている。

現時点では十分なサイズである3ペタバイトのストレージも、当然ながら将来的には足りなくなる時期がくるだろう。そのときにそのようにスケールアップを実施するのかという質問に対して、Kahle氏は次のように答えている。

「データ量も増えますが、ハードウェアの性能も向上します。またSSDのような新しいデバイスも登場してます。したがって今のコンテナのスペースだけでも、ある程度のスケールアップはドライブの入れ替えだけで対応できると考えています」

Internat Archiveではこれまでも、1つのハードウェアの寿命を3年と考えて、その時期を迎える前に全データを新しいストレージに移す作業を行ってきたという。そのノウハウによりデバイスの入れ替えは問題なく行うことができると同氏は言う。

また、よりフレキシブルなスケールアップのためにSun Cloudなどを利用する予定はあるかという質問に対しては、「今のところ考えていない」との答えだった。Internet Archiveのようなアーカイブとしての利用方法の場合、ラックサーバによる管理の方が手軽だというのがその理由だ。特にSun MDは物理的に1カ所での作業ですべてが行えるため、緊急時にも対応しやすいというメリットがある。

「私達はSun MDをサーバマシンの集合体ではなく、全体で"巨大な1台のマシン"とみなしています。Sun MDはコンテナの中で全てが完結していて、完全に1台のマシンのように管理することができるからです。これはクラウドを使うメリットよりも大きな魅力なのです」(Kahle氏)

Internet Archiveが活動を開始したのが1996年のと。それ以来インターネット上のさまざまなデータを蓄積し続けてきたそうだが、仕様の変更などにより古くなってしまったフォーマットにはどのように対処しているのだろうか。そのKahle氏は次のように説明してくれた。

「まずWebページに関してはこれまでそれほど大きな変更が加えられたことはなく、特に問題は発生していません。しかし動画は違います。これまでにも主流であるフォーマットが何度も変更されてきました。我々はその度にすべての動画データを変換し直すようにしています」

つまり、我々は常に最新のプレイヤーで過去の動画を見ることができるということである。Kahle氏は、Internet Archiveの目標はインターネット上にある情報を蓄積し、電子資料として公開することで、巨大な電子の図書館のようなものを作ることだと語っている。そのために「Sunがハードウェアを提供し、我々がパワーを提供している」とKahle氏のことだ。

なお、Sun Modular Datacenterは2008年10月より日本でも販売を開始している。立地的な制約の大きい日本において、迅速なDCの展開に一役買うものとして期待されている。

セッションは囲み取材形式で行われ、質疑応答だけでなく積極的なディスカッションが繰り広げられた