米Amazon.comは2月24日(現地時間)、同社クラウドサービス「Amazon Web Services (AWS)」のPublic Data Setsに新しいデータセットを追加したと発表した。
AWSはAmazon.comのインフラを利用して提供されているサービスで、クラウド内での仮想OSインスタンスやアプリケーションの実行が可能なほか、使用量に応じて料金が請求されるユーティリティコンピューティング型の料金体系を採用する点で特徴がある。Public Data Setsは国勢調査や公共データベースなど、普遍的に参照可能なデータ群を共用データベースとしてAWSユーザーに対してAmazon.comが提供するもので、通常であれば毎回インストールや転送の作業が発生するようなデータをあらかじめクラウド側で保持し、簡単に利用できるようにする狙いがある。
今回新たに追加されたのは航空や列車、ハイウェイの交通情報を記録したBureau of Transportation Services (BTS)の交通情報データベースに、Wikipediaのデータから派生した事典データベースのDBpedia Knowledge Base、Freebase Data Dump、Wikipedia Extraction (WEX)の計4点。また以前に収録されていたNCBIのGenBankのゲノムデータがより拡充されてアップデートされている。
利用方法はAmazon EC2でインスタンスをセットアップし、Amazon Elastic Block Store (EBS)領域を確保して対象となるデータセットのスナップショットIDを指定する。これで登録されたデータにEC2上のアプリケーションからアクセスできるようになる。データベースの利用は無料。Amazon.comでは同社が提供する基本データセットのほか、EC2ユーザー自らが有用だと考える共用可能なデータがあった場合、データセットへの登録が可能だと説明する。データセットへと登録することで、特別な転送作業なしに異なるアプリケーション間でデータが共用できる。