ヒトゲノム解析に関する世界的なレベルでの先端研究を実践する、東京大学医科学研究所 ヒトゲノム解析センター。医学、生物学研究にとって欠くべからざるプロジェクトを推進する同センターでは、情報科学とスーパーコンピューターを利用した高度な解析が日々行われています。とりわけ、近年スーパーコンピューターによるゲノム解析によって飛躍的に加速している研究分野が、がん研究です。
この研究分野の発展をさらに加速するためには、さまざまな研究現場で大規模シークエンスによるゲノム解析研究が盛んに実施される必要があります。しかし、ゲノム解析には、大容量のメモリを搭載し、高速ディスクによってアレイ化されたスパコン環境が不可欠であり、多くの研究現場にとってはこういった環境の調達自体が困難です。また、世界規模でのシークエンス データの膨大化に伴い、各研究機関のスーパーコンピューターにシークエンス データをダウンロードして個別に解析を行う従来の研究モデルに限界が生じつつあります。そのために、米国においては、シークエンス データを備えたクラウドの整備が進むなど、ゲノム解析においてクラウドの利活用が必須のものになりつつあります。
同センターは、Microsoft Azure 上でゲノム解析環境の構築に成功、さらにその有効性と実現性を検証し、良好な結果を得ることができました。同取り組みの発展により、「あらゆる研究者がいつ、どこからでもクラウド上でゲノム解析を行える」という世界の実現、ひいてはそれによる、がん研究のさらなる加速が期待されます。
プロファイル
東京大学医科学研究所 ヒトゲノム解析センターは、疾病の診断、予防、治療法の開発などを通じて人間社会に貢献することを目的に、生物学の発展に貢献している研究室です。1991 年度に医学、生物学研究の将来を見据えたプロジェクトとして設置され、ゲノム データベース分野を皮切りに、多くの整備が行われてきました。先端研究と並行し、ゲノム研究を目指す研究者の受け入れや指導を行うとともに、日本のデータベースおよび知識ベースの構築、マッピング・シークエンス作業の国際的対応グループとしても機能しています。
導入の背景とねらい
日本のヒトゲノム研究のさらなる発展を目指し、クラウド上でのゲノム解析に関する検証を実施
DNA が含む遺伝情報であるゲノム情報。このゲノム情報を解析する「ゲノム解析」は、昨今、疾患関連遺伝子解析研究において重要度を増しており、臨床現場における難治性疾患の治療へ向けた貢献が期待されています。数万種類もの遺伝子について一度にその発現情報を得ることができるマイクロアレイシステム、ゲノム DNA そのものを読み取ることができるシークエンサーなどを利用し、そこから得られる膨大な情報をスーパーコンピューター (スパコン) により解析することで難治性疾患の先端研究を推し進めるのが、東京大学医科学研究所 ヒトゲノム解析センター (以下、ヒトゲノム解析センター) です。
世界的なレベルでの先端研究と並行し、同センターではゲノム情報と解析プラットフォームの一般提供も展開。ゲノム研究者へ向けた支援を推し進めています。2016 年 5 月には、がんゲノム解析のためのプラットフォーム「Genomon2」の一般公開を開始しました。
東京大学医科学研究所 ヒトゲノム解析センター センター長 教授 宮野 悟 氏は、これまでのがんゲノム解析の研究変遷と Genomon の概要について、次のように説明します。
「2010 年に、システム的統合理解に基づいてがんの先進的な診断や治療、予防法の開発に活かすという『システムがん』が新たな学術領域研究として文部科学省に採択されました。これは『スパコンと数学を融合し、それをがん研究に活かす』というコンセプトのもとスタートしたものです。2011 年には大規模シークエンスによるがんゲノム解析へのアプローチにより、これまで不明だった骨髄異形成症候群 (MDS) の原因を解明することに成功し、同年の科学雑誌『Nature』にも掲載されました。このようにスパコンを駆使したがんの研究は大きな成果を生み出していますが、研究を高スピードで推し進め、かつその成果を臨床現場に還元していくためには、さまざまな研究現場で大規模シークエンスによる解析が行われる必要があります。そこへ向けて当センターで提供するのが、がんゲノムのシークエンス解析プラットフォーム『Genomon』です。Genomon は 2012 年に一般公開を開始しましたが、一部機能に制限があること、利用前の設定ファイルの準備が大変で迅速な利用が困難であることなどの問題点がありました。そこで 2016 年からは、次期バージョンである『Genomon2』を提供することで、多くの研究者にがんゲノムシークエンス解析を実施頂ける取り組みを進めています」(宮野 氏)。
Genomon2 での解析結果はビジュアル化した形式で出力することも可能。多くの研究者が同環境を利用できるよう、ヒトゲノム解析センターでは同研究室内にあるスパコン Shirokane の環境も外部へ提供している |
ヒトのゲノム情報は、約 30 億文字の情報から構成されています。ヒトゲノム解析センターでは、患者の検体データをもとにこのヒトゲノムの解析を行っていますが、システムのジョブ実行数は東京大学の情報基盤センターが実行する数のおよそ 100 倍にものぼり、加えて 1 つのジョブでは 50,000 ものファイルが生成、アクセスされます。当然その解析には、大容量のメモリを搭載し、高速ディスクによってアレイ化されたスパコン環境が不可欠となりますが、多くの研究現場にとっては、こういった環境の調達自体が難しいことです。 Genomon2 とともに Shirokane の環境も提供することでこれを支援する同センターですが、宮野 氏は近年、クラウドを活用した解析環境の提供にも注目していると語ります。
「ゲノム解析の実行が大規模なスパコンを持つ研究所に限定される場合、スピード感をもった研究の発展は見込めません。当センターでは Shirokane の環境を提供していますが、どうしても物理的な場所を制限するため、研究スピードを最大化するまでには至りません。また、解析に必要な検体データも、研究機関がその都度調達し取り扱わねばならず、これもスピード感を損なう原因となっています。この状況を打破する鍵は『クラウド』にあるといえるでしょう。あらゆる研究者がいつ、どこからでもクラウド上で検体データの入手とその解析が行えるならば、我が国の研究の大きな発展が期待できます。それを目指すべく、2016 年 6 月より、クラウドにおける Genomon2 の稼働について検証を開始しました」(宮野 氏)。
システム概要と導入の経緯、構築
一般公開を目指す場合、性能、信頼性などの観点で Azure が適していた
海外では既に、クラウド上でのゲノム解析や検体データの共有がプロジェクトとして動いている例もあります。同取り組みは、日本の医療、生物学研究をこれまで以上に発展させる起爆剤となり得るのです。
しかし現在、日本では倫理的な背景から、個人情報である患者の臨床シークエンス データ (ゲノム情報) をクラウド上で解析することが難しい状況です。そこで、宮野 氏が語った検証においては「細胞株」と呼ばれるサンプルを利用。クラウド上で Shirokane と同水準の処理を実行することを目標に、その実現性と有効性について検証が進められました。これは倫理的側面の課題がいずれ解消された際、即座にユーザーへ向けてクラウド環境を提供すべく、そのための環境整備を目指したものでした。
東京大学医科学研究所 ヒトゲノム解析センター DNA情報解析分野 助教 博士 (統計科学) 白石 友一 氏は、検証の概要について次のように説明します。
「がんにおいては DNA とともに、その転写物である RNA の全体像も大きく変化しています。今回の検証では、749 検体分の RNA-seq データを、どのくらいの時間で処理できるか、そしてそこでの所要コストはどのくらいか、という観点で進めることを考えました。749 検体という数字ではピンとこないかもしれませんが、これは TCGA など一部の巨大プロジェクトを除くと、世界水準でも最大規模のプロジェクトから算出されるデータ量となります。この処理を行うクラウド基盤については、当時案内を受けていた Azure の利用を構想しました」(白石 氏)。
続けて東京大学医科学研究所 ヒトゲノム解析センター シークエンスデータ情報処理分野 准教授 渋谷 哲朗 氏は、癖のない操作性を備える Azure を採用することで、検証開始までのリード タイムが短縮化できる点に期待したと語ります。
「ゲノム解析は、単に高度な処理が行える環境を用意すればよいというわけではありません。Genomon2 では、解析精度を高めるべく並列処理を前提とした特殊なプログラムを組んでおり、その動作には高い移植性が求められます。クラウド上の環境についてはプログラムの動作へ向けたチューニングが不可欠であり、その作業を行ううえで、クラウドの操作性は重要な要素だったのです。Azure は癖のない操作性を備えているため、このチューニングを滞らせるボトルネックがなかったことも、選定のポイントだといえるでしょう」(渋谷 氏)。
導入ソフトウェアとサービス
- Microsoft Azure
導入メリット
充実したテンプレートを備え、利便性にも優れる Azure を検証基盤としたことにより、わずか 2 か月で、ゲノムシークエンス解析プラットフォームの構築が完了できた
-
Azure が有する高い性能により、センター内にあるスパコンと比べても遜色ない速度でゲノム解析を行うことができた
導入の効果
センター内にあるスパコンと比較しても遜色のない性能により、高速での解析を実現
ヒトゲノム解析センターは、Genomon2 を一般公開した翌月となる 2016 年 6 月、検証基盤に Azure を採用することを決定。その後約 2 か月という短期間で、Azure 上での Genomon2 の構築とチューニング作業を完了しました。
渋谷 氏は、2 か月という短期間で検証の実行まで到達できた理由について、次のように説明します。
「Shirokane にはさまざまなライブラリ、パッケージがインストールされているため、各種ソフトウェアの設定は、ライブラリ、パッケージの依存関係に注意する必要があります。Azure の場合、仮想マシン (VM) をまっさらな状態から立ち上げることができ、Shirokane のように他のパッケージなどを気にする必要がありません。チューニング作業やコンポーネントの導入などはむしろ Shirokane よりも容易だと感じました。また、システムの構築と検証は複数人で進めましたが、Azure では他のユーザーとプログラムの共有が可能です。テンプレートも充実しているため、共通化できる箇所をテンプレート化し、構成を他のユーザーと共有しながら進めた結果、2 か月という短期間で構築を完了することができました」(渋谷 氏)。
また、本旨である有効性の検証においても、期待したとおりの結果を得ることができたと白石 氏は続けます。
「先のとおり 749 検体分の RNA-seq データは非常に規模の大きなものとなり、この規模の解析が無事に完了できれば、高い有効性を持つといえるのです。結果として、Azure 上での計算はわずか 1 日半で完了しました。これは Shirokane と比較しても遜色ない速度です。また 1 検体あたりの解析コストは 230 円ほどであり、現実的なコストに近づいてきています。プログラムの最適化を進めることで、このコストはさらに削減できる可能性もあります」(白石 氏)。
今回の Azure をもった検証により、「あらゆる研究者がいつ、どこからでもクラウド上で解析と検体データの入手が行える」という世界の実現において、少なくともプラットフォーム側は既にその有効性を持つことが明確となりました。宮野 氏はこの検証結果を受けて、ヒトゲノム解析センターが提供するシステムのクラウドへの移行を真剣に検討すると語ります。
「かつて、クラスタマシンが世の中に出始めたころにも同様の検証を行いましたが、1 回の解析が完了するまでに一部の機器が故障するといったトラブルが多発し、有効性の側面で疑問を抱いたことを覚えています。今回の検証ではそういった不安要素がなく、クラウド上でゲノム解析を行う世界の到来はもはや目前なのだと実感しました」(宮野 氏)。
今後の展望
今回の検証結果や先の海外実績をもって、クラウドを利用したデータ解析システムの実現を目指す
Azure をもったゲノム解析の有効性については明確化されたものの、国内では先に触れた倫理的側面を背景に、依然としてヒトゲノムのクラウド上での解析に関する理解は得られていません。実現性という意味ではまだまだ課題が残っているといえるでしょう。その点において、Azure は厚生労働省の「医療情報システムの安全管理に関するガイドライン」を含む「3 省 4 ガイドライン」へ対応した信頼性を備え、かつ日本の裁判所の管轄とされるなど、患者情報の安全管理にかかわる面でさまざまな取り組みが進められています。先の理解の獲得には、セキュリティをはじめとしたプラットフォーム側に向けられる懸念の解消が必要ですが、そのための土壌は整備されつつあります。
また、米国 Broad Institute of MIT and Harvard の調査発表では、2014 年のシークエンス データ量が 300 ペタバイトにまで到達したことを伝えており、もはやゲノム解析をローカル環境だけで行うことには限界があるといえます。実際、すでに米国ではこのような状況を見据え、大規模なゲノム データに対してアクセス、普及、共有、およびマイニングを行う適切なリソースと方法を研究者に対して提供するための取り組みである「NCI Cancer Genomic Cloud Pilots」が開始されています。
宮野 氏は今後、今回の検証結果や先の海外実績をもって、国内の理解を高めていきたいと意気込みます。
「国内にもバイオサイエンスデータベースセンター (NBDC) という施設が存在します。しかし、データベースに対してどこからでもアクセスでき、同時に解析が行えなければ、それは大きな意味を持ちません。データを収集するだけでは意味がないのです。今回の Azure 上での検証で得られた有効性と海外での実績をもって国内の理解を求めることで、クラウドを利用したデータ解析システムをより現実のものとしたいと考えています」(宮野 氏)。
限られた研究者だけでなく、医療機関や製薬、ヘルスケア系の研究者など、幅広いユーザーがゲノム解析を行える環境づくりを進めるヒトゲノム解析センター。この活動は学術研究を主としたものですが、データベースと解析に対する根本的な考え方の変革は、医療データベースなど他のシステムの最適化にもつながることでしょう。同センターの活動が今後も期待されます。
ユーザー コメント
「国内にもバイオサイエンスデータベースセンター (NBDC) という施設が存在します。しかし、データベースに対してどこからでもアクセスでき、同時に解析が行えなければ、それは大きな意味を持ちません。データを収集するだけでは意味がないのです。今回の Azure 上での検証で得られた有効性と海外での実績をもって国内の理解を求めることで、クラウドを利用したデータ解析システムをより現実のものとしたいと考えています」
東京大学医科学研究所
ヒトゲノム解析センター
センター長
教授
宮野 悟 氏
(マイナビニュース広告企画:提供 日本マイクロソフト)
マイクロソフト法人導入事例サイトはこちら
[PR]提供: