理化学研究所(理研)は、次世代シーケンサ(超高速塩基配列解読装置)で得られた断片化RNAの情報から、細胞内に本来存在している全長RNAの情報を高精度に再構築する解析プログラム「ARTADE2(アートエイド ツー)」を開発したことを発表した。同成果は、理研生命情報基盤研究部門(理研BASE)の豊田哲郎部門長らによるもの。「ARTADE2」のアプリケーションは理研BASEのWebサイトに掲載されており、ダウンロードすることが可能だ。
細胞内に存在するRNAのセット「トランスクリプトーム」は、細胞の機能を決定付ける重要な要素で、これを正確に捉えることは、疾患を未然に防ぐ先制医療やバイオマス資源開発など、生命・環境科学分野でのさまざまな応用展開に有効だ。近年、次世代シーケンサで細胞内のmRNAの状況を調べる手法「mRNA-seq」が広く利用されるようになり、次世代シーケンサの発展によるデータ生産量も1回の実験で6,000億塩基(Illumina Hiseq2000の場合)まで増加してきた。これはヒトゲノムDNAの200倍の量に相当するという。その一方で、mRNAの長さはさまざまで、ヒトの場合、1,000塩基を超えるものがRNA全種類のうち80%以上を占めるが、mRNA-seqでは、100塩基程度までの短い断片の情報しか読み取ることができず、その結果、RNAの状況を知るには、次世代シーケンサで不完全に読み取られた断片化RNAの情報から完全な全長RNAの情報を再構築する処理が必要となっていた。しかし、細胞内のmRNAの状態が転写やスプライシングの制御によって多様に変化することや、シーケンスの際に生じるノイズや偏りの存在がこの処理を困難にしており、全長RNAの情報を高精度に再構築するためのプログラムが必要となっていた。
従来のソフトウェアは、1つのmRNA-seqデータだけを用いて処理しているため、データによるノイズや偏りの影響を大きく受けていた。今回開発されたARTADE2では、さまざまな生体組織や環境条件下で採取したRNAから複数のmRNA-seqデータを取得・統合して解析するため、ノイズや偏りの影響の問題を解決することが可能となっている。具体的には、同一のゲノムにおける異なる2点間のRNA発現活性の相関を調べる「ポジショナル相関解析」を網羅的に計算し、ゲノム配列情報と合わせて統合的に解析することで、全長RNAの情報を高い精度で再構築することに成功したという。
実際にARTADE2の性能を評価するため、理研植物科学研究センターの協力の下、シロイヌナズナから取得したRNAを用いてmRNA-seqを行い、このデータに対してARTADE2を適用した結果、予測したRNA全長構造の92.6%を、既知のRNA構造に対して正しく再構築することに成功した。この結果は、従来よく利用されている既存ソフトウェア(米メリーランド大学が開発したCufflinks)の78.6%を上回る結果となったという。
また、トランスクリプトーム解析に用いられるゲノムタイリングアレイの結果にも、シロイヌナズナのデータに対してARTADE2を適用した結果、1,000個以上の新規遺伝子やアンチセンスRNAを新たに発見しており、この結果は、ゲノム配列の意味、意義の正確な理解を、これまで以上に進めていくことにつながるという。
さらに、ポジショナル相関解析に多変量解析の1つである因子分析手法を組み合わせることで、転写開始点の変化や選択的スプライシングによって生じるRNAの塩基配列の変化を同定し、それぞれのサンプルにおける変化を定量化する解析手法も開発。
この変化は、そこから翻訳されるタンパク質の配列やタンパク質への翻訳効率に変化をもたらすほか、RNA分子そのものが機能分子として振る舞う例も多く知られているため、トランスクリプトームの変化は、ゲノムの情報と細胞の表現形質をつなぐ重要な要素となる。そのため、ARTADE2はゲノム、トランスクリプトーム、プロテオーム(細胞中のタンパク質全体)、フェノーム(細胞・個体の持つ表現形質の総体)という複数階層のオミックス研究を仲介する重要な技術となると研究チームでは説明するほか、ARTADE2は、複数のサンプルから得られたトランスクリプトームのデータからゲノム上の位置関係で転写活性の相関性を解析するため、サンプル数が増えるほどデータのノイズや偏りに対して頑強になり、解析精度が向上するため、近年急速に蓄積が進む次世代シーケンサデータの有効活用が可能となるとしている。
なお、今回の技術を活用することで、健常者と疾患者のRNAデータを比較・解析することで疾患の分子メカニズムの解明につながることが期待されるほか、疾患の予兆となるようなRNAの変化を探し、これを分子マーカーとして用いることで疾患を発見できる可能性もあり、疾患を未然に防ぐ「先制医療」への道筋になる可能性があるとする。
また、バイオ燃料やバイオプラスチックなどのバイオマス資源開発を目指すグリーンイノベーション分野でも、植物細胞内のRNAの構造や動態の理解が重要であるため、同技術を用いることで目標とする植物の効率的かつ正確なトランスクリプトームの構造やRNAの動態を捉えることが可能になることも期待できるようになるという。