東京大学(東大)は9月15日、日本人健常者270名のデータを分析し、ヒトゲノムの“暗黒領域”と呼ばれ、以前は解読が困難だった領域の1つである「縦列反復配列」の組成を明らかにしたことを発表した。
同成果は、東大大学院 新領域創成科学研究科 メディカル情報生命専攻の森下真一教授、同・市川和樹助教、同・川原理樹大学院生、東大 理学部 生物情報科学科の浅野岳士学部生(研究当時)らの研究チームによるもの。詳細は、英オンライン科学誌「Nature Communications」に掲載された。
米国を中心とした国際プロジェクト「ヒトゲノム計画」において、ヒトゲノム全染色体配列が発表され、計画の完了宣言が出されたのは2003年4月のことだったが、実はそれですべてのゲノムが解読されたというわけではない。セントロメア、ゲノム重複、縦列反復配列領域など、ヒトゲノムの中には暗黒領域があり、組成を分析することが難しく、その多くが分析されてこなかったのである。そしておよそ20年が経った2022年4月になって、1個体の半数体とはいえ、暗黒領域も含めてヒトゲノムが“完全に”解読された。
これまで暗黒領域とされてきたうちの1つである縦列反復配列領域は、「CACACACA」のように単位「CA」が重複しているような、リピート単位が隣り合って縦列式に重複している繰り返し配列のことをいう。その個人差は大きいことが予想されており、疾患との関連も報告されているが、まだ詳細はわかっておらず、今後の課題となっている。そこで研究チームは今回、日本人健常者270人から収集されたロングリードデータを分析し、ゲノム中の約200万か所の縦列反復配列について、その組成を解析したという。
縦列反復配列は長さが100塩基以上のものも多く、従来のショートリード技術では被覆できないため、その多くは見落とされてきたとのこと。しかし近年になって登場した、長さが1万塩基以上のDNA断片を解読できるロングリード技術により、見落としは少なくなったという。そして分析の結果、200万か所中の約32万2000か所の領域は、周辺の「1塩基バリアント」と比較して多様性が著しく大きいことが明らかになったとする。
なお1塩基バリアントとは、ヒトゲノム内で観察される1塩基の置換のことで、要はゲノムの個人差を指す(個人差にも幅があり、非常に稀な場合もあれば、多数の個人に共有されるものもある)。
また縦列反復配列には、複数の種類のリピート単位が存在する複合型領域があり、その組成を解析することはこれまで困難だったという。そこで今回の研究では、高精度で分析することが可能なアルゴリズムを開発することで対応。この手法により複合型の検出が容易になり、270人の日本人データを分析することに成功したとのことだ。その結果、複合型は単一型に比べ塩基の変化が大きいが、全長は短い傾向にあることが判明。それと同時に、単一型は塩基の変化が少なく、リピート単位が長く、より正確に複製され長くなる傾向にあることもわかったとしている。
さらに詳細な分析を行ったところ、縦列反復配列領域が従来の1塩基置換・挿入・削除だけでなく、リピート単位の重複および縮退が高い頻度で起こっていることも明らかになった。このような重複と縮退を考慮した進化系統樹を描くことは、疾患に関連する縦列反復配列の伸長の特徴を理解するのに有用と考えられるという。
これまでの研究では、約60個の疾患の罹患者で顕著に長くなる縦列反復配列領域が報告されている。今回の健常者の集団的調査では、中央値に比べて100塩基以上長くなる個人ゲノムが見つかる領域が約8900か所観察されたとする。その特徴としては、複合型より単一型の頻度が高い傾向にあり、リピート単位の長さは単一型が顕著に長く、10塩基を超える場合が大半だといい、たとえば筋萎縮性側索硬化症(ALS)罹患者に関連するリピート単位69塩基の単一型縦列反復配列のコピー数の分布の場合、最長値と中央値の間にはコピー数換算で20個以上の差があるという。
なお、これは日本人健常者での分布だが、欧州でのALS罹患者の分布より長くなる傾向にあるため、縦列反復配列分布は民族別に異なる可能性があるとのこと。今後研究チームは、日本人集団だけでなく、全世界のさまざまな民族集団での調査を行い、民族別に疾患に関与する縦列反復配列を分析することが重要になるとしている。