ヒトゲノムにおける暗黒領域の1つ「縦列反復配列」の組成を東大が解明

東京大学(東大)は9月15日、日本人健常者270名のデータを分析し、ヒトゲノムの“暗黒領域”と呼ばれ、以前は解読が困難だった領域の1つである「縦列反復配列」の組成を明らかにしたことを発表した。

同成果は、東大大学院新領域創成科学研究科メディカル情報生命専攻の森下真一教授、同・市川和樹助教、同・川原理樹大学院生、東大理学部生物情報科学科の浅野岳士学部生(研究当時)らの研究チームによるもの。詳細は、英オンライン科学誌「Nature Communications」に掲載された。

米国を中心とした国際プロジェクト「ヒトゲノム計画」において、ヒトゲノム全染色体配列が発表され、計画の完了宣言が出されたのは2003年4月のことだったが、実はそれですべてのゲノムが解読されたというわけではない。セントロメア、ゲノム重複、縦列反復配列領域など、ヒトゲノムの中には暗黒領域があり、組成を分析することが難しく、その多くが分析されてこなかったのである。そしておよそ20年が経った2022年4月になって、1個体の半数体とはいえ、暗黒領域も含めてヒトゲノムが“完全に”解読された。

これまで暗黒領域とされてきたうちの1つである縦列反復配列領域は、「CACACACA」のように単位「CA」が重複しているような、リピート単位が隣り合って縦列式に重複している繰り返し配列のことをいう。その個人差は大きいことが予想されており、疾患との関連も報告されているが、まだ詳細はわかっておらず、今後の課題となっている。そこで研究チームは今回、日本人健常者270人から収集されたロングリードデータを分析し、ゲノム中の約200万か所の縦列反復配列について、その組成を解析したという。

複合型縦列反復配列の例。脳疾患「CANVAS」の原因と考えられているリピート伸長が存在する遺伝子「RFC1」の第2イントロンに存在する複合型の縦列反復配列の例。4色の波形は4つのリピート単位が表現されており、最右列はパターンの頻度。下の3パターンの長さは400塩基を超えており、一番下は約3000塩基にもなる。ロングリード技術で初めて見出された。近傍のSNVを見ただけでは、内部のリピート伸長は推定できず、縦列反復配列配列の多様化の速さが例示されている。(出所:東大大学院新領域創成科学研究科 Webサイト)

縦列反復配列は長さが100塩基以上のものも多く、従来のショートリード技術では被覆できないため、その多くは見落とされてきたとのこと。しかし近年になって登場した、長さが1万塩基以上のDNA断片を解読できるロングリード技術により、見落としは少なくなったという。そして分析の結果、200万か所中の約32万2000か所の領域は、周辺の「1塩基バリアント」と比較して多様性が著しく大きいことが明らかになったとする。

なお1塩基バリアントとは、ヒトゲノム内で観察される1塩基の置換のことで、要はゲノムの個人差を指す(個人差にも幅があり、非常に稀な場合もあれば、多数の個人に共有されるものもある)。

また縦列反復配列には、複数の種類のリピート単位が存在する複合型領域があり、その組成を解析することはこれまで困難だったという。そこで今回の研究では、高精度で分析することが可能なアルゴリズムを開発することで対応。この手法により複合型の検出が容易になり、270人の日本人データを分析することに成功したとのことだ。その結果、複合型は単一型に比べ塩基の変化が大きいが、全長は短い傾向にあることが判明。それと同時に、単一型は塩基の変化が少なく、リピート単位が長く、より正確に複製され長くなる傾向にあることもわかったとしている。

複合型と単一型で分類した縦列反復配列長の分布。(左)日本人集団における縦列反復配列長の中央値の分布。長さの範囲が4つのグループに分けられ、さらに複合型と単一型に分類して、各グループのゲノム中の領域数が表示されている。(右)各グループでの領域の塩基置換率の平均値の分布。(出所:東大大学院新領域創成科学研究科 Webサイト)

さらに詳細な分析を行ったところ、縦列反復配列領域が従来の1塩基置換・挿入・削除だけでなく、リピート単位の重複および縮退が高い頻度で起こっていることも明らかになった。このような重複と縮退を考慮した進化系統樹を描くことは、疾患に関連する縦列反復配列の伸長の特徴を理解するのに有用と考えられるという。

脳疾患「CANVAS」の原因遺伝子RFC1の第2イントロンに存在する複合型の縦列反復配列の進化系統樹。1塩基置換・挿入・削除だけでなく、replication slippage が生むリピート単位の重複および縮退が高頻度で起こる。それを考慮に入れた精密な進化モデルの作成は、今後の課題としている。(出所:東大大学院新領域創成科学研究科 Webサイト)

これまでの研究では、約60個の疾患の罹患者で顕著に長くなる縦列反復配列領域が報告されている。今回の健常者の集団的調査では、中央値に比べて100塩基以上長くなる個人ゲノムが見つかる領域が約8900か所観察されたとする。その特徴としては、複合型より単一型の頻度が高い傾向にあり、リピート単位の長さは単一型が顕著に長く、10塩基を超える場合が大半だといい、たとえば筋萎縮性側索硬化症(ALS)罹患者に関連するリピート単位69塩基の単一型縦列反復配列のコピー数の分布の場合、最長値と中央値の間にはコピー数換算で20個以上の差があるという。

伸長が顕著な個人が存在する縦列反復配列の分析。(a)集団内における縦列反復配列が、中央値に比べて最長値が100塩基以上長くなる領域の頻度を、長さの範囲および複合型と単一型で分類したヒストグラム。(b)各グループの領域におけるリピート単位の長さの分布。複合型の場合は、最長単位の長さの分布。単一型はより長いリピート単位が顕著に多いという。(c)18番染色体の領域でALS罹患者において伸長することが報告されている69塩基を単位とする縦列反復配列が、日本人健常者集団での分布。(出所:東大大学院新領域創成科学研究科 Webサイト)

なお、これは日本人健常者での分布だが、欧州でのALS罹患者の分布より長くなる傾向にあるため、縦列反復配列分布は民族別に異なる可能性があるとのこと。今後研究チームは、日本人集団だけでなく、全世界のさまざまな民族集団での調査を行い、民族別に疾患に関与する縦列反復配列を分析することが重要になるとしている。