琉球大学、中央大学、沖縄工業高等専門学校(沖縄高専)の3者は8月11日、新型コロナウイルス感染症(COVID-19)に関連する遺伝子群123個を約6万個の候補の中からAIで特定し、さらに、それらの遺伝子の発現を上流で制御する転写因子をバイオインフォマティクスの知識を活用して特定したと発表した。

同成果は、琉球大大学院 理工学研究科の藤澤孝太大学院生、琉球大 工学部の宮田龍太助教、中大 理工学部の田口善弘教授、沖縄高専 生物資源工学科の池松真也教授らの共同研究チームによるもの。詳細は、英オンライン総合学術誌「Scientific Reports」に掲載される予定だという。

新型コロナのワクチン接種が全国的に進められているが、感染状態から完治させる治療薬はまだない。そのため、1日も早い治療薬の実現が求められており、その開発のための第一歩として重視されているのが、遺伝子発現解析だという。

この遺伝子発現解析は決して容易なものではなく、候補となる遺伝子の数が数万個と膨大な一方で、サンプル(データ)数は採取コストが高いために数個しか入手できないという「large p small n問題」にある。今回の使用されたデータも候補となる遺伝子数が5万9618個なのに対し、サンプル数は34名分という状況だったという。

そこで今回は、中央大の田口教授が開発したAIを用いたデータ駆動型(データドリブン型)の手法である「主成分分析に基づいた教師なし学習による変数選択法」(PCAUFE)を使用して、今回のゲノムデータが抱えるlarge p small n問題を解決することにしたという。

被験者の血液から採取された遺伝子発現量データに対し、PCAUFEの適用が行われたところ、123個の新型コロナ発症に関連する遺伝子群として特定できたという。

  • 新型コロナ

    今回の研究で特定された123個の新型コロナ関連遺伝子 (出所:共同プレスリリースPDF)

そして、これらの遺伝子の調査で活用されたのが、「バイオインフォマティクス」のデータベースで、最初にデータベース「Metascape」が用いられ、123個の遺伝子が持つ機能の調査を実施。その結果、免疫に関連するものが多く含まれていることが判明したという。また、別のバイオインフォマティクスのデータベース「Enrichr」を用いて、123個の遺伝子発現を制御する「転写因子」に関する検索を実施。その結果、「NFKB1」と「RELA」が上位にヒット。NFKB1とRELAは、“防御システムの要”といわれる転写因子のタンパク質「NF-κB」に深く関係する転写因子として知られているという。

  • 新型コロナ

    123個の新型コロナ関連遺伝子の発現を制御する転写因子の候補群(Enrichr TRRUST Transcription Factors 2019より)。棒グラフの長さと色の明るさはフィッシャーの正確確率(検定のP値の小ささ)が表されている (出所:共同プレスリリースPDF)

今回の研究から、それらの活性がヒストン修飾「H3K36me3」で抑制されていることが判明したとする。ただし、研究チームでは、今回特定された123個の遺伝子群には単なる相関関係に留まらず、新型コロナ発症の「因果」と呼べるものが含まれているのかどうか、さらなる検証を重ねる必要があるとしている。