理化学研究所(理研)は6月21日、アミノ酸配列からタンパク質の立体構造を予測する英・DeepMind製のAIプログラム「AlphaFold2」(AF2)のオープンソースソフトウェア「OpenFold」をスーパーコンピュータ「富岳」に実装し、富岳用の高速化手法を施すことで、超並列環境における高スループット性を達成したと発表。また併せて、同日から理研 計算科学研究センター(R-CSS)よりオープンソースの形で提供を開始したことを発表した。
同成果は、理研 R-CCS HPC/AI駆動型医薬プラットフォーム部門 バイオメディカル計算知能ユニットの德久淳師上級研究員、同・奥野恭史 ユニットリーダー(HPC/AI駆動型医薬プラットフォーム部門 部門長)らの研究チームによるもの。詳細は、6月20日(米国時間)に開催された国際ワークショップ「FlexScience '23」にて発表された。
生命活動の根幹を成すタンパク質は、20種類のアミノ酸がさまざまに配列した固有の立体構造を持ち、その構造は創薬において極めて重要な意味を持つ。これまで、立体構造が決定された約20万個のタンパク質がデータベースに登録されてきたが、結晶化困難などの理由により、実験的に構造を決定することが難しく、性質や構造が未知のタンパク質もまだ数多く存在している。
そうした状況に対し、AF2は、実験的に決定された約20万個のタンパク質立体構造とそれに対応するアミノ酸配列を学習済みで、構造が未知のアミノ酸配列から立体構造モデルを推論するAIプログラムとして開発された。理研によると、AF2を用いれば、ヒトの腸内に棲息する約1000種の腸内細菌が生成する物質に含まれると推定される、構造が未知のものを含んだ数十万以上のタンパク質の立体構造も高速に推論できるようになるという。これにより、健康維持に大きく関係する腸内環境を維持するための分子メカニズムの解明も進展させることができ、腸内環境の改善に有効な物質を同定することも期待されるとする。
ただし、従来のAF2高速化の研究では、大規模な推論を高速に実現する高スループット性の手法があまり検討されてこなかったという。AF2は通常、GPUなどを利用して計算速度を向上させるが、今回の研究では、富岳に代表されるCPUの超並列環境、つまり大規模な計算資源を活用した高スループット性の達成が目標とされた。