富士通研究所(富士通研)は3月15日、ゲノム上の変異情報と疾患や生活習慣などによる環境情報との関連性をデータベース上で解析する際に、従来手法に比べて約400倍高速に処理できる技術を開発したと発表した。

現在、ゲノム医療の進展により、ゲノム・遺伝情報と臨床・環境情報を組み合わせて解析することで、遺伝要因と環境要因の関連性を探索する研究が行われている。このような研究では多様な角度から解析するためにゲノム情報をデータベースに格納して処理するが、膨大な規模のゲノムデータを扱うため、処理に時間がかかるという課題があった。

たとえば10万人の母集団データに対し、個人差の要因となる「バリアント」と呼ばれる変異箇所のひとつについて集計すると、既存のオープンソース・データベースソフトを用いた場合、約1秒の時間がかかることが同社の調査によってわかっている。したがって、1000万箇所のバリアントの集計を10万人規模の母集団で行うとすると、約120日かかる計算になる。

今回同社は、データベース上でゲノム情報の高速な集計処理を可能にするデータ構造「ゲノム型」とその処理方法を開発した。ゲノム型は1人のゲノム情報をデータベース上の1列(カラム)で格納するデータ構造で、各バリアントの情報を固定ビット長にコード化して格納する。バリアントを1列に格納することにより、ひとつの問い合わせで同時に集計することが可能になり、1バリアントあたりの集計処理性能が大幅に向上する。

ゲノム型カラムのイメージ

また、バリアントの大半は、計算機上で2ビット長のコードに置換することができるが、3ビット以上の複雑なコードに置換されるバリアントも多数ある。したがって、従来は複数のビット長が存在する可変長データを扱う必要があったが、今回同社は、このような可変長データを、固定ビット長構造を崩さずに格納して集計処理する方式を考案し、高速な集計処理を実現。さらにバリアントのコード化により、文字列でバリアントを格納する場合に比べ、ゲノム情報サイズが1/16に削減されるため、数十万人規模の大規模データについてもインメモリで高速に処理することが可能となっている。

従来の集計処理(左)とゲノム型の集計処理(右)のイメージ

同社は今後、さらなる集計処理の高速化および運用上必要となる機能の実装を進め、医療機関との共同研究、倫理審査を経て、同社ヘルスケアシステム事業本部のソリューションに適用する予定であるとしている。