東京慈恵会医科大学(慈恵医大)とサイオステクノロジーは、鼻腔内視鏡動画を用いて希少疾患のためAI学習用のデータ数の確保が難しい鼻副鼻腔乳頭腫に関する高い精度のAI診断モデルの作成に成功したことを発表した。

同成果は、慈恵医大耳鼻咽喉科学講座の由井亮輔助教、同 高橋昌寛講師、同 鴻信義教授、同 小島博己講座担当教授らとサイオステクノロジーの野田勝彦氏、同 吉田要氏らで構成される共同研究チームによるもの。詳細は、英国科学誌「Scientific Reports」に掲載された。

鼻副鼻腔乳頭腫は良性腫瘍だが、再発や悪性化する可能性があるため、早期診断と鼻腔内視鏡下での外科的切除が望まれる。しかし、外来診察にて鼻腔内視鏡を用いる際、鼻副鼻腔乳頭腫と鼻腔ポリープ(鼻茸)との鑑別が困難な症例も多くあるほか、確定診断には約1週間ほどの病理検査の時間を必要であったという。そこで研究チームは、鼻腔内視鏡動画を用いて鼻副鼻腔乳頭腫を診断するコンピュータ支援診断システムの開発に至ったとする。

  • 鼻副鼻腔乳頭腫と鼻腔ポリープ(鼻茸)

    鼻副鼻腔乳頭腫と鼻腔ポリープ(鼻茸)。似通っており、鑑別が難しい(出所:東京慈恵会医科大学)

研究手法としては、2018年から2021年に東京慈恵会医科大学附属病院耳鼻咽喉科にて内視鏡下鼻副鼻腔手術を受けた患者の中で、病理検査で鼻副鼻腔乳頭腫と診断された患者21例、鼻腔ポリープを伴う慢性副鼻腔炎患者32例の計53例(男性=33、女性=30、平均年齢51.2±12.6歳)を対象に、鼻副鼻腔乳頭腫、鼻腔ポリープそれぞれの病変が画面に映っている場面のみに手術動画(鼻腔内視鏡動画)を編集。そして患者を無作為に8グループに分け、学習用と評価用を分けて交差検証を行ったという。

  • 研究手法の概要

    研究手法の概要(出所:東京慈恵会医科大学)

学習時には、224×224ピクセルのサイズに切り出した画像を用いて、画像の病変部を範囲内に収めながらDNNモデルを学習させ、1つのDNNモデルの1回の学習サイクルにおいて、50回の反復学習を繰り返し実行。この学習サイクルを8つのデータセットで行い、1つの学習セットで8つのモデルを生成(学習セット:評価セット=7:1)したとする。

各DNNモデルの学習は、少数の患者からオーグメントで生成した大量のデータを用いるため学習するたびに能力や精度に差が出ることから、その能力・精度の変動を検証するために24の学習セットを作成。その結果、8データセット×24=192個の診断モデルを生成したとする。

そして、経験年数のさまざまな耳鼻咽喉科医25名に、AIが評価した鼻腔内視鏡動画と同じものを見てもらい、鼻副鼻腔乳頭腫症例か鼻腔ポリープ症例かを問い正答率を評価。すべてのAI診断モデルの中で最も優れた性能のものは、5秒間スコア分析を用いたアンサンブル予測による精度84.3% (感度81.0%、特異度87.6%)だったとする。一方、耳鼻科医の診断精度は平均69.4%で、学年が上がるごとに成績が上がる傾向にあり、6年目以上はそれ以下と比べて有意差に高い正答率だったという(6 年目以上の平均正答率77.6%、5年目以下の平均正答率61.8%)。

  • 耳鼻咽喉科医の視診による診断

    耳鼻咽喉科医の視診による診断とAIの診断率 (出所:東京慈恵会医科大学)

AIの精度は、耳鼻咽喉科医全体の平均だけでなく、6年目以上の平均正答率を上回る結果であったことから、この原因を探ることを目的に、AIと耳鼻科医の診断精度が異なる症例を検討したところ、耳鼻咽喉科医にとっては明らかな鼻副鼻腔乳頭腫の所見であるにも関わらず、AIが正しく診断できなかった症例があり、典型的な所見の1つを学習できていなかったことが確認された。一方、AIがほぼ完璧に診断したにも関わらず、耳鼻咽喉科医による正しい診断率が低い症例も確認。研究チームでは、AIが人間と異なる部位を認識しているためと考えられるが、そのAIによる具体的な判断基準は不明だとしている。

なお、研究チームでは今後、より多くの症例を同様の方法で撮影し、精度を向上していくことが不可欠であるとし、多施設での臨床研究や対象疾患を増やしていく予定だとしているほか、鼻腔内視鏡でさまざまな疾患のスクリーニングができるようになれば、健診や非専門医の診察にもAIを活用できるようになることが期待できるとしており、他の有病率の低い疾患に対する解析も行っていきたいとしている。