パーソナルAIの開発および実用化を進めるオルツは5月9日、LLM(Large Language Models:大規模言語モデル)におけるハルシネーションをスコアリングする手法の開発に成功したことを発表した。同社の「alt developer」のAPIサービスを通じて提供を開始している。

  • ハルシネーションの自動評価エンジンを開発した

    ハルシネーションの自動評価エンジンを開発した

開発技術の概要

生成AIのハルシネーションとは、AIがまるで幻覚を見ているかのように、正当性がなく、事実に基づかない虚偽の回答をする現象。LLM(Large Language Models:大規模言語モデル)やAIによる誤った情報出力は企業や個人に深刻な信頼問題を引き起こす可能性があるだけでなく、生成AIの今後の応用にも大きな障壁となる。

これに対しオルツは独自のLLM開発の経験を生かして、ハルシネーション問題を解決する研究開発を続けてきたという。今回、ハルシネーションを解決する方法の一つとして、ハルシネーションが発生するか否かを判定してその発生確率(ハルシネーション・スコア)を自動的に評価できる手法「ハルシネーション自動評価エンジン」を開発したとのことだ。

ハルシネーションスコア計測アプリケーション デモ動画

ハルシネーション自動評価エンジン

今回同社が開発したエンジンは一貫性を重視してハルシネーションの評価を行う。具体的には、同じ入力データに基づいて複数の生成プロセスを行い結果を比較するアプローチにより、生成された内容における不一致や矛盾を特定し、これに基づいて学習データや事実に基づかない不正確な生成物が生じているかどうかを確率的に評価する手法だ。

開発段階における実験においては、ハルシネーション自動評価エンジンはJcommonsenseQAデータセットから作成した擬似評価セットに対し、72%の正解率でハルシネーションの判定を実現。同社が開発したLLMのLHTM-OPTだけではなく、GPT-3.5、Llama2などのハルシネーションもスコアリング可能だという。