パナソニックR&Dカンパニーオブアメリカ(PRDCA)とパナソニックHDは12月2日、カリフォルニア大学などの研究者と共同で、ユーザーの「いいね」や「嫌い」といったフィードバックを活用し、ユーザーの目的や好みに合った画像を生成する画像生成AI「Diffusion-KTO(Knowledge Transfer Optimization)」を開発したことを発表した。

  • 「いいね」の判定だけで好みの画像にパーソナライズ可能な画像生成AI「Diffusion-KTO」を開発

    「いいね」の判定だけで好みの画像にパーソナライズ可能な画像生成AI「Diffusion-KTO」を開発

パナソニックHDとPRDCAは、生成モデルのパーソナライゼーションに関する研究に取り組んでいるが、現在の画像生成AIはモデルの複雑さや多様な好みの要因から、プロンプトエンジニアリングを駆使しながら画像生成AIを利用しているのが現状だ。また、好みに合った画像調整にはペアワイズ比較データの収集や強化学習を用いた複雑なモデルが必要で、手間がかかるという課題がある。

開発された「Diffusion-KTO」は、ユーザーの「いいね」や「嫌い」というバイナリフィードバックに基づき、個々の好みを数値化したユーティリティ関数を応用する新しいアプローチを採用。このユーティリティ関数は、人が現在の富を基準にして、得られる利益や損失の価値を判断するというプロスペクト理論に基づいて設計されている。バイナリフィードバックの活用によりデータ収集コストと時間を大幅に削減し、データ収集のコストと時間を大幅に削減することが可能。さらに、人間の意思決定に関わるプロスペクト理論を応用することで、よりユーザーの好みに一致した高品質な画像を効率的に生成できる。

評価実験では、Diffusion-KTOがベースモデル(SD v1-5)に対して最大87.2%の勝率を達成し、優れた性能を示すことがわかった。特に人間の評価者は、一貫してDiffusion-KTOの生成画像をベースモデルの生成画像よりも好む結果が得られたという。

  • 「Diffusion-KTO」技術の概要図

    「Diffusion-KTO」技術の概要図

この「Diffusion-KTO」の技術を応用することで、AIの学習に用いるデータセットの作成を効率化することに加え、画像生成だけでなくテキストや音声生成など他の生成モデルにも応用可能できることから、ユーザーの好みに応じたパーソナライズが求められる幅広いパーソナライズ分野で活用が期待されているという。