ChatGPTの成功に後押しされてAIの進化に注目が集まる中、Microsoftの研究チームが「Kosmos-1」と名付けられた新たなAIモデルを発表した。Kosmos-1は、自然言語だけでなく視覚的なコンテンツも認識し、画像と文章を組み合わせた質問にも回答することができるAIモデルで、Microsoftの研究チームはこれを「マルチモーダル大規模言語モデル(MLLM: Multimodal Large Language Model)」と呼んでいる。

Kosmos-1を利用すれば、これまでのLLMで可能だった自然言語の認識や文章生成に加えて、OCRを使わない文字認識や、画像のキャプションの生成、画像に関連した質問への回答などがAIによって行えるようになるという。

  • マルチモーダルな入力を認識して処理できるKosmos-1(「Language Is Not All You Need: Aligning Perception with Language Models」より)

    マルチモーダルな入力を認識して処理できるKosmos-1(「Language Is Not All You Need: Aligning Perception with Language Models」より)

ChatGPTなどの文章生成AIや、Stable Diffusionなどの画像生成AIは、人間に匹敵する品質の文章や画像を生成することが可能だが、人間との大きな違いはそれぞれが単一の知覚に特化している点にある。それに対して、人間のレベルでより一般的なタスクを実行できる汎用的なAIを構築するためには、テキストや音声、画像などの様々な入力モードを統合したマルチモーダルなモデルが必要だとMicrosoftの研究者は指摘している。Kosmon-1はその第一歩となるAIモデルである。

Kosmos-1は、「The Pile」と呼ばれる825GBのテキストデータセットと、Webクロールデータのオープンリポジトリである「Common Crawl」からの抜粋を含むWeb上のデータを使用してトレーニングされている。Microsoftでは、トレーニング後のKosmon-1に対して、言語理解や言語生成、OCIを使用しないテキストの分類、画像のキャプション生成、視覚的なコンテンツによる質問への回答、Webページの質問への回答などのテストを行い、その多くで現在の最先端モデルよりも優れた評価を得たという。

論文の中で例示されているテストの一つに、画像に対して説明を求めるものがある。猫の顔に笑った口を描いた紙を差し出した写真に対して、「なぜこの写真が面白いのか」と質問したところ、Kosmos-1は「猫が笑っているように見えるマスクを着けている」と回答している。また、倒れたキックボードと泣いている少年が映った写真について、「なぜこの少年は泣いているのか」という質問には、「彼のキックボードが壊れたから」という回答が示されており、かなり正確な認識が行われていることが確認できる。

  • Kosmon-1による視覚的コンテンツを用いた質問への回答例(「Language Is Not All You Need: Aligning Perception with Language Models」より)

    Kosmon-1による視覚的コンテンツを用いた質問への回答例(「Language Is Not All You Need: Aligning Perception with Language Models」より)

Microsoftの研究チームは、将来的にはKosmos-1のモデルサイズを拡大して音声認識機能の統合にも挑戦したいと述べている。