画像や動画、音声などの複数のコンテンツを入出力できる汎用性を持った生成AIは、「マルチモーダル基盤モデル」と呼ばれ、さまざまな可能性を持っていることから大きな注目を集めている。

こうした状況を踏まえ、Dataikuが7月19日に開催した技術カンファレンス「EVERYDAY AI SUMMIT TOKYO」では、生成AIや今後のAI活用などをテーマにした講演が多数実施された。事例講演「マルチモーダル生成AIの利活用と可能性」に登壇したのは、三菱電機 DXイノベーションセンター 主席研究員博士(情報科学)澤田友哉氏だ。同氏は、生成AIの基礎と今に至るまでの歴史について解説した上で、三菱電機における実際の業務での活用事例を紹介した。

  • 澤田友哉氏

    三菱電機 DXイノベーションセンター 主席研究員博士(情報科学) 澤田友哉氏

生成AI活用、今のトレンドは?

登壇した澤田氏は、まず生成AIの位置付けについて説明した。生成AIは2017年頃から発展した深層学習技術の1つであり、膨大なデータを学習し新しいデータを生成する能力を持つ。人工知能(AI)、機械学習(ML:Machine Learning)、深層学習(DL:Deep Learning)の発展を経て、現在の生成AIに至ったという歴史的背景がある。

総務省が公表する「情報通信白書令和6年版」によると、生成AIの市場はヘルスケアや金融分野で特に成長が見込まれている。こうした人に根差したデータを多く持つ業界においては、今後さらなる発展が期待されるという。

生成AIモデルの特徴として、澤田氏は、大規模なニューラルネットワークで構成された「Transformer」という仕組みを用いていることを挙げる。Transformerは、パラメーター数が増大するほど性能が向上するため、人間をしのぐ性能を獲得しつつある一方で、汎化性能を持つほど独自モデルの学習には莫大なコストがかかる。こうしたことから、現在は大手ベンダーのモデルを利用し、RAG(Retrieval-Augmented Generation:検索拡張生成)やプロンプトエンジニアリングを用いて導入・運用コストを抑えつつ、自社に合わせるのが主流だという。

現在のAI技術の目指す方向性

続けて澤田氏は、2010年代のDLの台頭から、2014年のGAN(Generative Adversarial Network:敵対的生成ネットワーク)の登場、2017年のTransformerの提案を経て、現在のマルチモーダル基盤モデルに至る歴史を紹介した。Google Geminiをはじめとする最新のモデルは、テキストだけでなく画像、音声、映像など複数のモダリティを扱えるようになってきている。

「生成AIは、自らデータを作り出す能力を持っている。作り出すデータの形式は画像、音声、映像、テキスト、さらにはセンサー情報など、多岐にわたる」と澤田氏は説明する。

「従来のAIシステムでは、これらのモダリティを個別に処理して判断を下すことが一般的でした。しかし、現在のAIに期待されているのは、これらの多様なモダリティを統合的に扱い、単一のモデルでさまざまな問題に対処できる能力です」(澤田氏)

つまり、1つのAIモデルが異なる種類のデータを入力として受け取り、複数の課題を解決できるようになることが、現在のAI技術の目指す方向性と言える。

三菱電機におけるマルチモーダル生成AIの活用事例

では、三菱電機では生成AIをどのように活用しているのだろうか。澤田氏は、同社における生成AIの活用事例として次の4つを紹介した。

1. パワー半導体のスペック情報比較

この記事は
Members+会員の方のみ御覧いただけます

ログイン/無料会員登録

会員サービスの詳細はこちら