2022年11月にOpenAIのChatGPTが一般公開されて以降、世界中のユーザーがこれからは生成AIと自然言語で対話することで情報を得る時代なのだと認識を改めることになった。現在ではChatGPTに加えてGoogle GeminiやMicrosoft Copilotもその場所にいる。本連載は汎用生成AIの三巨塔のひとつであるGoogle Geminiに焦点を当て、その特徴や使い方を紹介していく。今回はその序章として、各サービスの経緯や特徴をまとめる。
OpenAIがもたらした社会変革
2015年、人類の利益のために安全で有益な汎用人工知能を構築することを目標として「OpenAI」という非営利組織が設立された。当初は非営利組織という組織構造が利益インセンティブに縛られることなく安全で広く有益な汎用人工知能の開発を指示するための最も効果的な手段であると考えられていた。
OpenAIは設立から3年後、寄付だけでは中核研究を前進させるために必要な計算能力と人材のコストに見合うだけの規模を達成することができず、その使命を全うすることが難しいと判断し、「上限付き利益構造」という多少込み入った組織構造への移行を発表した。この移行は、従来の非営利組織としての理念に取り組みつつ、それを実現するための資金をより集めやすくする組織構造だと説明されている。
OpenAIが上限付き利益構造を発表した直後に、同社はMicrosoftと戦略的パートナーシップを締結した。最終的にOpenAIはMicrosoftから多額の資金投資とスーパーコンピューティングリソースを獲得し、目標の実現へ向けて邁進することになる(参考「Our structure - OpenAI」)。
こうした組織変遷を経ながら、OpenAIは機械学習の研究において多くの画期的な成果を上げていった。自然言語処理(NLP:Natural Language Processing)に関する技術や、言語モデルであるGPT(Generative Pre-trained Transformer)シリーズの開発で特に知られるようになる。これらの技術は人間のように自然言語を理解し生成するAIの開発に大きく貢献した。
生成AIの可能性を広く認識させたChatGPT
そしてOpenAIは2022年11月30日、「ChatGPT」と呼ばれるサービスの一般公開を開始した。この日から世界中の多くのユーザーが自然言語による問いかけと、それに対する知的で高度な返答を体験することになる。ChatGPTはそれまでのAmazon Alexa、Apple Siri、Microsoft Cortana、Google Assistantといった音声アシスタントと比べて明らかにレベルが異なる複雑な問題解決能力を持ち、世界中のユーザーが時代の変化を感じただろう。
生成AI自体はChatGPTの登場以前にも存在しており、テキスト生成、画像生成、音楽生成など特定の分野で一定の成果を出している。ChatGPTはそうした中において高いアクセス性と誰でも利用できるという汎用性、さらにあまりにも自然な人間らしい会話能力が注目され、多くのユーザーに生成AIの可能性を広く認識させることに成功した。
OpenAIはその後もChatGPTのバージョンアップを続け、執筆時点では最新の技術を投入したChatGPT Plusの提供と、無償で使用できるChatGPTの提供を行っている。サインインすることなくChatGPTが使用できるようすることでさらにユーザー層を広げる取り組みも行っている(参考「ChatGPTがアカウント登録なしで利用可能に | TECH+(テックプラス)」)。
他のベンダーも生成AI開発を急加速
OpenAIによるChatGPTの登場は他の企業にも強い影響を与えた。生成AIに関しては、当然ながら他の大手ITベンダーも注目していたし、多額の投資、企業や技術の買収、研究開発が行われていた。そんな中登場したChatGPTは汎用的で人間のようなやり取りが可能であり、これまでの音声アシスタントとレベル違いの能力を有している。
似たようなサービスを検討していたベンダーは出し抜かれたと思い、生成AIを活用する取り組みを進めていた企業は方向性が間違っていなかったことを確信し、そして多くの企業はこの技術がもたらす新しいサービスに発想を膨らませていくことになる。
ChatGPTの登場以降、OpenAIの取り組みに遅れることのないように急ピッチで事態が進んでいく。最も早いペースで追いついてきた企業のひとつがMicrosoftだ。MicrosoftはOpenAIに多額の出資を行うといった具合に協力関係にある。
MicrosoftはOpenAIの技術を自社のサービスに取り組み、最終的に「Microsoft Copilot」を中核としてさまざまなサービスにCopilotの導入を進めていく。Windows 11とWindows 10には「Copilot in Windows」という生成AIチャット機能が統合され、Microsoft EdgeにはCopilotのサイドパネルが入り、Microsoft 365にもCopilotが取り込まれた。多様なプロダクトやサービスにCopilotが導入され、多くの場面で生成AIのパワーが利用できるようになっている。
MicrosoftはOpenAIが使っている技術を利用できる立場にあり、生成AI競争において有利な立場にあると言えるだろう。OpenAIが発表する新しい生成AI技術は、Microsoftでも早期に利用できるように取り組みが進められている。ChatGPTと共に今最も注目されている生成AIの取り組みのひとつになっている。
ChatGPTから数か月、Google Bardが登場
一方、Googleは生成AIのサービス提供では一歩出遅れた。Googleはインターネット検索エンジンとWebブラウザで強い立場にあったことで生成AIサービスを早期に提供する必要性が低かったことにも要因があるのではないかと見られている。
世界はChatGPTの利便性を知ってしまったため、Googleは生成AIチャットの一般公開を急ピッチで進めることになる。GoogleはChatGPTの一般公開から遅れること数か月、2023年2月に生成AIチャットについて発表し、2023年3月末には米国と英国で「Google Bard」と呼ばれる生成AIチャットの提供を開始した(参考「Google AI updates: Bard and new AI features in Search」)。
Google BardはOpenAI ChatGPTやMicrosoft Copilot(当時はBing Chat)に相当するサービスで、会話形式で複雑な質問に答えることができる。その動きはChatGPTやCopilotによく似ており、現在でもこの3つが無償・有償含めて広く使用できる汎用的な会話型生成AIサービスになっている。
Bardの発表から1年、「Gemini」へリブランド
GoogleはBardの発表から1年後となる2024年2月、これまでBardという名称で提供してきたサービスを「Gemini」という名称へリブランドした。同時により優れた言語モデルを使用する有償版の「Gemini Advanced」とモバイルアプリの提供を発表した。
Gemini Advancedには同社の先端AIモデルとなるUltra 1.0が使われており、コーディング、論理的推論、微妙な指示への対応、クリエイティブなプロジェクトでのコラボレーションなど、非常に複雑なタスクではるかに優れた能力を発揮すると説明されている。GmailやGoogle DocsからGeminiが使用できるほか、2TBのストレージも提供される。発表時点でGemini Advancedの使用料は月額19.99ドルで、日本円では月額2,900円で提供されている。
AndroidおよびiPhone向けにアプリの提供も開始されている。AndroidではGeminiアプリが提供され、iPhoneではGoogleアプリからGeminiへのアクセスが提供されている(参考「Google Bard is now Gemini: How to try Ultra 1.0 and new mobile app」)。
ChatGPT、Copilot、Geminiという3つのデジタル羅針盤
他にも生成AIのサービスは存在しているが、執筆時点で広く使用でき、それなりに知名度があるサービスとなるとOpenAI ChatGPT、Microsoft Copilot、Google Geminiが三巨塔ということになる。それぞれに無償版と有償版があり、サービスの発展速度は比較的早い。今がサービス初期の急激な発展段階と言えるだろう。
現時点でどのサービスが最も優れているかを示すのは難しい。各社は自社のサービスが最も優れていることを示すために各種ベンチマークや採用事例などを取り上げているが、実際に使ってみるとサービスごとにケースバイケースというのが現実だ。
筆者の使用感としては、有償版のChatGPT Plusが質問に対して最も欲しい答えを返してくれることが多いように感じるが、ChatGPTは全体的に新しい情報の扱いが弱い傾向が見られる。同じ技術をベースとしているものの、Microsoft CopilotはBingと連動しているためか最近の情報に対しても比較的適切な回答をすることが多い。かと言ってChatGPTやCopilotでは答えられない質問にGeminiが適切に回答することもある。単純にどれが優れているとは言い難い状況にあるだろう。
この状況はしばらく継続することが予測される。より賢い使い方は、どれかひとつの生成AIに限定するのではなく、必要に応じて使用する生成AIを変えるという使い方になると見られる。
Google Geminiを使ってみよう
比較的リアルタイム性に弱いのが生成AIチャットサービスの現状だ。インターネット検索大手のGoogleはGeminiでそれを大きく変えることができる立場にある。
ただし、Googleがどの程度対応してくるかは分からない。GoogleがGeminiを有利にしすぎると、Google検索の価値が低下する可能性がある。Googleのビジネスモデルを考えるとそれは得策とは思えない。
しかし、Geminiをリアルタイム性の低いままにするというのは、他の生成AIに先を越される可能性があるため、放って置くこともできないというのが現実ではないかと見られる。このようにGeminiが今度どの方向に舵を切るのか部外者が知るのは難しいのだが、大きく化ける可能性あることは間違いないので、現時点から使い方やその特徴などを掴んでおくのは悪くない取り組みだ。
本連載ではGoogle Geminiについての情報や、基本的な使い方を取り上げていく。気になっているものの使ったことはないという場合にはぜひ試してもらえればと思う。