ChatGPTは、人間との流暢な“会話”ができることでメディアでも注目される技術となっています。ChatGPTの出現は、今までの機械と人間の関わり方を大きく変える転換点だと言えるでしょう。ChatGPTでは、人間の入力した言葉をそのまま受け取り、その回答として自然な文章を出力します。これは、従来のAIやコンピュータプログラムとは一線を画したものです。
今回は、「言葉を介したAIとのコミュニケーション」という切り口からChatGPTを見ていきます。
→連載「ChatGPT入門 - 初めてのAIチャット活用」の過去回はこちらを参照。
AIとの最初のコミュニケーションは「プログラミング」
歴史をさかのぼってみると、AIは当初、機械しか理解できない機械言語での入力しか受け付けませんでした。そのため、人間から機械に命令を出すときには人間がその命令内容を決まった形式のコードに落とし込み(プログラミングして)、コンパイルという処理を通して機械言語に変換するプロセスが必要でした。一連の作業は誰でもできるわけではなく、プログラミングの知識を持った人間のみが行えるものだったのです。
しかし、ChatGPTでは、そのようなプログラミングの知識を持った人間でなくても、AIに命令や質問ができるようになりました。これは、AIの大きな進化と捉えられると思っています。
人間にとって、言葉は何かものを伝えたいときに「最も使いやすいツール」であり、慣れ親しんだコミュニケーション手段でもあります。そのため、ChatGPTのような言葉を媒介にするAIは、その親しみやすさから、従来のコンピュータプログラムよりも利用の難易度が大きく下がったと思われます。
拡大するプロンプトタイプのAI
ChatGPT以外にも、人間の言葉(テキスト)を受け付けるAIは増えています。このテキストベースの指示を「プロンプト」と呼びます。本稿では、さまざまなプロンプトタイプのAIを、以下の2つに分けて紹介します。
- Text-to-Xタイプ:言葉(テキスト)を入力として何か(X)を出力する
- X-to-Textタイプ:何か(X)を入力して言葉(テキスト)を出力する
Text-to-Xタイプ
Text-to-XタイプのAIの一つに、「StableDiffusion」があります。StableDiffusionは、ユーザーが描きたい絵を表現するための言葉を入力するだけで、絵を描いてくれるAIです。例えば、「rainbow lion」と入力すると鮮やかな虹色のライオンを描いてくれるなど、現実には存在しないような物の絵も、とてもリアルに描いてくれます。
「ControlNet」も同様に、ベースとなる画像と言葉を入力すると、ベース画像を基に、言葉を具現化したような画像を生み出すことができます。例えば、何かしら人間のポーズを入力し、「dancer」という言葉を同時に入力することで、同じポーズのダンサーの画像が出力されます。
X-to-Textタイプ
人間の音声(発話)を文章に書き起こす技術や、画像を言葉で表現するイメージキャプショニングのような技術なども、以前から研究されています(2022年9月にOpenAIが発表した「Whisper」ものその一つです)。このような技術は、「テキスト以外のデータをテキストにする技術」という意味で、プロンプトベースコミュニケーションに繋がると捉えられます。今後、AIとのコミュニケーション手段に応用されることも考えられるでしょう。