• アイはさだめ、さだめは……

MicrosoftがBingインターネット検索のフロントエンドにAIを採用したためなのか、ここのところテレビでもAIについての話題が多い。そこで、OpenAIのChatGPTについて調べて見た。なお、BingのAI検索(チャット)は、GPT-3.5やChatGPTの技術を応用しているが、ChatGPTそのものとは異なるものだ。後述するようにBing AI検索では、インターネット検索した結果から回答文章を生成している。これに対してChatGPTは、インターネット検索は行なわず、構築されたモデルの知識のみで文章を生成させている(と本人が言ってました)。

インターネット検索や簡単ではあるがOpenAIの出しているドキュメントにも目を通したが、ニワカAI技術者なので、理解には時間がかかりそうだった。どうしたらいいのか考えあぐんでいたが、ChatGPTに尋ねたら、ちゃんと答えてくれた。なんだか、SFテレビドラマに出てくるような高性能すぎて、自分の欠点まで教えちゃうコンピューターみたいである。AIの特徴として、間違う可能性もあるので、ChatGPTの回答をインターネット検索などで検証した。

ChatGPT自身によれば、ChatGPTとはユーザーが入力した文章を解析して、事前に学習された「自己回帰言語モデル」を使って文章を生成しているという。インターネット検索は行なわず、ユーザーが行なった質問に含まれた単語(複数回の質問による文脈は把握している)から、推測できる単語を使って、自然な文章を作るのだという。

ChatGPTの「GPT」は、“Generative Pre-trained Transformer”の略で、回答を生成する自己回帰言語モデルを実現するための技法である。「Transformer」は、ニューラルネットワークの構造の1種である。「Generative Pre-trained」は、学習の技法の1つ。簡単にいうと、正しい文章から単語を抜いた穴埋め問題を作って、それに解答できるように学習を自動的に行なう方法だ。この方法では、ラベル付けのような人手を介さずに大量の文章からコンピューター自身が学習を勝手に行なうことができる。

GPTでは、文章をから単語の遷移確率を学習する。これを使って、入力単語の次にくる単語の確率分布を出力する。つまり、過去に自分が出力した単語が次に出力する単語に影響するようになっている。これが「自己回帰」である。

ChatGPTの場合、ユーザー入力を分析した単語(トークンと言っていたので文法上の単語とは異なる可能性があるが、ここでは理解しやすいように単語とする)が入力となる。単語の確率分布から、可能性のある単語を選び、モデル状態を更新して、その次の単語の確率分布が出す。これを繰り返し、入力文から推測できる単語を次々に推測していくことで文章を作る。もともと文章から学習しているので、出力は「文章らしい」ものになる。あくまでも確率を元に単語が選択されているので、意味的に正しい文章になるとは限らない。しかし、きちんと学習されている分野に関しては、それなりの文章を出力できるようだ。

現在使われているGPT-3は、2020年の発表で2019年頃までの情報で学習が行なわれているらしいので、最新の情報には、疎いのかもしれない。GPT自体の学習には、数ヶ月といった長い時間がかかるらしい。適切と思われるパラメーターの見極めを行なうと、学習を複数回繰り返す必要があり年単位の時間かかかりそうだ。

このため、GPTには、知識を追加する方法として短時間での学習が可能な「ファインチューニング」があるという。モデル全体を再学習させるのではなく、追加情報を付け加えるやりかたらしい。すでに構築された情報についての知識を追加することは有効だが、まったく異なるもの、あるいは学習したものと相反するものを学習させるには向いていないという。たとえば、スポーツの記録更新のような情報は、すでにスポーツについての知識が自己回帰言語モデルに構築されているため、追加情報として効果的に学習が可能だという。逆に専門的なトピックなどに関しては、追加情報の量や種類によっては効果的でないことがあるという。

使って見ると、たしかにChatGPTは面白い。ものごとのに関して「恋愛小説風」に説明してと頼めば、それらしいものを出してくれる(写真01)。人名について尋ねると、Wikipediaに載っているような解説を出してくれる。GPTは、すべての人名の正確な情報を学習していないから、人によってはデタラメな解説になる(これはインターネット検索しているBingのAI検索とは異なる応答だ)。ChatGPTによれば、「塩田紳二」は実業家でオンライン旅行会社の元社長らしい。

  • 写真01: ChatGPTに「時空の対称性により、クーロン力とローレンツ力が対として存在しなければならないことを恋愛小説風に説明してください」と頼んでみた。長いので冒頭のみを掲載する。危うい文章もあるが、想定外のものを出してきた

仕組みから考えると推測に推測を重ね、大量に学習した文章を、つぎはぎしているものでしかなく、背景には作者の経験や状況、意識もなにもない。しかし、万華鏡のように次々といろいろなパターンが出てくる面白さがある。

筆者が心配なのは、多くの人がAIの出力に慣れて満足してしまわないか、ということだ。人の評価はあいまいで、周囲に流されやすい。集団における平均評価は、もの自身が持つ価値だけでは決まらない。AIの出力で満足する人が増えれば、相反して創造物を作る人の地位が低下し減少していくだろう。AIが人類を越えることをシンギュラリティと呼ぶが、AIの進化だけで起こるのではなく人類の退化でも起こりえる。

今回のタイトルネタは、ジェームズ・ティプトリー・ジュニアの短編集の邦題「愛はさだめ、さだめは死」である。邦訳は収録短編のタイトルを書籍タイトルとしたもの(原書は別のタイトル)。執筆同時、作者は公の場に姿を現していなかった。前書きでロバート・シルヴァーバーグは、ティプトリーを男性としていたが、実際には女性であることがあとから判明した。邦訳が出たときには、すでにこの話が知られていて、前書きにも追記されていた。しかし、もし、このことを知らずに読んだらどうだったのか? を考えざるを得ない作品である。「帯域外」の情報が存在するのも、人が作るものゆえである。