2023年4月に、国立情報学研究所(NII)の所長に就任した黒橋禎夫氏が、メディアの共同取材に応じ、生成AIの最新動向や取り巻く課題などについて説明した。
黒崎所長は、「生成AIでは、中でなにが起こっているのかが、自然言語の研究者もわかない状況にある。大規模言語モデルの高機能性や汎用性、ハルシネーションなどの原因解明が必要である。生成系AIの仕組みを明らかにして、社会が安心して利活用できるようにしていくことが重要である」と提言した。
2000年4月に発足したNIIの5代目所長に就任した黒橋所長は、1994年に京都大学大学院工学研究科博士課程修了。2006年4 月から京都大学大学院 情報学研究科教授となり、2023年4月に国立情報学研究所長に就いて3カ月を経過したところだ。京都大学大学院情報学研究科特定教授を併任しており、「8割がNII、2割が京都大学」という勤務体系だという。自然言語処理、知識情報処理の研究に従事。生成AI分野にも精通している専門家であり、「ChatGPTの仕組みと社会へのインパクト」と題したYouTube動画は、3万回以上再生されている。
黒橋所長は、「生成AIは、要約や推敲、翻訳のほか、プログラミングの生成などにも効果を発揮する。文章を短くしたり、関西弁にしたり、英語にすることもできる。さらに、アイデア出しやブレストの対話相手として活用したり、就職面接や問診などの練習に活用したりといったことも可能になる。今後は、大規模言語モデルと外部の知識を組み合わせた活用によって、より精度が高い正しい回答が得られるようになる」と述べた。
注目を集めているChatGPTについても改めて説明。2022年11月にOpen AIが公開したチャットボットであり、公開後2カ月で1億ユーザーを突破したことに触れながら、「ニューラル自然言語処理などの研究のなかから生まれたAttention(注意機構)と、それを精緻化したTransformerがコア技術となっている。ニューラル自然言語処理は、単語などの意味を1000~1万次元程度のベクトルで表現しており、意味が似ている単語は近いベクトルとして修正されていく。2の1000乗あるいは10の300乗という膨大な意味空間において、次々と単語を推測するために、複雑なパラメータを活用している」と説明した。
GPTは、2018年に登場したときには1億1700万パラメータであったが、2019年のGPT-2では15億パラメータ、2020年のGPT-3では1750億パラメータに拡張。2022年に登場したGPT-3.5およびChatGPTは詳細については非公開であり、ChatGPTは会話的な振る舞いができるようにGPT-3.5を訓練。「パラメータは1桁増えているとも言われている」と推測した。2023年に登場したGPT-4は画像が扱えるようになったのに加えて、多言語でのパフォーマンスが大幅に向上。さらに、米国の司法試験では上位10%の水準となり、米大学入試テストのSATでは1600点中1410点を獲得。米医師試験のUSMLEでも合格レベルの点数を得ており、専門家と遜色がないレベルまで到達しているという。
「生成AIは言語モデルを用いているため表現が流暢であり、3000億単語のコーパスを学習しているため、なんでも知っている。だが、嘘があればそれを再現してしまい、『それは知りません』とは言わずに、言語モデルが『口を滑らす』ように、事実と反することを言ってしまうこともある」とし、「小学生などの学習初期には、利用には一定程度の制限が必要だが、ある段階からは積極的に利用し、批判的思考を身につけることが重要である」と語り、「デジタルネイティブ」の次の世代となる「AIネイティブ」の育成の大切さを指摘した。
今後は、Bingなどの検索サービスとの連携や、Open AI APIとの組みも合わせによる外部モジュールなどとの連携、外部ツールを用いた推論などによって、さらに高度化すると予測。また、画像、映像、ロボット制御といったマルチモーダル化、医療や法律などの専門性が高い分野への適用などが想定されると述べた。
さらに、生成AIを取り巻く著作権やデータの扱いについても説明。大規模言語モデルへのデータ入力については、ChatGPTでは申請すれば利用されないオプトアプトとなっていること、OpenAI APIは、申請すれば利用されるオプトインであること、マイクロソフトのAzure OpenAI Serviceではオプトアプトの設定ができることを示したほか、日本の著作権法第30条の4では、著作物のAI学習利用を認めているが、著作権者の利益を不当に害する場合は学習利用できないこと、AIの生成物には基本的に著作権は存在しないが、既存の著作物に類似するAI生成物の販売は、著作権侵害の可能性あることも示した。今後は、依拠性や類似性が高いコンテンツが、どの程度生成されるか、それをどう扱うかが問題になることも指摘した。「イラストなどについては、権利を侵害するというケースが出てくるだろうが、テキストについては同じようなものが出てくることは少なく、問題は少ないのではないか」とも推測した。
こうした生成AIの現状を説明した上で、黒橋所長は、生成AIの課題を指摘する。
ひとつめは冒頭に触れたように、生成AIでは何が起こっているのかが理解されていないため、その原理解明が必要であるという点だ。
「生成AIの高機能化への進化や言語の解釈の高度化は、急に飛行機が離陸したような感じがある。人間でも英語を学習していると、急に理解が進むのと同じことが起こっているのではないか」と比喩した。
2つめは、大規模言語モデルの研究開発が一部の組織の寡占状態となっており、健全な環境とはいえない点だ。「OpenAIは、マイクロソフトの資本が入り、もはやオープンではない。ビックサイエンスの分野における寡占化は好ましくない。完全にオープンで、商用利用が可能なモデルを継続的に構築し、大規模言語モデルの原理解明や多分野展開などの研究開発を進めることが必要である」と提言した。
そして、3つめが日本語の情報を十分にカバーし、使用のルールや入力情報の機密性が、明確にコントロールできるなどの要件も満たした生成AIの必要性である。
「日本語を十分に理解した生成AIの存在は、日本におけるビジネス利用による効果が見込まれるだけでなく、経済安全保障の観点からも必須になってくるだろう」と指摘した。
日本では、NIIなどが中心なり、2023年5月にLLM勉強会が発足し、こうした課題解決に取り組んでいる。LLM勉強会では、産学の自然言語処理と関連分野の研究者が参加し、オープンで、日本語に強い大規模言語モデルを構築し、大規模言語モデルの原理解明に取り組むことになる。
NIIと理化学研究所革新知能統合研究センター、学際大規模情報基盤共同利用・共同研究拠点(JHPCN)が、MDXに3000万ポイントを準備し、これを活用して、2023年秋には130億パラメータの大規模言語モデルを構築。さらに、2023年度中には、1750億パラメータの大規模言語モデルを構築する計画だ。
「2023年5月に第1回目の会合を行った際には約20人の参加者だったが、現在では約250人が参加している。3分の1が企業からの参加であり、日本マイクロソフト、インテル、エヌビディア、ヤフー、LINE、サイバーエージェント、Preferred Networksなど30社以上に達している。弁護士も参加している。モデルやデータ、ツール、技術資料などの成果物は、議論の過程や失敗事例を含めて、すべて公開することになる。勉強会も随時開催し、その内容も共有している」としたほか、「将来的には、NIIのデータ基盤をつなげて、AI基盤モデルの実現につなげていく」とした。
LLM勉強会では、創発や汎用性がどのように学習されるかといった学習原理の数理的解明や、データおよびモデルの効率化といった大規模言語モデルの「技術課題」、説明性や解釈性といったブラックボックス問題、公平性や安全性、著作権問題、コンプライアンス、信頼性などの大規模言語モデルに関する「社会課題」、医療や法律、教育などへの展開や、マルチモーダルなどの大規模言語モデルの「多分野展開」といった観点から課題解決を行っていくことになるという。
一方、黒崎所長は、NIIの取り組みについて説明。「情報学は、社会と近い関係にあり、社会で使われ、人に使われる技術である。研究と事業を両輪で進めていく必要があり、NIIは学術を支える技術を事業化している。これまで以上に研究と事業を密接に考えていくべきであり、そこに私の役割がある」とした。
黒橋所長が目標に掲げているのが、「データ基盤から知識基盤へ」の取り組みだ。
「知識基盤の構築は、今後10年をかけて実現していく構想である。5年後ぐらいにはこうした世界の地盤ができればいいと考えている。AI基盤モデルの構築はすでに開始しており、2024年度からはしっかりと体制を作って取り組んでいきたい。できあがったところから事業化していくことになる。将来的には、SINETのように、NIIの主要な事業として取り組んでいくことになる」と語る。
知識基盤の中核となるAI基盤モデルの構築に必要なデータの信頼性、信憑性を確保する技術を確立。AI基盤モデルが出力する情報の信頼性を担保する知識トレーサビリティを実現し、学術分野の垣根を超えた研究パートナーの連携を促進するという。
NIIが培ってきたネットワーク基盤と研究データ基盤に立脚し、大規模言語モデルに基づいたデータ解釈と、様々な分野の知識の関係づけ、体系化した知識基盤を構築することで、新たな知の創造や、ひとつの学問分野では解決できない複合的な社会課題の解決を支援していくという。
黒橋所長は、2022年12月に、日本学術会議の「未来の学術振興構想」の策定に向けた「学術の中長期研究戦略」の募集において、知識基盤の構築を提案。AI基盤モデルを中核として、ネットワーク基盤や研究データ基盤を拡張し、集まった良質な学術データを集約したAI基盤モデルを構築。様々な学術分野を解釈し、AIがファシリテータの役割を果たすとともに、そこに学術知識グラフを組み合わせて動作させることで、あらゆる分野の研究者が分野横断的に研究を行うことができる環境を構築することを目指すという。
「AIは世界を変えると確信してきたが、いまの生成AIの能力をみると、準専門家レベルの水準にまで到達している。AI基盤モデルが、専門が異なる研究者同士のファシリテータとしての役割を果たし、総合知を進化させることができるようになるだろう」とした。
黒橋所長は、「NIIは、情報学の研究、事業にフォーカスした日本で唯一の国立研究機関である。情報学に関する総合研究ならびに学術情報の流通のための先端的な基盤の開発および整備を行っている」と、NIIの目的を定義する。
71人の研究教育職員や36人の特任教授、301人の特定有期雇用職員のほか、NII情報学研究アライアンスとして204人の客員教授によるネットワークを構築。さらに、世界各国の117の主要大学や研究機関との国際連携を結び、国際インターンシッププログラムにより、2022年度は114人のインターンシップ生を受け入れているという。
研究については、情報学の基礎研究分野となる情報学プリンシプル研究系をはじめ、アーキテクチャ科学研究系、コンテンツ科学研究系、情報社会相関研究系の4つの研究系で構成。「日本における中核的な役割を果たす研究が多い」とする。
アーキテクチャ科学研究系では、蓮尾一郎准教授による「蓮尾メタ数理システムデザインプロジェクト」により、ソフトウェア理論の先端成果により、製造業を中心とした産業界の課題を解決。研究成果として、三菱重工ではガスタービンのパラメータの最適化のほか、マツダでは自動運転車の安全性保証などに活用している。また、コンテンツ科学研究系では、越前功教授と山岸順一教授による「シンセティックメディア(AIで作り出された映像)の生成と検出」に関する研究がある。これは、世界に先駆けたフェイクメディア検出の取り組みであり、NIIが研究してきた深層学習モデルを用いて、フェイク動画を検出。2023年5月から、自動判定するプログラム「SYNTHETIQ VISION」をライセンスとして提供。技術移転を円滑に進めることを目的に、事業を行う企業を募集している。
坊農真弓准教授が取り組んでいるのが「言語・コミュニケーションの壁を越える深層学習技術」であり、日本と英国における国際研究として、深層学習技術を活用して、コアとなる動作を抽出するなど、手話によるオンライン対話を行える環境づくりを支援している。
一方、事業については、ネットワーク基盤のSINET6を構築し、その上で、オープンサイエンスを実現する研究データ基盤のNII RDC(Research Data Cloud)を運用している。NII RDCは、検索基盤のCiNii、公開基盤のJAIRO Cloud、管理基盤のGakuNin RDMで構成し、新たな機能の拡張として、データガバナンス機能、データプロビナンス機能、コード付帯機能、秘匿解析機能、キュレーション機能を高度化していくことになる。「共通基盤を作ることが大切であり、各大学や研究者たちが自由に利用できる基盤として提供している」という。
なかでも、学術情報ネットワークのSINET6は、2022年4月から運用を開始。全国を400Gbpsで結ぶ環境を実現する一方、5Gモバイルの導入やエッジ機能配備およびサービスの拡大、国際回線の増強などを実現。SINETに直結した商用クラウドは32サービスに達しており、学術分野において商用クラウドサービスを、高速、安全、低価格で利用できるようにしている。SINET6は、現在は、大学や高等専門学校、研究機関など、1005機関が利用できるようになっている。SINET外との通信の監視を行い、国立大学法人や大学共同利用機関法人向けに攻撃検知情報を通知するNII-SOCS(ニーソックス)も提供している。
また、大学や研究機関がクラウドを導入、利用する際の支援サービである「学認クラウド」は、クラウド選択の基準や導入、活用に関する情報を提供する「導入支援サービス」と、クラウドサービスにワンストップでアクセスするためのポータル機能である「ゲートウェイサービス」、研究教育のためのクラウド環境構築を技術的に支援する「オンデマンド構築サービス」、情報提供や個別相談、ワークショップなどの「共通サービス」で構成。現在、125の大学および研究機関、44の事業者が参加している。
さらに、大学の情報環境整備を支援する学術認証事業を展開。、ここでは、大学や研究機関が組織内で運用する個人認証システムを、他機関や出版社でも利用可能にする学術認証フェデレーションである「学認」のほか、大学のドメイン名のサーバー認証や証明書発行を、大学とNIIが連携して実施する「UPKI電子証明書発行サービス」、教育機関や研究機関において、無線LANの相互利用を実現する国際的なネットワークローミングであるeduroamにおいて、日本側のとりまとめを行う「eduroam JP」を提供している。
学術コンテンツ事業としては、論文・研究データ情報である「CiNii Research」、博士論文のデータ情報である「CiNii Dissertations」、機関リポジトリによる学術情報の「IRDB」、図書や雑誌の書誌、所在情報である「CiNii Books」、科学研究費助成事業の研究課題および成果情報である「KAKEN」、海外電子ジャーナルや人文系電子コレクションである「NII-REO」を提供。論文にオープンにアクセスできる機関リポジトリクラウドサービスである「JAIRO Cloud」では737機関が利用しているという。
そして、研究データ基盤であるNII RDCは、2021年から本格運用を開始。現在、67機関が利用している。2022年度からは、AIなどの活用を推進する研究データエコシステム構築事業を開始。日本の研究力の飛躍的な発展を図るため、各分野および機関の研究データをつなぐ、全国的な研究データ基盤の構築と高度化、実装を進め、AI解析などの研究データ基盤の活用における環境の整備を行い、研究DXの中核機関などを支援することになるという。
また、全国的な研究データ基盤を活用したユースケース創出事業にも取り組んでおり、異なる分野間でのデータ連携を前提に、2023年度は、AIやデータ駆動型研究におけるシーズやユースケースの創出に関して課題提案を募集しているところだという。