名古屋大学(名大)、桜美林大学、国立情報学研究所(情報研)の3者は5月30日、生成AI技術を用いて西洋古典学の研究と教育に新たなアプローチを提供するAI対話システム「Humanitext Antiqua」(以下「ヒューマニテクスト」)を開発したことを発表した。
同成果は、名大 デジタル人文社会科学研究推進センターの岩田直也准教授、桜美林大の田中一孝准教授、情報研/ROIS-DS 人文学オープンデータ共同利用センターの小川潤特任研究員らの共同研究チームによるもの。詳細は、一般社団法人人工知能学会が刊行する人工知能に関する学術誌「人工知能学会全国大会論文集」に掲載された。
Open AI社が2023年3月に公開した大規模言語モデル(LLM)「GPT-4」は、古代ギリシア語やラテン語を含む多言語での文脈処理と文章生成において非常に高い精度が実現されており、人文学分野での活用可能性を急速に高めた。しかしながら現状では、人文学分野へのLLMや生成AIの導入は、他の学術分野に比べて著しく遅れているとする。その背景には、LLMが使用する学習データの信頼性への懸念や、誤った情報を生成するリスク、対話型AIに適切な指示を与えるスキルの必要性といった課題があるからだ。
ただし、信頼できるデータ基盤に基づいた研究手法や倫理規定、教育システムを正しく整備できれば、人文学分野でもAI技術の導入は十分に可能とする。そこで研究チームは今回、これらの課題を解決し、人文学分野でLLMの多言語による文脈処理の能力を駆使した新たな研究方法を提示することを試み、西洋古典学に特化したAI対話システムとして「ヒューマニテクスト」を開発したという。
ヒューマニテクストの特徴は、西洋古典分野で広く利用されている「Perseus Digital Library」におけるオープンリソースのテクストデータなどを再構成することで、信頼できる原典テクストに基づいた回答を生成できる点とする。さらに、回答の典拠となる原典テクストとその典拠情報も同時に出力することができ、ユーザーは出力の正確性をいつでも容易に確認することが可能とのこと。このようにして、偽情報生成(ハルシネーション)の問題を可能な限り低減させたという。
現在、古代ギリシア語やラテン語の古典テクストを研究する際に使用されるデータベースは、特定の単語の用例を検索することはできるものの、そのデータ量が膨大であるため、すべての検索結果を1つ1つ調べるのはほぼ不可能だ。そのためこれまで研究者は、特定の著者や著作に調査対象を絞り、手作業で用例を確認するしかなかった。
しかしヒューマニテクストは、テクストの文脈を高度に理解できるため、ユーザーが自らの興味のある事柄について母語で質問するだけで、それに関連する原典テクストを特定した上で回答を出力できるとのこと。これにより、古代ギリシア・ローマの哲学、文学、歴史文献をより広い視点で比較しながら研究することが可能となる。研究チームはこの新しいテクスト探索・分析手法について、西洋古典学だけでなく、人文学全体で幅広い比較研究を進めるための大きな一歩となるだろうとする。
ヒューマニテクストは、西洋古典原典へのアクセスのハードルを大幅に下げることで、専門家以外の研究者や学生、一般の人々も日本語で西洋古典のリソースを気軽に引用・参照・解釈できる環境を提供するという。西洋古典は西洋や人類全体の知の源泉であり、研究チームは、今回のシステムを通じて多くの人々がこの過去の遺産からインスピレーションを得られる機会を広げることを考えているとした。
また教育現場では、これまでの文献精読を中心としたトレーニングではなく、創造的に問いを立てる課題発見能力とAIを適切に運用する能力の育成に、より大きな比重を置く必要が想定される。そのため研究チームは、ヒューマニテクストを活用した教育プログラムの開発にも取り組んでいるという。
さらに、今回開発された新しいテクスト分析システムは、テクストデータさえ整備できれば人文学全体で幅広く応用可能だ。この成果は、西洋古典学の研究を新たな次元に引き上げるだけでなく、あらゆる時代や地域の哲学・思想、文学・言語、歴史・文化にわたるテクストを包括的に分析し、新たな知識の開拓と理解の深化に貢献するとした。
これまで専門分野が細分化されてきた結果、各分野の知識は蓄積されてきた一方で、分野間の対話や包括的な視点に立つ研究が難しくなっていた。しかし、ヒューマニテクストを拡張することで、古今東西の知識を統合し、異なる学問分野の理解や思考法が交差する場を作り出すことが可能だ。研究チームは、同システムを活用することで、人文学研究における新たな学問領域や融合領域の開拓が今後の課題となるとしている。