凸版印刷は2月16日、高精度のくずし字AI-OCR(人工知能を使用する光学文字認識)を搭載し、古文書・古典籍をオンラインで容易に解読できるというシステムである「ふみのはゼミ」を開発したと発表した。教育機関、博物館・資料館、地方自治体などに向けて販売を開始し、2021年9月までに一般利用へ向けた開発を進めると共に、2023年までに関連事業を含め約10億円の売上を目指す。

  • サービスを使用した共同作業のイメージ

同社が2015年から研究・実証試験を行ってきたというくずし字OCRをさらに発展させ、凸版印刷総合研究所が開発したAI-OCRの導入による文字認識精度の向上および、グループワーク支援機能や解読効率を向上させるためのノウハウを結集させたとしている。PCやタブレットなどのブラウザ上で動作し、複数人での同時解読作業が可能になるとのこと。

AI-OCRの導入により、90%以上の精度で文字認識が可能になったといい、2019年度には大学共同利用機関法人人間文化研究機構 国文学研究資料館との実証試験を実施したという。また、慶應義塾大学と実験授業を行い、システムの改良に努めてきたとしている。2020年度には、慶大を始めとする4大学において、オンライン授業内での演習用システムとしての利用を試験的に開始したとのこと。教育機関や研究機関などでの利用を想定した機能の、さらなる充実化を進めているという。

同サービスの特徴として同社は、グループワーク用の支援ツール機能の搭載、最新のくずし字AI-OCRの搭載、目視と自動処理の併用による精度向上、オンライン辞書・事典サイト「ジャパンナレッジLib」との連携、既存のコンテンツとシステムの有効利用の5点を挙げる。

  • 他の参加者が編集中の箇所のリアルタイム表示

グループワーク用の支援ツール機能に関しては、参加者が編集している箇所をリアルタイムで表示し編集結果を即時反映する画面共有機能や、参加者同士で自由に交流できるチャット機能に加えて、解読した文字や単語に対して質問やコメントの付与が可能。

講師への質問や参加者同士の交流をスムーズに行うことができ、授業や各種イベント・ワークショップなどの活性化を促進するとしている。また、授業やイベントでの利用を想定した、開始・終了の制御、採点機能なども搭載しているとのこと。

  • くずし字AI-OCR導入のイメージ

くずし字AI-OCRについては、解読済みの古文書・古典籍から字形を採集し、くずし字の形をAIに学習させることにより、AI-OCRを生成したという。同サービスの画面上で解読したい範囲を指定すると、AIが学習した大量の画像から文字の区切り位置も含めて解読するとしている。

  • 目視と自動処理のダブルチェック

目視と自動処理の併用に関しては、目視による解読とAI-OCRによる文字認識の協調作業により、高い精度での解読を実現し、初心者から上級者まで練度に応じた方法で使用できるとのこと。また、目視による入力・校正の結果をAI-OCRへ再学習させることで、AI-OCRの精度は向上していくという。

  • ジャパンナレッジLibとの連携機能の検索結果イメージ

オンライン辞書・事典サイトとの連携については、ジャパンナレッジLibが提供するオンライン辞書・辞典の検索APIと連携し、ふみのはゼミからジャパンナレッジの辞書の検索が可能。文字を読むことに加えて用例や背景を調べることで、内容の理解を促進するとしている。また、調べた用語を画面内にメモとして記録するクリップ機能を搭載しているとのこと。

既存コンテンツとシステムの有効利用に関しては、所蔵資料の画像を基に独自の学習コンテンツの作成が可能という。また、既存の地域資料を利用したワークショップや翻刻会等の開催が容易になり、貴重史料の保全・解読活動を活性化するとしている。

同サービスの価格は、授業での利用する場合は、10万円(税別)/半期。なお、この価格は教育機関に限定であり、週1回の利用を想定している。ワークショップやイベントなどでの利用する場合は、1回あたり20万円(同)から。翻刻会などで利用する場合は、月額7万円(同)から。