モルフォAIソリューションズ(モルフォAIS)は4月22日、東京大学とともに「デーヴァナーガリー文字OCRの実用化と文献データベースの利活用にむけた応用研究」に向けて、AI-OCR(画像データに記載された文字をデータ化する光学的文字認識に、AIを搭載した技術)を活用した研究開発を開始したことを発表した。

  • 研究開発のイメージ

    研究開発のイメージ

研究の概要

今回発表された研究「デーヴァナーガリー文字OCRの実用化と文献データベースの利活用にむけた応用研究」では、デーヴァナーガリー文字を読み取るための光学文字認識(OCR)ソフトウェアの開発と実用化を目指し、そのOCRを用いて読み取ったサンスクリット文献群のデータベースを利活用するための応用研究を行う。

デーヴァナーガリー文字とは、ヒンディー語、マラーティー語、ネパール語などの現代語のみならず、インド圏の文化や歴史などについて多くの史資料を残すサンスクリット語の表記のための主要な文字として使用されてきたインド系文字の1つ。

他の人文系分野同様、サンスクリット文献学の分野においても文献のデジタルアーカイブ化やテキストデータベース化は最重要課題であり、これまでも世界各国でさまざまなプロジェクトが展開されてきた。

しかし、これらのプロジェクトはいずれも手作業によるデータ化が中心であり、個々の研究者の多大な時間と労力を要している状況となっているという課題が散見していたという。

このような状況を踏まえ、これまで手作業で行われてきたテキストデータ採取の方法を自動化するため、同研究では、FROG AI-OCRのコアエンジンとして利用している国立国会図書館のNDLOCR(同図書館がデジタル化した資料から、全文テキストデータを作成することを目的に開発したもの)を改良することで、デーヴァナーガリー文字のOCRテキスト化を可能としたという。

現在は、その読み取り結果を検証してOCRの精度を改善する研究段階となっているが、最終的には手作業での転記や修正作業の手間を大幅に削減することを目指している。

今後もモルフォAISは、産官学との連携により、多様な用途のAI-OCRを新たに開発していく予定としている。