東京農工大学は、同大学の学生が考案したアルゴリズムが「第21回アルゴリズムコンテスト」において、最優秀賞を受賞したと発表した。古典籍画像の指定領域に含まれるくずし字をAIに認識させる課題で、優秀な認識性能を示したということだ。

  • くずし字を認識するDCRNの構成

    くずし字を認識するDCRNの構成

同アルゴリズムは、東京農工大学大学院工学研究院の中川研究室の修士課程2年リー・トゥアン・ナムと博士課程1年グエン・コング・カーが考案したもので、11月に開催された4th International Workshop on Historical Document Imaging and Processing(HIP 2017)でも、最優秀論文賞を受賞している。

同アルゴリズムコンテストは、パターン認識・メディア理解分野の若手研究者・学生の育成および研究会活動の活性化を目的として、毎年開催されているもの。提示される課題には、代表的・基礎的な研究課題が取り上げられ、応募されたアルゴリズムは、その性能・独創性・処理時間の観点で評価される。今年は、古典籍画像の指定領域に含まれるくずし字を認識して、コードを出力する課題が出された。課題は、外接する長方形に含まれる文字数に応じて難易度が設定されており、レベル1は1文字、レベル2は縦方向の3文字、レベル3は縦横方向の3文字以上の文字が含まれている。なお、認識対象の文字は変体かな50種程度で、漢字は含まれていない。

同学チームのアルゴリズムでは、レベル2のために、畳込みニューラルネットワーク(CNN)、双方向長・短期記憶ニューラルネットワーク(BLSTM)、コネクショニスト時系列識別法(CTC)を3層に組み合わせ、深層畳込み再帰ネットワーク(DCRN)を構成している。第一層では、事前に学習させたCNNによって縦書きのくずし字から特徴の列を抽出し、第二番目の再帰層ではBLSTMによって候補文字と確率の組の列に変換し、3番目の層のCTCで文字列に変換する。

レベル3では、X-Yカット法とボロノイダイアグラムを使って文字行を切り出し、行を一列につないでから、レベル2の方式を適用している。X-Yカット法は、縦方向、あるいは、横方向への射影によって空白を見つけて切り、次に、他の方向への射影において空白を見つけて切るという作業を、切れなくなるまで繰り返す手法で、ボロノイダイアグラムは、複数の黒画領域に等距離の白画素内の点をつないでできる分割図となっている。斜めや複雑に空間がある場合でも切り出せるというメリットがあり、X-Yカット法で分離できないものに、ボロノイダイアグラムを利用している。

同学チームは、レベル2で認識率87.6%(23チーム中1位)、レベル3で認識率39.1%(23チーム中1位)の好成績を記録した。受賞に際しては、明確な文字の切出しを必要としないこと、種々の構成を検討していること、レベル3のための複数行の検出と統合、総合的な構成が評価されたということだ。なお、レベル3の認識率が低かったのは、1文字でも誤認識すると、全体として誤認識になるためで、文字列のなかに混同しやすい文字があると、こうした結果になるという。これを改善するためには、当時の言語統計から文字と文字のつながりやすさ(文脈)を利用する方法が効果的であり、それによってレベル3の認識率はレベル2に近くなることが予想される。データをさらに大量に蓄積することで、漢字を含め、認識率がさらに高まることが期待されるということだ。