中国・富士通研究開発中心と富士通研究所は8月21日、人間の脳の働きを模した人工知能技術を活用した高い精度の手書き文字認識技術を開発したと発表した。

詳細は8月25日から米国ワシントンで開催される国際会議「ICDAR 2013(International Conference on Document Analysis and Recognition)」にて発表される。

各種カードや携帯電話、スマートフォンの契約申し込みなど、手書きで住所や氏名などを入力する機会は多く、手書き文字の電子化が必要な業務では、データ入力の効率化が求められている。手書き文字の字形は、筆記者によって様々に変動するため、従来は、文字を構成する線の方向やその数を文字の特徴として捉え、個々の文字を認識していた。しかし、変形の大きい文字を認識できなかったり、認識精度を高めるための文字の学習に時間を要するなどの課題があった。

字形の変動の大きい手書き文字の例(中国語)

今回、人間の脳の働きを模した人工知能技術を活用し、文字の特徴をより詳細に、かつ高速に学習する仕組みを開発した。これにより、文字の学習時間を従来の約1/17に短縮すると同時に、94.8%の認識精度を実現したという。

文字の認識は、あらかじめ登録された学習データを基に行われるため、認識精度を高めるためには、大量の学習データが必要となる。学習は、人間が文字を覚えるのと同じように、大量の文字を入力して文字の特徴を捉えて学習データとして蓄積していく。その際に、人間の脳内の細胞を想定した階層的に連なるモデルを用いることで、文字の画像が入力されると、第1階層として文字の単純な特徴を捉え、次に第2階層として文字の複雑な特徴を捉えるといった、文字の識別に有効な特徴の抽出が階層的を自動的に行い、どの特徴(細胞)に反応したかの学習結果が文字ごとに蓄積されるという仕組みとなっている。

認識の際は、入力された文字から学習の際と同じように階層的に特徴の抽出が行われ、学習結果を基にどの特徴(細胞)に反応したかによって、文字が特定され認識結果が出力される。これらのように人間の脳の細胞に模したモデルを導入し、各階層間をつなぐ結線の数を同モデルで一般的に用いられている数の約7倍(7階層で約280万)まで増やすことで、認識精度を高めたという。

開発技術の概念図

今回のモデルでは、各階層間をつなぐ結線の数が膨大になるにつれて、学習に時間を要する。そこで、学習データの構築の際には、高速な並列処理に強いGPUを用いることで、従来4カ月かかっていた学習時間を約1/17の約1週間に短縮することに成功しており、文書画像処理分野で最大となる国際会議のICDAR2013主催の手書き文字(中国語)認識コンテストでは、過去最高となる文字認識精度(94.8%)を達成し、1位を獲得している。

なお、今回開発した技術は、中国語だけでなく日本語にも適用可能な技術であり、これを用いることで、変形の大きい文字でも高精度に読み取ることが可能となり、データ入力時の誤読が減り、データ入力コストの削減が可能になるとするほか、今後は、同技術の高精度化を進めていく計画と同社では説明している。