ジャストシステムの日本語入力システム、ATOKシリーズの最新版「ATOK 2017 for Windows」が発売された。エディション構成は前バージョンと同じく「ベーシック」と「プレミアム」の2種類だが、今回の注目点は深層学習(ディープラーニング)を活用した変換エンジン「ATOKディープコアエンジン」の搭載である。
深層学習でATOKは賢くなったのか?
本稿をご覧になっている読者諸氏の多くは、Windows 10標準の日本語入力システム「Microsoft IME」に何らかの不満を感じている方々だろう。だが、今や日本語IMEの選択肢は非常に乏しい。そんな状況下、毎年のように改善を加えた新バージョンが登場するATOKシリーズを「最後の砦」と称するのは言い過ぎだろうか。新バージョン「ATOK 2017 for Windows」(以下、ATOK 2017)は変換エンジンを刷新し、「ATOKディープコアエンジン」を搭載している。
ジャストシステムの説明によれば、これまで蓄積してきた日本語資料の分析に機械学習手法の1つである深層学習を利用し、過去の開発担当者が見落としてルール化できなかった日本語の特徴を抽出。その結果を既存のATOKハイブリッドコアと呼ばれる変換エンジンと融合させることで生まれたのが、ATOKディープコアエンジンだという。ジャストシステムは、ATOK 2016で誤変換となった約30%が正しく変換可能になったという調査結果を, 2016年末の発表会で公開している。
深層学習を普段の変換学習にまで適用されるように思いがちだが、あくまでも深層学習は変換エンジンを開発するための手法としてジャストシステムが用いたものだ。その結果としてATOKディープコアエンジンは、部分的な「かな漢字変換」や部分的な「推測変換時の判断」が、スムーズに行われるように最適化されている。
もう少し、判断ロジックについて紹介しよう。例えば、かな漢字変換時には文節区切りを行ってから同音語を選択するのだが、すべての同音語に対して前後の関連性を保持させることは難しいため、もっとも日本語らしい組み合わせが選択される。ATOKシリーズではお馴染みの推測変換時も、単語同士の関連性を基準に候補を提示。この組み合わせが正しく、もしくは正解に近い結果を導き出されるように、ATOK 2017は変換エンジンを最適化している。
実感している読者諸氏も多いと思うが、変換の学習結果が以降の変換効率を下げるケースは珍しくはない。とはいえ、学習した単語の優先度を低くすると、何度も同じ単語を探し出さねばならず、利用者のUX(ユーザー体験)は低下してしまう。逆に、学習単語の優先度を高めすぎると、適切な文節区切りが難しくなる。ATOK 2017では、このあたりの微妙なさじ加減も、最適化する項目に加えたそうだ。
筆者は長年ATOKシリーズを仕事やプライベートで使っているが、ATOK 2017の進化を肌で感じたと強く伝える言葉は見つからない。使用した感覚は、ATOK 2016のそれと変わらないからだ。なお、ATOK 2017のプロパティダイアログを眺めていると、<入力・変換タブ>の<入力補助/特殊>に、<高度な変換処理を行う>という設定項目が新たに加わっていた。既定のオフからオンに切り替えても、特に変化を感じることはなかった。ヘルプファイルも項目名と同じ説明で、メモリー消費量などの変化も確認できていない(少なくとも今のところは)。