Siriはどうやって日本語を漢字混じりの文に変換しているの? - いまさら聞けないiPhoneのなぜ

説明書を読まなくても使い方がわかるのが、iPhoneの魅力であり強みです。しかし、知っているつもりでも正しく理解していないことがあるはず。このコーナーでは、そんな「いまさら聞けないiPhoneのなぜ」をわかりやすく解説します。今回は、「Siriはどうやって日本語を漢字混じりの文に変換しているの?」という質問に答えます。

＊＊＊

最近のiPhoneをジェイルブレイクしたわけでもリバースエンジニアリングしたわけでもありませんから、一般論でお答えします。Siriが認識した日本語(ひらがな)を漢字混じりの文に変換する基礎は、おそらく「形態素解析」と呼ばれる技術にあります。日本語は英語など欧州諸語と異なり、品詞間に空白がありません。そのため文を動詞や形容詞、名詞などに分類する作業が必要になります。文字種の変化を基準に品詞を区切る簡便法もありますが、変換精度が大幅に低下してしまうからです。そこで利用される技術が前述の形態素解析で、膨大なデータから作成した辞書と文法規則をもとに、文字のら列に過ぎないテキストを最小構成(形態素)に分解し、品詞を判別します。複数の品詞に分解することで、効率よくかな漢字変換できるようになるのです。

たとえば、「きょうはかぜがつよいですね」という文を形態素解析すると、「きょう」(名詞)と「は」(係助詞)、「かぜ」(名詞)、「が」(格助詞)、「強い」(形容詞)などの品詞に分解できます。解析の精度は辞書の情報量と練度に左右されるため、その点も技術力の見せどころとなります。

iOSには、MeCab(めかぶ)という形態素解析のライブラリが収録され、かな漢字変換やSpotlightに活用されていることが明らかとなっています。Siriに使われているかどうかは確認できていませんが、なんらかの方法で形態素解析を行っていることは確実です。その形態素解析の技術がさらに洗練され、辞書も磨き上げられれば、Siriはさらに"賢く"なることでしょう。

日本語の文を複数の品詞に分解する処理には、「形態素解析」と呼ばれる技術が利用されています