EU、22言語の翻訳リソースを開発者に無償公開

欧州委員会(EC)は18日(現地時間)、約100万の文章を22言語に翻訳した翻訳データを無料で公開すると発表した。開発者はこれを利用して、マシン翻訳やオンライン辞書など、コンピュータを利用する言語や翻訳技術に役立てることができる。これにより、文化の多様化に貢献し、少数言語の保存に役立てるという。

現在、欧州連合(EU)には27の加盟国があり、公用語は23言語。EUでは規定により、すべての法文書が公用語に翻訳されなければならない。翻訳作業としては、オリジナル言語と翻訳ターゲット言語の組み合わせは253あり、EUは多言語データを保有している世界最大の機関という。EUには1,700人以上の翻訳者が勤務するといわれており、多言語テキスト処理ツールなどの開発も進められている。

今回のイニシアティブの下、ECは翻訳者とEU内の科学者と共同で、約100万の文章につき、アイルランド語以外の22言語のデータコレクションを公開する。この中には、英語、フランス語、ドイツ語などの言語のほか、ハンガリー語、チェコ語など新加盟国の言語も含まれている。すべて公文書で、分野としてはテレコムや情報などの技術、政治、社会などをカバーする。

開発者はこれを利用して、オンライン辞書、グラマーチェッカー/スペルチェッカー、マルチ言語テキスト分類システムなどの言語ソフトウェアを作成したり、すでにあるソフトウェアの精度を向上できるという。また、公開するデータは手作業による精密な翻訳テキストであるため、自動翻訳ソフトウェアはこれを利用して「学習」し、精度を高められる。このようなニーズは、テキストマシン翻訳システム分野で高いといわれている。

ECでは、このイニシアティブにより、EUが推進する人間言語技術、文化の多様性、マルチ言語主義を支援し、コンピュータを利用した翻訳を容易に低コストに実現し、アクセスしやすくする、としている。EUでは、情報リソースの再利用にオープンなポリシーを掲げており、これに一致するものでもある、としている。

また、域内の市民の情報アクセスも改善できるという。たとえばEUの公用語であるラトビア語やルーマニア語のWebサイトやオンライン情報量は限定されているが、コンピュータ翻訳が進めば、このような言語を話す人が容易に広範な情報にアクセスできるようになるとみている。