Googleは5日(米国時間)、4月4日(米国時間)にThe Unicode Consortiumより発表された最新のUnicode 5.1に対応したことを発表した。これは同社の提供している検索においてUnicode 5.1が使えるようになったことを意味している。このためマラヤーラム語などで検索ができるようになっている。
Unicode 5.1は10万以上の文字を含み、ソフトウェアにおけるテキスト処理を拡張するように改善が加えられている。データ交換時におけるセキュリティが向上しているほかインド語派や東南アジアスクリプトに対する文字の追加、タミル語やほかのインド語派スクリプト処理の改善などさまざまな改善や文字追加が実施されている。
WebサイトはASCII、Latin-1、Windows 1252、Unicodeなどさまざまなエンコーディングが使われている。Googleではこうした多くのエンコーディングに対応するため内部の処理を一旦Unicodeに変更しておこなっている。今回発表されてから1カ月以内という早さで新しいバージョンに対応したのはそうした事情があるからだ。
同社はUnicode 5.1のサポートを表明すると同時に、Webにおけるエンコーディング割合の推移について発表した。これは同社の検索インデックス情報をベースにして解析されたものだ。2001年には過半数をASCIIが占めていたものが、2008年には割合が逆転し、Unicodeがもっとも多い割合を占めるように変化している。ASCII、Western European、Chineseのみならず日本語のエンコーディングも減少傾向にあり、それにかわってUnicodeが急激割合を伸ばしている。
注目すべきはWebでUnicodeが活用される割合が2005年あたりから急速に伸びていることだ。この傾向が続けばUnicodeが占める割合は今後も増加することになるだろう。