Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. |
Googleから、Webで使われているテキストのエンコーディング割合がOfficial Google Blog: Unicode nearing 50% of the webにおいて発表された。1年半前の発表時点の傾向が続いており、ほかのエンコーディングを引き離してUnicode (UTF-8)が50%のシェアへ近づいている。変化割合は大きく、今後もUnicode (UTF-8)の割合が急成長していくとみられる。
グラフはGoogle検索におけるインデックスをベースとしている。グラフから読み取る限りではUnicode (UTF-8)が46%ほど、ASCIIとWindows-1252/ISO-8859-1/ISO/IEC 8859-15がぞれぞれ19%と18%ほどとなっている。Googleではテキストコンテンツを一旦Unicodeに変換してから処理を実施しており、最近は内部で利用するUnicodeのバージョンをUnicode 5.2へアップグレードしたと説明がある。