5000社を超す企業が活用しているロゼッタの自動翻訳
AI翻訳のデータセンターを運営するロゼッタ社が、NVIDIA AI Days 2022 Springにおいて同社のデータセンターの裏側を説明する発表を行った。少し長いのであるが、このような内幕の発表は稀であり、興味深いので詳しく紹介して行きたい。
なお、ロゼッタ社と、ソースネクスト社が販売する語学学習プログラムのロゼッタストーンとは名前は似ているが、無関係である。
ロゼッタ社は高性能のAI自動翻訳の開発、サービス提供、運営を行う会社で、5000社以上の会社にAI翻訳サービスを提供している。一般的なAI翻訳はポケットに入るデバイスが発売されたりしているが、業務に使おうとすると、なかなかうまく行かない。一般の会話ではあまり使われないが、ある仕事の範囲では良く出てくる単語や言い回しに対応した翻訳ができないと、そこでつかえてしまって効率が上がらず使い物にならないということが良く起こる。そのような場合、契約した会社のAI翻訳の辞書などをカスタマイズしてちゃんと翻訳できるようにしてくれれば、使い勝手は大幅に改善する。これは一例であるが、自社の使い方に合わせてカスタマイズして使い勝手を改善するというニーズは多いと思われる。
ロゼッタ社は2000年に翻訳会社としてスタートし、2006年にAI自動翻訳サービスを開始した。2017年にはプロ翻訳者レベルに自動翻訳の精度が向上した。現在は同社の自動翻訳を導入した企業が5000社を超えている。
2004年より始まったロゼッタの自動翻訳開発の歴史
ロゼッタ社は2004年に創立され、2006年には専門用語に強い自動翻訳を行う「塾考」をリリースした。
なお、この発表ではほとんど触れられなかったが、ロゼッタ社は文書翻訳以外に音声翻訳やウェアラブル翻訳も行っている。ウェアラブル翻訳はMEDICAREとCONSTRUCTIONという名前がついており、その業界に特化した製品のようである。
次の図は売り上げの推移をプロットした図であるが、翻訳精度を改善した「T-400 (てぃーふぉーおーおー)」のVer2のリリースを開始したころから月間売上が急増している。また、この頃からGPUの利用を始め性能が向上したことも売り上げ急増に貢献していると思われる。
次の図は導入企業の分野別の数を示すグラフであるが、医薬、化学、食品分野では日経225に選ばれている企業の83%がロゼッタの自動翻訳を導入している。また、鉄鋼、金属、非金属、繊維分野の企業では61%、電気、機械、精密機器分野では57%の企業がロゼッタの自動翻訳を使っているという。
今回の発表で伝えたいことは、ディープラーニングを活用したサービスの展開には何が必要か、なぜロゼッタ社はオンプレミス(自社設置サーバ)を選んだかを説明したかったからであるという。
莫大なコストが必要なAI開発
ディープラーニングにはGPUを搭載したサーバさえあれば良いと思っている人があるが、それは間違いで、ニューラルネットワークの種類、使用するフレームワークのアーキテクチャとサーバのアーキテクチャの相性によって大きな違いが出るので、注意深く選択することが大事である。
前の白鳥の図のところで述べたように、研究フェーズとサービスフェーズには大きなギャップがある。研究として立派な成果が出てきているものの内、実際にサービスとして提供できているものはどのくらい有るのか、という点はよく議論されている部分である。
次に述べるように、AIの開発には資金が必要であり、よく考えていないとその資金があっという間に溶けてしまうとのことである。
ディープラーニングには通常GPUが使われるが、GPUボード1枚でもかなりのコストが必要となる。そして、高性能のGPUボードは200Wとか300Wの消費電力で、その電気代も馬鹿にならないうえに、GPUサーバを設置するデータセンターの空調費や場所代も必要となってくる。
そもそもディープラーニングではパラメータのチューニングのために多数の入力パターンを学習する必要があるので、AIサーバのリソースはいくらでも必要という状況となり、資金が必要となってくる。
最近では人工知能モデルのサイズが急増し、OpenAIのGPT-3モデルを1回チューニングするためには100万ドル(約1.4億円)掛かると言われている。また、最近の物価上昇傾向、為替変動、ウクライナへのロシア侵攻、コロナ禍による半導体調達難といった状況が、さらにコストを高めているとされている。