(著者・インテル株式会社
AIセンター・オブ・エクセレンス AIテクニカル・ソリューション・スペシャリスト 大内山 浩)
先進的な企業の取り組みをひろく読者の皆様に紹介するため、寄稿記事を掲載します。
ChatGPTに代表される生成AIの大ブレークにより、AIの社会実装が加速すると予想されます。AIが「作る」から「使う」時代へと発展し、本格的な普及期になった"いま"、インテルでは「生成AI」と「サステナビリティー」という観点から、AIの普及を後押しする取り組みを推進しています。すでに、世界中の企業がインテルAI技術を活用してデジタル・トランスフォーメーション(DX)を推進中です。しかし、そこで課題となるのが「コスト」です。IDCの調査によれば、AIやML(機械学習)を利用している顧客の56%が、導入の課題が「コスト」と回答しています。AIの低コスト化を実現していくためには、「人材」と「プロセス」に「システム」という3つの観点から課題を解決していく必要があります。これらの課題に対して、インテルではどのように取り組んでいるのか紹介していきます。
AI人材不足の解消と開発プロセスの短縮化に取り組むインテル
経済産業省が2019年3月に公開した「IT人材不足に関する調査」によれば、2030年には12.4万人のAI人材が不足すると予想されています。人材不足はAIエンジニアの単価高騰を招き、プロジェクトコストに多大な影響を及ぼします。インテルでは、こうした状況の緩和に向けてAI人材を増やすために世界で実績のある独自のAI教育プログラムを日本向けにカスタムして、自治体や教育機関に提供しています。インテルの提供するAI for Citizens(全国民向け入門コンテンツ)や、AI for Future Workforce(AI開発者向け入門コース)は、日本でも千葉市や三豊市などで採用されています。また、山梨大学や香川高等専門学校などの教育機関にも利用が広がっています。さらに、インテルではAIエンジニア"レス"な開発を促進するために、インテル Getiというノーコードツールも提供しています。
2つ目の課題となる開発プロセスに対しては、テクノロジーによる支援と、実践的知見のオープン化という2つの方向で取り組んでいます。まず、テクノロジーによる支援ではMLOpsやAutoMLなどの先進技術を提供し、既存の開発サイクルの効率化に貢献していきます。具体的には、マルチクラウド対応のMLOpsプラットフォームのcnvrg.ioや、連合学習フレームワークのOpenFLに、2023年4月にオープンソース化したハイパーパラメーターチューナーのSigOptなどを提供しています。また、知見のオープン化では、インテル AI リファレンス・キットとして、アクセンチュアと協業し、彼らのAI開発の実案件から得られた構築手法をノウハウ化して提供しています。それに加えて、「Fujitsu Kozuchi」のようにパートナー企業とのコラボレーションの活性化も推進しています。
AIシステムTCOの削減に取り組むインテル
3つ目の課題の「システム」に対して、インテルでは「インフラコストの削減+サステナビリティー」というシステムTCOの観点から削減に取り組んでいます。その"AIシステムTCOの削減"に向けて、インテルは「CPUでやりきる」ための製品強化を実践しています。まず、CPUの進化では第4世代インテル Xeon スケーラブル・プロセッサーにより、AI処理に関して前世代と比較して最大で10倍の性能向上と、最大14倍の電力効率の改善を実現しました。また、CPUの能力を最大限まで使い倒していただくために、AI開発用OSSの最適化にも取り組んでいます。そして、AIモデルの中でも旬なものや将来のビジネスオポチュニティ―が期待されるものに関しては、個別の最適化を実施しています。例えば、構造生物学界でタンパク質の立体構造予測ツールとしてよく使われている「AlphaFold2」の最適化では、第3世代インテル Xeon スケーラブル・プロセッサー上で23倍の推論性能の向上を実現しました。インテルで確認している限り、この数値は、本ソースコードが公開された2022年末時点でNVIDIA A100よりも4倍高いスループットに相当すると認識しています。
AIの進化に合わせた多様な選択肢を提供するインテルのプロセッサー
AIモデルは、2019年から2020年くらいを境としてモデルサイズの肥大化が顕著になってきました。やや結果論的ではありますが、便意的に以前のモデルを「スモール~ミディアム」サイズ、以降のモデルを「ビッグ」サイズと呼んでいます。「スモール~ミディアム」モデルに関しては、今度コモディティー化がより進み、それに伴ってコストの締め付けが現在よりも厳しくなることが考えられます。したがって、Xeonのみを使ってコスト効率よくモデルの開発と運用を実施するという発想が現在よりも多くなると予想しています。ただし、「ビッグ」モデルに対しては、その演算量の多さからGPUやASICのようなアクセラレーターを使う方が結果的にコストパフォーマンスが優れていると考えています。ビッグなAIモデルの代表格が、2020年に発表されたGPT-3をベースに開発され、2022年に登場したOpenAI社のChatGPTです。2ヶ月で1億ユーザーを達成するという驚異的な記録を打ち立てるなど、多くの注目を集めたことにより、一過性のものではなく明らかなゲームチェンジャーであると広く認知されていると思います。ChatGPTのような言語生成型のAIは、大規模言語モデル:LLM(Large Language Model)と呼ばれています。LLMは、ChatGPTの他にもGoogle BardのベースになっているPaLMやMetaのLLaMAなど次々とリリースされており、まさに群雄割拠な状態です。インテルでも、Aurora genAIという巨大なLLMの作成に米国アルゴンヌ国立研究所、および、パートナー企業と取り組んでいます。そのモデルのサイズは、1000B(1T)パラメーターになると計画されており、GPT-3やPaLMを上回る大きさになります。
各種メディアや研究機関が推計したChatGPTのインフラ規模とカーボンフットプリントは次のような値になります。
- モデル学習 : 数千枚のGPU
- モデル推論 : 数万枚のGPU
- モデル学習のCO2排出量 : 約500トン
500トンという数字は一般家庭が数百年かけて排出するCO2量に相当します。このように、ChatGPT規模のLLMを構築するためには、消費電力なども含めた多大なインフラコストがかかります。
コストの課題に加えて、特にChatGPTのようなSaaS型LLMの利用にはプライバシーや情報漏洩などセキュリティのリスクが懸念されています。さらに、AIが故に回答内容の疑わしさという信頼性の問題もあります。これらの課題は、生成AIを利用するユーザー視点と、システムを構築し運用するIT視点から解決に取り組む必要があります。
SaaS型のLLMでは、入力したプロンプトといわれる質問文がインターネットを経由してサービス提供者のサイトに渡り、その内容がデータベースなどに蓄積されるのが一般的です。当然そうした流れの中でプライバシー情報の漏洩リスクが考えられます。こうしたリスクを抑制するために最近頻繁に議論されているのが、LLMをセルフホスティングするという考え方です。セルフホスティングにより、自身のデータをセキュリティ境界内に留まらせることが可能なため、先に上げたようなプライバシーの問題を回避できます。他にもセルフホスト型は様々なOSSのLLMの中から好みのものを選択する自由があるのも特徴です。
LLMを使おうと思った際に、SaaS型しか選択肢がないと思われている方は、結構いらっしゃるのではないでしょうか。しかし、セルフホスト型という選択肢があるということをぜひご認識ください。ただし、セルフホスト型にも、当然課題があり、大きなものの一つがインフラコストです。仮に、ChatGPT並みの巨大なモデルを自身で持ちたいと思うと、先に述べたような壮大なインフラストラクチャーが必要になります。しかし、数万枚規模のGPUを用意するのは簡単ではないので、より現実的な視点で、いかにインフラコストを削減できるかを考えていかなければなりません。その際の論点は2つです。ひとつは「インフラはGPU一択か?」で、もうひとつが「モデルは大きいほうがよいのか?」です。
まず、「インフラはGPU一択か?」ですが、LLMのインフラをめぐる各社の動向によれば、マイクロソフトやGoogleをはじめとして、処理能力とコストの最適なバランスをとるために、GPUからAI専用チップ、つまりASICへの移行を予見させる活動が目立ってきています。インテルではHabana GaudiおよびGaudi2というAI専用のASICを提供しています。GPUは、AI開発においてすごく優秀なチップですが、コスト面、電力消費面で課題意識を持たれているユーザーもおり、両面においてより効率の良いASICを使いたいという発想は、非常に自然です。例えば、ChatGPTのインフラがASICに移行するようなニュースが流れた場合、LLMをASICで動かすことが今後の大きなトレンドになるはずです。
2021年にリリースされたHabana Gaudiの後継として、Habana Gaudi2が2023年頭にリリースされました。ディープラーニング専用に設計されているので、GPUよりも高い演算性能と電力効率を実現しているという特長があります。インテルで確認したところ、ベンチマークでは、BLOOMzというLLMを推論処理した結果で比較した場合に、NVIDIA A100に比べて1.6倍の電力効率を実現できています。現在更なる最適化を進めており、最終的には、2.2倍まで効率を上げていく計画です。GPUは確かに優れたチップですが、セルフホスト型のLLMを検討するときには、ハードウェアの選択肢としてGPUもあるしGaudiもあるし、他のチップメーカーのものもあるという、多彩な選択肢が用意されていることをご認識いただき、コストと性能の両面から最適な選択を実施いただければと思います。
2つめの論点となる「モデルは大きいほうがよいのか?」についてですが、モデルサイズに関して、実は最近変化が起きています。ChatGPTを開発したOpenAIのサム・アルトマンCEOも「巨大なモデルを用いる時代は終わりつつあると思います。他の方法でモデルを改善することになるでしょう。」と語っています。モデルサイズを大きくして、新たな可能性を追求する活動がある一方、あらゆる企業や組織がLLMをセルフで持てるように、サイズを小さくしていくという活動が活性化されています。既に著名なAI企業では、LLMをいかに小さくしていくかという研究が熱心に進められていますし、今後もこういった取り組みは増加していくと思います。ちなみに、LLMを小さくしていくことで最も懸念されるのが「精度」を維持できるかという点です。しかし、この点に関しては、例えばGPT3(175B)の1/10以下のサイズであるSambaNova-13BがGPT3と同等の精度を実現している点などからも、近い将来、時間が解決してくれると思っています。また、LLMも一つのソフトウェア・アプリケーションなので、ビジネスゴールを明確にして、適切な要件定義を行い、適用範囲やデータを絞り込むことで、モデルの縮小化も可能と考えられています。そして、モデルが小さくなれば、それに伴ってインフラのサイズも小さくなり、さらにCO2の排出量も削減できます。インテルでは、そうした未来に向けて、Hugging Faceと協業して第4世代インテル Xeon スケーラブル・プロセッサーの32コア1ソケットだけで動くQ8-ChatというMPT-7B-ChatベースのLLMを実現しています。
インテルとBCG社が体現するLLMの民主化
LLMの民主化を体現する事例として、インテルはBCG(ボストンコンサルティンググループ)社と共同で社内向け情報検索LLMを開発しました。
BCG社は、50年分の業務データをハイブリッドクラウド環境のセキュリティ境界内に保存しています。その業務データを活用するために、社内情報検索用LLMを構築しました。このLLM用インフラとしてHanaba GaudiとIntel Xeonが採用され、Hanana Gaudiによるコスト効率の良いモデル開発が実施されました。構築されたLLMは日々社員向けに運用されており、社員満足度を41%向上、作業効率を39%向上するという良好なビジネス効果を実現しています。インテルは、LLMの民主化を“技術的選択肢の多様化”であると説いています。クラウドやオンプレミスという制限にとどまらず、あらゆる条件下の企業や組織、全ての皆様がLLMを保有できる、または、使用できる未来に向けて、それを実現するための要素技術やノウハウをリーズナブルなコスト感で充実させ、BCG社のような事例を1つでも多く創出していきます。インテルのパット・ゲルシンガーCEOも「生成AIは"AIの民主化"によりメインストリームとなる」と提唱しています。今後もこの“民主化“に向けたインテルの活動にどうぞご期待ください。
◆著者・インテル株式会社 AIセンター・オブ・エクセレンス AIテクニカル・ソリューション・スペシャリスト 大内山 浩
複数の外資系IT企業を経て、2019年にインテル株式会社へ入社。ITエンジニアからビジネスコンサルタントまで経験してきた幅広い知見を武器に、日本中の顧客のAIの事業実装を技術面およびビジネス面から支援。