機械学習や深層学習といったAI技術を用いた分析の手法が続々と登場・普及する一方で、組織的な活用を考える企業はさまざまな課題に直面している。なかでも、分析や開発を行うデータサイエンス人材が環境構築と整備に時間を取られてしまっており、本来行うべき業務に集中できていないというケースは少なくない。

必要なデータを必要なときに準備し、環境構築と整備になるべく時間を取られないために企業がすべきこととは何か?

4月21日に開催したマイナビニュース主催のオンラインセミナー『AI Day 2020 Apr. ~事例で学ぶAI 実践活用シーン~』の中で、日本ヒューレット・パッカード(HPE) ハイブリッドIT事業統括 プロダクトアーキテクト統括本部 製品技術本部の齋藤豪氏が解説した。

  • 齋藤豪氏の講演スライド,

    セミナーはオンラインで開催。右上に映るのが日本ヒューレット・パッカード(HPE) 齋藤豪氏。新型コロナウイルス感染症の影響で、講演者に事前に自宅で撮影してもらった講演動画を配信した

AI活用に向けて企業が直面する共通の課題とは

「Jupyter、Python、Tensorflow、Kerasなどに触れている人やデータ自体を管理するデータエンジニアリングを手掛ける人も含めた『データサイエンティスト』たちに、環境構築している時間はない」と講演冒頭で警鐘を鳴らす齋藤氏。

「しかし、クラウド・オンプレミス問わず、ITインフラの整備に時間を費やしてしまっており、本来のデータサイエンスに時間を十分に避けていないケースがある」と続ける。

環境構築と一口に言ってもさまざまなケースがある。

AIを活用したデータ分析パイプラインを大きく分けると、IoT端末やビジネスシステムから発生したデータを収集→加工→蓄積→分析していくという流れになるが、齋藤氏は「この流れのなかでシステムをどう配備するかはケースバイケース」と説明する。

  • データ活用のプロセスは状況によってさまざま,

    データの発生、収集、加工、蓄積、分析と続くプロセスの中で、どの作業をどの環境で実施するかは、現場によって本当にさまざま

たとえば、顧客サイトで発生したデータの収集から分析までのすべてを自社のデータセンターで行うケースもあれば、データの発生から加工までは生産現場、蓄積から分析を自社のデータセンターで行うケース、発生したデータをクラウドで収集し、その後の加工からは自社データセンターで行うケース、発生から加工まではデータセンター、蓄積・分析をクラウドで行うというケースも有り得る。

ただし、ここに挙げたケースはすべてある程度環境構築が進んだ時点での話だ。齋藤氏は「はじめからここまでの形を考慮して設計するのは非常に困難。最初から高額な投資を伴ってデータ分析のシステムを構築するケースは多くない」と説明したうえで、AIを活用したデータ分析の開始段階には2パターンあるとした。

AIデータ分析、開始段階の2パターン

開始段階2パターンのうち、1つは個人の端末から始まるケース。手元のワークステーションで1人で環境を構築し、データセットやモデルはネット上にあるものをダウンロードして使っているようなイメージだ。この場合、分析の規模を拡大していきたいときには、よりパフォーマンスが求められるなど環境構築や可搬性がネックになる。

もう1つは、クラウドサービスを活用して始めるケース。スモールスタートが容易というメリットがあるが、実際のユーザーからは別のクラウドサービスに移行したいという声や、分析したいデータが社内の既存システム内に存在しておりデータを転送できないという声があるという。

いずれにしても「拡張性やルールづくり、メンテンナンス性などが『企業IT』の水準に到達していないことが課題になっていくことは共通」と齋藤氏は指摘する。

「クラウド上の新規データだけでなく、オンプレミスのデータと連携したい場合や、別部門が有しているデータを活用したい場合などには、メンテナンス・ルール・コストなどの問題でオンプレミスのデータをパブリッククラウドに上げづらかったり、データの置き場を統合することが困難だったりする」(齋藤氏)

組織横断的な分析基盤を構築する

そこで齋藤氏が提案するのは、組織横断的な分析基盤の構築だ。この場合、各クラウドにまたがるサービス配備やデータ連携、データセンター外にあるデータをどうハンドリングして使っていくか考慮しなければならないという。

良いデータ置き場の条件として齋藤氏は、「オンプレミスでもクラウドでもエッジでも稼働できるようにし、開発者にとっては利用しやすく、情報システム部門などにとっては運用・管理しやすくすることが重要。また、データの利用用途がその時点では未定の場合もあるので、解析用としてもファイルサーバとしても使えるようにしておく必要がある」とする。

これを実現するデータ基盤としてHPEでは「MapR」を提供している。MapRについて齋藤氏は「データセンターやクラウドなど、どこで動かしてもいろいろなところに接続できるマルチプロトコル対応のデータストアだと理解してもらえば良い。必要な分だけスケールアウトさせることも可能」と説明する。

  • 柔軟性の高いMapR,

    柔軟性が非常に高いMapRはデータストアの有力な選択肢

さらに、ハイブリッドクラウドやマルチクラウドを導入している企業に対しては、マルチクラウドストレージサービス「HPE Cloud Volumes」を紹介した。

「とあるクラウドサービス内のデータを別のクラウドサービスに安く速く送ることが難しいというのが、ハイブリッドクラウド時代の課題。HPE Cloud Volumesにデータを置いておけば、クラウド内のストレージサービスのように各パブリッククラウドの仮想マシンからダイレクトマウントが可能となる」(齋藤氏)

必要なアプリを実行できる環境をすぐに配備

機械学習/深層学習を実行するための環境の進化は著しく速い。そうしたなかでは、常に最新の技術を取り入れなければならないだけでなく、ライブラリやフレームワークの組み合わせによってきちんと動作するか判断しなければならないことなども分析基盤の課題となる。

そこでHPEでは、Kubernetesベースのコンテナプラットフォーム「HPE Container Platform」を提供している。コンテナ技術の活用により、分析に必要な環境を、各ツールのバージョン依存を考慮しすぐに配備できるというもので、クラウド上でもオンプレミス上でもアプリケーションを実行することが可能となる。齋藤氏は「必要なアプリケーションを実行できる環境が簡単につくれることがメリット」と説明する。

部門や立場によってアクセスできるリソースを制限することが必要な場合もあるだろう。HPE Container Platformでは、「テナント」という概念を定義し、テナントごとに利用可能なコンピュートリソースやストレージリソースを管理することで、データの秘匿性を担保しながら、インフラのリソースを効率的に使っていくことができる。

  • テナントという概念を導入,

    HPE Container Platformでは、テナントという概念で管理を容易にしている

さらに、機械学習/深層学習を行うにあたっては多くの場合、データの準備からモデル構築、モデルのトレーニング、デプロイ、モニタリングまでのライフサイクル管理を継続的に実施していかなければならない。

齋藤氏によると「HPE ML OPS」というライフサイクル管理機能を合わせて使うことで、必要な人に必要な権限を割り当てながら継続的にプロジェクトを管理していくことができるのもメリットだという。

  • HPE ML OPSによる管理の姿,

    HPE ML OPSで、機械学習の活用で発生する一連のプロセスを円滑に管理できる

規模に合わせてスケールできるIT基盤を

最後に齋藤氏は「企業におけるAI活用を進めるには、開発者やデータサイエンティストが本業に集中するためにより柔軟で可搬性のあるシステムが必要。また、AI活用の肝になるデータは、複数部門がアクセスできるところに蓄積することを推奨する。さらに、機械学習/深層学習の環境構築・配備はコンテナ化して楽にしたほうがよい」と今回の講演内容についてまとめた。

  • AI活用にまつわる課題と解決策,

    AI活用にまつわる課題と解決策

続けて、「組織横断で社外の人と協業するというケースも多くなってきている。はじめは小さいプロジェクトでも、どんどん拡大してさまざまな人たちが関わっていく可能性のあるAIプロジェクトに対しては、規模に合わせてスケールできるIT基盤を構築すべき」とアドバイスした。

[PR]提供:日本ヒューレット・パッカード株式会社