Datadogは4月25日、同社のオブザーバビリティプラットフォームに組み込まれた「Watchdog」のAI(Artificial Intelligence:人工知能)エンジンについて、「ログ異常検知」と「根本原因分析」の2つの新機能を追加したことを発表した。
Watchdogは多数のイベントを分析して正常な振る舞いがどのようなものかを学習し、動作を比較することでユーザーが予期できない異常動作を検出する。
エンジニアがパフォーマンスや可用性に影響を及ぼす恐れのあるアプリケーションの異常な振る舞いを予測し、検知するルールを全て準備することは困難であり、同社は、アプリケーションのパフォーマンス問題をより迅速に検知・調査・解決し、チームの「アラート疲れ」を軽減するために2機能を追加したとしている。
ログ異常検知機能はログの正常なパターンを自動的に把握してベースラインを設定し、新しいテキストパターンと既存のパターンを比較することで、データ量の有意な変化や外れ値などの異常を事前に検知する。同機能によりDatadog Log Managementのユーザーは、重大なインシデントに発展する前に問題に対処可能となる。
根本原因分析機能はDatadogのAPM(Application performance management)製品と連携して、組織のサービス全体にわたる問題の因果関係を自動的に特定し、問題の発生源を割り出す。さらに、DatadogのRUM(リアルユーザーモニタリング)が導入されている環境では問題がビジネスに与える影響を特定する。同機能により、手動のトラブルシューティングでは通常数時間から数日かかる因果関係の特定やユーザーへの影響調査を数分程度で解決できるようになるとのことだ。
同社が今回発表した2機能は、Datadog APMおよびLog Managementのユーザーであれば追加の設定は不要で使用を開始できる。