システム停止、性能ダウンの発生を、可能な限り排除する。ここにあたり、システム監視は欠かすことのできない業務だ。ただ、システム監視は口でいうほど簡単なことではない。監視の対象は何なのか、どのようにシステム全体へ影響を与えずに監視対象を収集するのか、どうすれば膨大なデータからエラーを引き起こす因子を見つけることができるのか、……これらの理解無しに、”過不足の無いシステム監視”は叶わない。本稿ならびにここでダウンロードできるPDFでは、システム監視に関わる考え方と基本的な技術、構成要素を解説し、その上で”過不足の無いシステム監視”を行うための方法と、ツール選定にあたって持つべき視点を提示する。
対象読者
- システム監視を行っているが、今の手法で正しいのかどうか自信がない方
- 監視ツールの見直しを考えている方
- システム監視の経験がない方
システム監視の考え方
サーバー、ネットワーク、アプリケーション等、システムは多数かつ多様な要素によって構成されている。システム監視とは、各要素が生み出すデータを統計値として収集すること、そしてこの統計値から、しきい値と呼ばれる”システムに悪影響を引き起こす境界線”を越えていないかどうかを確認する業務を指す。
「単一トリガー」「差分」「発生回数」など、しきい値にも様々な種類がある。 |
システムが正常から異常へと陥る境界線がしきい値ならば、その反対は何と呼ぶのか。異常な状態からシステムが正常に戻る(と見なされる)境界線のことを、リセットと呼ぶ。このリセットは、必ずしもしきい値と一致するとは限らない。システムは多数の要素が複雑に関わり合うため、仮にしきい値が「ディスク使用率が85%を超える場合」であってもリセットが「ディスク使用率が70%を下回る場合」となることがある。
境界線を越えた際に実行する”応答”を、定義する
既述の通り、システムを構成する要素は複雑に絡みあっている。システムの安定稼働を継続する上で見るべきしきい値は膨大にあり、1つひとつを目視で確認するのは現実的ではない。このため、システム監視にあたっては、しきい値を超えたら独自のスクリプトを実行する、リセットを下回ったら担当者へメールを送る、といった応答を定義し、これを自動化していくことが求められる。
名称 | 概要 |
---|---|
しきい値 | システムに悪影響を引き起こす境界線 |
リセット | 異常な状態からシステムが正常に戻る境界線 |
応答 | しきい値を超えた場合、リセットを下回った場合に実行すること |
エラーや性能低下を防ぐためにシステムの構成要素のしきい値を確認する。万が一しきい値を超えた場合には、予め定義した応答を実行して構成要素から発生する情報をリセット以下まで引き下げる。システム監視はこのサイクルを繰り返す業務となる。
* * *
では、システム監視にあたってはどのような要素を見ていくべきなのか。監視に使用できる技術にはどのようなものがあるのか。冒頭の通り本稿で提供するPDFでは、システム監視に関わる技術、構成要素を解説するとともに、”過不足の無いシステム監視”を行うための方法を提示。自動化にあたって不可欠なツールの選定手法について説明していく。
また、システム監視の具体例として、ネットワークの性能監視と構成管理(システムを構成する要素の管理)の2つを取り上げ、ソーラーウインズの監視ツールを用いたハウツーについても紹介する。システム監視の経験がない方だけでなく、日々システム監視を行っている方にとっても、新たな発見につながるはずだ。
提供資料のご案内
- Monitoring 101 :
システム監視に関連する理念、理論、および基本概念の手引き- 具体例_ネットワークの性能監視 :
ネットワークのトラブルシューティングと問題の特定- 具体例_構成管理 :
「唯一変わらないもの」に取り組む
[PR]提供:ソーラーウインズ・ジャパン株式会社