ネットワーク監視と並んで重要なのが「サーバ監視」です。 サーバと聞くと電源プラグなどが搭載された筐体をイメージする人がいるかもしれません。しかし、そもそもサーバというのはユーザーの要求に応えるデータを提供するコンピューター、またはプログラムを指します。
ユーザーはサーバにアクセスすることで、サーバにあるソフトウェアを利用できます。一方、サーバにアクセスするための経路がネットワークとなります。
サーバ監視では物理的な筐体ではなく、目に見えないプログラムを監視することを指します。今回はオンプレミスでサーバを利用している企業を想定して、サーバ監視について解説していきます。
SNMPを用いた「有人監視」と「自動監視」の特徴
サーバ監視では基本的に、アプリケーションソフトウェアを利用してSNMP(Simple Network Management Protocol)を監視します。SNMPはネットワーク上に存在する装置の状態を監視するために開発されたプロトコルです。
SNMPの監視では、「SNMPマネージャ」と被監視対象にインストールされている「SNMPエージェント」の状態を定期的に確認して、被監視対象のパフォーマンスに関するデータを取得します。取得した値が異常値だった場合、障害と判断します。
SNMPの監視方法は、「有人監視」と「自動監視」の2種類があります。有人監視では、サーバが設置された部屋に人を常駐させて監視します。また、人の手を介して遠隔操作による監視も有人監視と言えます。社会インフラ基盤を稼働させるサーバなど、絶対に不具合が起きてはいけないサーバに対しては、有人監視を導入しているケースもあります。
しかし、24時間365日の監視を人が行うので、ほとんどのケースで外部委託を利用しているのではないでしょうか。人件費がかさんでしまう点も考慮しなくてはなりません。
自動監視では、サーバを自動で監視するツールを用います。不具合が発生した際に担当者へアラートを発信する設定にしておけば、現場に人員が常駐することなく、安心してサーバを遠隔運用することができます。また、属人化やヒューマンエラーの軽減にもつながります。
サーバダウンに備えて、チェックすべき項目とは
サーバは電源やメモリ、ストレージなどのハードウェアとOS、アプリケーションといったソフトウェアで構成されています。そのため、監視する対象は非常に多く、「電源の状態」や「ネットワークの疎通」、「アプリのログ」など、さまざまな項目をチェックします。
「大手企業のサーバがダウンした」というニュースを耳にしたこともあるのではないでしょうか。Webサイトやサービスに、サーバの処理能力で対応できないほどアクセスが集中すると、レスポンスが低下し、場合によってはサーバがダウンします。サーバをダウンさせないために監視すべき項目は以下です。
起動状態、稼働時間
まずはサーバの起動状態をチェックします。すべてのサーバが適切に稼働しているかを常にチェックしましょう。1つのサーバだけでシステムを稼働させている場合はもちろん、複数のサーバでシステムを構築していても、いずれかのサーバが適切に稼働しなければ、他のサーバに負荷をかけてしまいます。
近年では、ロードバランサー(負荷分散装置)を活用したサーバ監視がトレンドに挙げられます。ですが、ロードバランサーは事前に設定されたルールに基づき、複数のサーバへアクセスを振り分ける装置で、トラブルが発生したサーバにはアクセスを振り分けません。
また、サーバの稼働時間も重要な監視項目です。長時間稼働しているサーバでは、リソースを占有したまま停止している「ゾンビプロセス」が残ってしまうケースもありますし、OSのアップデートができず脆弱性が放置されてしまうこともあります。パフォーマンスとセキュリティの両面から、サーバの稼働時間はしっかり監視しなければなりません。
リソース、イベントログ、Syslog
サーバのCPUやメモリ、ディスクの使用率といったリソースは必ずチェックしましょう。使用率が高くなることで、遅延やアプリケーションの停止を招く恐れがあります。
また、イベントログやSyslogのチェックも重要です。これらはサーバの稼働状況が正常かどうかを判断する根拠になります。しかし、イベントログやSyslogは膨大な量が生成されます。専用ツールによる監視がベターでしょう。
プロセス、サービス
「サーバ自体は正常に稼働していても、アプリケーションやWebサービスが正常に稼働していない」というケースもあります。必要なプロセスが停止し、サービスが中断してしまうこともあるでしょう。
アプリケーションプロセスやサービスが正しく稼働しているかはもちろん、プロセスごとのリソース使用率を監視することも重要です。
実際ダウンしてしまった場合は
サーバがダウンしてしまった場合、ネットワークを通じて、監視ソフトウェアでの再起動は困難な場合が多いと予測されます。フリーズしてサーバとの通信手段がなくなっていることが想定されるためです。
その場合、サーバへの物理的な電源供給のOFF/ONによるリブートが必要となります。有人監視の場合、担当者がその作業に当たればよいのですが、自動監視を活用した遠隔からの管理の場合、迅速な復旧は望めません。そのため、ソフトウェア監視に合わせて、前回の記事で紹介した死活監視装置を併用することもあります。
自社に合ったサーバ監視とは
サーバ監視では、自社の業務に合う手法で実践することが重要です。自動化で業務の効率アップを図ることも必要ですが、ビジネスの中には非定型業務もあります。業務内容に一定のパターンがあり、同じ処理を繰り返すサーバ(Webサーバやメールサーバのように、決まった動作を行うサーバ)の監視は自動化させましょう。
Office Online Serverのような、さまざまなアプリケーションをファイル共有するような非定型業務に用いるサーバは、きめ細かい対処ができる仕組みを構築しましょう。
監視ツールを活用する場合は、サーバ専用タイプか統合タイプ(ネットワーク上にあるさまざまなサーバやネットワーク機器を1つのツールで統合的に監視するタイプ)を選ぶ必要があります。
統合タイプは多機能スペックを備えていますがコストは高く、専門的なスキルも求められます。また、特定のベンダーのみに対応するツールと、マルチに対応するツールもあります。自社のサーバ監視に最も適したツールを導入するためにも、サーバ監視ではまず、監視の目的やシステム環境をしっかり整理することが求められます。