Server Administrator は、イベント種類を使用して、システムの重要コンポーネントに影響するイベントを分類します。 正常、警告、重要が、コンポーネント状態について表示される最も普通の 3 つのイベント種類です。
これは、モジュールがイベント種類、状態そして重大度の用語を定義するのに役立ちます。 このヘルプモジュールを読むと、Server Administrator がモジュールを分類し、コンポーネントの正常性を識別するために使用するさまざまな用語の詳細を知ることができます。
Server Administrator がコンポーネントの正常性を報告している場合もイベントを分類している場合も、区別できるイベントのアトリビュートは次のとおりです。モニタされているコンポーネントまたは冗長性、種類、状態、およびコンポーネントが行っているイベントの重大度。
Server Administrator はコンポーネントとその冗長性との両方を種類、重大度そして状況に応じて分類します。
システムに存在するコンポーネントはすべてがそれぞれに重要な役割を持っています。 Server Administrator などのシステム管理アプリケーションは特に注目すべきコンポーネントをいくつかピックアップします。 コンピュータシステムを健全に保つには、システムコンポーネントを正しく動作させるために適切な電圧による安定した電力の供給がとりわけ重要となります。 電力はシステムの交流電流(AC)スイッチを通じてシステムの電源装置に供給されます。 またシステムの各コンポーネントはシャーシ内の温度が機能範囲であることを必要とします。 プログラム実行とデータ計算には、よく機能するランダムアクセスメモリが必要です。 これらの要件から、モニタ電源スイッチ、電源装置、ファン、およびシステムメモリなどは、Server Administrator が監視するコンポーネントの中で最も重要なものとなります。
Server Administrator は冗長コンポーネントの正常性を監視し、冗長性状態をシステムにレポートします。
企業や組織体の任務に照らし合わせたシステムの重要度に応じ、冗長性を図るためのシステムコンポーネントをシステムに導入します。 組織の任務にとってそのシステムの重要度が高くなるほど、冗長性を持たせるコンポーネントを導入するための必然性も高まります。 冗長コンポーネントは、それに相当するコンポーネントにエラーが発生した場合、その代替えを果たすように設計されたものです。 システムシャットダウンやコンポーネントの損傷によるダウンタイムにおいても、冗長性があればシステム機能の維持に力を発揮します。
システム全体に対する完全冗長とは、すべてのデバイスが正常な限界の中で稼動していることを意味します。 あるシステムの完全冗長に必要なファンの数が 4 台で、その 4 台がすべて稼動している場合、そのシステムのファンコンポーネントは完全冗長状態にあるということができます。 2 台のプライマリファンはいずれにエラーが発生してもバックアップが用意されています。 完全冗長には通常のメンテナンス以外の対応は必要ありません。
低下冗長とは、完全冗長に必要なコンポーネントの一部が稼動していないことを意味します。 システムは作動可能でも、コンポーネントエラーが発生した際、それを代替えできるコンポーネントが動作していません。 たとえばファンで完全冗長が必要になった場合、 3 つの作動可能なファンが低下冗長を表します。2 つのうちの 1 つの主要ファンだけが失敗した場合にバックアップがあります。
喪失冗長とは、システムエラーを発生させないための最低限の数のコンポーネントが動作していることを意味します。 冗長コンポーネントは何も作動していない状態です。 完全冗長のために 4 台のファンを要しながらも実際には 2 台しか稼動していない場合、ファンにエラーが発生してしまうとどちらのプライマリファンにもバックアップはありません。
イベントは種類によって分類されます。 例になるイベント種類は、正常、警告、および重要です。
正常イベントはコンポーネントがシステム内でその機能を適切に実行できる値範囲内で作動していることを示します。 状態が正常のコンポーネントにしばしば適用される別の用語は、OKです。 コンポーネントが OK またはイベントが正常である場合は、システムオペレータは対応処置を取る必要がありません。
警告イベントは、管理コンポーネントは最適に作動していないが、まだ作動は可能な場合に発生します。 警告イベントはシステムオペレータにリードタイムを提供します。 警告イベントに対する適切な処置は、詳しく調査してコンポーネントメンテナンスを日程に入れることです。 警告は、そのコンポーネントが正常に戻るまで、システムオペレータにより注意を払うように警告します。 パワーユーザーとシステム管理者は、警告イベントに対する最小値と最大値を定義できます。 パワーユーザーとシステム管理者の警告範囲を定義する特権では、パフォーマンスに低下の兆しを示し始めたコンポーネントへの対処に必要なリアクションタイムを組み入れることができます。
重要 / エラーイベントは、コンポーネントが適切な機能範囲の域外で作動しているか、またはまったく作動していないことを示します。 まったく作動していないコンポーネントは回復不可とみなされることがあります。 コンポーネントの開発を行いその機能を最もよく理解しているシステムメーカーがそのコンポーネントに関する重要 / エラー範囲の定義も行います。 エラーは緊急性を要します。システムオペレータにとってこの種のパフォーマンス低下は深刻な問題となります。 コンポーネントに重要事項やエラーが発生した場合は、システムの速やかなシャットダウンや交換するコンポーネントの緊急手配などを行います。
コンポーネントの状況またはシステムアトリビュートには、作動可能、低下、作動不能があります。
作動可能な温度とは、シャーシ内部にある温度プローブの読み取り値が正常な作動範囲内にあることを意味します。
低下温度とは、シャーシ内部にある温度プローブの読み取り値が作動温度の最低と最高とで定義した警告範囲内にあることを意味します。 シャーシ内部の温度が正常温度の最低限未満か、正常温度の最高より上になっています。
低下冗長とは各重要コンポーネントにエラーが発生した場合、代替え可能なバックアップを備えるだけの充分なコンポーネントが動作していないことを意味します。
作動不能のコンポーネントまたはコンポーネントアトリビュートとは、そのコンポーネントがエラーまたは回復不可の範囲内で動作していることを意味します。 温度の例をとると、システムはまだ作動していますが、温度が正常範囲のはるか上または下なので、システムのサーマルシャットダウンをトリガするか、または温度がシステムコンポーネントを損傷または破壊する恐れがあります。
コンポーネントの各イベントタイプと状態は、重大度別に分けられています。イベントの重大度にいは、情報、マイナー、メジャー、重要/失敗があります。
正常なイベントまたはコンポーネントの状態は作動状況にあり、正常イベントに関連する重大度は情報のみです。 Server Administrator は正常なイベントに対しては情報提供のみを行います。 Server Administrator はシステムオペレータにコンポーネントが正常であることを通知します。
警告イベントはコンポーネントによってマイナーか重要になります。 たとえば、ファン冗長システムからファンを 1 台取り外したときのイベントの重大度はマイナーとなります。
警告イベントはシステムのメジャーリスクを示す場合もあります。 ファンがシステムから外されている期間が長期になると、冗長度が低下するためイベントがメジャーに変わる場合があります。 組織内の任務にもとづき冗長性を要するコンポーネントが長期にわたってシステムで不在になると、利用可能なバックアップの欠如によってコンポーネントエラーを引き起こし、それがシステム全体のエラーに進展する可能性があります。
エラー範囲にある重要コンポーネントを検出したイベント。 ファンやAC コード、メモリモジュールなどのコンポーネントにエラーがあると、システムの稼動状態やデータ保存機能を著しく損ないます。
以下のテーブルは重要コンポーネントに対するイベント例を提供し、イベントの種類、重大度そして状態がどう関連しているかを示します。
コンポーネント | イベントまたは警告の種類 | 重大度 | 状況 |
AC コード | 正常 | 情報 | 作動可能 |
AC コード | エラー | 重要 | 低下 |
電源装置 | エラー | 重要 | 低下 |
冗長性(電源システム) | 完全 | 情報 | 作動可能 |
冗長性(電源システム) | 低下 | マイナー | 低下 |
冗長性(電源システム) | 喪失 | メジャー | 低下 |
温度 | 正常 | 情報 | 作動可能 |
温度 | 警告 | マイナー | 低下 |
温度 | エラー | 重要 | 低下 |
サーマル | シャットダウン | 重要 | 作動不能 |