重要なお知らせ

「教えて! goo」は2025年9月17日(水)をもちまして、サービスを終了いたします。詳細はこちら>

電子書籍の厳選無料作品が豊富!

社内のサーバで年2・3回の頻度で障害が発生しており、
その原因が特定できず、対応に困っております。
環境はHWが「PRIMERGY RX100」、OSが「Vine Linux 4.2」です。
サーバアプリとして「apache」、「bind」「squid」「sendmail」「ntpd」が稼動しています。
同様の構成のコールドスタンバイ機がありまして、メイン機とスタンバイ機ともに同じ障害が発生したことがあります。

症状は以下のとおりです。

(1)Pingコマンドに対する応答あり。
(2)sshによるリモート接続不可。
(3)KVMからの直接操作では、ログイン画面でキーボードから入力した文字は表示されるがEnterを押してもシェルからの応答がない。
   (パスワード入力要求メッセージが出力されない)
(4)システムクロックに遅延が発生する。
(5)smartdが起動しており、一時間毎に状態をログに出力するよう設定を行っているが、それを含めた一切のログが出力されなくなる。
(6)NTPサーバを稼動させており、これと同期を取っているクライアントPCはサーバ障害発生時に(4)の影響でクロックが遅延する。
(7)障害復旧はマシンの電源ボタンで強制シャットダウンすることで対応していますが、過去に一度だけ再起動後にBIOSのRAID設定が消えていたことがあります。

会社のCE部門に尋ねても原因はわからないと言われてしまいました。
障害が発生する際にログ等の出力がないため、原因がハードにあるのかソフトにあるのか特定できず、今後の対応に困っております。

宜しくお願いいたします。

A 回答 (2件)

ログも何も吐かれていなければ回答は不可能です。



とは言え、現場では何らかのアクションが必要ですものね。
#似たような経験があります

コアが吐かれていないのであればハードの可能性が高いはずです。
基本的にはメーカーコールをしてシステムチェックを行います。
運用に影響が出ると考えるならば部品を見込み交換しながら原因を特定するのが吉。
サーバー更新をするのが現場では一番ありがたいでしょうけど。

また、個人的意見ですがVineをミッションクリティカルなサーバーにすることに異論があります。
仕事で使用するのであれば保守サポートをつけることが望ましいと思いますが。
    • good
    • 0
この回答へのお礼

ありがとうございます。

ハードの保守契約は「なぜか」結んでいないのでメーカーコールするとなればスポットになると思います。

OSをLinuxに以外のモノに入れ替えてしばらく運用し、同様の障害が発生すれば「ハードの問題」、
逆に何事も起こらなければ「ソフトの問題」と、切り分けが可能です。

と上司に提案したのですが、
現時点では、大袈裟すぎる(工数が掛かりすぎる)との理由で却下されました。

結局は上司の指示により、現状ままでしばらく様子をみることに決定いたしました。

ありがとうございました。

お礼日時:2008/07/09 22:12

ヒートメモリーでは?。

    • good
    • 0
この回答へのお礼

ありがとうございます。

「ヒートメモリー」とは「メモリの熱」のことでしょうか?
メモリに関しましては、memtest86+を3周ほど動かしましたが異常は検出されませんでした。

お礼日時:2008/07/08 12:28

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!