【お知らせ】[observation] 当組織監視サーバー障害につきまして

平素は当組織グループのサービスをご利用いただきまして、誠にありがとうございます。

2021年10月17日(日) 17時30分頃 ~ 19時21分頃までの間、
当組織監視サーバで2時間弱に渡り
サーバー障害が発生いたしました。

今回の障害につきまして、
原因を調査しましたところ原因がわかりましたので公表させていただきます。

ソフトウェアアップデート(yum update -y *)の際に
当組織監視サーバにカーネルがそれぞれ異なるバージョンのものが
複数インストールされてしまい、
カーネルバージョン等に相違が発生しました。

結果、再起動を行ったところ、
「カーネルパニック」が発生し、
起動ができなくなりました。

経緯等につきましては、一部省略いたしますが以下の通り開示します。

※2021年10月17日(日)
17時00分頃 - 同日は、監視サーバに問題が確認され緊急メンテナンスを実施いたしました。
参考:緊急メンテナンス - 当組織監視サーバ
※問題が確認されたサーバは、ステータス等を更新処理するサーバでしたが
 監視ソフトウェア等バージョンアップを実施するために「監視サーバー」
 を対象としておりました。

17時13分頃 - 同メンテナンスでソフトウェア等アップデートも同時に実施しました。

17時30分頃以前 - ステータスを処理するサーバのメンテナンスを実施し、
完了いたしました。

17時30分頃 - メインの監視サーバで当該アップデートの挙動が多少おかしい状況が見られましたが、
当組織監視サーバーに負荷がかかっていたこともあり、
高負荷によるものと判断して、再起動を実施いたしました。
※正常にアップデートが完了しない等事象のことを示しています。

17時43分頃、メンテナンスの終了を公表しましたが、
確認不足等も理由となり、その後に公表する障害報で
結果としてサーバー障害が発生してしまいました。
※問題だった部分を調整したため結果としては完了と判断していました。

その後、再度「緊急メンテナンス」を実施すると公表しましたが、
同時期に発生していたことから「障害」として判断し障害報を公表しました。
サーバ障害 - 当組織監視サーバー (緊急メンテナンス報)
サーバー障害 - 当組織監視サーバ (障害報)

19時02分頃
調査を続けましたところ、
カーネルパニック」であることが判明し
レスキューモードで起動、及びカーネルの
重複を解消し設定を調整しました。
参考にさせていただいた記事:centos7.8で起動時にカーネルパニックが起きたときの対処

その後、サーバー再起動を行い正常稼働を確認いたしました。

※本障害による各種サーバ等の、
 データ破損、及び情報漏えい等はありませんので、
 ご安心いただければと思います。


本障害により、ご心配とご迷惑をおかけいたしましたことを改めて深くお詫び申し上げます。

当組織は、今回の事態を真摯に受け止め、
当組織グループでの事業運営に際して、
以後再発防止に努めてまいります。

再発防止策の取り組みにつきましては、
決定次第、改めて公表いたします。

※障害発生期間においては、サーバが正常監視できなかったことで
 当該期間に発生していた障害などが関知出来ない状況でした。

今後とも当組織グループのサービスをよろしくお願いいたします。

トップへ戻る
タイトルとURLをコピーしました