日別アーカイブ: 2022年7月5日

クラッシュ後の整理

今回の、私の仮想マシンサーバーのクラッシュでは

  • Web受付のフロントエンドサーバーの不調
  • ストレージのエラー

と言う2つの出来事が在りました。

それと、記憶の片隅に、

ProxmoxVE6をオンライン状態でバージョンアップした記憶が有ります。

私は、仮想マシン環境のサーバー1台を完全に飛ばしてしまったのですが、

そもそも、発端となった、Web受付のフロントエンドサーバーの不調、

これは、下記のURLを書かれている方が遭遇された事象と同じだとわかりました。

’https://qiita.com/maccadoo/items/fb4a9cbc591a5ec9839e

Web受付のフロントエンドサーバーにCentOS7のLXCを使っていました。

ProxmoxVE6で、CentOS7のLXCコンテナを使っていたと言うことです。

それが

ProxmoxVE7では、CentOS7のLXCは対象から外されている。

CGROUP関連の事柄でそうなるらしいです。

ProxmoxVE7にバージョンをアップすると、CentOS7のLXCは起動しなくなる。

…。

オンライン状態でProxmoxVE6の「アップデート」ボタンを押したんだと思います。

そのタイミングでは、

Web受付のフロントエンドサーバー(CentOS7のLXC)は動きを止めることはなかったのですが、

昨日(CentOS7のLXCを)再起動したら起動してこなかった。

と言う事が起きたと思われます。

さて、

上記に記したURL(https://qiita.com/maccadoo/items/fb4a9cbc591a5ec9839e)に書かれている内容は、先月ちらっと読んでは居たのです。

でも、CentOS7のLXCでWeb受付のフロントエンドサーバーを動かしている事を失念していました。

そして、

ProxmoxVE6の「アップデートボタン」を押した時、普通にそのまま動いていましたので、後に、こういう事態に遭遇するとは思っていませんでした。

どういう言葉が適当なのでしょうか?、「予兆」「前触れ」「…」

私の環境は検証環境だったとは言え、そこでコケているのはかっこ悪いです。

商用環境と検証環境の二重持ちをしておいて、先に検証環境で充分に安定運用を確認できるまでは、商用環境に持ってこない様にしていたら、良かったなぁと思います。

しばらくは、変わった体制でしのごうと思っています。

ブログサーバーのコンテナは、PVE7でも問題動きますので

普段運用をしている、低消費電力のサーバーのPVE7で動かします。

Web受付用のフロントエンドサーバーはPVE7だと起動できないため

別の高性能サーバーでもPVE7を動かし、

そこのVMでPVE6を動かし、

そのPVE6で元々のWeb受付用フロントエンドサーバーを動かしています。

電力を食うのと、夏場で(暑い)熱い事も有りますので、早いうちに低消費電力サーバーだけの運用に戻したいと思っています。

あと、

「ProxmoxVEを停止出来無かった事」と、「ストレージのエラー多発」の原因は、現時点では判っていません。

システムがクラッシュしました。

2022年の6月7日 から、7月4日迄の間に投稿した内容や、頂いていたコメント、ログが消えました。

状況は以下のとおりです

2022/07/04 22:00頃、外部よりログインを試みる動きを発見しました。

いつものことなので、

WEBアクセスのフロントエンドを受け持つサーバのファイアウォールに

該当IPアドレスからのアクセスを拒否する設定をしました。

そして、そのWebアクセスを受け付けるフロントエンドサーバーをリブートしたのですが、シャットダウンも、リブートも出来ない状況になりました。

そこで、

仮想マシン環境自体をシャットダウンして、再起動することにしました。

しかし、シャットダウンが出来ません。

コンソールも反応がなくなりました。

仕方なく、強制電源OFFを行いました。

リブートさせると、ストレージのエラーが多発してました。

いつもなら、数分FSCK等して立ち上がってくるのですが、今回はだめでした。

5年くらい前から使っている、中古で入手したSSDです。

何度もリブートさせましたが、メンテナンスモードから先に進めません。

油断してました。日々バックアップをしていませんでした。

直近のバックアップは、2022年6月7日でした。

一先ず、

外付けSSDをUSBに繋いでマウントし、VM達の最新のバックアップを保存。

なんとか、最新の動作中の仮想マシンイメージも救出したかったのですが、

私の力量では出来ませんでした。

仕方なくPROXMOXの直近のバージョンをクリーンインストールしました。

そして、バックアップしてあった、2022年6月7日のデータから再スタートしています。

      ネットワーク環境を実験的に、かなりぐちゃぐちゃに弄っていた事や、
      Proxmoxの内部を実験的に少しいじっていた事や
      中古で入手したSSDの劣化や
      強制電源OFFのタイミング等の何処か、
      そう言う事の複合的な物が有ったのかも知れません。