SSブログ

自宅VMサーバー故障顛末 [ソフトウェア/PC関係]

AINEX LGA1156用 ヒートシンクバックプレート BS-1156A
LGA1156用 ヒートシンクバックプレート

超久し振りにブログを書いてみようと思う。もうこんなTwitterのまとめばかりのブログを見ている人もいないだろうが,主に自分の備忘録としての意味合いが強い。

昨年,病気をして,現在,キーボードは片手入力になってしまったので,長文を打つのはなかなか苦行だが,たくさん打たないと上達しないので練習代わりにも丁度良い。

さて本題は,自宅のVMサーバーである。このブログの過去記事を漁ってみたところ,このVMサーバーをセットアップしたのは2008年のことのようだ。なんと,かれこれ13年前ということだ。びっくり。それだけ長いこと安定稼働してきてくれたことを考えると有難いと思うしかない。もはや,この環境なしには何もできないくらい依存してしまっている。実際他にも何台か単体で動作しているPCもあるのだが,重要なデータはほとんど,VM上のファイル・サーバーに置いてあるので,それがアクセスできなくなると,にっちもさっちも行かないのだ。でこの度まさにこのVMサーバーが異常を来たしてしまったというお話。いやはや本当に困った。めちゃめちゃ久しぶりに事の顛末をブログに書いておこうと思うくらいには困った(これでは,あまり困り度合いが伝わらない気もするが)。

ことの発端は,ネットワークの異常である。自宅には2回線のインターネット接続があるためどちらにもアクセスできるように,VMホストにはネットワークカードを追加して,所謂マルチホーム構成にしてあるのだ。しかしある時,あるVMで,片方のインターネットに接続できないことに気づいた。増設したネットワークカードの方である。オンボードのポートに接続してある方は問題ない。vSphere clientを起動して調べてみるとアクセスできない方のアダプタにIPアドレスが割り当てられていない。何かHW的な問題が起きたのだろうということで,取り敢えず手っ取り早く,ホストを再起動してみることにした。此の辺が日頃PCばかりを使ってる人間の発想である。そして結果的にこれが,今回のドタバタの引き金となったのである。つまり,VMホストが起動しなくなってしまったのである。

通常VMホストなんぞにはディスプレイもつけていないので何が起きているのかもさっぱりわからない。ただ,待てど暮らせど,vSphere clientがホストに接続できるようにならないという状況である。これでは何もわからないので,まずはディスプレイを繋ぐ。私のデスク周りはケーブルがとんでもないことになっているが,確か以前繋げていたはずのディスプレイ・ケーブルを挿してみる。しかし何も表示されない。一体どういうこと? 他のPCを使ってそのケーブルで表示ができることは確認した。あれ? そもそもBIOSの画面すら出ない。1つのディスプレイに複数の入力が入っていて,出力が検知されないと他の似自動的に切り替わってしまうのでなんとも面倒なのだが,何度がやってるうちに,ほんの短い時間だけディスプレイに砂嵐が表示されてることがわかった。これはグラフィックボードがいかれてるのか。そもそも,オンボードでVGAポートが付いてるのになんでこのマシンにはグラボが載ってんだ? しかもオンボードのポートに繋いでも何も表示されないし。10何年も前のことだから当時何をしたのかすっかり忘れている。

いろいろ調べていてようやく謎が解けた。このサーバー機は標準でディスプレイ出力をCPU内臓のGPUに依存してるのだった。しかし,ESXiを入れるにあたって,よりパワフルなCPUに載せ替えたのだが,それはGPUを内蔵してなかったのである。つまり載せ換えた時点でオンボードのVGAポートは機能しなくなるため別にグラボを載せたのである。わかってしまえばなんて事はない。グラボを交換してみれば良い。結果的にグラボはやはり壊れていた。ちゃんと表示ができているPCのグラボと交換してみたら,表示できるようになったし,相手側のPCは表示できなくなった。ということで,新しいグラボを調達しないといけないのだが,こんな昔のマシンに,今売ってるようなグラボが使えるのだろうか。PCIexpressスロットの仕様も大分世代が変わってるはずだ。と思って調べたところ,現行のPCIeは上位互換になっていて,グラボの性能を100%活かせないとしても昔の仕様レベルでは問題なく動作するとのこと。早速必要最低限の安いグラボを取り寄せて装着してみた。おおっ,ちゃんと表示される。当たり前のことに妙に感動してしまう。しかし表示ができないだけなら,ESXiは起動していたはず。じっと見守っていると,ESXiが各種のモジュールを順次読み込む画面で,出た! ロード・エラー。これか。このマシンはESXiをUSBメモリーにインストールしてUSBから起動するようにしてある。ってことは,USBメモリーが壊れたのか。USBメモリーが壊れるの初めて見た。まぁ10年以上だものな。壊れても無理ないか。実際,Windowsマシンでチェックしてみたところ,確かに途中で読み込みエラーが起こる。では,別の起動用USBメモリーを用意すればよいのか。って,どうやるんだっけ? ここで当時のブログ記事をみる。やっぱりブログ書いておいて良かった。なになにESXiのインストール用ISOイメージから,USBメモリーへのインストール用ディスク・イメージをを取り出して書き込むのか。って,そんなのないんだけど。ググってみたら気になる情報が。どうもUSBメモリーへのインストール方法は以前と変わったらしい。単純にディスク・イメージを書き込むのではないらしい。更にググって見つけた情報によると,どうも起動用USBメモリーを作るにはLinuxが必要みたい。LinuxはVMとしてはいくつか作ってあったが,今はまさにそれが使えない状態だし,どっちみちUSBメモリーへの書き込みができないじゃん。といっても,Linux専用にセットアップできる余分なPCはない。ということで,USBメモリーから起動して使えるLinuxのLive USBメモリーを作ってみることに。今はLive USBメモリーを簡単に作るためのツールが色々とあるらしい。今回使ったのはrufusというツール。これにLinuxの各distrubutionのインストール用ISOイメージを読み込ませると,USBブートができるようにUSBメモリーにインストーラを書き込んでくれるらしい。要はCDやDVDに焼かなくてもLinuxがインストールできるという訳なのだが,ubuntuなどはインストーラーを起動してからLinuxのお試しモードに入れるらしいのだ。今回はそれで十分なので,早速ubuntu desktopのインストール用ISOをダウンロードしてUSBメモリーに書き込んでみた。で,件のESXiマシンにこのUSBメモリーを挿して起動してみる。ところがなんか変だ。Linuxは起動するのだが,少し放っておくと,自動的に電源が切れてしまうのだ。何だこれ? どういうこと? 相次ぐ問題の発生にだんだん心が折れかけてきている。

困った。訳わからなくなってきた。しかも,何度か繰り返すと,電源が切れるまでの時間がどんどん短くなっていく。勘の良い方はここで真の原因に気づいてしまうかもしれないが,私は駄目だった。もう少しお付き合い願いたい。自動的に電源が切れてしまうトラブルについては,かつてこのブログでも紹介したことがあるが,電源スイッチの不良が考えられる。ATXの仕様では電源スイッチは常時閉じた状態なのではなく閉じたことをトリガーにオンになりその後は開いても良い,というか開かないといけないのだ。そのため,押している間だけ接点が閉じるプッシュ・スイッチになっている。なぜ閉じたままではいけないかというと,これもATXの仕様で4秒間回路が閉じっぱなしになると強制電源オフになるからだ。以前のトラブルは,スイッチのメカ部分の経年劣化で,押したらそのまま戻らなくなってしまっていたというもの。つまりスイッチを押すと一旦電源が入るものの,4秒後に強制電源オフになるのである。今回もそれかと思ったが,4秒なんて短い時間ではないし,スイッチの動きは異常がないみたいだった。となるといよいよ手詰まりだ。 電源そのものがイカれているのか,はたまたマザーボードの異常か。マザーボードということになるともはや手の打ちようがない。解決策は全く同じマザーボードに交換するくらいだ。と言っても古いものだから今更新品が手に入るわけもない。そもそもNECのサーバー機なのでマザーボード単品では販売されてすらいない。となると,困ったときのネット・オークションなのだが,そうそうタイミングよく出品されているわけもない。しかし探してみると,メルカリで売ってる人がいた。10年以上前のマシンにしては高めだが,背に腹は代えられない。全く思いがけないきっかけで,メルカリ・デビューを飾ることに。

さて数日後,無事代替機が届いた。動作チェックは前述のLinux入りのUSBメモリーで。問題なく動作した。それではどうするか。パーツをまるごと届いたマシンに載せ替える手もあるが,それは結構面倒くさい。特にCPUの差し替えが面倒。自作PCは何度も組み上げてた経験はあるがCPUにグリス塗って,ヒートシンクを取り付ける作業が昔から嫌いなのだ。結果的に問題が起きたことはないのだが,うまくできている自信がないのだ。やらなくて済むならそれに越したことはない。となると,まずは電源の交換を試してみよう。故障したマシンから電源を取り外すのは簡単なのだが,マザーボードに刺さってるATXコネクタを引っこ抜くのが固くて大変。片手しか使えないと尚更だ。それでもどうにかこうにか引っこ抜いたが,ここで異変に気付く。CPUに固定されてるはずのヒートシンクがぐらついてるのだ。そんなバカなと思って確かめると,ヒートシンクをマザーボードに固定していたツメが抜けてるではないか。ヒートシンクは完全にCPUから浮いてしまっている。これでようやく不調の原因がわかった。おそらく,色々調べる過程で,何度もケースをひっくり返したりしていたせいで,どこかのタイミングでツメが外れてしまったのだろう。ヒートシンクが外れているということは,CPUは熱を逃がすことができないので,通電している間どんどん温度が上昇したのだろう。そして熱による破損防止のための保護回路が働いて,電源を落としていたのだと考えられる。あのプラスチックのツメによる固定方法はINTEL純正のものと同じなのだが,以前から不安を感じていたのだ。サーバー機についてるヒートシンクは純正のものより巨大だし,ミドルタワーマシンという性質上マザーボードは垂直になる。つまりヒートシンクはマザーボードから水平方向に突き出した形になるためツメには横方向への負荷がかかり水平なマザーボードに取り付けたときに比べると不安定になる道理だ。元のようにツメを押し込んでみたがどこかしら劣化してしまってるようでうまく固定できないっぽい。いずれにしろグリスは塗り直したほうが良いだろうしヒートシンクは交換か? と思ったがLGA!156のヒートシンクの新品なんて売ってるのかな。探してみると一応まだ売ってるようだが,それとは別にバックプレートなるものを見つけた。マザーボードの裏側において表からヒートシンクをねじで固定するためのもののようだ。これだ! これなら二度とヒートシンクが外れてしまうことはあるまい。ということで早速発注。ついでに新しいグリスも。バックプレートを使うには,マザーボードを一旦ケースから取り外す必要があって面倒だが仕方ない。各種ケーブルも外す必要があるので,もとに戻しやすいように現状を写真に撮っておく。いやいやネジ固定は安心感がある。グリスの塗り方が多少下手でも,十分圧着しそうだ。マザーボードを元通り戻して,いざ電源オン。今度こそ問題なく起動した。なんだ,代替機いらなかったじゃん。まぁ人生なんてそんなもんだ。PCがまた1台増えてしまって邪魔ではあるが,この先本当にマザーボードが故障したときの保険と思えば安いもんだ。それにしても,今から思えばいかにも熱問題のような症状を呈していたではないか。経験値が不足してるということだよなぁ。いい勉強になった。 ところでESXiのブートUSBの件だが,なんてことはない。普通にインストーラーでUSBにインストールできるようになっているみたい。インストーラーをCDに焼くのが面倒な場合は,先程のrufusでESXiのISOを指定すればインストーラーUSBが作成できる。そして,インストール先に自分自身を指定すればESXiのブートイメージで上書きできるので,USBメモリーは一つあれば事足りる。そもそもLinux環境も必要なかった。これで無事元通りESXiを起動できるようになった。残念ながらVMのインベントリは空っぽなので,各データストアのブラウジング画面から各フォルダのvmxファイルを指定して追加してやる必要がある。手間がかかるが,これはもう仕方ない。ようやく1週間ぶりくらいに仮想環境が使えるようになった。良かった。しかし大元の,2つ目のインターネットに繋がらない問題は未解決だ。恐らく,ネットワークカードがイカれてしまったのだろう。グラボがイカれたくらいだからネットワークカードにもなにか影響があったのかも。VM環境は,起動してから安定するまでに暫く掛かるので,今もう一度シャットダウンして確認する気にはならない。特に今困ってるわけでもないし,いずれ近いうちにHDDを大容量のものに入れ替える必要があるだろうからその時に一緒にやればいいや。


nice!(0)  コメント(0) 

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

※ブログオーナーが承認したコメントのみ表示されます。

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。