[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Systemverhalten nach Plattenausfall



Paul Muster wrote:

> in meinem Server ist heute offenbar eine IDE-Platte verstorben. Auf der
> Platte liegen/lagen einige Samba-Shares sowie der apt-proxy-Cache. Es
> ging los mit
> 
>> Aug 10 11:28:38 server kernel: hda: dma_intr: status=0x51 { DriveReady
>> SeekComplete Error }
>> Aug 10 11:28:38 server kernel: hda: dma_intr: error=0x04 {
>> DriveStatusError }
>> Aug 10 11:28:38 server kernel: ide: failed opcode was: unknown


Diese Meldungen hatte ich auch. Ist "munin-node" installiert?

Dann bitte als erstes auf dem Server das /etc/munin/plugins.d/smart_*
löschen, damit keine neuen "smartctl"-inquiries mehr kommen.

> Smartmontools lässt/ließ alle paar Minuten einen Kurztest laufen, diese
> finde ich nun schon zu hunderten in der Prozessliste:
> 
>> root     31762  0.0  0.0   1696   528 ?        D    13:55   0:00
>> root     32301  0.0  0.0   1688   524 ?        D    14:00   0:00

5 Minutentakt - das ist definitiv der Munin.


> Weder ein "killall smartctl" noch einzelne kill -9 32301 helfen gegen
> diese Prozesse. Ich befürchte, dass mir da in Kürze die Prozesstabelle
> vollläuft und die Kiste garnichts mehr tut. War da nicht was mit max 64k
> Prozessen?


Erst mal keine Panik. Die Ursache wird mit 99% Sicherheit der munin sein.

/etc/init.d/munin-node stop

und dann die smart_* Plugins deaktivieren. Das verhindert schon mal das
Starten von neuen smartctl-Prozessen.


> Was tun?

Keinesfalls jetzt einen Reset machen. Bei mir war das dann ein
lost+found mit 355 MB Größe gefolgt von einer Neuinstallation.


Ich würde ein

while sleep 1 ; do sync ; done

absetzen. Anschließend in einer zweiten Shell einen smartctl nach dem
anderen killen oder warten, bis die Dinger von selber sterben.


Wenn es noch geht - ein Backup mittels rsync ist vielleicht jetzt auch
keine schlechte Idee. Wie gesagt - hier bei mir war es ebenfalls ein
zerfrästes Dateisystem nach einem Reset.

Warum allerdings ein häufiger Aufruf von smartctl die einen oder anderen
Platten in einen inkonsistenten Zustand treibt, ist mir auch ein Rätsel.

Sind zufällig die WD Raid-Edition in der Kiste verbaut?


t++



Reply to: