Re: Analyse von smartctl-Output: was heisst "Pre-fail", "Old_age", etc
Sven <aluoor@gmail.com> wrote:
Hmm. Voller Name wäre nett.
> Wie analysiere ich den Output von smartctl? Auf was muss ich achten? Was
> muss ich beim Monitoring parsen?
Diese Ausgabe bitte immer un-umbrochen posten, sind sonst nur schwer zu
lesen. Ich habe das mal repariert.
> ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
> 1 Raw_Read_Error_Rate 0x000b 100 100 062 Pre-fail Always - 0
> 2 Throughput_Performance 0x0005 106 100 040 Pre-fail Offline - 4524
> 3 Spin_Up_Time 0x0007 253 100 033 Pre-fail Always - 1
> 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 1086
> 5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
> 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
> 8 Seek_Time_Performance 0x0005 122 100 040 Pre-fail Offline - 39
> 9 Power_On_Hours 0x0012 088 088 000 Old_age Always - 5372
> 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
> 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 746
> 191 G-Sense_Error_Rate 0x000a 100 097 000 Old_age Always - 0
> 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 13
> 193 Load_Cycle_Count 0x0012 068 068 000 Old_age Always - 322952
> 194 Temperature_Celsius 0x0002 166 100 000 Old_age Always - 33 (Lifetime Min/Max 19/45)
> 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
> 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
> 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
> 199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always - 0
Alle Werte sind weit weit weit ... vom Threshold entfernt. Bei einer
Platte, die gerade mal ein 2/3 Jahr gelaufen ist, auch kein Wunder.
Lediglich auf den Load_Cycle_Count solltest du ein Auge haben und evtl.
mittels hdparm das Powermanagement auf 255 stellen (auch die Scripte von
ACPI und laptop-mode anpassen, die fingern auch gerne an dem Wert
herum). Das ist die Anzahl der Ladezyklen des Kopfarmes, also echte
Mechanik, die natürlich nur eine begrenzte Lebensdauer hat.
So sieht das bei mir aus:
193 Load_Cycle_Count 0x0032 006 006 000 Old_age Always - 943734
Und wie man sieht: die Platte hat es bald hinter sich. Beim bisherigen
Wachstum erreiche ich den Threshold gegen Dezember/Januar. Das
entspricht dann auch ziemlich genau 3 Jahren Lebensdauer:
9 Power_On_Hours 0x0032 043 043 000 Old_age Always - 22923
Interessant für das Monitoring ist immer der Abstand von VALUE zu THRES.
Erreicht der normierte Wert den Threshold, dann wird das unter Type
stehende Event ausgelöst, also bei Old_Age ein "ich bin Uralt, bitte
tausche mich bald" und bei Pre_Fail ein "ich bin bald kaputt, bitte
tausche mich".
Die Pre_Fail-Events sind dabei kritischer, Old_Age heißt nur, dass man
Mindest-Haltbarkeit der Komponenten erreicht hat, aber nicht, dass die
Platte sofort stirbt.
S°
--
Sig lost. Core dumped.
Reply to: