[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Analyse von smartctl-Output: was heisst "Pre-fail", "Old_age", etc



Sven <aluoor@gmail.com> wrote:

Hmm. Voller Name wäre nett.

> Wie analysiere ich den Output von smartctl? Auf was muss ich achten? Was 
> muss ich beim Monitoring parsen?

Diese Ausgabe bitte immer un-umbrochen posten, sind sonst nur schwer zu
lesen. Ich habe das mal repariert.

> ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
>   1 Raw_Read_Error_Rate     0x000b   100   100   062    Pre-fail  Always       -       0
>   2 Throughput_Performance  0x0005   106   100   040    Pre-fail  Offline      -       4524
>   3 Spin_Up_Time            0x0007   253   100   033    Pre-fail  Always       -       1
>   4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       1086
>   5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
>   7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
>   8 Seek_Time_Performance   0x0005   122   100   040    Pre-fail  Offline      -       39
>   9 Power_On_Hours          0x0012   088   088   000    Old_age   Always       -       5372
>  10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
>  12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       746
> 191 G-Sense_Error_Rate      0x000a   100   097   000    Old_age   Always        -       0
> 192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always        -       13
> 193 Load_Cycle_Count        0x0012   068   068   000    Old_age   Always        -       322952
> 194 Temperature_Celsius     0x0002   166   100   000    Old_age   Always        -       33 (Lifetime Min/Max 19/45)
> 196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always        -       0
> 197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always        -       0
> 198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
> 199 UDMA_CRC_Error_Count    0x000a   200   253   000    Old_age   Always        -       0

Alle Werte sind weit weit weit ... vom Threshold entfernt. Bei einer
Platte, die gerade mal ein 2/3 Jahr gelaufen ist, auch kein Wunder.

Lediglich auf den Load_Cycle_Count solltest du ein Auge haben und evtl.
mittels hdparm das Powermanagement auf 255 stellen (auch die Scripte von
ACPI und laptop-mode anpassen, die fingern auch gerne an dem Wert
herum). Das ist die Anzahl der Ladezyklen des Kopfarmes, also echte
Mechanik, die natürlich nur eine begrenzte Lebensdauer hat.

So sieht das bei mir aus:

193 Load_Cycle_Count        0x0032   006   006   000    Old_age   Always -       943734

Und wie man sieht: die Platte hat es bald hinter sich. Beim bisherigen
Wachstum erreiche ich den Threshold gegen Dezember/Januar. Das
entspricht dann auch ziemlich genau 3 Jahren Lebensdauer:

  9 Power_On_Hours          0x0032   043   043   000    Old_age   Always -       22923

Interessant für das Monitoring ist immer der Abstand von VALUE zu THRES.
Erreicht der normierte Wert den Threshold, dann wird das unter Type
stehende Event ausgelöst, also bei Old_Age ein "ich bin Uralt, bitte
tausche mich bald" und bei Pre_Fail ein "ich bin bald kaputt, bitte
tausche mich".

Die Pre_Fail-Events sind dabei kritischer, Old_Age heißt nur, dass man
Mindest-Haltbarkeit der Komponenten erreicht hat, aber nicht, dass die
Platte sofort stirbt.

S°

-- 
Sig lost. Core dumped.


Reply to: