[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: zfs pool degraded



Ciao Piviul,
non so se iLO riporta questo tipo di errori. Cercando in rete ho trovato (http://h20628.www2.hp.com/km-ext/kmcsdirect/emr_na-c03580889-1.pdf) che iLO4 riporta tra le tante cose un Disk Failure.

I valori THRESH dello smart del disco riportano qualcosa di strano?

I log di sistema hanno riportato qualcosa al riguardo del disco come errore I/O ecc (anche dmesg al momento dell'errore)?

Se non trovi nessun problema (ed è strano) proverei a riaggiungere il disco al pool di zfs e vedere se riaccade. Se riaccade sta a te valutare in base al ruolo del server e all'importanza dei dati che ha memorizzati se è il caso di acquistare un nuovo disco.

Potresti fare un'altra prova ma è rischiosa, non l'ho mai fatto e non so se è possibile. Se dico qualche ca___ta perdonatemi. Se il tuo pool supporta un duplice guasto (raizd2) o se hai dischi spare (anche non collegati) perche non invertire due dischi? Potrebbe essere il bay ad avere il problema (so che è remota come possibilità). Se fallisce sempre lo stesso disco sai che è quel disco altrimenti se fallisce il disco nel bay "incriminato" sai che il problema dipende dal bay. Se hai il raidz2 puoi scollegare due device insieme altrimenti sei obbligato a scollegare il disco corrotto, fare un replace con un disco nuovo e aspettare il resilvering. Se tutto va bene scolleghi un disco del pool e inserisci quello che ti da problemi e aspetti il manifestarsi del problema. Anche in questo caso, dipende dal ruolo di questo specifico server. Può essere spento e avere un downtime per il resilvering?

Non smetterò mai di consigliarlo: backup, backup e backup.

Nota: mi è capitato in passato, quando ero un novizio ed ero affiancato da "un esperto", che su alcuni server HP in raid5 (hardware non ricordo il controller) ogni tanto un disco veniva marcato come faulted e il tutto si risistemava scollegando il disco e ricollegandolo (a fronte però della ricostruzione).

Un saluto.

Aggiungo che il server è un proliant hp e iLO4 dice che lo stato di salute del server è ottimo, non vengono rilevati problemi. Se un HD dovesse avere problemi il server proliant non dovrebbe accorgesene?

Grazie

Piviul

Il 11/06/20 13:04, Piviul ha scritto:
Ciao a tutti, zfs si è arrabbiato e mi ha fatto uscire un HD dal raid. Ora io essendoci ancora cose non essenziali sul server ho dato un zpool clear sul server ma mi piacerebbe testare l'hd; con uno smartctl -a /dev/sd? mi dice :
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.41-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

/dev/sd?: requires option '-d cciss,N'
Please specify device type with the -d option.

Use smartctl -h to get a usage summary

se gli aggiungo un -d scsi mi restituisce:
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.41-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

User Capacity:        2,000,398,934,016 bytes [2.00 TB]
Logical block size:   512 bytes
Rotation Rate:        7202 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000c5004e1c339a
Serial number:        Z1P3KYTT
Device type:          disk
Local Time is:        Thu Jun 11 13:03:46 2020 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Disabled or Not Supported

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature:     32 C
Drive Trip Temperature:        0 C

Error Counter logging not supported

Device does not support Self Test logging
Voi cosa fareste?

Piviul




Reply to: