Ciao Piviul,non so se iLO riporta questo tipo di errori. Cercando in rete ho trovato (http://h20628.www2.hp.com/km-ext/kmcsdirect/emr_na-c03580889-1.pdf) che iLO4 riporta tra le tante cose un Disk Failure.
I valori THRESH dello smart del disco riportano qualcosa di strano?I log di sistema hanno riportato qualcosa al riguardo del disco come errore I/O ecc (anche dmesg al momento dell'errore)?
Se non trovi nessun problema (ed è strano) proverei a riaggiungere il disco al pool di zfs e vedere se riaccade. Se riaccade sta a te valutare in base al ruolo del server e all'importanza dei dati che ha memorizzati se è il caso di acquistare un nuovo disco.
Potresti fare un'altra prova ma è rischiosa, non l'ho mai fatto e non so se è possibile. Se dico qualche ca___ta perdonatemi. Se il tuo pool supporta un duplice guasto (raizd2) o se hai dischi spare (anche non collegati) perche non invertire due dischi? Potrebbe essere il bay ad avere il problema (so che è remota come possibilità). Se fallisce sempre lo stesso disco sai che è quel disco altrimenti se fallisce il disco nel bay "incriminato" sai che il problema dipende dal bay. Se hai il raidz2 puoi scollegare due device insieme altrimenti sei obbligato a scollegare il disco corrotto, fare un replace con un disco nuovo e aspettare il resilvering. Se tutto va bene scolleghi un disco del pool e inserisci quello che ti da problemi e aspetti il manifestarsi del problema. Anche in questo caso, dipende dal ruolo di questo specifico server. Può essere spento e avere un downtime per il resilvering?
Non smetterò mai di consigliarlo: backup, backup e backup.Nota: mi è capitato in passato, quando ero un novizio ed ero affiancato da "un esperto", che su alcuni server HP in raid5 (hardware non ricordo il controller) ogni tanto un disco veniva marcato come faulted e il tutto si risistemava scollegando il disco e ricollegandolo (a fronte però della ricostruzione).
Un saluto.
Aggiungo che il server è un proliant hp e iLO4 dice che lo stato di salute del server è ottimo, non vengono rilevati problemi. Se un HD dovesse avere problemi il server proliant non dovrebbe accorgesene?Grazie Piviul Il 11/06/20 13:04, Piviul ha scritto:Ciao a tutti, zfs si è arrabbiato e mi ha fatto uscire un HD dal raid. Ora io essendoci ancora cose non essenziali sul server ho dato un zpool clear sul server ma mi piacerebbe testare l'hd; con uno smartctl -a /dev/sd? mi dice :smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.41-1-pve] (local build)Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org/dev/sd?: requires option '-d cciss,N' Please specify device type with the -d option. Use smartctl -h to get a usage summaryse gli aggiungo un -d scsi mi restituisce:smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.41-1-pve] (local build)Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.orgUser Capacity: 2,000,398,934,016 bytes [2.00 TB] Logical block size: 512 bytes Rotation Rate: 7202 rpm Form Factor: 3.5 inches Logical Unit id: 0x5000c5004e1c339a Serial number: Z1P3KYTT Device type: disk Local Time is: Thu Jun 11 13:03:46 2020 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled Temperature Warning: Disabled or Not Supported === START OF READ SMART DATA SECTION === SMART Health Status: OK Current Drive Temperature: 32 C Drive Trip Temperature: 0 C Error Counter logging not supported Device does not support Self Test loggingVoi cosa fareste? Piviul