Restando valido tutto quanto discusso nello scambio di mail
precedente, ma
non è che il problema sia ad un altro livello? Che sia l'approccio
sbagliato? Forse sto chiedendo troppo a questo server?
Questa macchina esporta via Tgt dei volumi gestiti da LVM che a suo
volta si
appoggia ad un raid5 software.
Si tratta di una ventina di volumi, ognuno ha 3 snapshot (backup 1
giorno
prima, 2 giorni prima, ecc.), quindi l'IO su disco è effettivamente
elevato.
I volumi esportati via iscsi (tgt) passano per due reti in fibra
10Gb verso
i server hypervisor che fanno girare le macchine virtuali.
Di tutte le macchine virtuali si pianta solo una dove c'è un database.
Effetivamente i database usano molti i dischi.
Questa macchina che funge da NAS/SAN ha una macchina fisica secondaria
configurata in modo simile, ogni giorno i volumi vengono replicati
sulla
secondaria. Ho già provato ad eliminare questo passaggio per
alleggerire il
lavoro, ma non cambia, ci sono comunque eventi di qualche disco che si
ferma, e a cascata fino a iscsi e si ferma per un istante. Poi riparte
subito e da solo, ma l'Hypervisor che usa i dischi via iscsi non
accetta
"pause" e la macchina virtuale del database si blocca.
Vedete qualcosa di sbagliato?