[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Preoccupanti reset



Situazione: due server Supermicro SuperServer 6010H, rack mount, doppio
processore PIII da 1 GHz, 1Gb di ram ciascuno, due dischi SCSI.
Le due macchine sono identiche, anche se situate fisicamente in localita`
diverse.

Entrambe le macchine hanno la preoccupante tendenza a resettarsi, senza
motivo e senza lasciare traccia.
Piu` specificamente: i reboot avvengono spesso (ma non sempre) alle cinque
di mattina, in concomitanza con un'attivita` schedulata di replicazione fra
dischi o, in alternativa, in occasione della manutenzione (vacuum) del
database Postgres.

Ho pensato alla sovratemperatura, ma le cpu sono ben sotto il valore di
allarme, le stanze sono condizionate, e i reboot avvengono in momenti di
carico nullo o bassissimo -- una volta una si e` resettata davanti a me,
che avevo fatto partire a mano la manutenzione database: si e` resettata
dopo 10 secondi scarsi di attivita`, la temperatura mi sembra fuori
questione.

Memoria: su una delle due macchine ho fatto girare memtest per una notte:
nulla -- e poi problemi su entrambe le macchine?

Ho pensato anche ad un intervento inopportuno delle funzioni power saving
ma, come detto, il reboot e` successo anche mentre usavo la macchina
interattivamente.

Avevo pensato di dare la colpa al reiserfs che usavo: l'ho tolto, i
problemi ci sono ancora, subdoli -- cioe` non tutti i giorni.
Su uno dei due server ho aggiornato il BIOS, nulla.

I kernel sono Linux 2.4.17 e .18, compilati per multiprocessore, e con
opzioni diverse, come tentativo. Debian Potato, ben aggiornata.

La tragedia e` che non viene lasciata NESSUNA traccia sui log:
dall'attivita` normale -- spesso quasi nulla -- si passa alla traccia del
reboot successivo. Nessuna indicazione: i reboot sono istantanei, come ho
potuto constatare di persona.

Il bello e` che i server sono stati scelti perche` consigliati da una
persona che ne ha 17 o 19, in cluster, usa Linux e non ha mai avuto
problemi.
I sintomi fanno pensare a problemi hw, ma su due macchine, per quanto
probabilmente assai vicine come serial no., e in due posti diversi?

Se qualcuno ha qualche bella idea, per trovare il bandolo della matassa, si
faccia avanti.

ciao
Guido

--
 __/__/   Link I.T. srl                   Tel > +39 0332 237888
 __/__/   Servizi Integrati Avanzati      Fax > +39 0332 830303
          via Cairoli, 5 - 21100 Varese   http://www.linkgroup.it/



-- 
To UNSUBSCRIBE, email to debian-italian-request@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org



Reply to: