[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: test della RAM e memtester



Il 12/10/25 20:21, Marco Ciampa ha scritto:

Prima di tutto memtester, è un test della RAM che può essere fatto
durante il funzionamento "normale" del PC e quindi anche durante il
normale uso.
Mai usato così... Di solito faccio un offline di 2-3 giorni sui nuovi server, prima di firmare il collaudo e dopo aver ottimizzato i settaggi (fa anche da benchmark, anche se un po' rudimentale).

1, RAM danneggiata
Vista solo 3 o 4 volte in 30+ anni che ho a che fare coi computer.

2. impostazioni BIOS non corrette per tutti i moduli RAM presenti,
    riportando i valori sul default potrebbe risolvere
Si, se gli dai temporizzazioni troppo strette (o fai overclocking) è comune: stai usando la memoria al di fuori dei parametri previsti.

3. banchi di RAM differenti
Cosa da non fare mai, per evitare problemi. Anche senza arrivare al limite di comprare RAM "gemelle" (provenienti dallo stesso wafer e testate per lavorare con gli stessi parametri di overclocking) per lo meno dello stesso tipo, velocità e marca.

4. surriscaldamento (magari dovuto a polvere, pasta sopra al
    processore che deve essere sostituita, ...)
Se devi sostituire la pasta sopra al processore vuol dire che ne metti troppa: deve essere un velo leggerissimo, solo per compensare le micro irregolarità che impedirebbero un pieno contatto tra CPU e dissipatore.

5. problemi hardware diversi dalla RAM (es: CPU)
O errori sul bus, spesso causati da problemi all'alimentatore o a un modulo VRU.

Questo mi ha fatto capire che può essere davvero difficile capire
la causa di questi problemi ed in alcuni casi è risolvibile con
azioni semplici senza sostituire nessuna parte hardware.
90% delle volte con un reboot o power cycle.
9.9% delle volte con pulizia dei contatti e reinserimento.
0.1% delle volte con sostituzione (magari anche solo scambiandole con un'altra macchina simile).

Gli errori della RAM possono essere provocati anche da radiazioni.
L'evento è raro ma con l'aumentare della dimensione della RAM, della
durata di accensione e con il restringimento delle celle di memoria
dovute a miglioramento tecnologico la probabilità che una particella
(alfa? x? raggi cosmici?) modifichi lo stato di una cella di memoria
durante il funzionamento del computer non è uguale a 0. Ecco perché il
server montano memorie con sufficiente parità da poter effettuare una
correzione dei bit modificati "on the fly". Internamente anche molte CPU
hanno parità CRC per ovviare a questo fenomeno.
Posso sicuramente confermare. A parte le particelle alfa (che vengono fermate anche solo da un foglio di carta, quindi anche dalla plastica che copre i chip anche se la macchina viene fatta lavorare con lo chassis aperto): X, beta (solo a chassis aperto), gamma, raggi cosmici e neutrini sono tutti possibili cause di errori transienti difficilmente tracciabili. Diciamo che una sala server accanto ad un deposito di materiale radioattivo non è proprio il massimo... O:-) A meno che non serva un early warning di una fuga...

--
Diego Zuccato
DIFA - Dip. di Fisica e Astronomia
Servizi Informatici
Alma Mater Studiorum - Università di Bologna
V.le Berti-Pichat 6/2 - 40127 Bologna - Italy
tel.: +39 051 20 95786


Reply to: