[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Crash X (ou autre ?) : fenêtres se fermant alétoirement, extinction, redémarrage du serveur



Le jeudi 15 mai 2014, 21:17:41 Bzzz a écrit :
> On Thu, 15 May 2014 20:38:40 +0200
> 
> Aurélien <orl.ammd@groolot.net> wrote:
> > D'un coup, on a pris un freeze de la machine => redémarrage
> > (pas moyen de faire autre chose). Premier redémarrage qui
> > s'arrête sur welcome to grub et ne va pas plus loin.
> > Extinction complète. Redémarrage = OK, température des
> > coeurs ~ 60°.
> 
> C'est chaud, voire très chaud suivant les CPUs…

  C’est frais pour un Haswell (dernières générations Intel). 
(Tcase de 71°C-73°C pour les derniers i5/i7.)

>[…]
> Les limites des données constructeur sont souvent les
> limites critique, et comme dans toute production, elles
> varient sauvant les fabrications en ±.

  Ça dépend, j’ai un i7 4771 (qui a un Tcase de 72°C) qui a 
tourné sans problème plusieurs heures de suite (et plusieurs 
fois) à plus de 94°C avant que je ne change son radiateur. 
(Maintenant, il est à 64°C à fond les ballons, c’est mieux ;o)

  Les nouveaux CPU, quand ils chauffent trop, ils réduisent tout 
seuls leur vitesse (message dans dmesg, donc pas le cas 
d’Aurélien).

  Un petit truc pour voir si un CPU est bien ventilé : vérifier 
à quelle vitesse il revient à sa température de repos.
  P.ex., le 4771 cité plus tôt ne redescendait pas plus bas que 
40°C après une chauffe. Loin des 30°C qu’il avait au démarrage. 
Maintenant, il redescend à 25°C en quelques secondes.

  En revanche, on accuse souvent le CPU mais les mémoires aussi 
sont susceptibles à la chaleur. D’autant qu’elles sont parfois 
mal placées (hors des flux d’air, cachés par des fils…).

  Il y a aussi bêtement la dilatation qui fausse les contacts ou 
simplement des contacts mal enclenchés (secousses dans la 
caravane ?  Mollo les basses ! ;o).

  Me souviens d’un cas où une machine ne fonctionnait pas s’il y 
avait un moniteur sur le boîtier : les contraintes du poids (CRT 
à l’époque) déconnectaient la RAM. (Ouais, boîtier de m… : 
Compaq.)

> Installe memtest86+ et laisse tourner au moins 3 cycles
> complets.
> S'il renvoie des erreurs, réessaye avec une ambiance
> moins chaude,
> si c'est ok, PB de température, sinon, un PB de RAM.

  Oui, mes soupçons se portent de plus en plus sur un problème 
de RAM (segfaults → corruption).

> Dans les 2 cas, une réinstallation risque de s'imposer
> (intégrité des fichiers corrompue).

  Oui. Déjà, memtest86+ sur une clef USB ça permettra de tester 
toute la RAM (et de préparer la clef sur un autre PC, plus 
stable).

-- 
 Sylvain Sauvage


Reply to: