Le 31/10/2011 15:18, Gregory Duchatelet a écrit :
> Un diagnostique Dell donne ces erreurs :
> 
>     * Critical interrupt sensor (PCIE Fatal Err) Bus Fatal Error
>     * Processor sensor (CPU Machine Chk) transition to non-recoverable

Quel diagnostique ? Que te remonte le log des événements de la drac ?
Les machines freezent ou rebootent ?

> Je suis en contact avec Dell, ai envoyé pas mal de logs et de rapports
> DSET, mais pour l'instant ils n'ont pas de piste, le bug est "escaladé"...

Sur 4 machines c'est pas mal... Les numéros de série se suivent ?
(premières lettres des services tags)

> La seule chose que j'ai faite après avoir supprimé les logs IPMI, c'est
> de mettre à jour le BIOS en 1.8.2, depuis pas d'erreurs, mais comme ça
> faisait déjà plusieurs mois qu'ils tournaient sans problème, ce "bug"
> peut potentiellement revenir ...

Mets tout à jour avec leur outil qui démarre avec F11 au boot (ça va
chercher sur le ftp de Dell les bons outils).
Ou alors avec les DVD Dell SUU & SBUU. Le bios c'est bien mais il y a
aussi la drac et la BMC à garder à jour.

Comme le dit Cyril, si t'as envie de garder tes machines stables
désactive les checks qui font appel aux sensors de ton hardware puisque
ça à l'air d'être déclenchant dans tes soucis...
D'ailleurs, arrives tu à corréler l'heure de tes plantages avec des
heures de checks de ton monitoring ? :)

- Aurélien
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à