[FRsAG] Crash sur Dell R410

2011-10-31 Par sujet Gregory Duchatelet

Bonjour,

sur l'ensemble de mes serveurs Dell, j'ai 9 serveurs R410 en production 
depuis plusieurs mois. 4 ont planté lamentablement dans le mois 
d'octobre, de manière aléatoire.


Rien dans les logs, le serveur reboot et stop juste après le BIOS sur le 
message "System fatal error - press F1 to continue or F2 for setup".

Un diagnostique Dell donne ces erreurs :

 * Critical interrupt sensor (PCIE Fatal Err) Bus Fatal Error
 * Processor sensor (CPU Machine Chk) transition to non-recoverable


Je suis en contact avec Dell, ai envoyé pas mal de logs et de rapports 
DSET, mais pour l'instant ils n'ont pas de piste, le bug est "escaladé"...


La seule chose que j'ai faite après avoir supprimé les logs IPMI, c'est 
de mettre à jour le BIOS en 1.8.2, depuis pas d'erreurs, mais comme ça 
faisait déjà plusieurs mois qu'ils tournaient sans problème, ce "bug" 
peut potentiellement revenir ...


J'ai aussi des R{2,5,7}10 mais seul les R410 m'ont posé ce soucis.

Je fais donc appel à la liste : avez vous déjà rencontré ce problème ?

--
Greg

___
Liste de diffusion du FRsAG
http://www.frsag.org/


Re: [FRsAG] Crash sur Dell R410

2011-10-31 Par sujet Cyril Bouthors
On 31 Oct 2011, greg-fr...@duchatelet.net wrote:

> sur l'ensemble de mes serveurs Dell, j'ai 9 serveurs R410 en production depuis
> plusieurs mois. 4 ont planté lamentablement dans le mois d'octobre, de manière
> aléatoire.

Tu fais des checks IPMI réguliers avec quelque chose comme Munin ?

Si oui, désactive le et ça évitera ce genre de blagues.

Les drivers IPMI linux sur Dell sont pas stables.
-- 
Cyril Bouthors - Administration Système, Infogérance
ISVTEC SARL, 14 avenue de l'Opéra, 75001 Paris
1 rue Émile Zola, 69002 Lyon
Tél : 08 92 16 00 88 - Fax : 01 77 72 57 24
___
Liste de diffusion du FRsAG
http://www.frsag.org/


Re: [FRsAG] Crash sur Dell R410

2011-10-31 Par sujet Gregory Duchatelet

Le 31/10/2011 15:25, Cyril Bouthors a écrit :
Tu fais des checks IPMI réguliers avec quelque chose comme Munin ? Si 
oui, désactive le et ça évitera ce genre de blagues. Les drivers IPMI 
linux sur Dell sont pas stables. 


Je fais des checks SNMP via Dell OMSA 5.5, pas en IPMI. Pas sûr que ce 
soit plus stable ...


--
Greg

___
Liste de diffusion du FRsAG
http://www.frsag.org/


Re: [FRsAG] Crash sur Dell R410

2011-10-31 Par sujet Cyril Bouthors
On 31 Oct 2011, greg-fr...@duchatelet.net wrote:

> Je fais des checks SNMP via Dell OMSA 5.5, pas en IPMI. Pas sûr que ce soit 
> plus
> stable ...

Désactive OMSA pendant 1 mois pour voir si tu évites les crashes.
-- 
Cyril Bouthors - Administration Système, Infogérance
ISVTEC SARL, 14 avenue de l'Opéra, 75001 Paris
1 rue Émile Zola, 69002 Lyon
Tél : 08 92 16 00 88 - Fax : 01 77 72 57 24
___
Liste de diffusion du FRsAG
http://www.frsag.org/


Re: [FRsAG] Crash sur Dell R410

2011-10-31 Par sujet Gregory Duchatelet

Le 31/10/2011 15:36, Cyril Bouthors a écrit :

On 31 Oct 2011, greg-fr...@duchatelet.net wrote:


Je fais des checks SNMP via Dell OMSA 5.5, pas en IPMI. Pas sûr que ce soit plus
stable ...

Désactive OMSA pendant 1 mois pour voir si tu évites les crashes.


Il faudrait que je le désactive une année pour être pertinent ...

--
Greg

___
Liste de diffusion du FRsAG
http://www.frsag.org/


[FRsAG] FreeNAS mini

2011-10-31 Par sujet hvom .org
Bonsoir, la ML

Juste par hasard, est-ce que quelqu'un serait le prix de ce ptit NS bien joli.

http://www.ixsystems.com/freenas-mini/

Cordialement
___
Liste de diffusion du FRsAG
http://www.frsag.org/


Re: [FRsAG] FreeNAS mini

2011-10-31 Par sujet Raphael Mazelier

Le 31/10/2011 19:22, hvom .org a écrit :

Bonsoir, la ML

Juste par hasard, est-ce que quelqu'un serait le prix de ce ptit NS bien joli.

http://www.ixsystems.com/freenas-mini/

Cordialement


Il ne s'agit que d'une appliance monté sur un boitier Chembro.
J'ai le même chez moi, mais en version home made. On peut le trouver sur 
materiel.net par exemple. Ma configuration m'a couté 450€ à titre 
indicatif, avec 4 disques 2To. Attention prévoir un Fan Mate car de base 
les ventilateurs de l'alimentation sont trop bruyants. A part ça rien à 
signaler, tout est reconnu sous Freebsd 8.2, les performances avec ZFS 
sont très correctes (prévoir au moins 4Go de mémoire pour éviter de 
devoir tunner zfs).


Cdt,

--
Raphael Mazelier
___
Liste de diffusion du FRsAG
http://www.frsag.org/


Re: [FRsAG] Crash sur Dell R410

2011-10-31 Par sujet Aurelgadjo
Le 31/10/2011 15:18, Gregory Duchatelet a écrit :
> Un diagnostique Dell donne ces erreurs :
> 
> * Critical interrupt sensor (PCIE Fatal Err) Bus Fatal Error
> * Processor sensor (CPU Machine Chk) transition to non-recoverable

Quel diagnostique ? Que te remonte le log des événements de la drac ?
Les machines freezent ou rebootent ?

> Je suis en contact avec Dell, ai envoyé pas mal de logs et de rapports
> DSET, mais pour l'instant ils n'ont pas de piste, le bug est "escaladé"...

Sur 4 machines c'est pas mal... Les numéros de série se suivent ?
(premières lettres des services tags)

> La seule chose que j'ai faite après avoir supprimé les logs IPMI, c'est
> de mettre à jour le BIOS en 1.8.2, depuis pas d'erreurs, mais comme ça
> faisait déjà plusieurs mois qu'ils tournaient sans problème, ce "bug"
> peut potentiellement revenir ...

Mets tout à jour avec leur outil qui démarre avec F11 au boot (ça va
chercher sur le ftp de Dell les bons outils).
Ou alors avec les DVD Dell SUU & SBUU. Le bios c'est bien mais il y a
aussi la drac et la BMC à garder à jour.

Comme le dit Cyril, si t'as envie de garder tes machines stables
désactive les checks qui font appel aux sensors de ton hardware puisque
ça à l'air d'être déclenchant dans tes soucis...
D'ailleurs, arrives tu à corréler l'heure de tes plantages avec des
heures de checks de ton monitoring ? :)

- Aurélien
___
Liste de diffusion du FRsAG
http://www.frsag.org/