Re: [FRsAG] Les engagements sur la fiabilité du matériel

CORTES Bruno Fri, 15 Apr 2016 08:48:24 -0700

Salut tout le monde,

                Pour apporter ma maigre expérience, nous avons également 2 
baies EMC (1 pour le PRA/PCA) et nous avons eu « l’heureuse  surprise » de voir 
que lors d’un incident (mineur) le support a anticipé l’inter en prennant en 
compte le problème en même temps que nous, et d’un autre coté il a fallut 
insister lors de la mise à jour (du firmware il me semble) pour commencer par 
la baie de secours, le support comptait attaquer directement sur la baie de 
prod…


Rien n’est jamais tout blanc ou tout …

My 2 cent,
Bruno.
[cid:[email protected]]

ü

Pour la planète : échangez par courriel et n’imprimez que si nécessaire.



-----Message d'origine-----
De : FRsAG [mailto:[email protected]] De la part de Alexandre
Envoyé : vendredi 15 avril 2016 17:01
À : Benjamin JOLIVOT; Benoît DEVIJVER; French SysAdmin Group
Objet : Re: [FRsAG] Les engagements sur la fiabilité du matériel



Salut,



On 15/04/16 16:50, Benjamin JOLIVOT wrote:

> Salut,

>

> Faut pas perdre de vue que si tu as un système critique pour ton

> activité, il te faut ton propre système de secours.



C'est certain, la deuxième infra est en cours de finalisation, je pensais (bien 
mal), qu'un update de la part du constructeur ne serait pas à l'origine d'une 
coupure de plusieurs heures...



>

> Les pénalités liées aux SLA sont souvent capées et ça fait toujours une

> belle jambe d’avoir x mois de service à 100^euros gratos quand t’as

> perdu 10 000 de CA.



Si c'était que 10 000 ...



>

> La mise à jour d’une baie est un bon moment pour tester son/ses PCA/PRA ;o)



Maintenant on a bien compris '').



>

> Bon courage.

>

> ---------

>

> Ben, adepte du ceinture-bretelles

>

> *De :*FRsAG [mailto:[email protected]] *De la part de* Benoît DEVIJVER

> *Envoyé :* vendredi 15 avril 2016 16:11

> *À :* Alexandre <[email protected]<mailto:[email protected]>>; Benoît DEVIJVER

> <[email protected]<mailto:[email protected]>>; French SysAdmin Group 
> <[email protected]<mailto:[email protected]>>

> *Objet :* Re: [FRsAG] Les engagements sur la fiabilité du matériel

>

> Salut,

>

> Alors en effet si ta configuration avait déjà 2x CS alors là tu as eu un

> vrai vrai problème !

>

> Il y a chez EMC France d'excellent support, tout comme aux US... mais en

> effet si tu tombes sur la mauvaise personne t'es coincé...

>

> ( /Sache que les VNX2 ont améliorés justement les algorithmes de

> détection des "soft" erreurs, lorsque toute la couche Raid a été

> réécrite (MCx);/ )

>

> Comme je disais, ton problème est forcément connu, mais le support n’a

> pas pris en compte la gravité de ton problème, ni mis les ressources

> nécessaires…

>

> Pour revenir au dernier point : le meilleur moyen d’avoir des

> engagements à la carte c’est de contracter avec certains partenaires qui

> sont parfois capables de prendre des engagements plus souples que le

> gros constructeur ;

>

> Bon courage, Benoît

>

> -----Message d'origine-----

> De : Alexandre [mailto:[email protected]]

> Envoyé : vendredi 15 avril 2016 10:20

> À : Benoît DEVIJVER; French SysAdmin Group

> Objet : Re: [FRsAG] Les engagements sur la fiabilité du matériel

>

> Bonjour Benoît et merci pour ton retour,

>

> On 14/04/16 23:37, Benoît DEVIJVER wrote:

>

>> Bonjour Alexandre,

>

>>

>

>> [ Disclaimer: ex-employé EMC, ~expert~ Avant-Vente puis R&D sur les

>

>> produits Celerra-VNX de 2008 à 2014 ]

>

>>

>

>> La control station du VNX est en effet un élément sensible, qui n'offre 
>> aucune redondance interne (1 seule disque, 1 seule alim); mais qui peut 
>> elle-même être redondée pour améliorer justement la disponibilité...

>

>> Je doute que le problème provienne d'un des disques protégé en Raid comme tu 
>> le dis...

>

> Je précise que nous avions 2 CS.

>

>>

>

>> La procédure de mise-à-jour dont tu parles contient un pre-check

>

>> script, mais il ne check pas forcément tout, et si tu n'as vraiment

>

>> vraiment pas de chance tout allait bien 10 minutes avant le problème

>

>> (mais j'en doute vraiment)

>

>>

>

>>

>

>> En général, la panne de la control station n'a pas d'effet sur la 
>> production... mais le processus de boot des datamovers peuvent être perturbé 
>> par l'absence de la control station...

>

>> Il convient donc de ne pas provoquer des bascules des datamovers (X-Blades) 
>> tant que la control station n'est pas revenu en état...

>

>>

>

>> Normalement la personne en charge de l'opération (salarié EMC ?) a dû faire 
>> le nécessaire pour que le support EMC soit informé aussitôt que possible du 
>> problème. L'opération aura du être mise en pause jusqu'à la  remise en état 
>> de la control station déféctueuse...

>

>> (pendant ce temps là, vous êtes néanmoins dans une situation à risque

>

>> puisque c'est la control station qui s'occupe de gérer la redondance

>

>> des datamovers...)

>

> La baie EMC est hébergé chez nous, dans nos locaux. Nous avons ouvert un

> ticket chez EMC pour la prise en charge de l’incident.

>

>>

>

>> 1/ La personne en charge du ticket aurait du en effet vous informer que la 
>> remise en état prendrait 9h, mais ca ne peut pas être vrai, car une 
>> restauration de control station doit durer 1h maximum... donc le temps  de 
>> recevoir la nouvelle control-station + de la restaurer...

>

>>

>

>> 2/ Je pense que la plupart des constructeurs proposent le même genre 
>> d'engagement qu'EMC propose en standard... mais qui ne correspond pas 
>> exactement à votre demande...

>

>> il y a 2 solutions alors:

>

>>

>

>> a/ soit faire signer à EMC un contrat spécifique pour vous, avec les

>

>> engagements que vous souhaitez (par exemple lors d'un RFP....) mais

>

>> bon, a part le CAC40 je ne connais pas beaucoup de client qui ont le

>

>> pouvoir d'obtenir ce genre d'engagement d'EMC... (ni des autres

>

>> constructeurs du secteur)

>

>>

>

>> b/ Si EMC ne s'engage pas comme souhaité, vous pouvez vous appuyer sur des 
>> partenaires qui savent faire ça, et qui sont plus souple pour vous proposer 
>> des contrats et des engagement de maintenance sur-mesure...

>

>>

>

>> Vu la parc installé EMC VNX, je te rassure: presques tous les problèmes sont 
>> déjà connus, et la bonne personnes chez EMC connait les ficelles pour régler 
>> ton problème de façon très efficace, le plus difficile étant  de trouver la 
>> KB applicable à ton problèmre...

>

>> Je doute que ton problème ai été inconnu d'EMC avant qu'il ne se produise...

>

>>

>

> Bien qu'EMC ne soit pas d'accord, une grand partie du problème a été

> géré en Inde. Ensuite nous sommes passé sur le support Américain, et

> étrangement le problème s'est corrigé assez vite.

>

>> Bon courage,Benoît

>

>>

>

>>

>

>> -----Message d'origine-----

>

>> De : FRsAG [mailto:[email protected]] De la part de Alexandre

>

>> Envoyé : jeudi 14 avril 2016 13:53 À : French SysAdmin Group Objet :

>

>> [FRsAG] Les engagements sur la fiabilité du matériel

>

>>

>

>> Bonjour à tous,

>

>>

>

>> je me permets de vous partager une mésaventure, cela permettra peut-être à 
>> certain de ne pas faire la même erreur que nous.

>

>>

>

>> Nous avons eu un problème sur une baie de disque EMC vnx 5300. Suite à une 
>> opération programmée par EMC pour une mise à jour, le service à été 
>> interrompu sur la partie partage NFS/CIFS. Je ne vais pas rentrer dans  les 
>> détails. Conclusion, après ouverture d'un ticket chez EMC, le

> service n'a pu être rétabli que 9H plus tard.

>

>>

>

>> L'origine du dysfonctionnement viendrait d'un groupe de disques qui 
>> hébergeraient le "soft" des control station (CS), l'un des disques aurait 
>> fait des problèmes d'écriture.

>

>>

>

>> J'ai plusieurs problème avec ce discourt :

>

>>

>

>>     - comment une baie blindée de disque puisse avoir ce type de problème ?

>

>>     - comment ce type de problème n'a pas pu être détecté avant (s'il y en 
>> avait un) ?

>

>>

>

>>     - comment un procédure de mise à jour n'a pas détectée ce type de 
>> problème (si la mise à jour est à l'origine du problème) ?

>

>>

>

>> Côté EMC c'est très vague. Il y a deux affirmations :

>

>>

>

>> 1. La personne en charge du ticket incident, aurait du nous prévenir que 
>> l'opération serait longue, nous aurions pu basculer sur une autre infra.

>

>>

>

>> 2. EMC n'a pas de SLA, mais une SLO (service level objectives), qui de mon 
>> point de vu désengage EMC de toutes responsabilité.

>

>>

>

>> Pour finir, nous avons perdu beaucoup d'argent, et je pense malheureusement 
>> que nous pourrons rien y faire.

>

>>

>

>>

>

>> Mes questions :

>

>>

>

>>     - Qu'aurions-nous du faire pour que EMC s'engage sur un taux de

>

>> disponibilité ? Tous les constructeurs fonctionnent-ils ainsi ?

>

>>

>

>>     - Il n'y a t'il pas des engagements sur le délais de

>

>> rétablissement d'un service ?

>

>>

>

>>     - Avez-vous eu un problème similaire dernièrement ?

>

>>

>

>> Je ne cherche pas la polémique, il doit y avoir des gens de chez EMC.

>

>> Je partage juste un message officiel.

>

>>

>

>> Merci par avance pour vos retours.

>

>>

>

>> Alexandre.

>

>> _______________________________________________

>

>> Liste de diffusion du FRsAG

>

>>http://www.frsag.org/

>

>>

>

_______________________________________________

Liste de diffusion du FRsAG

http://www.frsag.org/

_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Re: [FRsAG] Les engagements sur la fiabilité du matériel

Répondre à