Salut tout le monde, Pour apporter ma maigre expérience, nous avons également 2 baies EMC (1 pour le PRA/PCA) et nous avons eu « l’heureuse surprise » de voir que lors d’un incident (mineur) le support a anticipé l’inter en prennant en compte le problème en même temps que nous, et d’un autre coté il a fallut insister lors de la mise à jour (du firmware il me semble) pour commencer par la baie de secours, le support comptait attaquer directement sur la baie de prod…
Rien n’est jamais tout blanc ou tout … My 2 cent, Bruno. [cid:image001.jpg@01D1973E.C398C2B0] ü Pour la planète : échangez par courriel et n’imprimez que si nécessaire. -----Message d'origine----- De : FRsAG [mailto:frsag-boun...@frsag.org] De la part de Alexandre Envoyé : vendredi 15 avril 2016 17:01 À : Benjamin JOLIVOT; Benoît DEVIJVER; French SysAdmin Group Objet : Re: [FRsAG] Les engagements sur la fiabilité du matériel Salut, On 15/04/16 16:50, Benjamin JOLIVOT wrote: > Salut, > > Faut pas perdre de vue que si tu as un système critique pour ton > activité, il te faut ton propre système de secours. C'est certain, la deuxième infra est en cours de finalisation, je pensais (bien mal), qu'un update de la part du constructeur ne serait pas à l'origine d'une coupure de plusieurs heures... > > Les pénalités liées aux SLA sont souvent capées et ça fait toujours une > belle jambe d’avoir x mois de service à 100^euros gratos quand t’as > perdu 10 000 de CA. Si c'était que 10 000 ... > > La mise à jour d’une baie est un bon moment pour tester son/ses PCA/PRA ;o) Maintenant on a bien compris ''). > > Bon courage. > > --------- > > Ben, adepte du ceinture-bretelles > > *De :*FRsAG [mailto:frsag-boun...@frsag.org] *De la part de* Benoît DEVIJVER > *Envoyé :* vendredi 15 avril 2016 16:11 > *À :* Alexandre <in...@opendoc.net<mailto:in...@opendoc.net>>; Benoît DEVIJVER > <ben...@devijver.org<mailto:ben...@devijver.org>>; French SysAdmin Group > <frsag@frsag.org<mailto:frsag@frsag.org>> > *Objet :* Re: [FRsAG] Les engagements sur la fiabilité du matériel > > Salut, > > Alors en effet si ta configuration avait déjà 2x CS alors là tu as eu un > vrai vrai problème ! > > Il y a chez EMC France d'excellent support, tout comme aux US... mais en > effet si tu tombes sur la mauvaise personne t'es coincé... > > ( /Sache que les VNX2 ont améliorés justement les algorithmes de > détection des "soft" erreurs, lorsque toute la couche Raid a été > réécrite (MCx);/ ) > > Comme je disais, ton problème est forcément connu, mais le support n’a > pas pris en compte la gravité de ton problème, ni mis les ressources > nécessaires… > > Pour revenir au dernier point : le meilleur moyen d’avoir des > engagements à la carte c’est de contracter avec certains partenaires qui > sont parfois capables de prendre des engagements plus souples que le > gros constructeur ; > > Bon courage, Benoît > > -----Message d'origine----- > De : Alexandre [mailto:in...@opendoc.net] > Envoyé : vendredi 15 avril 2016 10:20 > À : Benoît DEVIJVER; French SysAdmin Group > Objet : Re: [FRsAG] Les engagements sur la fiabilité du matériel > > Bonjour Benoît et merci pour ton retour, > > On 14/04/16 23:37, Benoît DEVIJVER wrote: > >> Bonjour Alexandre, > >> > >> [ Disclaimer: ex-employé EMC, ~expert~ Avant-Vente puis R&D sur les > >> produits Celerra-VNX de 2008 à 2014 ] > >> > >> La control station du VNX est en effet un élément sensible, qui n'offre >> aucune redondance interne (1 seule disque, 1 seule alim); mais qui peut >> elle-même être redondée pour améliorer justement la disponibilité... > >> Je doute que le problème provienne d'un des disques protégé en Raid comme tu >> le dis... > > Je précise que nous avions 2 CS. > >> > >> La procédure de mise-à-jour dont tu parles contient un pre-check > >> script, mais il ne check pas forcément tout, et si tu n'as vraiment > >> vraiment pas de chance tout allait bien 10 minutes avant le problème > >> (mais j'en doute vraiment) > >> > >> > >> En général, la panne de la control station n'a pas d'effet sur la >> production... mais le processus de boot des datamovers peuvent être perturbé >> par l'absence de la control station... > >> Il convient donc de ne pas provoquer des bascules des datamovers (X-Blades) >> tant que la control station n'est pas revenu en état... > >> > >> Normalement la personne en charge de l'opération (salarié EMC ?) a dû faire >> le nécessaire pour que le support EMC soit informé aussitôt que possible du >> problème. L'opération aura du être mise en pause jusqu'à la remise en état >> de la control station déféctueuse... > >> (pendant ce temps là, vous êtes néanmoins dans une situation à risque > >> puisque c'est la control station qui s'occupe de gérer la redondance > >> des datamovers...) > > La baie EMC est hébergé chez nous, dans nos locaux. Nous avons ouvert un > ticket chez EMC pour la prise en charge de l’incident. > >> > >> 1/ La personne en charge du ticket aurait du en effet vous informer que la >> remise en état prendrait 9h, mais ca ne peut pas être vrai, car une >> restauration de control station doit durer 1h maximum... donc le temps de >> recevoir la nouvelle control-station + de la restaurer... > >> > >> 2/ Je pense que la plupart des constructeurs proposent le même genre >> d'engagement qu'EMC propose en standard... mais qui ne correspond pas >> exactement à votre demande... > >> il y a 2 solutions alors: > >> > >> a/ soit faire signer à EMC un contrat spécifique pour vous, avec les > >> engagements que vous souhaitez (par exemple lors d'un RFP....) mais > >> bon, a part le CAC40 je ne connais pas beaucoup de client qui ont le > >> pouvoir d'obtenir ce genre d'engagement d'EMC... (ni des autres > >> constructeurs du secteur) > >> > >> b/ Si EMC ne s'engage pas comme souhaité, vous pouvez vous appuyer sur des >> partenaires qui savent faire ça, et qui sont plus souple pour vous proposer >> des contrats et des engagement de maintenance sur-mesure... > >> > >> Vu la parc installé EMC VNX, je te rassure: presques tous les problèmes sont >> déjà connus, et la bonne personnes chez EMC connait les ficelles pour régler >> ton problème de façon très efficace, le plus difficile étant de trouver la >> KB applicable à ton problèmre... > >> Je doute que ton problème ai été inconnu d'EMC avant qu'il ne se produise... > >> > > Bien qu'EMC ne soit pas d'accord, une grand partie du problème a été > géré en Inde. Ensuite nous sommes passé sur le support Américain, et > étrangement le problème s'est corrigé assez vite. > >> Bon courage,Benoît > >> > >> > >> -----Message d'origine----- > >> De : FRsAG [mailto:frsag-boun...@frsag.org] De la part de Alexandre > >> Envoyé : jeudi 14 avril 2016 13:53 À : French SysAdmin Group Objet : > >> [FRsAG] Les engagements sur la fiabilité du matériel > >> > >> Bonjour à tous, > >> > >> je me permets de vous partager une mésaventure, cela permettra peut-être à >> certain de ne pas faire la même erreur que nous. > >> > >> Nous avons eu un problème sur une baie de disque EMC vnx 5300. Suite à une >> opération programmée par EMC pour une mise à jour, le service à été >> interrompu sur la partie partage NFS/CIFS. Je ne vais pas rentrer dans les >> détails. Conclusion, après ouverture d'un ticket chez EMC, le > service n'a pu être rétabli que 9H plus tard. > >> > >> L'origine du dysfonctionnement viendrait d'un groupe de disques qui >> hébergeraient le "soft" des control station (CS), l'un des disques aurait >> fait des problèmes d'écriture. > >> > >> J'ai plusieurs problème avec ce discourt : > >> > >> - comment une baie blindée de disque puisse avoir ce type de problème ? > >> - comment ce type de problème n'a pas pu être détecté avant (s'il y en >> avait un) ? > >> > >> - comment un procédure de mise à jour n'a pas détectée ce type de >> problème (si la mise à jour est à l'origine du problème) ? > >> > >> Côté EMC c'est très vague. Il y a deux affirmations : > >> > >> 1. La personne en charge du ticket incident, aurait du nous prévenir que >> l'opération serait longue, nous aurions pu basculer sur une autre infra. > >> > >> 2. EMC n'a pas de SLA, mais une SLO (service level objectives), qui de mon >> point de vu désengage EMC de toutes responsabilité. > >> > >> Pour finir, nous avons perdu beaucoup d'argent, et je pense malheureusement >> que nous pourrons rien y faire. > >> > >> > >> Mes questions : > >> > >> - Qu'aurions-nous du faire pour que EMC s'engage sur un taux de > >> disponibilité ? Tous les constructeurs fonctionnent-ils ainsi ? > >> > >> - Il n'y a t'il pas des engagements sur le délais de > >> rétablissement d'un service ? > >> > >> - Avez-vous eu un problème similaire dernièrement ? > >> > >> Je ne cherche pas la polémique, il doit y avoir des gens de chez EMC. > >> Je partage juste un message officiel. > >> > >> Merci par avance pour vos retours. > >> > >> Alexandre. > >> _______________________________________________ > >> Liste de diffusion du FRsAG > >>http://www.frsag.org/ > >> > _______________________________________________ Liste de diffusion du FRsAG http://www.frsag.org/
_______________________________________________ Liste de diffusion du FRsAG http://www.frsag.org/