Bonjour,

Le 02/12/2020 à 16:05, Stéphane Rivière a écrit :
> Je n'utilise pas CEPH. Voilà le notes que j'avais pris à l'époque.
> Aucune idée de la pertinence. Ces colistiers ont du vécu :) Leurs
> messages m'ont semblé assez clairs.
>
> 3        Incident
>
> wall...@morkitu.org : Ceph sur trois noeuds dans le moule Proxmox, ça
> marche quand tout est ok. Si tu perds un nœud le quorum en prend un coup
> comme pour Proxmox mais ça passe.
>
> On a découvert avec douleur qu'un cluster Proxmox trois nœuds qui
> démarre à froid (coupure courant de nuit dans une entreprise malgré
> l'onduleur ça n'a pas tenu jusqu'au matin) et qui a un nœud ceph mort
> (l'équipe sur place faisait une maintenance sur les disques la veille)
> refuse de démarrer et donc tu ne peux pas faire repartir.


Comme pour le lvm-thin, ce retour d'expérience est précieux pour
construire et faire évoluer les infrastructures Proxmox et Ceph.

Sur le lvm-thin, on va mettre une supervision sur ce point précis :-)

J'ai testé le même type d'incident (coupure de courant) avec 5 serveurs
Proxmox (6.3) dont 3 noeuds Ceph (15.2).
J'ai cassé un serveur Proxmox et un noeud Ceph avant de couper
brutalement le courant.

Au redémarrage, J'ai allumé 2 serveurs Proxmox ayant 2 noeuds Ceph:

-> J'ai eu droit un beau message du contrôleur RAID du genre "flushing
cache", car il y avait des données dans la mémoire du contrôleur lors de
l'arrêt brutal, et donc il a écrit les données sur les disques au rallumage.
-> Le Ceph a un peu rallé avec "Health Warning" (active+undersized),
mais il était accessible
-> Le Proxmox a  refusé de démarrer les VMs car le quorum n'était pas là.

J'ai rallumé un Proxmox supplémentaire (pour arriver à 3):
 -> Les VMs sont reparties.

J'ai rallumé le reste : dernier noeud Ceph et 2 derniers proxmox:
 -> Après quelques minutes, le Ceph est repassé en Health OK
 -> Le proxmox cassé ne s'est pas réintégré (différence de numéro de
version dans corosync)

Je vais essayer d'être un peu plus pénible avec Ceph en provoquant des
coupures brutales à des moments différents.

-- 
*Emmanuel DECAEN*
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à