>>En quoi le quorum est-il critique dans ce cas ?

tu as besoin du quorum pour les moniteurs. (3 moniteurs donc).
size = 2, min size = 1  -> c'est pour les osd uniquement.


en gros, avec 2 monitor, si tu en as un qui est down, tu perd le quorum : le 
cluster passe en readonly

c'est pour eviter les split-brains.

les clients, ainsi que les osd sont connectés en permanence aux monitors pour 
voir l'etat du cluster, 
avoir la map avec les osd down/up, pour injecter tout ca dans l'algo crush pour 
savoir où lire et ecrire.  
Imagine le bordel si la moitié des clients/osd voient 1 monitor, et l'autre 
moitié l'autre monitor.





----- Mail original -----
De: "Julien Escario" <julien.esca...@altinea.fr>
À: "French SysAdmin Group" <frsag@frsag.org>
Envoyé: Dimanche 20 Septembre 2020 21:49:40
Objet: Re: [FRsAG]  Proxmox avec gros uptime = problèmes ?

Le 18/09/2020 à 11:22, Grosjean Cyril a écrit : 
> Le ven. 18 sept. 2020 à 11:11, Pierre DOLIDON <sn...@sn4ky.net 
> <mailto:sn...@sn4ky.net>> a écrit : 
> 
> de mémoire, ceph sur 2 noeuds, c'est pas possible ? (puisque c'est un 
> cluster... quorum toussa toussa). 
> 
> 
> ll faut 3 noeuds pour les monitors/managers, mais ton 3ème noeud pour 
> les monitors/manager peuvent être sur un autre site, en standalone (un 
> peu comme un arbitre dans un SAN bi-site synchrone). 
> Le cluster d'OSD, si bien configuré peut supporter la perte d'un noeud. 

Pas mal de retours intéressants sur cette question de Ceph avec deux 
noeuds. Je voulais justement faire un lab pour voir ce que ca donne en 
remplacement d'un cluster DRBD avec deux noeuds. 

En 'théorie', avec deux nodes, quatre OSD (deux sur chaque node), deux 
mon+mgr (un sur chaque node), size = 2, min size = 1. 

En gros, un RAID over Ethernet puisque chaque PG sera sur chaque node. 

Si on perd TOTALEMENT un node : pas d'impact, et rebalance au 
redémarrage du node H.S 

Si on perd le réseau entre les deux (c'est toujours le scenario 
stressant) : il se passe quoi exactement ? 

En partant du principe que chaque VM a ses propres objects (aka blocks) 
: je ne vois pas pourquoi il y aurait plus grave comme soucis qu'un 
resync au moment où le réseau revient ? 
En quoi le quorum est-il critique dans ce cas ? 

Je n'ai pas osé le test encore, je suis peut être complètement à côté de 
la plaque ... 

Merci de vos lumières, 
Julien 
_______________________________________________ 
Liste de diffusion du FRsAG 
http://www.frsag.org/ 

_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à