[FRsAG] Re: Recherche solution de backup adaptée à de fortes volumétries

Gilles Mocellin Wed, 03 Jan 2024 11:44:12 -0800

Le mercredi 3 janvier 2024, 18:42:10 CET Fabien Sirjean a écrit :
> Bonsoir la liste,
> 
> En ce début d'année, je me creuse la cervelle autour des sauvegardes,
> alors je vous partage mes questionnements :)
> 
> 
> Petit topo du contexte : je bosse dans un centre de recherche
> scientifique, dont les instruments produisent pas mal de données.
> 
> Ces données sorties des instruments "raw" sont ensuite traitées et
> transformées pour analyse (données "processed"), en vue de publier des
> papiers de recherche.
> 
> Les données raw sont produites pendant des "cycles" de fonctionnement (3
> à 4 cycles par an) et l'approche est WORM (c'est la valeur produite par
> l'institut, les données raw sont impossibles à reproduire).
> 
> Les données processed sont produites en continu selon l'activité des
> scientifiques, parfois plusieurs années après la production des données
> raw associées. Les données processed sont recalculables à partir des
> données raw, mais ça peut être coûteux (temps et puissance de calcul).
> 
> On a actuellement 1.3 PiB de data (raw+processed) sur notre stockage
> primaire. Ça tourne sur une infra Ceph en triple réplication,
> grosso-merdo ça fait 600 disques mécaniques de 20TB.
> 
> Évidemment on est sur un scénario loin d'être idéal pour le stockage :
> on a principalement de très nombreux petits fichiers (<128 KB). Mais on
> a aussi des fichiers >1TB, sinon c'est pas drôle...
> 
> Si vous voulez une idée de la tête de l'arborescence, ça ressemble à ça
> 
> : https://pastebin.com/vVF31cv4
> 
> On aimerait changer de solution de backup pour ces données, au profit
> d'un truc qui coche au moins plusieurs de ces critères (tous, je sens
> que ça va être compliqué) :
> 
>   * Open Source
>   * Pas trop complexe / usine à gaz
>   * Scalable (marre de changer tout le matos tous les 4-5 ans parce que
>     y'a plus de place...)
>   * Qui permette de gérer indépendamment le backup des données "raw" (ça
>     bouge pas mais on veut vraiment pas les perdre) des données
>     "processed" (ça bouge, on peut se permettre de les perdre, on peut
>     réduire la rétention pour les vieux cycles)
>   * Qui fasse pas nécessairement tourner des tas de disques en
>     permanence (les données raw pourraient très bien être sur de la
>     bande magnétique, vu qu'elles ne bougent plus du tout une fois le
>     cycle terminé)
>   * Qui coûte un prix raisonnable
> 
> 
> Jusqu'ici on fait du bacula et du rsync sur ZFS (un serveur avec plein
> de baies JBOD en SCSI). Mais c'est plein, et il faut donc faire évoluer
> tout ça.
> 
> Le plus simple pour nous serait probablement de continuer avec la même
> solution sur le plan logiciel, en passant sur un stockage distribué
> comme Ceph pour avoir la scalabilité souhaitée.
> 
> Mais ça fait la même techno pour le stockage primaire et le backup (pas
> top), et Ceph n'est pas très efficient (même si on peut faire des choses
> en Erasure Coding). De plus, ça ne permet pas d'intégrer des bandes
> magnétiques dans l'équation.
> 
> 
> Voilà, n'hésitez pas à partager vos avis et expériences. Notamment je
> n'ai jamais bossé avec de la bande magnétique, je me questionne pas mal
> sur la pertinence et la facilité de gestion.
> 
> Si des commerciaux passent par là : vous pouvez me contacter sur mon
> mail pro (sirj...@ill.fr) mais je suis plutôt dans une phase
> exploratoire (il y aura de toutes façon un appel d'offres).
> 
> 
> Merci pour vos retours, et à bientôt :)
> 
> Fabien


Bonjour,

En restant dans le domaine de la recherche, on a évidemment le CERN qui peut 
être pris comme référence / inspiration.

https://home.cern/science/computing/storage

Ils ont du Ceph, mais à priori, pas pour les données des expériences, surement 
pour leur Cloud OpenStack.
Leur stockage est fait maison (EOS https://eos-web.web.cern.ch/eos-web/)
Et le stockage long terme, archivage est sur bande.

PS:
Tien, je vois que EOS  a plusieurs backends de stockage à proprement dit, et 
qu'on y retrouve Ceph aussi, en mode RADOS direct ou CephFS...



_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

[FRsAG] Re: Recherche solution de backup adaptée à de fortes volumétries

Répondre à