Bonsoir la liste,
En ce début d'année, je me creuse la cervelle autour des
sauvegardes, alors je vous partage mes questionnements :)
Petit topo du contexte : je bosse dans un centre de recherche scientifique, dont les instruments produisent pas mal de données.
Ces données sorties des instruments "raw" sont ensuite traitées et transformées pour analyse (données "processed"), en vue de publier des papiers de recherche.
Les données raw sont produites pendant des "cycles" de fonctionnement (3 à 4 cycles par an) et l'approche est WORM (c'est la valeur produite par l'institut, les données raw sont impossibles à reproduire).
Les données processed sont produites en continu selon l'activité des scientifiques, parfois plusieurs années après la production des données raw associées. Les données processed sont recalculables à partir des données raw, mais ça peut être coûteux (temps et puissance de calcul).
On a actuellement 1.3 PiB de data (raw+processed) sur notre stockage primaire. Ça tourne sur une infra Ceph en triple réplication, grosso-merdo ça fait 600 disques mécaniques de 20TB.
Évidemment on est sur un scénario loin d'être idéal pour le stockage : on a principalement de très nombreux petits fichiers (<128 KB). Mais on a aussi des fichiers >1TB, sinon c'est pas drôle...
Si vous voulez une idée de la tête de l'arborescence, ça ressemble à ça : https://pastebin.com/vVF31cv4
On aimerait changer de solution de backup pour ces données, au profit d'un truc qui coche au moins plusieurs de ces critères (tous, je sens que ça va être compliqué) :
Jusqu'ici on fait du bacula et du rsync sur ZFS (un serveur avec plein de baies JBOD en SCSI). Mais c'est plein, et il faut donc faire évoluer tout ça.
Le plus simple pour nous serait probablement de continuer avec la même solution sur le plan logiciel, en passant sur un stockage distribué comme Ceph pour avoir la scalabilité souhaitée.
Mais ça fait la même techno pour le stockage primaire et le
backup (pas top), et Ceph n'est pas très efficient (même si on
peut faire des choses en Erasure Coding). De plus, ça ne permet
pas d'intégrer des bandes magnétiques dans l'équation.
Voilà, n'hésitez pas à partager vos avis et expériences. Notamment je n'ai jamais bossé avec de la bande magnétique, je me questionne pas mal sur la pertinence et la facilité de gestion.
Si des commerciaux passent par là : vous pouvez me contacter sur mon mail pro (sirjean@ill.fr) mais je suis plutôt dans une phase exploratoire (il y aura de toutes façon un appel d'offres).
Merci pour vos retours, et à bientôt :)
Fabien