Bonjour,

aujourd'hui pour le stockage centralisé de plusieurs 100ène de millions de fichiers, j'utilise 2 serveurs redondants NFSv4 (heatbeat), les serveurs clients montent leurs partitions sur un de ces 2 serveurs, le master heartbeat. Et ça marche très bien, les perfs sont convenables.
Problème, en cas de coupure brutale (électrique) du serveur principale, les clients retentent de se connecter indéfiniment sans fermer la socket, du coup ils ne se connectent jamais sur le serveur secondaire qui est passé maitre. Les points de montages ne sont pas démontables, la seule solution parfois consiste à rebooter tous les serveurs clients :(

On trouve plusieurs explications de ce phénomène :


J'ai 2 solutions: essayer de trouver des bidouilles (sysctl -w net.ipv4.tcp_fin_timeout=10, synchro de /var/lib/nfs ...) ou trouver et migrer vers un système de fichiers distribué éprouvé.

GlusterFS est sexy sur le papier, mais en prod il est buggé, instable, et j'ai eu pas mal de comportements bizarres (fichiers présent sur certains serveurs). Et pourtant j'ai joué avec pendant quasiment 1 an avec 2 noeuds et 10 clients.

Ceph (http://ceph.newdream.net/) a l'air super prometteur mais super jeune... Je n'ai pas envie de perdre à nouveau du temps comme avec GlusterFS.

Il en existe d'autres: POHMELFS par exemple...

Si vous avez des retours d'expériences sur un de ces FS en environnement chargé (beaucoup d'IO) ça m'aiderait.

--
Greg