Tu stockes quel genre de données ? taille ?

Car en fonction de ça, tu pourrais trouver ton bonheur là : http://hadoop.apache.org/

Pour les logs tu as Hive, pour du FS simple tu as HDFS, et pour designer des appli au dessus de tout ça, MapReduce te permet de sortir de bonnes perfs parmis des millions d'entrées clé/valeur.

Testé et éprouvé.

Le seul truc, c'est que ça jacte pas mal donc les switch en oversubscription tu peux les oublier. 

Et même guiguiabloc en parle ;) http://blog.guiguiabloc.fr/index.php/2009/11/12/hadoop-doop-doop-doop/

Si tes données sont très légères, tu peux même les stocker dans zookeeper ;)

Dans la cas contraire, tu as des alternatives comme voldemort ou cassandra, mais encore une fois ça dépend de ce que tu veux stocker...


2010/7/18 Greg <greg-frsag@duchatelet.net>
Bonjour,

aujourd'hui pour le stockage centralisé de plusieurs 100ène de millions de fichiers, j'utilise 2 serveurs redondants NFSv4 (heatbeat), les serveurs clients montent leurs partitions sur un de ces 2 serveurs, le master heartbeat. Et ça marche très bien, les perfs sont convenables.
Problème, en cas de coupure brutale (électrique) du serveur principale, les clients retentent de se connecter indéfiniment sans fermer la socket, du coup ils ne se connectent jamais sur le serveur secondaire qui est passé maitre. Les points de montages ne sont pas démontables, la seule solution parfois consiste à rebooter tous les serveurs clients :(

On trouve plusieurs explications de ce phénomène :


J'ai 2 solutions: essayer de trouver des bidouilles (sysctl -w net.ipv4.tcp_fin_timeout=10, synchro de /var/lib/nfs ...) ou trouver et migrer vers un système de fichiers distribué éprouvé.

GlusterFS est sexy sur le papier, mais en prod il est buggé, instable, et j'ai eu pas mal de comportements bizarres (fichiers présent sur certains serveurs). Et pourtant j'ai joué avec pendant quasiment 1 an avec 2 noeuds et 10 clients.

Ceph (http://ceph.newdream.net/) a l'air super prometteur mais super jeune... Je n'ai pas envie de perdre à nouveau du temps comme avec GlusterFS.

Il en existe d'autres: POHMELFS par exemple...

Si vous avez des retours d'expériences sur un de ces FS en environnement chargé (beaucoup d'IO) ça m'aiderait.

--
Greg


_______________________________________________
FRsaG mailing list
FRsaG@frsag.org
http://www.frsag.org/mailman/listinfo/frsag




--
Steven Le Roux
Jabber-ID : Steven@jabber.fr
0x39494CCB <steven@le-roux.info>
2FF7 226B 552E 4709 03F0  6281 72D7 A010 3949 4CCB