'jour
Je vais essayer d'être un peu plus pénible avec Ceph en provoquant des coupures brutales à des moments différents.
Il me semble avoir lu sur le forum Proxmox que leurs devs conseillent de mettre 5 noeuds Ceph dans un cluster (hyperconvergé ou dédié Ceph). Comme ça, on peut en perdre 2 en même temps (coupure brutale) et on peut continuer en R/W (si le nombre de réplicant est suffisant bien sûr, il faut écrire les données sur trois noeuds). Il faut donc aussi au moins trois monitors et trois managers.
Je les ai bêtement suivi leur conseil et ça fonctionne plutôt bien.
Par contre, avec 5 noeuds et 40 OSD (8 SSD 2TB par noeuf), le facteur limitant en IOps c'est le réseau : deux ports 10 Gbps LACP dédiés pour le trafic Ceph c'est pas assez. Le bench rados le montre clairement (60 secondes, 16 threads 4 MB) : Total time run: 60.055428 Total writes made: 14405 Write size: 4194304 Object size: 4194304 Bandwidth (MB/sec): 959.447 Stddev Bandwidth: 24.6301 Max bandwidth (MB/sec): 1008 Min bandwidth (MB/sec): 892 Average IOPS: 239 Stddev IOPS: 6 Max IOPS: 252 Min IOPS: 223 Average Latency(s): 0.066696 Stddev Latency(s): 0.0290787 Max latency(s): 0.361495 Min latency(s): 0.0267153
Il faudrait taper dans du 40 Gbps et diminuer la latence.
David