Pareil en mode HBA.

Pour reproduire le problème, j’ai fait ça:
-10 dd simultanés de urandom vers pool zfs, 256Go chacun, ça a pris un moment, et un scrub en même temps -> aucun problème
-dd de 5 des fichiers créés précédemment vers le pool zfs (donc READ et WRITE en même temps sur les SSD) -> ça tourne normalement pendant 8 min
-je lance un scrub en même temps, ça roule pendant 3/4 min et là, PAF, succession d’erreurs READ/WRITE et mon pool se retrouve dans cet état:

  pool: zfsPool
 state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
Sufficient replicas exist for the pool to continue functioning in a
degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
repaired.
  scan: resilvered 1.99M in 00:00:04 with 0 errors on Mon Mar 21 19:55:26 2022
config:

NAME                        STATE     READ WRITE CKSUM
zfsPool                     DEGRADED     0     0     0
 raidz2-0                  DEGRADED     3    10     0
   scsi-35000cca050ae9fe8  DEGRADED     4    11     2  too many errors
   scsi-35000cca050ae9c4c  DEGRADED     4    14     2  too many errors
   scsi-35000cca050ae6e18  FAULTED      3    14     2  too many errors
   scsi-35000cca050ac2d48  DEGRADED     4     8     0  too many errors
   scsi-35000cca050ae4d68  ONLINE       4     5     2
   scsi-35000cca050ae9280  FAULTED      4    10     0  too many errors

errors: No known data errors

Mais ça augmente plus ensuite (il semble y avoir eu 2 interruptions sur le bus de suite, c’est tout), les 5 dd se terminent ensuite 3/4 min après, sans nouvelles erreurs.

Sérieusement incompréhensible.
Ca semble quand même arriver quand il y a des accès violents READ et WRITE sur le bus, je vais essayer de reproduire.

Le 19 mars 2022 à 15:07, Jarod G. <skid+frsag@tuto-craft.com> a écrit :

C'est ce que j'allais envoyer, en mode non-raid la carte gère toujours le traitement de quelques trucs et cache certaines infos des disques au système.

Heureusement depuis les cartes séries 30 on peut directement passer en mode HBA sans devoir flasher le firmware à la mano.

On 19/03/2022 12:12, Maxime De Berraly wrote:
Le mode "nonraid" par disque est pourri. Passe la H730 en mode HBA intégral.

Le sam. 19 mars 2022 à 11:47, David Ponzone <david.ponzone@gmail.com> a écrit :
Hello all,

Sur 2 serveurs r630 que je suis en train de mettre en service (progressivement), j’ai eu le même incident, à chaque fois quelques jours après avoir mis en prod une 20aine de VM.
Les 2 serveurs sont identiques:
-R630 avec H730 entièrement à jour
-Proxmox 7.1 installé sur 2 HD SAS en raid 1
-pool ZFS raidz2 sur 6 SSD IBM 1.6To SAS 12Gbps (déclarés en non-Raid sur la PERC)

L’incident donne ceci au niveau dmesg :

[630190.562386] sd 0:0:3:0: [sdb] tag#437 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630190.562392] sd 0:0:3:0: [sdb] tag#437 Sense Key : Data Protect [current]
[630190.562395] sd 0:0:3:0: [sdb] tag#437 Add. Sense: Access denied - no access rights[630190.562397] sd 0:0:3:0: [sdb] tag#437 CDB: Write(10) 2a 00 b4 8a 19 e8 00 01 00 00[630190.562399] blk_update_request: critical target error, dev sdb, sector 3028949480 op 0x1:(WRITE) flags 0x700 phys_seg 32 prio class 0
[630190.562448] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=2 offset=1550821085184 size=131072 flags=40080c80
[630201.009893] sd 0:0:7:0: [sdf] tag#405 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.009899] sd 0:0:7:0: [sdf] tag#405 Sense Key : Data Protect [current]
[630201.009901] sd 0:0:7:0: [sdf] tag#405 Add. Sense: Access denied - no access rights[630201.009903] sd 0:0:7:0: [sdf] tag#405 CDB: Read(10) 28 00 b4 8a 19 b0 00 00 70 00
[630201.009905] blk_update_request: critical target error, dev sdf, sector 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio class 0
[630201.009955] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae63cc-part1 error=121 type=1 offset=1550821056512 size=57344 flags=40080ca8
[630201.010013] sd 0:0:2:0: [sda] tag#408 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.010016] sd 0:0:2:0: [sda] tag#408 Sense Key : Data Protect [current]
[630201.010018] sd 0:0:2:0: [sda] tag#408 Add. Sense: Access denied - no access rights[630201.010020] sd 0:0:2:0: [sda] tag#408 CDB: Read(10) 28 00 b4 8a 19 90 00 00 a8 00
[630201.010021] blk_update_request: critical target error, dev sda, sector 3028949392 op 0x0:(READ) flags 0x700 phys_seg 21 prio class 0
[630201.010116] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae4dcc-part1 error=121 type=1 offset=1550821040128 size=86016 flags=40080ca8
[630201.010525] sd 0:0:6:0: [sde] tag#403 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.010547] sd 0:0:6:0: [sde] tag#403 Sense Key : Data Protect [current]
[630201.010553] sd 0:0:6:0: [sde] tag#403 Add. Sense: Access denied - no access rights[630201.010560] sd 0:0:6:0: [sde] tag#403 CDB: Read(10) 28 00 b4 8a 19 a8 00 00 70 00
[630201.010565] blk_update_request: critical target error, dev sde, sector 3028949416 op 0x0:(READ) flags 0x700 phys_seg 12 prio class 0
[630201.010713] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae6e78-part1 error=121 type=1 offset=1550821052416 size=57344 flags=40080ca8
[630201.045323] sd 0:0:3:0: [sdb] tag#433 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.045328] sd 0:0:3:0: [sdb] tag#433 Sense Key : Data Protect [current]
[630201.045330] sd 0:0:3:0: [sdb] tag#433 Add. Sense: Access denied - no access rights[630201.045332] sd 0:0:3:0: [sdb] tag#433 CDB: Read(10) 28 00 b4 8a 19 b0 00 00 70 00
[630201.045333] blk_update_request: critical target error, dev sdb, sector 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio class 0
[630201.045383] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=1 offset=1550821056512 size=57344 flags=40080ca8

Ça dure donc quelques secondes max.

Évidemment après ça, le pool est en sale état: 2 SSD en faulted, 2 en degraded, mais pas d’impact sur les données, et si je fais un clear, ça resilver et ça repart comme si de rien n’était.

Dans les logs PERC: rien (peut être normal en non-raid mais alors ça veut dire qu’il n’y a pas eu de problèmes sur les 2 HD en raid1).

Ça fait penser à un problème que le driver megaraid aurait eu ponctuellement pour accéder physiquement aux SSD en non-raid.

Comme c’est arrivé sur les deux serveurs, le problème hardware semble impossible.
Par contre, incompatibilité de ZFS et/ou H730 et/ou megaraid et/ou SSD IBM ?

Je nage un peu pour le moment donc avant de me lancer dans des grandes opérations chronophages (swap des SSD pour un autre modèle SATA, remplacement de la H730 par une 330 flashée en IT,…), je préfère voir si ca dit quelque chose à quelqu’un.
Google s’est avéré useless pour le moment.

Merci

David Ponzone


_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/