Bonjour,

Mes questions à deux balles :
    -Firmware à jour (y compris les SSD) ?
    -Etat SMART des SSD ?
    -version du driver fournit par debian/proxmox (voir du "firmware", du
paquet "linux-firmware-nonfree" je crois)?
    -Pour rappel, proxmox a son propre noyau, un soucis à ce niveau ???

Cdlt,


Le mar. 22 mars 2022 à 08:09, Fabien <l...@fgautreau.net> a écrit :

> Hello,
>
> As-tu regardé si tu avais plus d'infos/status dans les logs de l'IDRAC ?
>
> Je ne sais pas si le mode HBA utilise la "battery cache" mais ça peut être
> une piste
>
> Fabien
>
>
> Le 21/03/2022 à 20:13, David Ponzone a écrit :
>
> Pareil en mode HBA.
>
> Pour reproduire le problème, j’ai fait ça:
> -10 dd simultanés de urandom vers pool zfs, 256Go chacun, ça a pris un
> moment, et un scrub en même temps -> aucun problème
> -dd de 5 des fichiers créés précédemment vers le pool zfs (donc READ et
> WRITE en même temps sur les SSD) -> ça tourne normalement pendant 8 min
> -je lance un scrub en même temps, ça roule pendant 3/4 min et là, PAF,
> succession d’erreurs READ/WRITE et mon pool se retrouve dans cet état:
>
>   pool: zfsPool
>  state: DEGRADED
> status: One or more devices are faulted in response to persistent errors.
> Sufficient replicas exist for the pool to continue functioning in a
> degraded state.
> action: Replace the faulted device, or use 'zpool clear' to mark the device
> repaired.
>   scan: resilvered 1.99M in 00:00:04 with 0 errors on Mon Mar 21 19:55:26
> 2022
> config:
>
> NAME                        STATE     READ WRITE CKSUM
> zfsPool                     DEGRADED     0     0     0
>  raidz2-0                  DEGRADED     3    10     0
>    scsi-35000cca050ae9fe8  DEGRADED     4    11     2  too many errors
>    scsi-35000cca050ae9c4c  DEGRADED     4    14     2  too many errors
>    scsi-35000cca050ae6e18  FAULTED      3    14     2  too many errors
>    scsi-35000cca050ac2d48  DEGRADED     4     8     0  too many errors
>    scsi-35000cca050ae4d68  ONLINE       4     5     2
>    scsi-35000cca050ae9280  FAULTED      4    10     0  too many errors
>
> errors: No known data errors
>
> Mais ça augmente plus ensuite (il semble y avoir eu 2 interruptions sur le
> bus de suite, c’est tout), les 5 dd se terminent ensuite 3/4 min après,
> sans nouvelles erreurs.
>
> Sérieusement incompréhensible.
> Ca semble quand même arriver quand il y a des accès violents READ et WRITE
> sur le bus, je vais essayer de reproduire.
>
> Le 19 mars 2022 à 15:07, Jarod G. <skid+fr...@tuto-craft.com> a écrit :
>
> C'est ce que j'allais envoyer, en mode non-raid la carte gère toujours le
> traitement de quelques trucs et cache certaines infos des disques au
> système.
>
> Heureusement depuis les cartes séries 30 on peut directement passer en
> mode HBA sans devoir flasher le firmware à la mano.
> On 19/03/2022 12:12, Maxime De Berraly wrote:
>
> Le mode "nonraid" par disque est pourri. Passe la H730 en mode HBA
> intégral.
>
> Le sam. 19 mars 2022 à 11:47, David Ponzone <david.ponz...@gmail.com> a
> écrit :
>
>> Hello all,
>>
>> Sur 2 serveurs r630 que je suis en train de mettre en service
>> (progressivement), j’ai eu le même incident, à chaque fois quelques jours
>> après avoir mis en prod une 20aine de VM.
>> Les 2 serveurs sont identiques:
>> -R630 avec H730 entièrement à jour
>> -Proxmox 7.1 installé sur 2 HD SAS en raid 1
>> -pool ZFS raidz2 sur 6 SSD IBM 1.6To SAS 12Gbps (déclarés en non-Raid sur
>> la PERC)
>>
>> L’incident donne ceci au niveau dmesg :
>>
>> [630190.562386] sd 0:0:3:0: [sdb] tag#437 FAILED Result: hostbyte=DID_OK
>> driverbyte=DRIVER_SENSE cmd_age=0s
>> [630190.562392] sd 0:0:3:0: [sdb] tag#437 Sense Key : Data Protect
>> [current]
>> [630190.562395] sd 0:0:3:0: [sdb] tag#437 Add. Sense: Access denied - no
>> access rights[630190.562397] sd 0:0:3:0: [sdb] tag#437 CDB: Write(10) 2a 00
>> b4 8a 19 e8 00 01 00 00[630190.562399] blk_update_request: critical target
>> error, dev sdb, sector 3028949480 op 0x1:(WRITE) flags 0x700 phys_seg 32
>> prio class 0
>> [630190.562448] zio pool=zfsPool
>> vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=2
>> offset=1550821085184 size=131072 flags=40080c80
>> [630201.009893] sd 0:0:7:0: [sdf] tag#405 FAILED Result: hostbyte=DID_OK
>> driverbyte=DRIVER_SENSE cmd_age=0s
>> [630201.009899] sd 0:0:7:0: [sdf] tag#405 Sense Key : Data Protect
>> [current]
>> [630201.009901] sd 0:0:7:0: [sdf] tag#405 Add. Sense: Access denied - no
>> access rights[630201.009903] sd 0:0:7:0: [sdf] tag#405 CDB: Read(10) 28 00
>> b4 8a 19 b0 00 00 70 00
>> [630201.009905] blk_update_request: critical target error, dev sdf,
>> sector 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio class 0
>> [630201.009955] zio pool=zfsPool
>> vdev=/dev/disk/by-id/scsi-35000cca050ae63cc-part1 error=121 type=1
>> offset=1550821056512 size=57344 flags=40080ca8
>> [630201.010013] sd 0:0:2:0: [sda] tag#408 FAILED Result: hostbyte=DID_OK
>> driverbyte=DRIVER_SENSE cmd_age=0s
>> [630201.010016] sd 0:0:2:0: [sda] tag#408 Sense Key : Data Protect
>> [current]
>> [630201.010018] sd 0:0:2:0: [sda] tag#408 Add. Sense: Access denied - no
>> access rights[630201.010020] sd 0:0:2:0: [sda] tag#408 CDB: Read(10) 28 00
>> b4 8a 19 90 00 00 a8 00
>> [630201.010021] blk_update_request: critical target error, dev sda,
>> sector 3028949392 op 0x0:(READ) flags 0x700 phys_seg 21 prio class 0
>> [630201.010116] zio pool=zfsPool
>> vdev=/dev/disk/by-id/scsi-35000cca050ae4dcc-part1 error=121 type=1
>> offset=1550821040128 size=86016 flags=40080ca8
>> [630201.010525] sd 0:0:6:0: [sde] tag#403 FAILED Result: hostbyte=DID_OK
>> driverbyte=DRIVER_SENSE cmd_age=0s
>> [630201.010547] sd 0:0:6:0: [sde] tag#403 Sense Key : Data Protect
>> [current]
>> [630201.010553] sd 0:0:6:0: [sde] tag#403 Add. Sense: Access denied - no
>> access rights[630201.010560] sd 0:0:6:0: [sde] tag#403 CDB: Read(10) 28 00
>> b4 8a 19 a8 00 00 70 00
>> [630201.010565] blk_update_request: critical target error, dev sde,
>> sector 3028949416 op 0x0:(READ) flags 0x700 phys_seg 12 prio class 0
>> [630201.010713] zio pool=zfsPool
>> vdev=/dev/disk/by-id/scsi-35000cca050ae6e78-part1 error=121 type=1
>> offset=1550821052416 size=57344 flags=40080ca8
>> [630201.045323] sd 0:0:3:0: [sdb] tag#433 FAILED Result: hostbyte=DID_OK
>> driverbyte=DRIVER_SENSE cmd_age=0s
>> [630201.045328] sd 0:0:3:0: [sdb] tag#433 Sense Key : Data Protect
>> [current]
>> [630201.045330] sd 0:0:3:0: [sdb] tag#433 Add. Sense: Access denied - no
>> access rights[630201.045332] sd 0:0:3:0: [sdb] tag#433 CDB: Read(10) 28 00
>> b4 8a 19 b0 00 00 70 00
>> [630201.045333] blk_update_request: critical target error, dev sdb,
>> sector 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio class 0
>> [630201.045383] zio pool=zfsPool
>> vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=1
>> offset=1550821056512 size=57344 flags=40080ca8
>>
>> Ça dure donc quelques secondes max.
>>
>> Évidemment après ça, le pool est en sale état: 2 SSD en faulted, 2 en
>> degraded, mais pas d’impact sur les données, et si je fais un clear, ça
>> resilver et ça repart comme si de rien n’était.
>>
>> Dans les logs PERC: rien (peut être normal en non-raid mais alors ça veut
>> dire qu’il n’y a pas eu de problèmes sur les 2 HD en raid1).
>>
>> Ça fait penser à un problème que le driver megaraid aurait eu
>> ponctuellement pour accéder physiquement aux SSD en non-raid.
>>
>> Comme c’est arrivé sur les deux serveurs, le problème hardware semble
>> impossible.
>> Par contre, incompatibilité de ZFS et/ou H730 et/ou megaraid et/ou SSD
>> IBM ?
>>
>> Je nage un peu pour le moment donc avant de me lancer dans des grandes
>> opérations chronophages (swap des SSD pour un autre modèle SATA,
>> remplacement de la H730 par une 330 flashée en IT,…), je préfère voir si ca
>> dit quelque chose à quelqu’un.
>> Google s’est avéré useless pour le moment.
>>
>> Merci
>>
>> David Ponzone
>>
>>
>> _______________________________________________
>> Liste de diffusion du %(real_name)s
>> http://www.frsag.org/
>
>
> _______________________________________________
> Liste de diffusion du %(real_name)shttp://www.frsag.org/
>
>
>
> _______________________________________________
> Liste de diffusion du %(real_name)shttp://www.frsag.org/
>
> _______________________________________________
> Liste de diffusion du %(real_name)s
> http://www.frsag.org/
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

Répondre à