Re: zfs pool degraded

Alessandro Baggi Fri, 12 Jun 2020 02:10:11 -0700

Ciao Piviul,

non so se iLO riporta questo tipo di errori. Cercando in rete ho trovato(http://h20628.www2.hp.com/km-ext/kmcsdirect/emr_na-c03580889-1.pdf) cheiLO4 riporta tra le tante cose un Disk Failure.


I valori THRESH dello smart del disco riportano qualcosa di strano?

I log di sistema hanno riportato qualcosa al riguardo del disco comeerrore I/O ecc (anche dmesg al momento dell'errore)?

Se non trovi nessun problema (ed è strano) proverei a riaggiungere ildisco al pool di zfs e vedere se riaccade. Se riaccade sta a te valutarein base al ruolo del server e all'importanza dei dati che ha memorizzatise è il caso di acquistare un nuovo disco.

Potresti fare un'altra prova ma è rischiosa, non l'ho mai fatto e non sose è possibile. Se dico qualche ca___ta perdonatemi. Se il tuo poolsupporta un duplice guasto (raizd2) o se hai dischi spare (anche noncollegati) perche non invertire due dischi? Potrebbe essere il bay adavere il problema (so che è remota come possibilità). Se fallisce semprelo stesso disco sai che è quel disco altrimenti se fallisce il disco nelbay "incriminato" sai che il problema dipende dal bay.Se hai il raidz2 puoi scollegare due device insieme altrimenti seiobbligato a scollegare il disco corrotto, fare un replace con un disconuovo e aspettare il resilvering. Se tutto va bene scolleghi un discodel pool e inserisci quello che ti da problemi e aspetti il manifestarsidel problema.Anche in questo caso, dipende dal ruolo di questo specifico server. Puòessere spento e avere un downtime per il resilvering?


Non smetterò mai di consigliarlo: backup, backup e backup.

Nota: mi è capitato in passato, quando ero un novizio ed ero affiancatoda "un esperto", che su alcuni server HP in raid5 (hardware non ricordoil controller) ogni tanto un disco veniva marcato come faulted e iltutto si risistemava scollegando il disco e ricollegandolo (a fronteperò della ricostruzione).


Un saluto.

Aggiungo che il server è un proliant hp e iLO4 dice che lo stato disalute del server è ottimo, non vengono rilevati problemi. Se un HDdovesse avere problemi il server proliant non dovrebbe accorgesene?
Grazie

Piviul

Il 11/06/20 13:04, Piviul ha scritto:
Ciao a tutti, zfs si è arrabbiato e mi ha fatto uscire un HD dal raid.Ora io essendoci ancora cose non essenziali sul server ho dato unzpool clear sul server ma mi piacerebbe testare l'hd; con uno smartctl-a /dev/sd? mi dice :
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.41-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke,www.smartmontools.org
/dev/sd?: requires option '-d cciss,N'
Please specify device type with the -d option.

Use smartctl -h to get a usage summary
se gli aggiungo un -d scsi mi restituisce:
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.41-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke,www.smartmontools.org
User Capacity:        2,000,398,934,016 bytes [2.00 TB]
Logical block size:   512 bytes
Rotation Rate:        7202 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000c5004e1c339a
Serial number:        Z1P3KYTT
Device type:          disk
Local Time is:        Thu Jun 11 13:03:46 2020 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Disabled or Not Supported

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature:     32 C
Drive Trip Temperature:        0 C

Error Counter logging not supported

Device does not support Self Test logging
Voi cosa fareste?

Piviul

Re: zfs pool degraded

Rispondere a