Ciao Piviul,
non so se iLO riporta questo tipo di errori. Cercando in rete ho trovato
(http://h20628.www2.hp.com/km-ext/kmcsdirect/emr_na-c03580889-1.pdf) che
iLO4 riporta tra le tante cose un Disk Failure.
I valori THRESH dello smart del disco riportano qualcosa di strano?
I log di sistema hanno riportato qualcosa al riguardo del disco come
errore I/O ecc (anche dmesg al momento dell'errore)?
Se non trovi nessun problema (ed è strano) proverei a riaggiungere il
disco al pool di zfs e vedere se riaccade. Se riaccade sta a te valutare
in base al ruolo del server e all'importanza dei dati che ha memorizzati
se è il caso di acquistare un nuovo disco.
Potresti fare un'altra prova ma è rischiosa, non l'ho mai fatto e non so
se è possibile. Se dico qualche ca___ta perdonatemi. Se il tuo pool
supporta un duplice guasto (raizd2) o se hai dischi spare (anche non
collegati) perche non invertire due dischi? Potrebbe essere il bay ad
avere il problema (so che è remota come possibilità). Se fallisce sempre
lo stesso disco sai che è quel disco altrimenti se fallisce il disco nel
bay "incriminato" sai che il problema dipende dal bay.
Se hai il raidz2 puoi scollegare due device insieme altrimenti sei
obbligato a scollegare il disco corrotto, fare un replace con un disco
nuovo e aspettare il resilvering. Se tutto va bene scolleghi un disco
del pool e inserisci quello che ti da problemi e aspetti il manifestarsi
del problema.
Anche in questo caso, dipende dal ruolo di questo specifico server. Può
essere spento e avere un downtime per il resilvering?
Non smetterò mai di consigliarlo: backup, backup e backup.
Nota: mi è capitato in passato, quando ero un novizio ed ero affiancato
da "un esperto", che su alcuni server HP in raid5 (hardware non ricordo
il controller) ogni tanto un disco veniva marcato come faulted e il
tutto si risistemava scollegando il disco e ricollegandolo (a fronte
però della ricostruzione).
Un saluto.
Aggiungo che il server è un proliant hp e iLO4 dice che lo stato di
salute del server è ottimo, non vengono rilevati problemi. Se un HD
dovesse avere problemi il server proliant non dovrebbe accorgesene?
Grazie
Piviul
Il 11/06/20 13:04, Piviul ha scritto:
Ciao a tutti, zfs si è arrabbiato e mi ha fatto uscire un HD dal raid.
Ora io essendoci ancora cose non essenziali sul server ho dato un
zpool clear sul server ma mi piacerebbe testare l'hd; con uno smartctl
-a /dev/sd? mi dice :
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.41-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke,
www.smartmontools.org
/dev/sd?: requires option '-d cciss,N'
Please specify device type with the -d option.
Use smartctl -h to get a usage summary
se gli aggiungo un -d scsi mi restituisce:
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.41-1-pve] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke,
www.smartmontools.org
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Logical block size: 512 bytes
Rotation Rate: 7202 rpm
Form Factor: 3.5 inches
Logical Unit id: 0x5000c5004e1c339a
Serial number: Z1P3KYTT
Device type: disk
Local Time is: Thu Jun 11 13:03:46 2020 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Temperature Warning: Disabled or Not Supported
=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature: 32 C
Drive Trip Temperature: 0 C
Error Counter logging not supported
Device does not support Self Test logging
Voi cosa fareste?
Piviul