El día 4 de marzo de 2015, 12:06, Maykel Franco <maykeldeb...@gmail.com> escribió: > El día 2 de marzo de 2015, 11:40, Maykel Franco > <maykeldeb...@gmail.com> escribió: >> El día 3 de febrero de 2015, 15:52, Camaleón <noela...@gmail.com> escribió: >>> El Tue, 03 Feb 2015 11:42:17 +0100, Maykel Franco escribió: >>> >>>> Hola buenas, tengo montado un raid5 en una máquina. >>> >>> ¿Qué tipo de raid? ¿md, dm, hardware raid...? >> >> mdadm >> >>> >>>> El caso es que he empezado a recibir errores de smart , uso ese >>>> servicio en linux para chequear los discos duros: >>>> >>>> The following warning/error was logged by the smartd daemon: >>>> >>>> Device: /dev/sdd [SAT], Failed SMART usage Attribute: 184 >>>> End-to-End_Error. >>> >>> Según Wikiepdia, ese error significa: >>> >>> *** >>> 184 0xB8 End-to-End error / IOEDC Lower >>> This attribute is a part of Hewlett-Packard's SMART IV technology, as well >>> as part of other vendors' IO Error Detection and Correction schemas, and >>> it contains a count of parity errors which occur in the data path to the >>> media via the drive's cache RAM.[25] >>> *** >>> >>> Ejecuta el smartctl sobre ese disco y si te dice SMART FAILED vete >>> preparando para reemplazarlo. Ya. >> >> El caso es que aquí dice PASSED. >> >>> >>>> For details see host's SYSLOG. >>>> >>>> He mirado el dmesg, syslog, messages. >>>> >>>> SYSLOG: >>>> >>>> Feb 3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdb [SAT], SMART >>>> Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 102 to 112 >>>> Feb 3 06:40:06 owncloud-mo2o smartd[3934]: Device: /dev/sdc [SAT], SMART >>>> Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 117 to 118 >>>> Feb 3 06:40:07 owncloud-mo2o smartd[3934]: Device: /dev/sdd [SAT], SMART >>>> Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 119 to >>> >>> (...) >>> >>> Esos mensajes son normales siempre y cuando se mantengan en márgenes >>> razonables y el smartcl te diga PASSED. Fíjate que se dan en los 3 >>> discos duros no sólo en el que parece más tocado (/dev/sdd). >> >> Cierto. >> >>> >>>> En DMESG: >>>> >>>> >>>> [77815.914218] end_request: I/O error, dev sdd, sector 1953870271 >>>> [77822.606004] res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 >>>> (media error) >>>> [77822.611209] ata6.00: error: { UNC } >>>> [77828.413854] res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 >>>> (media error) >>>> [77828.419051] ata6.00: error: { UNC } >>>> [77831.347706] res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 >>>> (media error) >>>> [77831.352926] ata6.00: error: { UNC } >>>> [77834.256321] res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 >>>> (media error) >>>> [77834.261514] ata6.00: error: { UNC } >>>> [77840.498960] res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 >>>> (media error) >>>> [77840.504127] ata6.00: error: { UNC } >>>> [77843.390278] res 51/40:00:ff:b1:75/00:00:74:00:00/00 Emask 0x9 >>>> (media error) >>>> [77843.395449] ata6.00: error: { UNC } >>>> [77843.448049] sd 5:0:0:0: [sdd] Add. Sense: Unrecovered read error - >>>> auto reallocate failed >>>> [77843.448063] end_request: I/O error, dev sdd, sector 1953870335 >>>> [77850.104482] md/raid:md0: read error corrected (8 sectors at 1953870016 >>>> on sdd1) >>>> [77850.120659] md/raid:md0: read error corrected (8 sectors at 1953870080 >>>> on sdd1) >>>> [77850.120914] md/raid:md0: read error corrected (8 sectors at 1953870144 >>>> on sdd1) >>>> [77853.154374] md/raid:md0: read error corrected (8 sectors at 1953870208 >>>> on sdd1) >>>> [77856.217365] md/raid:md0: read error corrected (8 sectors at 1953870272 >>>> on sdd1) >>> >>> Vale, usas mdraid y lo que te dice ahí es que ha encontrado sectores >>> defectuosos en la partición /dev/sdd1 y los ha corregido. Hasta ahí >>> todo normal. >>> >>>> El caso es que el raid5 lleva reconstruyéndose desde ayer, va lentísimo >>>> y me huele que pudiera ser algo de disco duro... >>>> >>>> md0 : active raid5 sdb1[0] sdd1[3] sdc1[4] >>>> 3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] >>>> [UUU] >>>> [===================>.] check = 97.5% (1905813196/1953510400) >>>> finish=69826.9min speed=11K/sec >>> >>> Deja que termine la reconstrucción pero cuando lo haga pasa el smartctl >>> (test largo) al disco /dev/sdd y en base a los resultados actúas. >>> >>>> Aunque en esta guía hablan de recolocar los sectores defectuosos...Qué >>>> me aconsejáis hacer, además de un backup, por supuesto? >>>> >>>> >>>> http://www.sj-vs.net/forcing-a-hard-disk-to-reallocate-bad-sectors/ >>> >>> Los discos duros modernos llevan en su firmware la lógica necesaria para >>> marcar automáticamente como defectuosos los sectores con errores y eso >>> es lo que te dice el registro. Pero todo tiene un límite, y si esos >>> sectores van en aumento y el raid 5 se cae cada poco tiempo puede indicar >>> que el disco está a punto de morir. Para asegurarte pasa la utilidad de >>> SAMRT del propio fabricante, te diré en qué estado se encuentra el disco. >> >> Gracias, eso es lo que voy hacer. Tampoco quiero dejar al servidor con >> un raid5 degradado pero muchas veces merece la pena parar y ver qué es >> lo que pasa. >> >> Le he pasado un test largo con smartctl, comento resultados. >> >>> >>> Saludos, >> Gracias. >>> >>> -- >>> Camaleón >>> >>> >>> -- >>> To UNSUBSCRIBE, email to debian-user-spanish-requ...@lists.debian.org >>> with a subject of "unsubscribe". Trouble? Contact >>> listmas...@lists.debian.org >>> Archive: https://lists.debian.org/pan.2015.02.03.14.52...@gmail.com >>> > > Este es el resultado de un test largo con smartctl: > > smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build) > Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net > > === START OF READ SMART DATA SECTION === > SMART overall-health self-assessment test result: PASSED > Please note the following marginal Attributes: > ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE > UPDATED WHEN_FAILED RAW_VALUE > 184 End-to-End_Error 0x0032 086 086 099 Old_age > Always FAILING_NOW 14 > > Por lo pronto lo voy a cambiar por otro disco, reconstruyo el raid y > como es un seagate, le pasaré el seatools aconsejado por Camaleón. > > Saludos.
He cambiado el disco duro, he añadido otro que también me ha reconocido con la misma nomenclatura /dev/sdd. Le he puesto el mismo particionado que otro disco duro del raid, con sfdisk sfdisk -d /dev/sdb | sfdisk --force /dev/sdd root@server:~# fdisk -l /dev/sdd Disk /dev/sdd: 2000.4 GB, 2000398934016 bytes 255 heads, 63 sectors/track, 243201 cylinders, total 3907029168 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 4096 bytes I/O size (minimum/optimal): 4096 bytes / 4096 bytes Disk identifier: 0x00000000 Device Boot Start End Blocks Id System /dev/sdd1 63 3907024064 1953512001 fd Linux raid autodetect Partition 1 does not start on physical sector boundary. Pero veo que la sincronización del raid va muy lenta... md0 : active raid5 sdd1[3] sdb1[0] sdc1[4] 3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_] [>....................] recovery = 0.0% (80696/1953510400) finish=2939188.2min speed=10K/sec unused devices: <none> root@owncloud-mo2o:~# cat /proc/mdstat Personalities : [raid6] [raid5] [raid4] md0 : active raid5 sdd1[3] sdb1[0] sdc1[4] 3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_] [>....................] recovery = 0.0% (163328/1953510400) finish=16661.0min speed=1953K/sec unused devices: <none> root@owncloud-mo2o:~# cat /proc/mdstat Personalities : [raid6] [raid5] [raid4] md0 : active raid5 sdd1[3] sdb1[0] sdc1[4] 3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_] [>....................] recovery = 0.0% (163328/1953510400) finish=12941.4min speed=2515K/sec unused devices: <none> root@owncloud-mo2o:~# cat /proc/mdstat Personalities : [raid6] [raid5] [raid4] md0 : active raid5 sdd1[3] sdb1[0] sdc1[4] 3907020800 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_] [>....................] recovery = 0.0% (163328/1953510400) finish=17080.0min speed=1905K/sec No sé si será normal o puede que esté otro disco duro tocado...En principio solo era el /dev/sdd -- To UNSUBSCRIBE, email to debian-user-spanish-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org Archive: https://lists.debian.org/CAJ2aOA_iX_UKdUwGr6dt=dphpwnf4umcdjmtidu9ncend-x...@mail.gmail.com