Buenos dias, me parece realmente murió el disco duro SAS o esta cuasi al morir completo y sin posibilidades de recuperarse , no obstante envío este email con copia a la lista GUTL a ver si alguien tiene idea de como proceder mas allá de claro cambiarlo por otro disco SAS de 1 TB, que debe ser un proceso automático en esa controladora RAID PERC pues imagino ya el propio PERC l oha puesto o declarado OFFLINE asi que supongo sería saca ymete simplemente y esperar a que termine el Rebuild.
La herramienta o paquete Linux smartctl , parte del paquete Smart Monitoring Tools o smartmontools, primero n oquiso o no pudo leer el disco o accederlo y minutos después si logró accederlo u open pero reporta que ese disco no es compatible con SMART lo cual no ess cierto e indica que falla al leerlo o accederlo parece. Eso sucedió despues de yo via el web gui del iDRAC le hiciera un comando BLINK para que parpaderan los discos e identificarlo mejor o sin confusión.
Una auditoría del SYSLOG en /var/log/syslog reporta o muestra que Realmente si hubo un apagón mañanero de apenas casi 2 segundos a las 7:15 AM que fué reportada a este servidor acuario por el segundo BackUPS (de solo 650 VA o 330 W creo) que es al que esta alimentadonse el nuevo servidor R430 llamado selva. Pero realmente el batacazo que reportó SMARTD que es el DAEMON de Smart Monitoring Tools fué 10 minutos después a las 7:25 asi que parece realmente el apagón no fué el culpable puesto que el UPS de 1500 VA o 900W si transfirió las baterías rápidamente y com osolo duró 2 segundos el transfer realmente por eso nada se apagó (eso lo puedo ver en los emails automáticos que recibo que me envian los 2 UPS que son monitoreados via cables USB por los servidores nest y acuario respectivamente , es decir porel software o paquete apscupsd o mas especificamente por el DAEMON llamado apcupsd.
Realmente el disco SAS de 1 TB y 6 Gbps y 7200 rpm que ha fallado fué fabricado en 2015 pero ahora no recuerdo cuantas horas de power o uso tenía , juraría posiblemente unas 50 000, el disco "hermano" digamos que los compré juntos el otro dia , de uso obviamente , reporta 67000 horas de uso o powered on y fué fabricado en 2012 por ende tal parece estaba ya próximo a su muerte segura imagino.
No obstante quizás haya alguna solución?, que n osea obviamente LLEVARLO A UN TALLER HERMÉTICO de los que abren el disco por dentro !!! pues eso es carísimo además de que como l ocompre el otro dia realmente puedo cambiarlo por otro sin problemas pero por curiosidad me pregunto si alguien tendrá idea que se puede hacer en estos casos a base de digamos comandoss linux o software por ejemplo?
Creo que no he dicho que ese disco SAS es el tercer disco de un RAID5 y por ende es el disco de paridad parece, y realmente este server acuario lo que tenia era 2 discos SAS de 1 TB en modo RAID1 con esa misma controladora RAID PERC H730 solo que se metió casi 12 horas para migrar o connvertir de el RAID1 con 2 discos al actual RAID5 con 3 discos de 1 TB por ende solo 2 TB usables. Por ende tampoco quiero sacarl ode esa bahia y poenrlo en otro server a ver que pasa pues lo van a reconocer o reportar como Foreign RAID seguramente y como yo no sé si empiezo atrastearlo mucho en otro lado capaz que sea peor la cosa jejejeje
No obstante los detalles de todo estan mas abajo en el mensaje original Cheers y agradeceré cualquier ayuda o comentario. Feliz domingo ! JJ On 9/29/2024 8:21 AM, Juan J. Fdez (juanjfdez) wrote:
Nota: OMG !!! ahora si me da algo compay !!! Que mala suerte tengo yo ... y como ha sucedido esto ! . Acaba de pestañar la luz mientras terminaba este extenso email (en las 2 últimas habitaciones de esta casa ultimamente al amanecer del domingo o sabado precisamente despeus e las 7 am (sospecho el que vive abajo quizás usa equipos de alto consumo conectados a este mismo circuito y los enciende el domingo al amanecer?) se va la luz por pocos milisegundos o pestañea (yo si sentí al UPS click el relay) y compay ahora el salao acuario el nuevo disco SAS 1 TB que le agregué y que precisamente esta trova explica que en la madrugada acabó de ser agregado y reconfigurado como RAID5 ahora el salao acuario en su LCD Frontal esta reportando Faulted Drive on slot 2 !!!!. Según el email automático que me acaba de enviar a mi protonmail el propio sistema PVE Root el lio es que SMARTctl o digamos el daemon smartd esta reportando que no pudo leer o que falló al leer los datos SMART de ese disco duro SAS de 1 TB dentro del RAID5. El propio Server acuario los está reportando localmente como Faulted asi que evidentemente ese nuevo RAID5 HA NACIDO CON UNA MALFORMACIÓN CONGÉNITA !!! JEJEJE y hay que reportarlo como UN NACIDO VIVO MAS que lamentablemente me parece va a fallecer en las próximas horas no como hace Cuba que te esconde la bola y reporta a ese bebé como nacido muerto para que no le afecte la tasa famosa aquella que ya llevan años que cubadebate no le da bombo y platillo pues ya no es de 5 o 6 tipo Japón y países industrialisados. Si el problema persiste en 24 horas dice SMARTCTL en su email que me notificará nuevamente . ESe tercer disco o Slot 2 pues empiezan siempre en 0 , es realmente uno de los SAS 1 TB que compré el otro dia pero se veía son discos viejos del 2015 aunque yo tenia esperanza com orteportaban pocas horas trabajadas relativamente que aguantaría mucho mas digamos unso 3 años pero tal parece ahora si se fué del aire o se irá del aire pronto. Ese disco es quien contiene la data de paridad del RAID5 asi que si falla otro de los 2 que originalmente tenía acuario si se jode todo el sistema PVE de ese servidor acuario con las 4 máquinas virtuales que posee pues no tengo ni voy a hacr backup alguno porque soy porfiado ! jejeje. Por supuesto ya el controlador PERC H730 sin P en acuario y cave automáticamente pone a ese disco como OFFLINE y ya no escribe mas nada ahi hasta que yo lo cambie o via el iDRAC sin tener que reboot para ir al PERC BIOS yo logre resolver ese problema. Recuerdo en el SMART Report habia solo 3 categorias con el flag P habilitado o sea PRE-Failure indicando ya eran valores cercanos a cuando un disco duro físico falla o va a fallar y realmente estos discos de uso como ya llevan años funcionando siempre tienen 2 o 3 categorias cone sas banderas P habilitadas pero hasta ahora yo no habia sufrido falla alguna , especialmente con los viejos SATA iniciales que he estado usando por años. Lo que mas me jode es que realmente la luz solo pestañeó y realmente la UPS de 900 W o 1500 VA esta vez no se apagó ni se apagó nada ni nada reboot ni nada asi que imagino que quizás como coincidentemente en ese mismo momento no pudo leer algo por eso reporta eso como faulted (Hmmm ... y entonces el salao BBU o Battery Backup Unit n ohizo su función??) pero imagino si yo voy mas tarde al PERC BIOS a ese disco duro especificamente y le doy CLEAR imagin oeso pueda clear o limpiar ese evento de la lista de fallas y el disco en si poder ser puesto ONLINE de nuevo en el RAID5 y que todo siga funcionando como antes (claro el PERC tendria que volver a hacer un Rebuilding en este caso pues lo de cambiar de RAID1 a RAID5 es Recosntructing pero esta vez lo dejare en 30% Task Rate y que se more 3 dias si quiere compay !). Realmente no creo en las próximas horas vuelva a fallar la luz, solo suele hacerlo al amanecer a eso de las 7 am el domingo o finde asi que no voy a cojer lucha y voy a arriesgarme sin backup y miraré los syslogs y arreglaré eso mas tarde con tiempo.Buenos dias, al fin terminó esta madrugada a las 2:13 min de la madrugada el proceso de Background Initialization del nuevo servidor Dell PowerEDGE R430 al cual le llamo selva y que se unirá al cluster PVE o Datacenter llamado nature al cual pertenecen el viejo R610 nest y los mas modernos también R430 llamados acuario y cave. Vean el email que automáticamente me envía el sistema iDRAC o integrated Dell Remote Access Controller a mi email protonmail cada vez que hay un evento disparado ene lsiema , desde quitar un cable de red LAN o sacar un disco o lo que sea.Luego de 28 horas !!! finalmente la controladora PERC H730P mini monolithic hizo el trabajo de crear el Disco Virtual 0 de tipo RAID 5 con 3 discos SAS 6 Gbps de 7200 rpm de 1 TB de capacidad y realmente al inicio estaba super lento ese proceso y tuve que acelerarlo cambiando el parámetro TASK RATE dentro del PERC BIOS (Apretar F2 en el arranca para System Setup y escojer Device Settings y después RAID) de los valores por defecto de solo 30% al 90% !!! y por supuesto decidí dejarlo en esa pantalla del BIOS sin arrancar el ya recien instalado Proxmox PVE para que la pobre controladora PERC pudiera usar el 90% de lso recursos fisicos de el servidor lease CPU, RAM y demás. Durante el proceso de crear el Virtual Disk o arreglo RAID5 yo "de vivo" jejeje escojí la opción FAST Initialization pensando me ahorraría tiempo .... pero no !!!. Si es cojes Fast o la opción de NO Initialization realmente dice DELL en su documentación que de todas formas para poder pasar de RAID1 o de discos nuevos a crear un RAID5 el sistema obligado entonces tiene que hacer un BGI o Background Initialization. El otro lio es que una vez que el BGI comienza realmente aunque cambies el TASK RATE a 90% el no usa ese valor peus tienes que reboot y comenzar un BGI nuevo para que lo haga con el digamos 90% de lso recursos y se acelere. Por cierto BGI y la Fast o Full Initializacion no son lo mismo , son proecsos distintos donde BGI el sysadmin no tiene mucho control sobre ese proecso y eso lo hace la controladora PERC automáticamente. El otro lio es que estos de DELL muchos de lso parametros de configuracion incluido ese TASK RATE lo tienen enterrado en el criptico menu del PERC BIOS y por eso inicialmente yo no habia visto nada de eso. Creo esta dentro de Controller configuration dentro de Advanced Settings o algo asi y despues escojer la opción o submenu Task Rate. Pero si, el PERC H730P es un caballo de atila que si hace muchisimas cosas y si permite desde expandir la capacidad de un RAIDx ya creado hasta migrarlo o convertirlo de digamos RAID1 mirror a RAID5 parity como le dije a acuario que hiciera y después de muchas horas tambien lo hizo aunque en el caso de acuario si empezó desde el inicio con RASK Rate 90% y con el PVE proxmox offline o apagado o sea en la pantalla del BIOS. Por ende ya acuario y selva tienen un sistema RAID5 de 3 discos de 1 TB por ende son solo 2 TB usables pues 1 disco de 1 TB es el disco de parity bit que usa el sistema RAID 5 , lo cual implica que de los 3 discos tendrian que simultaneamente fallar 2 para que ese sistema Proxmox deje de funcionar. El viejo nest le agregué 2 discos SATA que eran del cave y ahora es un RAID 1 mirror de 2 pares de mirror o sea 4 discos por ende 2 TB totales , ese RAID controller de nest es el SAS 6 /iR que es por hardware pero n otiene BBU o battery backup por ende yo realmente lo tengo en modo sato HBA que deje pasar todo al host sin hacer RAID y en el host PVE lo instalé como un ZFS de tipo RAID1 originalmente con 2 discos. El otro dia le agregué los 2 discos SATA 1 TB con simples comandos zpool pero aun queda convertirlo de ZFS RAID1 a ZFS RAIDZ1 que es el equivalente al RAID5 de una controladora RAID por hardware. ZFS es una solución por software pero realmente bien potente !!, solo que por ejemplo en este caso migrar de RAID1 a RAID 5 no se puede hacer en ZFS y hay que hacer backups y destruir el ZFS y hacerlo nuevo y restaurar backups in embargo con el uso de una controladora RAID por hardware ya vieron si se puede hacer sin necesidad de backups solo que demoró casi 1 dia !! jejeje pero acuario finalmente lo hizo y funciona perfecto. Por ese motivo dado que acuario y selva estaban offline para dedicarles 90% de recursos al PERC RAID Controller yo no quería poner a full a cave ni a nest y por eso he estado solo usando 3 streams o encoders (JSN1 (Debian 12) y WBN3 (NOVA) en cave y WBN4 (Ubuntu 24) en nest) para los juegos de pelota y las clases BBB han estado offline hasta ahorita. Ya hoy si todo el istema finalmente ergreesa a la normalidad ... al fin !!!! Lo otro que finalmente habilité o arreglé y ya funciona perfecto es la CONSOLA VIRTUAL viacada iDRAC de cada servidor que ya no necesito tener ni un monitor en el rack y pues remotamente via internet operar todo com osi estuviera literalmente tecleando en e lteclado del rack y mirando directamente en el monitor instalado en el rack , o sea ahora si puedo pasarlo a headleass pues ya inclsuo el arranque del BIOS puedo verlo y controlarlo remotamente !!!! he incluso via el navegador EDGE !!! pues realmente en chrome y Firefox si funcionaba. El truco es habilitar el modo de compatibilidad IE en EDGE en los settings y eso lo vi anoche en un video youtube muy bien explicado. En el nuevo selva tengo pensado habilitar 2 VM con Windows 11 Enterprise Evaluation instalado y usar el truco de Brian mostrado aqui en esta milagrosa lista cubacel que da sus frutos 8 años después ! para extender las licencias de evaluación cada 6 meses por 3 años. Y quiero usar windows pues ya estoy super cansado de ver a los supuestos ligeros linuxeros Debian y Ubuntu realmente atorarse con el OBS Encoder y realmente usar similarmente a Windows grandes cantidades de CPU y memoria !!! . De hecho los 2 encoders Windows , uno Server 2022 y otro Win 11 Pro , incluso usan mucho menos CPU y el FPS o Frame Linux es verdad es gratis y open source y todo eso pero compay a vecez se pasa mucho lio para hacer algunas cosas y despeus dejan que desear !!!. De hecho el cubano NOVA ese OBS Studio se lo traga y opera espectacularmente !!! y mi única queja hasta ahora es que su Mozill Firefox es viejisimo la version 119 y por ende no compatible con el servicio de streaming de TSN por ejemplo. Voy a usar windows 11 Enterprise en ambas (Enterprise es la única version Win 10/11 que Microsoft ofrece gratis de Evaluación) por el lío de los drivers de la tarjeta gráfica AMD RADEO Pro WX 2100 que cada uno de los 3 servidores R430 tiene instalado que n oquieren instalarse en versiones de Windows Server. Espero ener listo esas 2 nuevas VM llamadas TSN2 y JSN2 hoy domingo en la noche con PCIe Passthough a full incluido para pasarle las GPU directo a las 2 VM en ese nuevo proxmox PVE llamado selva. Por cierto me ha sorprendido ayer realmente todo hubiera funcionado pues al parecer hace 14 dias en el primer sabado que durante la transmision del MotoGP se fué la luz de pronto y el backups se apagó de pronto y apagó todo, tal parece el fichero de zona o zone file del server DNS primario BIND9 en el servidor NEST se ha perdido o fumado !!!! pues no existe ya !!! sin embargo a pesar acuario y cave que son servidores DNS slave o secundarios ha n estado apagdos o reboot varias vaces en los ultimos 14 dias aún asi por alguna razón la cache DNS de ellos sigue funcionando y sigue conteniendo parece la data de mi dominio interno aqui en mi LAN o sea los IP locales puesto que ayer todo el dia solo CAVE estuvo online y aun asi yo podia trabajar todo usando FQDN o nombres de dominio en vez de requerir usar direcciones IP locales en los navegadores y apps Remote dESktop por ejemplo. En fin , por suerte tampoco todo esta perdido puesto que ahi mismo en NEST esta un fichero de zona DNS viejo terminado en .old uqe yo habia dejado de reserva de hace 1 año atyras que contiene casi todos los records de mi DNS domain local por ende el trabaj ode agregarle los nuevos records del ultimo año tampoco es demasiado por suerte pero si me llama la atención que tal parece el paquete o sistema BIND9 DNS tal parece guarda la cache DNS y el fichero de zona en disco en algun lugar en los sevidors slave parece !!! porque sino como es posible que funcionen los nombres de dominio locales pues para colmo hasta el Router y el Switch CISCO han reboot en estos 14 dias. Hay comandos rndc en BIND y otros que permiten restaurar de la cache y crear un fichero de zona pero aun no he intentado hacer eso , n oobstante editar ese fichero de zona terminado en .old de hace 1 año atyras no debe ser mucho trabajo tampoco y posiblemente yo haga eso en estos dias para poder restaurar a full 100% la funcionalidad de los servidores DNS internos en mi casa, nest como MASTER o primario y acuario y cave como SLAVE o secundarios. Pero antes hay que desayunar compay ! que anoche Migel Vargas en 3B y el habanero Brian Ramos como designado en la victoria de los White sox en MLB se fuen en blanco en 4 y 3 turnos ! y Yoan Moncada que ira al premier y Luis Robert Jr que fué con cuba al pasado WBC no jugaron tampoco ayer. Por su parte el matancero Ariel Mnez con los NipponHam Fighters en la NPB hoy, hace unas horas, nuevamente de 1B como siempre y de 7mo bate se fué de 3-0 con 1 ponche y fué sustituido en el 8vo inning por un bateador emergente. Cheers JJ Sent with Proton Mail secure email. ------- Forwarded Message ------- From: se...@drac.abroadtelecom.net <se...@drac.abroadtelecom.net> Date: On Sunday, September 29th, 2024 at 2:13 AM Subject: selva: Background initialization has completed for Virtual Disk 0 on Integrated RAID Controller 1. To: juanjf...@protonmail.com <juanjf...@protonmail.com>System Host Name: localhost Event Message: Background initialization has completed for Virtual Disk 0 on Integrated RAID Controller 1. Date/Time: Sun, 29 Sep 2024 06:13:37 -0500 Severity: Informational Detailed Description: Background initialization of a virtual disk completed. Recommended Action: No response action is required. Message ID: VDR35 System Model: PowerEdge R430 Service Tag: CP28R52 Power State: ON System Location: Datacenter JJ's Home, Aisle Last Room, Rack Only One Kenobi, Slot 13 (1 U) To launch the iDRAC Web Interface, click here: https://192.168.9.140 To launch the iDRAC Virtual Console, click here: https://192.168.9.140/console
smime.p7s
Description: S/MIME Cryptographic Signature
_______________________________________________ Gutl-l mailing list -- gutl-l@listas.jovenclub.cu To unsubscribe send an email to gutl-l-le...@listas.jovenclub.cu