[Gutl-l] Re: [cubacel] selva: Background initialization has completed for Virtual Disk 0 on Integrated RAID Controller 1.

Juan J. Fernandez Sun, 29 Sep 2024 08:35:48 -0700

Nota: Dado que ahora el RAID5 de acuario ha perdido su Redundancia ahora si estaré ariesgo total pues no tengo Backups ninguno , asi que si falla otro disco entonces si se pierde ese PVE acuario completo con sus 4 máquinas virtuales (SN360, TSN, BBB y TSN2), pero no importa ... lo rehago todo de nuevo y asi aprendo mas y me entretengo jejejeje

Buenos dias, me parece realmente murió el disco duro SAS o esta cuasi al morir completo y sin posibilidades de recuperarse , no obstante envío este email con copia a la lista GUTL a ver si alguien tiene idea de como proceder mas allá de claro cambiarlo por otro disco SAS de 1 TB, que debe ser un proceso automático en esa controladora RAID PERC pues imagino ya el propio PERC l oha puesto o declarado OFFLINE asi que supongo sería saca ymete simplemente y esperar a que termine el Rebuild.

La herramienta o paquete Linux smartctl , parte del paquete Smart Monitoring Tools o smartmontools, primero n oquiso o no pudo leer el disco o accederlo y minutos después si logró accederlo u open pero reporta que ese disco no es compatible con SMART lo cual no ess cierto e indica que falla al leerlo o accederlo parece. Eso sucedió despues de yo via el web gui del iDRAC le hiciera un comando BLINK para que parpaderan los discos e identificarlo mejor o sin confusión.

Una auditoría del SYSLOG en /var/log/syslog reporta o muestra que Realmente si hubo un apagón mañanero de apenas casi 2 segundos a las 7:15 AM que fué reportada a este servidor acuario por el segundo BackUPS (de solo 650 VA o 330 W creo) que es al que esta alimentadonse el nuevo servidor R430 llamado selva. Pero realmente el batacazo que reportó SMARTD que es el DAEMON de Smart Monitoring Tools fué 10 minutos después a las 7:25 asi que parece realmente el apagón no fué el culpable puesto que el UPS de 1500 VA o 900W si transfirió las baterías rápidamente y com osolo duró 2 segundos el transfer realmente por eso nada se apagó (eso lo puedo ver en los emails automáticos que recibo que me envian los 2 UPS que son monitoreados via cables USB por los servidores nest y acuario respectivamente , es decir porel software o paquete apscupsd o mas especificamente por el DAEMON llamado apcupsd.

Realmente el disco SAS de 1 TB y 6 Gbps y 7200 rpm que ha fallado fué fabricado en 2015 pero ahora no recuerdo cuantas horas de power o uso tenía , juraría posiblemente unas 50 000, el disco "hermano" digamos que los compré juntos el otro dia , de uso obviamente , reporta 67000 horas de uso o powered on y fué fabricado en 2012 por ende tal parece estaba ya próximo a su muerte segura imagino.

No obstante quizás haya alguna solución?, que n osea obviamente LLEVARLO A UN TALLER HERMÉTICO de los que abren el disco por dentro !!! pues eso es carísimo además de que como l ocompre el otro dia realmente puedo cambiarlo por otro sin problemas pero por curiosidad me pregunto si alguien tendrá idea que se puede hacer en estos casos a base de digamos comandoss linux o software por ejemplo?

Creo que no he dicho que ese disco SAS es el tercer disco de un RAID5 y por ende es el disco de paridad parece, y realmente este server acuario lo que tenia era 2 discos SAS de 1 TB en modo RAID1 con esa misma controladora RAID PERC H730 solo que se metió casi 12 horas para migrar o connvertir de el RAID1 con 2 discos al actual RAID5 con 3 discos de 1 TB por ende solo 2 TB usables. Por ende tampoco quiero sacarl ode esa bahia y poenrlo en otro server a ver que pasa pues lo van a reconocer o reportar como Foreign RAID seguramente y como yo no sé si empiezo atrastearlo mucho en otro lado capaz que sea peor la cosa jejejeje


No obstante los detalles de todo estan mas abajo en el mensaje original

Cheers y agradeceré cualquier ayuda o comentario. Feliz domingo !
JJ


On 9/29/2024 8:21 AM, Juan J. Fdez (juanjfdez) wrote:

Nota: OMG !!! ahora si me da algo compay !!! Que mala suerte tengo yo ... y 
como ha sucedido esto ! . Acaba de pestañar la luz mientras terminaba este 
extenso email (en las 2 últimas habitaciones de esta casa ultimamente al 
amanecer del domingo o sabado precisamente despeus e las 7 am (sospecho el que 
vive abajo quizás usa equipos de alto consumo conectados a este mismo circuito 
y los enciende el domingo al amanecer?) se va la luz por pocos milisegundos o 
pestañea (yo si sentí al UPS click el relay) y compay ahora el salao acuario el 
nuevo disco SAS 1 TB que le agregué y que precisamente esta trova explica que 
en la madrugada acabó de ser agregado y reconfigurado como RAID5 ahora el salao 
acuario en su LCD Frontal esta reportando Faulted Drive on slot 2 !!!!. Según 
el email automático que me acaba de enviar a mi protonmail el propio sistema 
PVE Root el lio es que SMARTctl o digamos el daemon smartd esta reportando que 
no pudo leer o que falló al leer los datos SMART de ese disco duro SAS de 1 TB 
dentro del RAID5. El propio Server acuario los está reportando localmente como 
Faulted asi que evidentemente ese nuevo RAID5 HA NACIDO CON UNA MALFORMACIÓN 
CONGÉNITA !!! JEJEJE y hay que reportarlo como UN NACIDO VIVO MAS que 
lamentablemente me parece va a fallecer en las próximas horas no como hace Cuba 
que te esconde la bola y reporta a ese bebé como nacido muerto para que no le 
afecte la tasa famosa aquella que ya llevan años que cubadebate no le da bombo 
y platillo pues ya no es de 5 o 6 tipo Japón y países industrialisados. Si el 
problema persiste en 24 horas dice SMARTCTL en su email que me notificará 
nuevamente . ESe tercer disco o Slot 2 pues empiezan siempre en 0 , es 
realmente uno de los SAS 1 TB que compré el otro dia pero se veía son discos 
viejos del 2015 aunque yo tenia esperanza com orteportaban pocas horas 
trabajadas relativamente que aguantaría mucho mas digamos unso 3 años pero tal 
parece ahora si se fué del aire o se irá del aire pronto. Ese disco es quien 
contiene la data de paridad del RAID5 asi que si falla otro de los 2 que 
originalmente tenía acuario si se jode todo el sistema PVE de ese servidor 
acuario con las 4 máquinas virtuales que posee pues no tengo ni voy a hacr 
backup alguno porque soy porfiado ! jejeje. Por supuesto ya el controlador PERC 
H730 sin P en acuario y cave automáticamente pone a ese disco como OFFLINE y ya 
no escribe mas nada ahi hasta que yo lo cambie o via el iDRAC sin tener que 
reboot para ir al PERC BIOS yo logre resolver ese problema. Recuerdo en el 
SMART Report habia solo 3 categorias con el flag P habilitado o sea PRE-Failure 
indicando ya eran valores cercanos a cuando un disco duro físico falla o va a 
fallar y realmente estos discos de uso como ya llevan años funcionando siempre 
tienen 2 o 3 categorias cone sas banderas P habilitadas pero hasta ahora yo no 
habia sufrido falla alguna , especialmente con los viejos SATA iniciales que he 
estado usando por años. Lo que mas me jode es que realmente la luz solo 
pestañeó y realmente la UPS de 900 W o 1500 VA esta vez no se apagó ni se apagó 
nada ni nada reboot ni nada asi que imagino que quizás como coincidentemente en 
ese mismo momento no pudo leer algo por eso reporta eso como faulted (Hmmm ... 
y entonces el salao BBU o Battery Backup Unit n ohizo su función??) pero 
imagino si yo voy mas tarde al PERC BIOS a ese disco duro especificamente y le 
doy CLEAR imagin oeso pueda clear o limpiar ese evento de la lista de fallas  y 
el disco en si poder ser puesto ONLINE de nuevo en el RAID5 y que todo siga 
funcionando como antes (claro el PERC tendria que volver a hacer un Rebuilding 
en este caso pues lo de cambiar de RAID1 a RAID5 es Recosntructing pero esta 
vez lo dejare en 30% Task Rate y que se more 3 dias si quiere compay !). 
Realmente no creo en las próximas horas vuelva a fallar la luz, solo suele 
hacerlo al amanecer a eso de las 7 am el domingo o finde asi que no voy a cojer 
lucha y voy a arriesgarme sin backup y miraré los syslogs y arreglaré eso mas 
tarde con tiempo.

Buenos dias, al fin terminó esta madrugada a las 2:13 min de la madrugada el proceso de Background Initialization del nuevo servidor Dell PowerEDGE R430 al cual le llamo selva y que se unirá al cluster PVE o Datacenter llamado nature al cual pertenecen el viejo R610 nest y los mas modernos también R430 llamados acuario y cave. Vean el email que automáticamente me envía el sistema iDRAC o integrated Dell Remote Access Controller a mi email protonmail cada vez que hay un evento disparado ene lsiema , desde quitar un cable de red LAN o sacar un disco o lo que sea.


Luego de 28 horas !!! finalmente la controladora PERC H730P mini monolithic 
hizo el trabajo de crear el Disco Virtual 0 de tipo RAID 5 con 3 discos SAS 6 
Gbps de 7200 rpm de 1 TB de capacidad y realmente al inicio estaba super lento 
ese proceso y tuve que acelerarlo cambiando el parámetro TASK RATE dentro del 
PERC BIOS (Apretar F2 en el arranca para System Setup y escojer Device Settings 
y después RAID) de los valores por defecto de solo 30% al 90% !!! y por 
supuesto decidí dejarlo en esa pantalla del BIOS sin arrancar el ya recien 
instalado Proxmox PVE para que la pobre controladora PERC pudiera usar el 90% 
de lso recursos fisicos de el servidor lease CPU, RAM y demás.

Durante el proceso de crear el Virtual Disk o arreglo RAID5 yo "de vivo" jejeje 
escojí la opción FAST Initialization pensando me ahorraría tiempo .... pero no !!!. Si es 
cojes Fast o la opción de NO Initialization realmente dice DELL en su documentación que 
de todas formas para poder pasar de RAID1 o de discos nuevos a crear un RAID5 el sistema 
obligado entonces tiene que hacer un BGI o Background Initialization. El otro lio es que 
una vez que el BGI comienza realmente aunque cambies el TASK RATE a 90% el no usa ese 
valor peus tienes que reboot y comenzar un BGI nuevo para que lo haga con el digamos 90% 
de lso recursos y se acelere.

Por cierto BGI y la Fast o Full Initializacion no son lo mismo , son proecsos 
distintos donde BGI el sysadmin no tiene mucho control sobre ese proecso y eso 
lo hace la controladora PERC automáticamente. El otro lio es que estos de DELL 
muchos de lso parametros de configuracion incluido ese TASK RATE lo tienen 
enterrado en el criptico menu del PERC BIOS y por eso inicialmente yo no habia 
visto nada de eso. Creo esta dentro de Controller configuration dentro de 
Advanced Settings o algo asi y despues escojer la opción o submenu Task Rate.

Pero si, el PERC H730P es un caballo de atila que si hace muchisimas cosas y si 
permite desde expandir la capacidad de un RAIDx ya creado hasta migrarlo o 
convertirlo de digamos RAID1 mirror a RAID5 parity como le dije a acuario que 
hiciera y después de muchas horas tambien lo hizo aunque en el caso de acuario 
si empezó desde el inicio con RASK Rate 90% y con el PVE proxmox offline o 
apagado o sea en la pantalla del BIOS.

Por ende ya acuario y selva tienen un sistema RAID5 de 3 discos de 1 TB por 
ende son solo 2 TB usables pues 1 disco de 1 TB es el disco de parity bit que 
usa el sistema RAID 5 , lo cual implica que de los 3 discos tendrian que 
simultaneamente fallar 2 para que ese sistema Proxmox deje de funcionar. El 
viejo nest le agregué 2 discos SATA que eran del cave y ahora es un RAID 1 
mirror de 2 pares de mirror o sea 4 discos por ende 2 TB totales , ese RAID 
controller de nest es el SAS 6 /iR que es por hardware pero n otiene BBU o 
battery backup por ende yo realmente lo tengo en modo sato HBA que deje pasar 
todo al host sin hacer RAID y en el host PVE lo instalé como un ZFS de tipo 
RAID1 originalmente con 2 discos. El otro dia le agregué los 2 discos SATA 1 TB 
con simples comandos zpool pero aun queda convertirlo de ZFS RAID1 a ZFS RAIDZ1 
que es el equivalente al RAID5 de una controladora RAID por hardware. ZFS es 
una solución por software pero realmente bien potente !!, solo que por ejemplo 
en este caso migrar de RAID1 a RAID 5 no se puede hacer en ZFS y hay que hacer 
backups y destruir el ZFS y hacerlo nuevo y restaurar backups in embargo con el 
uso de una controladora RAID por hardware ya vieron si se puede hacer sin 
necesidad de backups solo que demoró casi 1 dia !! jejeje pero acuario 
finalmente lo hizo y funciona perfecto.

Por ese motivo dado que acuario y selva estaban offline para dedicarles 90% de 
recursos al PERC RAID Controller yo no quería poner a full a cave ni a nest y 
por eso he estado solo usando 3 streams o encoders (JSN1 (Debian 12) y WBN3 
(NOVA) en cave y WBN4 (Ubuntu 24) en nest) para los juegos de pelota y las 
clases BBB han estado offline hasta ahorita. Ya hoy si todo el istema 
finalmente ergreesa a la normalidad ... al fin !!!!

Lo otro que finalmente habilité o arreglé y ya funciona perfecto es la CONSOLA 
VIRTUAL viacada iDRAC de cada servidor que ya no necesito tener ni un monitor 
en el rack y pues remotamente via internet operar todo com osi estuviera 
literalmente tecleando en e lteclado del rack y mirando directamente en el 
monitor instalado en el rack , o sea ahora si puedo pasarlo a headleass pues ya 
inclsuo el arranque del BIOS puedo verlo y controlarlo remotamente !!!! he 
incluso via el navegador EDGE !!! pues realmente en chrome y Firefox si 
funcionaba. El truco es habilitar el modo de compatibilidad IE en EDGE en los 
settings y eso lo vi anoche en un video youtube muy bien explicado.

En el nuevo selva tengo pensado habilitar 2 VM con Windows 11 Enterprise 
Evaluation instalado y usar el truco de Brian mostrado aqui en esta milagrosa 
lista cubacel que da sus frutos 8 años después ! para extender las licencias de 
evaluación cada 6 meses por 3 años. Y quiero usar windows pues ya estoy super 
cansado de ver a los supuestos ligeros linuxeros Debian y Ubuntu realmente 
atorarse con el OBS Encoder y realmente usar similarmente a Windows grandes 
cantidades de CPU y memoria !!! . De hecho los 2 encoders Windows , uno Server 
2022 y otro Win 11 Pro , incluso usan mucho menos CPU y el FPS o Frame Linux es 
verdad es gratis y open source y todo eso pero compay a vecez se pasa mucho lio 
para hacer algunas cosas y despeus dejan que desear !!!. De hecho el cubano 
NOVA ese OBS Studio se lo traga y opera espectacularmente !!! y mi única queja 
hasta ahora es que su Mozill Firefox es viejisimo la version 119 y por ende no 
compatible con el servicio de streaming de TSN por ejemplo. Voy a usar windows 
11 Enterprise en ambas (Enterprise es la única version Win 10/11 que Microsoft 
ofrece gratis de Evaluación) por el lío de los drivers de la tarjeta gráfica 
AMD RADEO Pro WX 2100 que cada uno de los 3 servidores R430 tiene instalado que 
n oquieren instalarse en versiones de Windows Server. Espero ener listo esas 2 
nuevas VM llamadas TSN2 y JSN2 hoy domingo en la noche con PCIe Passthough a 
full incluido para pasarle las GPU directo a las 2 VM en ese nuevo proxmox PVE 
llamado selva.

Por cierto me ha sorprendido ayer realmente todo hubiera funcionado pues al 
parecer hace 14 dias en el primer sabado que durante la transmision del MotoGP 
se fué la luz de pronto y el backups se apagó de pronto y apagó todo, tal 
parece el fichero de zona o zone file del server DNS primario BIND9 en el 
servidor NEST se ha perdido o fumado !!!! pues no existe ya !!! sin embargo a 
pesar acuario y cave que son servidores DNS slave o secundarios ha n estado 
apagdos o reboot varias vaces en los ultimos 14 dias aún asi por alguna razón 
la cache DNS de ellos sigue funcionando y sigue conteniendo parece la data de 
mi dominio interno aqui en mi LAN o sea los IP locales puesto que ayer todo el 
dia solo CAVE estuvo online y aun asi yo podia trabajar todo usando FQDN o 
nombres de dominio en vez de requerir usar direcciones IP locales en los 
navegadores y apps Remote dESktop por ejemplo. En fin , por suerte tampoco todo 
esta perdido puesto que ahi mismo en NEST esta un fichero de zona DNS viejo 
terminado en .old uqe yo habia dejado de reserva de hace 1 año atyras que 
contiene casi todos los records de mi DNS domain local por ende el trabaj ode 
agregarle los nuevos records del ultimo año tampoco es demasiado por suerte 
pero si me llama la atención que tal parece el paquete o sistema BIND9 DNS tal 
parece guarda la cache DNS y el fichero de zona en disco en algun lugar en los 
sevidors slave parece !!! porque sino como es posible que funcionen los nombres 
de dominio locales pues para colmo hasta el Router y el Switch CISCO han reboot 
en estos 14 dias. Hay comandos rndc en BIND y otros que permiten restaurar de 
la cache y crear un fichero de zona pero aun no he intentado hacer eso , n 
oobstante editar ese fichero de zona terminado en .old de hace 1 año atyras no 
debe ser mucho trabajo tampoco y posiblemente yo haga eso en estos dias para 
poder restaurar a full 100% la funcionalidad de los servidores DNS internos en 
mi casa, nest como MASTER o primario y acuario y cave como SLAVE o secundarios.

Pero antes hay que desayunar compay ! que anoche Migel Vargas en 3B y el 
habanero Brian Ramos como designado en la victoria de los White sox en MLB se 
fuen en blanco en 4 y 3 turnos ! y Yoan Moncada que ira al premier y Luis 
Robert Jr que fué con cuba al pasado WBC no jugaron tampoco ayer. Por su parte 
el matancero Ariel Mnez con los NipponHam Fighters en la NPB hoy, hace unas 
horas, nuevamente de 1B como siempre y de 7mo bate se fué de 3-0 con 1 ponche y 
fué sustituido en el 8vo inning por un bateador emergente.

Cheers
JJ

Sent with Proton Mail secure email.

------- Forwarded Message -------
From: se...@drac.abroadtelecom.net <se...@drac.abroadtelecom.net>
Date: On Sunday, September 29th, 2024 at 2:13 AM
Subject: selva: Background initialization has completed for Virtual Disk 0 on 
Integrated RAID Controller 1.
To: juanjf...@protonmail.com <juanjf...@protonmail.com>

System Host Name: localhost
Event Message: Background initialization has completed for Virtual Disk 0 on 
Integrated RAID Controller 1.
Date/Time: Sun, 29 Sep 2024 06:13:37 -0500
Severity: Informational

Detailed Description: Background initialization of a virtual disk completed.
Recommended Action: No response action is required.
Message ID: VDR35

System Model: PowerEdge R430
Service Tag: CP28R52
Power State: ON
System Location: Datacenter JJ's Home, Aisle Last Room, Rack Only One Kenobi, 
Slot 13 (1 U)

To launch the iDRAC Web Interface, click here: https://192.168.9.140
To launch the iDRAC Virtual Console, click here: https://192.168.9.140/console

smime.p7s
Description: S/MIME Cryptographic Signature

_______________________________________________
Gutl-l mailing list -- gutl-l@listas.jovenclub.cu
To unsubscribe send an email to gutl-l-le...@listas.jovenclub.cu

[Gutl-l] Re: [cubacel] selva: Background initialization has completed for Virtual Disk 0 on Integrated RAID Controller 1.

Responder a