El 02/04/2016 a las 21:46, "Eduardo R. Barrera Pérez" escribió:
Hola colegas, un colega tiene 3 nodos proxmox versión 3.4 en cluster, resulta que producto de un apagón que el backup no pudo aguantar el tiempo necesario para cerrar correctamente todos los KVM y OpenVZ que tenía encima, se corrompio el filesystem, y al iniciar el sistema aparece el clásico mensaje de presional CTROL+D para continuar y poner la contraseña de root y acceder al sistema sin haber cargado completamente, donde nos indica que usemos fsck con las opciones -a o -p para ver si se puede resolver el problema. Este timpo de problemas lo he visto antes en linux y ahí mismo te dice la partición con problemas, ya sea /dev/sdax que sería la partición a la que se le debería pasar el comando fsck, el caso es que se que proxmox usa LVM por lo que no hacía referencia a nada de /sev/sdax pero si a algo como: /dev/mapper/pve-root y /dev/mapper-pve-data le pase el comando badblock primero a /dev/mapper/pve-root el cual demoro en un rato, pero terminó y no dio ningún error, luego le pase fsck, arreglo el filesystem, reinicie el sistema y tampoco levanto, ahora el problema al parecer era /dev/mapper/pve-data así que le pase badblock primero y esta se demoro mucho más tiempo, pero luego de un tiempo comando a salir en patalla errores de tipo I/O error por lo que le dije al socio que al parecer el disco tenía sectores defectuoso y que si el disco físico tenía bateo, en cuanto el servidor recibiera un apagón más volvería a darle problemas, quizás antes. badblock se demoro mucho y lo pare y ejecute fsck a esa partición o volumen lógico, reparó el filesystem y el proxmox inicio bien y arrancó todas las VM sin lio. Mi duda, al ser un volumen lógico puedo ser ciento mis sospechas que el disco físico tenga daños? Creen recomendable remplazar ese HDD por uno nuevo, aunque tenga que volver a instalar el servidor y luego ver si no me da palo a la hora de unirselo nuevamente al cluster de los otros 2 existentes los cuales tienen un grupo de VM ya corriendo?

Me preocupan dos cosas:

1) Que al eliminar ese nodo del cluster, no se elimine correctamente todos los rastros de ese nodo eliminado de todos los lugares donde proxmox meta esa información y que al tener el nuevo nodo instalado y le nombro igual que al viejo, me de palo a la hora de meterlo nuevamente al cluster o bien por tener el mismo nombre o porque los otros dos nodos que están en el cluster no están vacios.

2) Si uso el comando dd para clonar el disco del sistema actual y pasarlo para el HDD nuevo? Los problemas del sistema producto del HDD viejo, los traería al nuevo HDD?

Que me recomiendan?


Saludos...

A mi me pasó casi lo mismo.... se apago pues la bateria no servia, luego tratando de arrancar, la electricidad fallo nuevamente... ahi si no pudo mas y se corrompio un container... al entrar a dicho container me percate que era el file /etc/fstab el cual aparecia en rojito en el mc, roto, corrupto, very very bad jeje, lo que termine haciendo despues de mil marañas sin resultado fue eliminar el CT, meterle reparacion fsck al disco ese y restaure despues una salva que tenia, que por eso es muy importante tener salvas.


______________________________________________________________________
Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
Gutl-l@jovenclub.cu
https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l

Responder a