Hola a todos, y trabaja pero lastimosamente no al 100% (siendo objetivo trabaja entre un 70-80% bien).
¿tesseract-ocr 2.01 ? ¿Qué son las características del documento de origen? ¿Problema de instalación de tesseract? He aquí un ejemplo con un texto en francés. El documento es vago. Es una imagen "pdf". Ella se parece a eso: http://forum.ubuntu-fr.org/viewtopic.php?pid=1688790#p1688790 documento de origen (forum ubuntu-fr) Importación 300dpi con Gimp. Aumento del contraste (+55). Registro al formato tiff sin compresión. ocr con gscan2pdf+tesseract : http://forum.ubuntu-fr.org/viewtopic.php?pid=1697930#p1697930 He aquí el resultado Documentación: http://doc.ubuntu-fr.org/tesseract-ocr" En francés ;-) ¿O sea, mucho mejor, http://www.guadalinex.org/participa/foros/hilo/17193/?orden=asc#88014 en español? :D Ahora, dos soluciones fáciles existen. 1°) xsane+xsane2tess+tesseract 2.01 2°) gscan2pdf+tesseract 2.01 paquetes deb están disponibles : http://download.tuxfamily.org/guadausers/guadaV4/xsane2tess_1.0-1guadausers1_i386.deb Descargar xsane2tess http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.23_all.deb Descaragar gscan2pdf-0.9.23 http://download.tuxfamily.org/xcfaudio/tesseract/tesseract_2.02-3_i386.deb Descargar tesseract-2.01 (con dos idiomas - inglés y francés) Añadir el idioma español es facil : http://tesseract-ocr.googlecode.com/files/tesseract-2.00.spa.tar.gz Descargar idioma_español terminal : tar -zxvf tesseract-2.00.spa.tar.gz luego : cd /home/usuario/Desktop/tessdata luego : sudo cp * /usr/share/tessdata Saludos -- View this message in context: http://www.nabble.com/Programa-para-escanear-textos-%28OCR%29-en-Debian-tp16364804p16834678.html Sent from the debian-user-spanish mailing list archive at Nabble.com.