Re: Programa para escanear textos (OCR) en Debian

Sorbus Wed, 23 Apr 2008 08:47:42 -0700

Hola a todos,

y trabaja pero lastimosamente no al 100% (siendo objetivo trabaja entre un
70-80% bien).


¿tesseract-ocr 2.01 ?
 
¿Qué son las características del documento de origen? ¿Problema de
instalación de tesseract?

He aquí un ejemplo con un texto en francés. El documento es vago. Es una
imagen "pdf". Ella se parece a eso:
http://forum.ubuntu-fr.org/viewtopic.php?pid=1688790#p1688790 documento de
origen (forum ubuntu-fr) 

Importación 300dpi con Gimp. Aumento del contraste (+55). Registro al
formato tiff sin compresión.
ocr con gscan2pdf+tesseract :
http://forum.ubuntu-fr.org/viewtopic.php?pid=1697930#p1697930 He aquí el
resultado 

Documentación:

http://doc.ubuntu-fr.org/tesseract-ocr";  En francés   ;-) 
¿O sea, mucho mejor, 
http://www.guadalinex.org/participa/foros/hilo/17193/?orden=asc#88014 en
español?   :D

Ahora, dos soluciones fáciles existen.

1°) xsane+xsane2tess+tesseract 2.01

2°) gscan2pdf+tesseract 2.01

paquetes deb están disponibles :
http://download.tuxfamily.org/guadausers/guadaV4/xsane2tess_1.0-1guadausers1_i386.deb
Descargar xsane2tess 
http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.23_all.deb
Descaragar gscan2pdf-0.9.23 
http://download.tuxfamily.org/xcfaudio/tesseract/tesseract_2.02-3_i386.deb
Descargar tesseract-2.01 (con dos idiomas - inglés y francés) 
Añadir el idioma español es facil :
http://tesseract-ocr.googlecode.com/files/tesseract-2.00.spa.tar.gz
Descargar idioma_español 
terminal :
tar -zxvf tesseract-2.00.spa.tar.gz
luego :
cd /home/usuario/Desktop/tessdata
luego :
sudo cp * /usr/share/tessdata

Saludos
-- 
View this message in context: 
http://www.nabble.com/Programa-para-escanear-textos-%28OCR%29-en-Debian-tp16364804p16834678.html
Sent from the debian-user-spanish mailing list archive at Nabble.com.

Re: Programa para escanear textos (OCR) en Debian

Responder a