Re: [Toulibre] OCR

jdd Sun, 04 Sep 2011 03:41:31 -0700

Le 04/09/2011 12:11, momo a écrit :

je sais c'est pour ça que je viens de demmarrer avec gscan2pdf, je
nage encore dans l'inconnu, mon experience a deux heures où j'ai
commencé a installer , j'ai des fichiers .pnm dans tmp que je sais pas
quoi en faire, voila je commence juste à apprendre, je peux pas
conseiller à ce stade.
je serai plutôt en attente d'aide.

:-)

je suis un peu dans le même cas. Il y a des années j'ai scanné deslivres de mon père sous forme de pdf. Je voudrais maintenant en tirerle texte pour qu'il soit plus facilement lisible.

Mon idée est de faire un pdftotif puis de faire un batch scan avectesseract, mais je commence à peine à m'en occuper.

je n'ai, pour l'instant, fait que des essais depuis des jpg. J'utilisedeux scripts, l'un pour convetir les jpg en tif:


#!/bin/sh
# usage: se placer dans le répertoire des photos originales
#lancer "sh jpgtotif.sh"
#

#for I in *.jpg ; do
#       b=`echo "$I" | cut -d'.' -f1` ;
#       convert $I $b.tif
#       
#done

for I in *.jpeg ; do
#echo $I
        b=`echo "$I" | cut -d'.' -f1` ;
        convert $I $b.tif
        
done

l'autre pour tesseract:

for I in *.tif ; do
        echo $I
        b=`echo "$I" | cut -d'.' -f1` ;
        tesseract $I $b -l fra
        
done

mes originaux sont très mauvais, du coup, hélas, les résultats aussi

les originaux: http://dodin.org/lucien/luciendodin-free/bio/photos.html

jdd

--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
_______________________________________________
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll

Re: [Toulibre] OCR

Répondre à