La plupart des scanners produisent malheureusement par défaut du JPG 150dpi dans l'encapsulation PDF. Certains sont paramétrables pour produire un format bitmap (BMP, TIF, PNG) donc sans pertes. Ces formats, en 300dpi ou plus, sont mieux que le JPG pour conserver les documents (hors photos), surtout le PNG qui est indexable (limitation du nombre de couleurs, donc de la taille du fichier) et auto-compressible. Un résultat bien meilleur que le JPG, sans pertes.

Pdftoppm permet d'extraire un PDF en bitmap PPM, en choisissant une forte résolution pour en prendre "plus que nécessaire". Ensuite, un traitement avec Gimp (filtres NL et Dépoussiérage) permet d'enlever pas mal de piqués et bruits:
 http://docs.gimp.org/en/plug-in-nlfilt.html
 http://docs.gimp.org/en/plug-in-despeckle.html
Les grosses taches peuvent être effacées à la main mais c'est très long et fastidieux.
Cela donne toutes les chances pour passer dans une OCR...

Le document peut être sauvé au format PNG, en noir et blanc ou en indexé pour prendre le moins de place possible (100Ko/page en moyenne).
Il peut être converti en TIF (2Mo/page) avec convert, si besoin OCR.
Les pages PNG propres peuvent être remises en PDF avec sam2p et concaténées avec pdftk en un seul document (100Ko/page).

Les conversions aller-et-retour entre PDF et bitmap sont sans pertes, pourvu que l'on choisisse une résolution égale (ou supérieure) à la résolution originale du document, et que l'on ne passe pas par du JPEG.

-Sylvain


---------- Original Message ----------
From: j...@dodin.org
Sent: Sun, 04 Sep 2011 12:40:16 +0200

je suis un peu dans le même cas. Il y a des années j'ai scanné des
livres de mon père sous forme de pdf. Je voudrais maintenant en tirer le
texte pour qu'il soit plus facilement lisible.

Mon idée est de faire un pdftotif puis de faire un batch scan avec
tesseract, mais je commence à peine à m'en occuper.

je n'ai, pour l'instant, fait que des essais depuis des jpg. J'utilise
deux scripts, l'un pour convetir les jpg en tif:

_______________________________________________
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll

Répondre à