[Toulibre] OCR

2011-09-04 Par sujet momo

bonjour
j'ai un paquet de pdf, (bien fait), jz voudrai les transformer en .doc 
ou .rtf
j'ai installé Tesseract et gscan2pdf , j'ai lancé la reconnaissance de 
caractère, mais ça met un temps fou et mon cpu est a 99 %
les ventilos tournent à fond . J'ai un pentium R 4 à 3.4GHz, je pense 
que ça devrait suffire  ?
Je n'ai pas trouvé d'autres logiciel pour faire ça, si quelqu'un (une) 
connait , je suis preneurs, car j'ai 400 revues très bien scanné en pdf 
que je voudrai convertir


--
On devient jeune à 60 ans malheureusement c'est trop tard
P.Picasso

momo:
http://terrecooperative.ouvaton.org
-
GNU/Linux/debian-squeeze 2.6.32-5-686
-
http://www.debian.org/
-
https://www.torproject.org/

___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet Xavier Besnard

Bonjour

A tout hasard, tu peux regarder là pour la reconnaissance optique de 
caractères:

http://doc.ubuntu-fr.org/ocr

Merci pour le retour, si cela t'a aidé.

Bon courage. Xavier

Le 04/09/2011 11:54, momo a écrit :


bonjour
j'ai un paquet de pdf, (bien fait), jz voudrai les transformer en .doc 
ou .rtf
j'ai installé Tesseract et gscan2pdf , j'ai lancé la reconnaissance de 
caractère, mais ça met un temps fou et mon cpu est a 99 %
les ventilos tournent à fond . J'ai un pentium R 4 à 3.4GHz, je pense 
que ça devrait suffire  ?
Je n'ai pas trouvé d'autres logiciel pour faire ça, si quelqu'un (une) 
connait , je suis preneurs, car j'ai 400 revues très bien scanné en 
pdf que je voudrai convertir



___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet jdd

Le 04/09/2011 11:54, momo a écrit :

bonjour
j'ai un paquet de pdf, (bien fait), jz voudrai les transformer en .doc
ou .rtf
j'ai installé Tesseract et gscan2pdf , j'ai lancé la reconnaissance de
caractère, mais ça met un temps fou et mon cpu est a 99 %
les ventilos tournent à fond . J'ai un pentium R 4 à 3.4GHz, je pense
que ça devrait suffire ?
Je n'ai pas trouvé d'autres logiciel pour faire ça, si quelqu'un (une)
connait , je suis preneurs, car j'ai 400 revues très bien scanné en
pdf que je voudrai convertir

peux-tu détailler comment tu fais pour faire de l'ocr sur un pdf, mon 
tesseract me réclame du tif


merci
jdd

--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet momo

Le 04/09/2011 12:03, jdd a écrit :




peux-tu détailler comment tu fais pour faire de l'ocr sur un pdf, mon 
tesseract me réclame du tif


merci
jdd

je sais c'est pour ça que je viens de demmarrer avec gscan2pdf, je nage 
encore dans l'inconnu, mon experience a deux heures où j'ai commencé a 
installer , j'ai des fichiers .pnm dans tmp que je sais pas quoi en 
faire, voila je commence juste à apprendre, je peux pas conseiller à ce 
stade.

je serai plutôt en attente d'aide.

--

GNU/Linux/debian-squeeze 2.6.32-5-686
-
http://www.debian.org/
-
https://www.torproject.org/

___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet Sylvain

Bonjour,

Si d'une quelconque utilité, pour passer du PDF au TIF:

pdftoppm -r 300 PDF-file PDF-root
donne des pages PDF-file-XXX.ppm en résolution 300dpi.

convert PDF-file-XXX.ppm PDF-file-XXX.tif
transforme le ppm en tif.

Plein d'autres possibilités de conversion et montage avec les paquets 
imagemagick, xpdf-utils, pdftk, flpsed, sam2p.

Par contre, les outils OCR, je connais pas... :)

-Sylvain





Le 04/09/2011 12:03, jdd a écrit :


peux-tu détailler comment tu fais pour faire de l'ocr sur un pdf, mon
tesseract me réclame du tif

merci
jdd

___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet momo

Le 04/09/2011 12:11, momo a écrit :

Le 04/09/2011 12:03, jdd a écrit :




peux-tu détailler comment tu fais pour faire de l'ocr sur un pdf, mon 
tesseract me réclame du tif


merci
jdd

pour l'instant , j'ai converti les pdf en tiff avec gscan2pdf, c'est 
tout ce que j'ai avançé, la dessus je vais casser la croute .

je reprendrai + tard

momo
-
GNU/Linux/debian-squeeze 2.6.32-5-686
-
http://www.debian.org/
-
https://www.torproject.org/

___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet jdd

Le 04/09/2011 12:11, momo a écrit :


je sais c'est pour ça que je viens de demmarrer avec gscan2pdf, je
nage encore dans l'inconnu, mon experience a deux heures où j'ai
commencé a installer , j'ai des fichiers .pnm dans tmp que je sais pas
quoi en faire, voila je commence juste à apprendre, je peux pas
conseiller à ce stade.
je serai plutôt en attente d'aide.



:-)

je suis un peu dans le même cas. Il y a des années j'ai scanné des 
livres de mon père sous forme de pdf. Je voudrais maintenant en tirer 
le texte pour qu'il soit plus facilement lisible.


Mon idée est de faire un pdftotif puis de faire un batch scan avec 
tesseract, mais je commence à peine à m'en occuper.


je n'ai, pour l'instant, fait que des essais depuis des jpg. J'utilise 
deux scripts, l'un pour convetir les jpg en tif:


#!/bin/sh
# usage: se placer dans le répertoire des photos originales
#lancer "sh jpgtotif.sh"
#

#for I in *.jpg ; do
#   b=`echo "$I" | cut -d'.' -f1` ;
#   convert $I $b.tif
#   
#done

for I in *.jpeg ; do
#echo $I
b=`echo "$I" | cut -d'.' -f1` ;
convert $I $b.tif

done

l'autre pour tesseract:

for I in *.tif ; do
echo $I
b=`echo "$I" | cut -d'.' -f1` ;
tesseract $I $b -l fra

done

mes originaux sont très mauvais, du coup, hélas, les résultats aussi

les originaux: http://dodin.org/lucien/luciendodin-free/bio/photos.html

jdd

--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet Sylvain


La plupart des scanners produisent malheureusement par défaut du JPG 
150dpi dans l'encapsulation PDF. Certains sont paramétrables pour 
produire un format bitmap (BMP, TIF, PNG) donc sans pertes.
Ces formats, en 300dpi ou plus, sont mieux que le JPG pour conserver les 
documents (hors photos), surtout le PNG qui est indexable (limitation du 
nombre de couleurs, donc de la taille du fichier) et auto-compressible. 
Un résultat bien meilleur que le JPG, sans pertes.


Pdftoppm permet d'extraire un PDF en bitmap PPM, en choisissant une 
forte résolution pour en prendre "plus que nécessaire".
Ensuite, un traitement avec Gimp (filtres NL et Dépoussiérage) permet 
d'enlever pas mal de piqués et bruits:

 http://docs.gimp.org/en/plug-in-nlfilt.html
 http://docs.gimp.org/en/plug-in-despeckle.html
Les grosses taches peuvent être effacées à la main mais c'est très long 
et fastidieux.

Cela donne toutes les chances pour passer dans une OCR...

Le document peut être sauvé au format PNG, en noir et blanc ou en indexé 
pour prendre le moins de place possible (100Ko/page en moyenne).

Il peut être converti en TIF (2Mo/page) avec convert, si besoin OCR.
Les pages PNG propres peuvent être remises en PDF avec sam2p et 
concaténées avec pdftk en un seul document (100Ko/page).


Les conversions aller-et-retour entre PDF et bitmap sont sans pertes, 
pourvu que l'on choisisse une résolution égale (ou supérieure) à la 
résolution originale du document, et que l'on ne passe pas par du JPEG.


-Sylvain


-- Original Message --
From: j...@dodin.org
Sent: Sun, 04 Sep 2011 12:40:16 +0200


je suis un peu dans le même cas. Il y a des années j'ai scanné des
livres de mon père sous forme de pdf. Je voudrais maintenant en tirer le
texte pour qu'il soit plus facilement lisible.

Mon idée est de faire un pdftotif puis de faire un batch scan avec
tesseract, mais je commence à peine à m'en occuper.

je n'ai, pour l'instant, fait que des essais depuis des jpg. J'utilise
deux scripts, l'un pour convetir les jpg en tif:


___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet jdd

Le 04/09/2011 12:38, Sylvain a écrit :

Bonjour,

Si d'une quelconque utilité, pour passer du PDF au TIF:


je viens juste de remarquer que tous mes lecteurs pdf (aussi bien 
libres que non libres) ont un ocr incorporé, puisqu'on 
peutsélectionner du texte et le recopier ailleurs.


les versions libres semblent même meilleures que la version acroread :-)

ca ne résout pas la question du batch, mais dans mon cas où les 
originaux étaient pour la plupart mauvais, c'est assez commode


jdd
--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet Guillaume Betous
>
> je viens juste de remarquer que tous mes lecteurs pdf (aussi bien libres
> que non libres) ont un ocr incorporé, puisqu'on peutsélectionner du texte et
> le recopier ailleurs.
>

juste comme ça, le PDF n'est pas du tout un format d'image (meme si on peut
toujours intégrer des images dans un fichier PDF) mais est plutôt à comparer
au postscript.

donc sélectionner un texte ne relève pas de la magie de l'OCR, pas plus que
de rechercher un texte à l'intérieur du document.

gUI

-- 
Pour la santé de votre ordinateur, préférez les logiciels libres.
Lire son mail : http://www.mozilla-europe.org/fr/products/thunderbird/
Browser le web : http://www.mozilla-europe.org/fr/products/firefox/
Suite bureautique : http://fr.openoffice.org/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet jdd

Le 04/09/2011 15:23, Guillaume Betous a écrit :


donc sélectionner un texte ne relève pas de la magie de l'OCR, pas
plus que de rechercher un texte à l'intérieur du document.


quand le pdf vient du scan d'un document de 1880, quelque part si!

jdd


--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet Guillaume Betous
>
> quand le pdf vient du scan d'un document de 1880, quelque part si!


>
je suis d'accord (je disais qu'on peut insérer des images, et c'est ce que
font les logiciels de scan en général), mais précisément sur ces pdf là, je
doute fort que tu fasses de la sélection de texte. tu peux vérifier ? j'en
ai pas sous la main...

gUI

-- 
Pour la santé de votre ordinateur, préférez les logiciels libres.
Lire son mail : http://www.mozilla-europe.org/fr/products/thunderbird/
Browser le web : http://www.mozilla-europe.org/fr/products/firefox/
Suite bureautique : http://fr.openoffice.org/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet jdd

Le 04/09/2011 15:32, Guillaume Betous a écrit :

quand le pdf vient du scan d'un document de 1880, quelque part si!



je suis d'accord (je disais qu'on peut insérer des images, et c'est ce
que font les logiciels de scan en général), mais précisément sur ces
pdf là, je doute fort que tu fasses de la sélection de texte. tu peux
vérifier ? j'en ai pas sous la main...


c'est justement ca que je viens de faire, d'où mon étonnement

jdd

--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


*****SPAM***** Re: [Toulibre] OCR

2011-09-04 Par sujet jdd
Spam detection software, running on the system "lolut.org", has
identified this incoming email as possible spam.  The original message
has been attached to this so you can view it (if it isn't spam) or label
similar future email.  If you have any questions, see
the administrator of that system for details.

Content preview:  Le 04/09/2011 15:40, jdd a écrit : > c'est justement ca que
   je viens de faire, d'où mon étonnement 
http://lucien.dodin.org/luciendodin-free/feuilles_volantes/feuilles0003.PDF
   [...] 

Content analysis details:   (5.2 points, 5.0 required)

 pts rule name  description
 -- --
 3.4 FB_GAPPY_ADDRESS   BODY: Too much spacing in Address
 1.8 MIME_QP_LONG_LINE  RAW: Quoted-printable line longer than 76 chars


--- Begin Message ---

Le 04/09/2011 15:40, jdd a écrit :



c'est justement ca que je viens de faire, d'où mon étonnement



http://lucien.dodin.org/luciendodin-free/feuilles_volantes/feuilles0003.PDF

ouvrir dans okular, outils, sélection de texte - c'est pas terrible, 
mais lm'original est exécrable!:


Lçs figures qui composent ce jeu de cartes sont empruntées au cartes 
t'spagrroles.
e l l r , s - m ô m e s i s s u ë s d u j e u c J eM a - J o n g c h i 
n o i s . A u l i e u d e s p i c s , c o e u r s ' c a r r e a u x ,
trèflcs des cartes françaises, nous trouvons des épées, les coupes, 
les écus, les cl-rô-
rrî,s. L€, jeu serait de 52 cartes s' il ne manquait Ies 10. Il reste 
48 cartes.
(1. trouve des jeux d'Alluettes dans toute la France chez lee 
marcha.nds spécia-
lisés t:n jeux de la France. Ce
jcu qui parait dater du XVII ème siècle est toujours très apprécié 
c}.ez les marins de
la côtc oues!. Ii ne s'agit nullement d'un ieu pour enfants ce qui 
n'empêche Pas ceux-

ci dt,s
y rrrtért,sser tout particulièrt-menr
à cause de son
pittoresque.


jdd
--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll
--- End Message ---


Re: [Toulibre] OCR

2011-09-04 Par sujet Jérôme
Sun, 04 Sep 2011 15:40:39 +0200
jdd a écrit:

> c'est justement ca que je viens de faire, d'où mon étonnement

L'imprimante de mon (ex-)boulot a cette fonctionnalité.

Donc on scanne au choix
- en .jpg
- en .jpg (ou autre image, j'y ai pas regardé de près) dans un .pdf
- OCR -> texte -> .pdf

Ca vient du scanner, pas du .pdf en tant que tel.

-- 
Jérôme
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet jdd

Le 04/09/2011 15:40, jdd a écrit :



c'est justement ca que je viens de faire, d'où mon étonnement



http://lucien.dodin.org/luciendodin-free/feuilles_volantes/feuilles0003.PDF

ouvrir dans okular, outils, sélection de texte - c'est pas terrible, 
mais lm'original est exécrable!:


Lçs figures qui composent ce jeu de cartes sont empruntées au cartes 
t'spagrroles.


trèflcs des cartes françaises, nous trouvons des épées, les coupes, 
les écus, les cl-rô-
rrî,s. L€, jeu serait de 52 cartes s' il ne manquait Ies 10. Il reste 
48 cartes.
(1. trouve des jeux d'Alluettes dans toute la France chez lee 
marcha.nds spécia-
lisés t:n jeux de la France. Ce
jcu qui parait dater du XVII ème siècle est toujours très apprécié 
c}.ez les marins de
la côtc oues!. Ii ne s'agit nullement d'un ieu pour enfants ce qui 
n'empêche Pas ceux-

ci dt,s
y rrrtért,sser tout particulièrt-menr
à cause de son
pittoresque.

avec gimagereader:

Les figures qui composent ce jeu de cartes sont empruntées au cartes 
espagnoles
elles-mômes issues du jeu de Ma-Jong chinois. Au lieu des pics, 
coeurs, carreaux,
trefîus des cartes françaises, nous trouvons des épées, les coupes, 
les écus, les chô-
nvs, Le jeu serait de 52 cartes s'i1 ne manquait les 10. Il reste 48 
cartes.
Ôn trouve des jeux d'AUuettes dans toute la France chez les marchands 
spécia-
lisés en jeux divers et dans tous les bureaux de tabac dans 1'Ouest de 
la France. Ce
jeu qui parait dater du XVIT ème siècle est toujours très apprécié 
chez les marins de
ia côte ouest. Il ne s'agit nullement d'un jeu pour enfants ce qui 
n'empêche pas ceux-

ci de sy intéresser tout particulièrement ã cause de son pittoresque.



jdd
--
http://www.dodin.net
http://www.youtube.com/user/jdddodinorg
http://jdd.blip.tv/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet Guillaume Betous
> http://lucien.dodin.org/luciendodin-free/feuilles_volantes/feuilles0003.PDF
>

alors là au temps pour moi, il est clair que c'est bien okular (celui que
j'ai sous la main) qui fait de l'OCR ! et en plus c'est instantané !

on n'arrête plus le progrès ;)

gUI

-- 
Pour la santé de votre ordinateur, préférez les logiciels libres.
Lire son mail : http://www.mozilla-europe.org/fr/products/thunderbird/
Browser le web : http://www.mozilla-europe.org/fr/products/firefox/
Suite bureautique : http://fr.openoffice.org/
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet Le J
Bonsoir,

Si vous ne connaissez pas, Il existe aussi l'utilitaire en ligne de commande
"pdftotext " pour extraire du texte
d'un pdf. Je ne l'ai pas trop utilisé mais je viens de le tester sur

> http://lucien.dodin.org/luciendodin-free/feuilles_volantes/feuilles0003.PDF
>
et il a l'air de donner le même résultat que okular, avec l'avantage d'être
facilement scriptable et plus léger que "tesseract" (qui est utilisé par
gimagereader et qui donne de meilleurs résultats).

Le J.
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


[Toulibre] Linux sur Netbook ACER ASPIRE ONE 522

2011-09-04 Par sujet Pascal Wijsbroek
Bonjour à tous,

Est-ce que quelqu'un a déjà installé une distrib Linux sur l'ACER Aspire One
522 ? Et si oui la vraie question est : laquelle ?

J'ai installé Ubuntu 11.04, ça marche... puis ça ne marche plus.

Bon déjà c'est assez lent à l'usage, mais passons. Le vrai problème c'est
que la veille ne se ranime jamais, il faut redémarrer la machine car l'écran
n'est plus actif, et ensuite quand j'ai tenté le mode hibernation je n'ai
plus réussi à ranimer correctement la machine.

Même un redémarrage "bloque" la machine sur le bureau. Elle est figée, je ne
peux pas en sortir, à priori il faut que je réinstalle tout.

Suis-je condamné à réinstaller Windows ?

Merci d'avance.
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll


Re: [Toulibre] OCR

2011-09-04 Par sujet Philippe Masson

Le 04/09/2011 15:59, Guillaume Betous a écrit :


http://lucien.dodin.org/luciendodin-free/feuilles_volantes/feuilles0003.PDF


alors là au temps pour moi, il est clair que c'est bien okular (celui 
que j'ai sous la main) qui fait de l'OCR ! et en plus c'est instantané !


on n'arrête plus le progrès ;)

gUI

--
Pour la santé de votre ordinateur, préférez les logiciels libres.
Lire son mail : http://www.mozilla-europe.org/fr/products/thunderbird/
Browser le web : http://www.mozilla-europe.org/fr/products/firefox/
Suite bureautique : http://fr.openoffice.org/


___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll
   


Bonjour,

Contrairement à ce que ce fil affirme okular ne comporte aucun 
dispositif intégré d'OCR et la seule raison qui explique la possibilité 
d'y "copier du texte" à partir du fichier de jdd c'est que ce fichier en 
lui-même, produit par un logiciel propriétaire "Canon", ait dans son 
source sous-jascent à l'image des parties en mode caractère.
Celà peut être le cas de résultats de scans en pdf obtenus avec d'autres 
outils, le pdf ayant évolué d'une catégorie particulière de postscript 
vers une encapsulation de toutes sortes de médias ; en aucun cas celà 
permet d'imaginer qu'un outil libre tel qu'okular ou autre ait encore la 
capacité quand on lui demande de convertir en caractères un bloc 
graphique ; l'ocr c'est justement un des points faibles des oultils 
libres malheureusement, notamment du fait que pas mal d'algorythmes 
soient hyper-protégés dans ce domaine et fasse l'objet d'une concurrence 
effreinée.

Quelques infos ici :
http://lea-linux.org/documentations/index.php/Logith%C3%A8que:OCR

@+

Philippe
___
Toulouse-ll mailing list
Toulouse-ll@toulibre.org
http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll