Le 04/04/2017 à 18:24, JF Straeten a écrit : > Re, > > On Tue, Apr 04, 2017 at 05:56:23PM +0200, G2PC wrote: > > [...] >> tesseract image.tif sortie -l fra >> Tesseract Open Source OCR Engine v3.04.01 with Leptonica >> Error opening data file /usr/share/tesseract-ocr/tessdata/fra.traineddata >> Please make sure the TESSDATA_PREFIX environment variable is set to the >> parent directory of your "tessdata" directory. >> Failed loading language 'fra' >> Tesseract couldn't load any languages! >> Could not initialize tesseract. > faut installer tesseract-ocr-fra qui contient les fichiers de langue > spécifiques au français... > > Ou alors procéder sans le '-l fra' ; parfois ça suffit... > A+ Bonjour Je ne suis pas convaincu que ajouter les fichiers de langue change quoi que ce soit. J'ai utilisé l'image de journal qui a un fond beige : image.jpg Conversion en .tif : convert image.jpg image.tif
tesseract image.tif sortie -l fra Le fichier de sortie est vide. C'est donc le même résultat qu'avec la commande sans le pack de langue. tesseract image.tif sortie Plutôt qu'un problème de commande de l'OCR, c'est plutôt un problème d'image, car, le fond beige de l'image ( découpée d'un " vieux " journal ) empêche la reconnaissance de caractères. Il faudrait pouvoir éclaircir l'image, enlever le fond beige pour garder un fond blanc, accentuer le texte en noir également. Le problème semble plus être de l'ordre de la bonne utilisation de Gimp que de tesseract. Bonne après midi.