you are right. A better data file does the job well. I had documented my solution for the problem here:
https://forum.ubuntuusers.de/topic/qualitaet-der-fraktur-ocr-zu-schlecht-ein-fehl/ On Tuesday, August 24, 2021 at 6:21:22 AM UTC+2 Merlijn Wajer wrote: > Hi Andreas, > > Using a newer data file and a newer Tesseract might help - see inline. > > On 28/07/2021 18:17, Andreas Groß wrote: > > I work on Kubuntu 20.04 with gImageReader 3.3.1 () and tesseract 4.1.1 > > and had installed fracture model with this command > > > > sudo apt-get install tesseract-ocr-script-frak > > > > > > Now I read attached image and got attached text, which is too bad to be > > used. > > > > Is this really the expected quality or did I do a mistake in my setup or > > installation? > > > > Please give me a hint for a solution. > > Do you know how you ran Tesseract? > > This is what I get: > > > # tesseract -l deu+Fraktur /tmp/outputA-6.jpg - 2>/dev/null > > Die Wahrheit in der Impfzwangsfrage.”) > > > > Die Theorie bon der Schutzkraft der Impfung > > ftellt ji dar als ein wahrer Rattenkönig bon > > Srrtümern, Trugſchlüſſen, Wberglauben und > > urteilslos gedenteter Tatſachen. > > > > Dr. med. Schreiber. > > > > Wir leben in einem Zeitalter einer neuen Renaiſſance. > > Seitdem Kant durch jeine Kritik der reinen Vernunft unferem > > Denken die richtige Grundlage gegeben, und feitdem vor allem > > die Erkenntnis der Natur- und jpirituellen Wifferihaft uns > > > > . eine Menge neuer, friiher nie geahnter, ja für unmöglich ge > > haltener Tatſachen erſchloſſen hat, jeitdem hat fich unfere ganze > > Anſchauungsweiſe gewaltig geändert, und die Überfommenen, > > wenn auch ſcheinbar Über jeden Zweifel erhabenen Vorſtellungen > > müſſen ſich jet eine erneute Prüfung auf ihre Glaubmwitrdig- > > feit gefallen laffen. Damit ift natürlich eine Bett des Ueber— > > gangs notwendig verbunden, und die Kritik ſtört fo unleug— > > bar gar mande aus ihrer lieben Behaglichkeit auf. > > > > Allein die Kritik, die Prüfung der itberlieferten Begriffe > > auf Die neugewonnene Erfenntnis, ift zur Feſtſtellung der > > Wahrheit und damit zur Förderung des wahren Ullgemein- > > roohles durchaus unerläßlich. Wir dürfen deshalb auch nicht > > gleich vor der Enthitlfung neuer, mern auch ſcheinbar noch fo > > unliebfamer Tatfahen zurüdichreden, falls fie nur vor dem > > Forum der Vernunft und der wahren Wiſſenſchaft ficher be- > > gründet find. Sie tragen in dieſem Falle das Gegermittel gegen > > eine etwaige Gefährdung der gefellfhaftlichen Ordnung immer > > icon wieder in ſich. > > > > Diefe Beit der Gärung und Alärung madt fih nun > > > > gegenmärtig auf allen Gebieten bemerfbar, und es bleibt da— > > von weder Staat noch Kirche, weder Kunjt noch Wiſſenſchaft > > unberühtt. > > *) Diefer Vortrag „Leber Für und Wider den Jupfzwang“ wurde von > > mir in jeinen weſentlichſten Grundzügen auerit im Jahre 1876 in Schmäb. > > Hall im dortigen Gewerbeverein und im Frühjahr 1882 bor einer allgemeinen > > Verſanimlung im Bürgermuſeum in Stuttgart gehalten und erichien im Jahre > > > > 1383 dei Konrad Wittwer-Stuttgart im Buchhandel. > > This is using 5.0.0-alpha-20201231 with a Fraktur file contributed by > the OCR-D folks, obtained from here: > > > https://ub-backup.bib.uni-mannheim.de/~stweil/ocrd-train/data/Fraktur_5000000/tessdata_fast/Fraktur_50000000.334_450937.traineddata > > Hope this helps. There might be a newer file, I haven't checked. > > If you need to reproduce the exact environment, then clone the > 'production' branch here [1], build the docker container and run a shell > to run the command. (The default entry point is not helpful for you, I > think) > > Cheers, > Merlijn > > [1] https://git.archive.org/www/tesseract/-/tree/production > -- You received this message because you are subscribed to the Google Groups "tesseract-ocr" group. To unsubscribe from this group and stop receiving emails from it, send an email to tesseract-ocr+unsubscr...@googlegroups.com. To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/7085739b-2270-41c9-bb45-a5b3450a985cn%40googlegroups.com.