Re: OCR инструменты и распознавание русского текста

Alexei Sun, 15 Jan 2012 10:43:39 -0800

Abbyy FineReader

15 января 2012 г. 22:05 пользователь Dmitry A. Zhiglov <
dmitry.zhig...@gmail.com> написал:


> Необходимо перевести сканированный текст в электронный вид.
>
> Дано: сканы страниц содержащие печатный русский (~90%) и английский
> текст. Из себя представляют отчеты работ, т.е. текст
> структурированный, но без визуальных границ у таблиц.
>
> Желаемое: обработать сканы в пакетном режиме и получить готовый файл в
> виде plaintext UTF-8.
> Перспектива: распознать мнимые таблицы, есть закономерность появления
> таблиц и их завершения, а текст таблиц перенести в sql и обрабатывать
> по-человечески.
>
> В настоящее время разбираюсь с tesseract 2.04 (тот что в коробке squeeze).
>
> Подскажите, какие существуют качественные инструменты для
> распознавания русского печатного текста и таблиц?
> Выслушаю любые идеи, включая самые нелепые.
>

Re: OCR инструменты и распознавание русского текста

Ответить