Abbyy FineReader 15 января 2012 г. 22:05 пользователь Dmitry A. Zhiglov < dmitry.zhig...@gmail.com> написал:
> Необходимо перевести сканированный текст в электронный вид. > > Дано: сканы страниц содержащие печатный русский (~90%) и английский > текст. Из себя представляют отчеты работ, т.е. текст > структурированный, но без визуальных границ у таблиц. > > Желаемое: обработать сканы в пакетном режиме и получить готовый файл в > виде plaintext UTF-8. > Перспектива: распознать мнимые таблицы, есть закономерность появления > таблиц и их завершения, а текст таблиц перенести в sql и обрабатывать > по-человечески. > > В настоящее время разбираюсь с tesseract 2.04 (тот что в коробке squeeze). > > Подскажите, какие существуют качественные инструменты для > распознавания русского печатного текста и таблиц? > Выслушаю любые идеи, включая самые нелепые. >