Иван Лох wrote:
Использовать оригинальный pdftotext из пакета xpdf-utils. Может быть
поиграться с -layout и -raw.

Спасибо. Действительно лучше работает.

pdftotext 1.pdf  -nopgbrk -raw -htmlmeta 1.html

Правда пока не поборол 4 вещи:
0. название главы перед началом каждой страницы - хотелось бы убрать.
1. номера страниц (они не нужны, тем более отстающие на 1)
2. сноски конвертируются как "номер+новая строка+точка" - "новая строка" немного мешается.
3. Error: Illegal entry in bfchar block in ToUnicode CMap
--
Sincerely,
        Nicholas


--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org

Ответить