Иван Лох wrote:
Использовать оригинальный pdftotext из пакета xpdf-utils. Может быть
поиграться с -layout и -raw.
Спасибо. Действительно лучше работает.
pdftotext 1.pdf -nopgbrk -raw -htmlmeta 1.html
Правда пока не поборол 4 вещи:
0. название главы перед началом каждой страницы - хотелось бы убрать.
1. номера страниц (они не нужны, тем более отстающие на 1)
2. сноски конвертируются как "номер+новая строка+точка" - "новая строка"
немного мешается.
3. Error: Illegal entry in bfchar block in ToUnicode CMap
--
Sincerely,
Nicholas
--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org