Ciao, Il Sab, 16 Maggio 2015 9:33 am, Piviul ha scritto: > Ma non � questo il mio problema; mi piacerebbe sapere, se qualcuno ne � > a conoscenza, perch� il pdf[�], pur non essendo un'immagine, non sia > possibile estrapolarne il testo con i tool disponibili a riga di comando
Ho provato a scaricare il PDF che hai indicato e... hai ragione, non ha un'immagine "bitmap" inclusa, però non contiene neppure del testo; diciamo che è un "disegno"? Quel file non contiene istruzioni del tipo "Il carattere '0' si disegna nel tal modo, la pagina contiene uno '0' qui e uno là...", bensì del tipo "Dal tal punto disegna una linea, poi un'altra...". pdfimages estrae le bitmap contenute in un PDF, in questo caso non ce ne sono. pdftotext estrae il testo contenuto come sequenze di caratteri e non ce n'è. Con l'estensione di LibreOffice che citavi, oppure con InkScape è certamente possibile modificare quel PDF, perché entrambi lo caricano come immagine vettoriale. Noterai però che entrambi, pur avendo la capacità di scrivere testo, non ti permettono di selezionare una lettera e cambiarla. Il PDF che ci hai mostrato contiene solo immagini vettoriali delle pagine. Per estrarne il testo, bisognerebbe trasformarle in bitmap e passare ad un OCR, oppure avere un OCR vettoriale (ma non ne conosco). Meglio sarebbe, ovviamente, intervenire sul processo di generazione del PDF in modo da ottenere un formato più accessibile. Ciao, m -- http://bodrato.it/ -- Per REVOCARE l'iscrizione alla lista, inviare un email a debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per problemi inviare un email in INGLESE a listmas...@lists.debian.org To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org Archive: https://lists.debian.org/49030.151.33.93.173.1431878634.squir...@mail.dm.unipi.it