Ciao Francesco, io in condizioni analoghe uso tika https://tika.apache.org/
c'è tutto un processo dietro il mio utilizzo, ma di fatto è lui che estrae metadati e testo dai documenti per una successiva analisi Salvatore Il giorno ven 11 gen 2019 alle ore 21:23 Strap Lab <l...@strap.it> ha scritto: > Ciao > > On Fri, Jan 11, 2019 at 8:39 PM Francesco Bonanno <fgt...@gmail.com> > wrote: > >> Buonasera a chi è in ascolto. >> >> Pongo una domanda sin merito gli argomenti in oggetto: >> >> è possibile indicizzare files non di testo ad esempio PDF al fine di >> eseguire ricerche full-text in seno al corpo di questi? >> > > Sì > > >> Non voglio che facciate i compiti per me. se mi sto rivolgendo alla >> lista è perchè in rete non ho trovato niente al riguardo >> >> > Si trova, però è ben nascosta :-D > Guarda nel backend di Solr, c'è un metodo extract_contents: > > https://github.com/django-haystack/django-haystack/blob/master/haystack/backends/solr_backend.py#L713 > Usalo nel `def prepare_field(self)` nel tuo search_indexes.py. > > Solr, se non vado errato, è uno dei pochi backend di haystack che supporta > 'nativamente' l'estrazione dei pdf. D'altra parte haystack è nato per > supportare solr, gli altri motori full text sono "di contorno" (ora scatta > il flame :-D ) > Ad esempio, io mi sono trovato qualche tempo fa a lavorare con > haystack+elasticsearch2.x e il metodo extract_contents me lo sono > implementato nel mio backend custom (ci ho pure fatto una presentazione a > PyCon Italia al riguardo :-) ) > > [...] >> >> Grazie a tutti >> >> > Buona implementazione! > Sani > Strap > > _______________________________________________ > Python mailing list > Python@lists.python.it > https://lists.python.it/mailman/listinfo/python > -- @salvatoremonaco http://blog.smitsolution.net
_______________________________________________ Python mailing list Python@lists.python.it https://lists.python.it/mailman/listinfo/python