Re: [Python] solr e hystack

salvatore monaco Sat, 12 Jan 2019 02:50:12 -0800

Ciao Francesco,
io in condizioni analoghe uso tika
https://tika.apache.org/


c'è tutto un processo dietro il mio utilizzo,  ma di fatto è lui che estrae
metadati e testo dai documenti per una successiva analisi

Salvatore

Il giorno ven 11 gen 2019 alle ore 21:23 Strap Lab <[email protected]> ha
scritto:

> Ciao
>
> On Fri, Jan 11, 2019 at 8:39 PM Francesco Bonanno <[email protected]>
> wrote:
>
>> Buonasera a chi è in ascolto.
>>
>> Pongo una domanda sin merito gli argomenti in oggetto:
>>
>> è possibile indicizzare files non di testo ad esempio PDF al fine di
>> eseguire ricerche full-text in seno al corpo di questi?
>>
>
> Sì
>
>
>> Non voglio che facciate i compiti per me. se mi sto rivolgendo alla
>> lista è perchè in rete non ho trovato niente al riguardo
>>
>>
> Si trova, però è ben nascosta :-D
> Guarda nel backend di Solr, c'è un metodo extract_contents:
>
> https://github.com/django-haystack/django-haystack/blob/master/haystack/backends/solr_backend.py#L713
> Usalo nel `def prepare_field(self)` nel tuo search_indexes.py.
>
> Solr, se non vado errato, è uno dei pochi backend di haystack che supporta
> 'nativamente' l'estrazione dei pdf. D'altra parte haystack è nato per
> supportare solr, gli altri motori full text sono "di contorno" (ora scatta
> il flame :-D )
> Ad esempio, io mi sono trovato qualche tempo fa a lavorare con
> haystack+elasticsearch2.x e il metodo extract_contents me lo sono
> implementato nel mio backend custom (ci ho pure fatto una presentazione a
> PyCon Italia al riguardo :-) )
>
> [...]
>>
>> Grazie a tutti
>>
>>
> Buona implementazione!
> Sani
> Strap
>
> _______________________________________________
> Python mailing list
> [email protected]
> https://lists.python.it/mailman/listinfo/python
>


-- 
@salvatoremonaco
http://blog.smitsolution.net

_______________________________________________
Python mailing list
[email protected]
https://lists.python.it/mailman/listinfo/python

Re: [Python] solr e hystack

Rispondere a