2010/9/29 fabrizio fortunato :
>> def mia_funzione():
>> "funzione che fa qualcosa"
>> pass
>>
>>
> Grazie per l'info
Altra info: __per favore__, quando riepondi, lascia di quoting, solo
le riche che permettano di capire a cosa rispondi e non tutto il msg.
Greetings
JOKER Ltd.
--
Tieni
On 29/09/2010 16:59, simozack wrote:
> Il 29 settembre 2010 16:04, fabrizio fortunato
> ha scritto:
>
>
>> Un saluto.
>>
> Giusto un consiglio: le stringhe utilizzate per descrivere cosa fa una
> funzione, mettila dopo la definizione, altrimenti perdi l'utilità
> delle docstring. Ad es
Beh sembra che non sia l'unico a usare la home di google per testare gli
script :D
Fantastico il secondo link!
2010/9/29 Marco Mariani
> 2010/9/29 Gianluca Bargelli
>
>
> pagina = html.parse('http://www.google.it').getroot()
>>
>
>
> giuro non ti ho copiato... :-D
>
>
>
> http://stackoverflow.
2010/9/29 Gianluca Bargelli
pagina = html.parse('http://www.google.it').getroot()
>
giuro non ti ho copiato... :-D
http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not
ma allora anche
http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.
Il 29 settembre 2010 16:04, fabrizio fortunato
ha scritto:
> Un saluto.
Giusto un consiglio: le stringhe utilizzate per descrivere cosa fa una
funzione, mettila dopo la definizione, altrimenti perdi l'utilità
delle docstring. Ad esempio in:
"funzione che fa qualcosa"
def mia_funzione():
pas
> Marco Giusti spiffera:
>> Immagino che già conosci questa risposta su stackoverflow[1] ma gli
>> altri che hanno proposto di usare le espressioni regolari forse no.
>>
>> [1] http://tinyurl.com/ydb4j9j
Andrea Gasparini wrote:
> grazie, tutto l'ufficio sta ridendo per questa cosa :)
E`... favo
On Wed, Sep 29, 2010 at 02:37:28PM +0200, franco93it wrote:
> Salve.
> Scarico il sorgente di una pagina web in questo modo:
>
>
> import urllib
> sock = urllib.urlopen("http://www.sito.ext/pagina.ext";)
> sorgente = sock.read()
> sock.close()
>
>
> Ora ho la stringa sorgente co
2010/9/29 Marco Giusti
> On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote:
> [...]
> > Le espressioni regolari non sono l'ideale per grammatiche dipendenti dal
> > contesto come l'HTML: per esempio è difficile estrarre dati in presenza
> > di tag annidati.
>
> Immagino che già conosc
On 29 September 2010 16:17, Nicola Larosa wrote:
> franco93it wrote:
> > Mi puoi fare un esempio di estrazione come devo fare io con lxml?
>
> Ecco un paio d'esempi. Attenzione che usano entrambi XPath, che è una
> sintassi potente, ma non immediata, per identificare tag nei markup
> basati su XM
2010/9/29 Marco Giusti :
> Immagino che già conosci questa risposta su stackoverflow[1] ma gli
> altri che hanno proposto di usare le espressioni regolari forse no.
>
> [1] http://tinyurl.com/ydb4j9j
>
ARGH, sei arrivato prima di me, bravo :P
--
Andrea
___
Marco Giusti spiffera, ùWednesday 29 September 2010 circa:
> On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote:
> [...]
>
> > Le espressioni regolari non sono l'ideale per grammatiche dipendenti
> > dal contesto come l'HTML: per esempio è difficile estrarre dati in
> > presenza di tag
Una soluzione con lxml:
from lxml import html
pagina = html.parse('http://www.google.it').getroot()
for item in pagina.cssselect('title'):
print item.text
Come già detto è meglio non utilizzare le RegEx per fare il parsing html:
http://stackoverflow.com/questions/590747/using-regular-express
2010/9/29 Nicola Larosa
+1 per quanto detto da Nicola: se prendi l'abitudine a fare parsing di HTML
con le regexp, prima o poi ti trovi dei bachi di sicurezza che ci passa un
treno
___
Python mailing list
Python@lists.python.it
http://lists.python.it/ma
franco93it wrote:
> Mi puoi fare un esempio di estrazione come devo fare io con lxml?
Ecco un paio d'esempi. Attenzione che usano entrambi XPath, che è una
sintassi potente, ma non immediata, per identificare tag nei markup
basati su XML:
http://bytes.com/topic/python/answers/790508-parsing-html
On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote:
[...]
> Le espressioni regolari non sono l'ideale per grammatiche dipendenti dal
> contesto come l'HTML: per esempio è difficile estrarre dati in presenza
> di tag annidati.
Immagino che già conosci questa risposta su stackoverflow[1]
> Per esempio se nella stringa c'è titolo come faccio ad
> ottenere titolo?
A sentimento e senza straci a pensare su troppo:
str = "titolo"
stringa = str.replace( "", "" )
str = stringa.replace( "", "" )
Oppure con le RE
import re
str = "titolo"
re.sub( r'<.*?>', '', str )
Greetings
JOKER Lt
Salve,
anche se non sono molto attivo sulla lista la seguo da molto e mi è
stata davvero molto
utile da qualche anno a questa parte.
Volevo far sapere a voi pythonisti che ho pubblicato un primo scriptino
per la pubblicazione
batch di documenti ( doc, odt ,xml) su un blog wordpress,
lo potete tro
Il giorno 29 settembre 2010 15:56, Nicola Larosa ha
scritto:
>
> Ho avuto buoni risultati con lxml.html
> (http://codespeak.net/lxml/lxmlhtml.html). lxml è una delle migliori
> librerie XML per Python, ed lxml.html è un parser tollerante specifico
> per l'HTML.
Mi puoi fare un esempio di estrazi
> franco93it ha scritto:
>> Scarico il sorgente di una pagina web in questo modo:
>> [...]
>> Come faccio ad estrarre dalla pagina determinate parti contenuti
>> fra tag noti?
Vittorio Zuccala' wrote:
> Sono un po' emozionato: è la prima risposta che do in lista :-)
Grazie, continua per favore!
Il giorno 29 settembre 2010 15:47, Vittorio Zuccala' <
vittorio.zucc...@gmail.com> ha scritto:
> Sono un po' emozionato: è la prima risposta che do in lista :-)
>
> Se stringa è la variabile dove ci sono le informazioni:
>
> *import re
> m = re.search('(.+)', stringa)
> m.group(0)
> m.group(1)*
>
2010/9/29 franco93it
> Salve.
> Scarico il sorgente di una pagina web in questo modo:
>
> import urllib
> sock = urllib.urlopen("http://www.sito.ext/pagina.ext";)
> sorgente = sock.read()
> sock.close()
>
>
import re
r = re.compile('()|(<[^>]*>)|([^<]+)', re.DOTALL)
for x, y, z in r.findall(sorge
Sono un po' emozionato: è la prima risposta che do in lista :-)
Se stringa è la variabile dove ci sono le informazioni:
*import re
m = re.search('(.+)', stringa)
m.group(0)
m.group(1)
*
Il giorno 29 settembre 2010 14:37, franco93it ha
scritto:
> Salve.
> Scarico il sorgente di una pagina we
Regular Expressions ...
Il giorno 29 settembre 2010 14:37, franco93it ha
scritto:
> Salve.
> Scarico il sorgente di una pagina web in questo modo:
>
> import urllib
> sock = urllib.urlopen("http://www.sito.ext/pagina.ext";)
> sorgente = sock.read()
> sock.close()
>
>
> Ora ho la stringa sorgente
Salve.
Scarico il sorgente di una pagina web in questo modo:
import urllib
sock = urllib.urlopen("http://www.sito.ext/pagina.ext";)
sorgente = sock.read()
sock.close()
Ora ho la stringa sorgente con il contenuto della pagina.
Come faccio ad estrarre dalla pagina determinate parti contenuti fra t
24 matches
Mail list logo