On Wed, Sep 29, 2010 at 02:37:28PM +0200, franco93it wrote: > Salve. > Scarico il sorgente di una pagina web in questo modo: > > > import urllib > sock = urllib.urlopen("http://www.sito.ext/pagina.ext") > sorgente = sock.read() > sock.close() > > > Ora ho la stringa sorgente con il contenuto della pagina. > Come faccio ad estrarre dalla pagina determinate parti contenuti fra tag noti? > Per esempio se nella stringa c' <title>titolo</title> come faccio ad ottenere > titolo?
io trovo che pyquery sia il modo piĆ¹ semplice di risolvere il parsing di pagine html. In [1]: from pyquery import PyQuery In [2]: d = PyQuery(url='http://pypi.python.org/pypi/pyquery') In [3]: title = d('title')[0] In [4]: title.text Out[4]: 'Python Package Index : pyquery 0.6.1' sandro *:-) -- Sandro Dentella *:-) http://www.reteisi.org Soluzioni libere per le scuole http://sqlkit.argolinux.org SQLkit home page - PyGTK/python/sqlalchemy _______________________________________________ Python mailing list Python@lists.python.it http://lists.python.it/mailman/listinfo/python