Caros Colegas

Agradeço muito pelas respostas, e agora é que me dei conta das diferenças
entre as dicas apresentadas: wget para pegar o código fonte, e lynx e cia
para a página formatada.

Acabei usando o lynx -dump -crawl http://www.site.com | grep, sed, etc, pois
a opção crawl remove os números antes dos links.

Recomendo muito a todos aqueles que vivem pescando coisas da internet fazer
esses scripts de parsing da página formatada ou do código fonte (conforme a
conveniência), já que poupa bastante trabalho e faz a gente se sentir
poderoso, ainda mais naqueles sites que dificultam as coisas, hehe. Além
disso, é um ótimo exercício de regex no sed ou no grep.

Até mais

Helton


Em 2 de agosto de 2010 20:08, Cristiano <[email protected]> escreveu:

> --- Em [email protected], Elder Marco <elderma...@...>
> escreveu
> >
> > O lynx com a opção -dump não poderia te ajudar nisso?
>
> Quase todo browser em modo texto possui a opção -dump, citada pelo Elder.
>
> Além do lynx, você também o links e o w3m.
>
> Cada um deles renderiza a página em texto de maneira diferente do outro,
> principalmente se a página utilizar frames e/ou tabelas.
>
> Teste com todos para ver o que lhe devolve o formato mais amigável
>
>
>
>
> ------------------------------------
>
> ---------------------------------------------------------------------
> Esta lista não admite a abordagem de outras liguagens de programação, como
> perl, C etc. Quem insistir em não seguir esta regra será moderado sem prévio
> aviso.
> ---------------------------------------------------------------------
> Sair da lista: [email protected]
> ---------------------------------------------------------------------
> Esta lista é moderada de acordo com o previsto em
> http://www.listas-discussao.cjb.net
> ---------------------------------------------------------------------
> Servidor Newsgroup da lista: news.gmane.org
> Grupo: gmane.org.user-groups.programming.shell.brazil
>
> Links do Yahoo! Grupos
>
>
>
<http://www.google.com/search?q=baixando>


[As partes desta mensagem que não continham texto foram removidas]

Responder a