Caros Colegas Agradeço muito pelas respostas, e agora é que me dei conta das diferenças entre as dicas apresentadas: wget para pegar o código fonte, e lynx e cia para a página formatada.
Acabei usando o lynx -dump -crawl http://www.site.com | grep, sed, etc, pois a opção crawl remove os números antes dos links. Recomendo muito a todos aqueles que vivem pescando coisas da internet fazer esses scripts de parsing da página formatada ou do código fonte (conforme a conveniência), já que poupa bastante trabalho e faz a gente se sentir poderoso, ainda mais naqueles sites que dificultam as coisas, hehe. Além disso, é um ótimo exercício de regex no sed ou no grep. Até mais Helton Em 2 de agosto de 2010 20:08, Cristiano <[email protected]> escreveu: > --- Em [email protected], Elder Marco <elderma...@...> > escreveu > > > > O lynx com a opção -dump não poderia te ajudar nisso? > > Quase todo browser em modo texto possui a opção -dump, citada pelo Elder. > > Além do lynx, você também o links e o w3m. > > Cada um deles renderiza a página em texto de maneira diferente do outro, > principalmente se a página utilizar frames e/ou tabelas. > > Teste com todos para ver o que lhe devolve o formato mais amigável > > > > > ------------------------------------ > > --------------------------------------------------------------------- > Esta lista não admite a abordagem de outras liguagens de programação, como > perl, C etc. Quem insistir em não seguir esta regra será moderado sem prévio > aviso. > --------------------------------------------------------------------- > Sair da lista: [email protected] > --------------------------------------------------------------------- > Esta lista é moderada de acordo com o previsto em > http://www.listas-discussao.cjb.net > --------------------------------------------------------------------- > Servidor Newsgroup da lista: news.gmane.org > Grupo: gmane.org.user-groups.programming.shell.brazil > > Links do Yahoo! Grupos > > > <http://www.google.com/search?q=baixando> [As partes desta mensagem que não continham texto foram removidas]
