Em 23/03/06, Savio Ramos<[EMAIL PROTECTED]> escreveu:
> Olá,
>
> Estou fazendo um trabalho acadêmico de estudo do mercado imobiliário com uso 
> do software estatístico GNU R. Para conseguir a base de dados tenho que 
> visitar páginas e páginas de anúncios de imóveis em sítios de classificados 
> pela internet.
>
> Existe alguma linguagem de programação que possua ferramentas práticas de 
> acesso à paginas para copiar os dados e organiza-los em arquivos de texto?
>
> A tarefa  de salvar a página e organizar num arquivo texto os dados separados 
> por ponto-e-vírgula é realmente muuuuuuiiiiito chata.

Mesmo sem saber detalhes do seu problema, arrisco o palpite
de que você talvez possa utilizar o wget para baixar as
páginas, o grep para verificar se elas possuem
palavras-chave que você procura e, depois, o awk e/ou sed
para retirar informações das páginas e adiconá-las a um
banco de dados. Alternativamente, você poderá baixar as
páginas com "w3m -dump" ou "lynx -dump" e assim já eliminar
logo o código html.  Mas, como a capacidade de interpretação
de um computador é ZERO, isso só vai funcionar se as páginas
seguirem todas exatamente a mesma estrutura.  Caso
contrário, acho que somente será possível extrair dados
manualmente.

--
Jakson A. Aquino
http://distante.dyndns.org:8280/

Responder a