Em 23/03/06, Savio Ramos<[EMAIL PROTECTED]> escreveu: > Olá, > > Estou fazendo um trabalho acadêmico de estudo do mercado imobiliário com uso > do software estatístico GNU R. Para conseguir a base de dados tenho que > visitar páginas e páginas de anúncios de imóveis em sítios de classificados > pela internet. > > Existe alguma linguagem de programação que possua ferramentas práticas de > acesso à paginas para copiar os dados e organiza-los em arquivos de texto? > > A tarefa de salvar a página e organizar num arquivo texto os dados separados > por ponto-e-vírgula é realmente muuuuuuiiiiito chata.
Mesmo sem saber detalhes do seu problema, arrisco o palpite de que você talvez possa utilizar o wget para baixar as páginas, o grep para verificar se elas possuem palavras-chave que você procura e, depois, o awk e/ou sed para retirar informações das páginas e adiconá-las a um banco de dados. Alternativamente, você poderá baixar as páginas com "w3m -dump" ou "lynx -dump" e assim já eliminar logo o código html. Mas, como a capacidade de interpretação de um computador é ZERO, isso só vai funcionar se as páginas seguirem todas exatamente a mesma estrutura. Caso contrário, acho que somente será possível extrair dados manualmente. -- Jakson A. Aquino http://distante.dyndns.org:8280/