#FISL 13: Web Crawlers de código aberto

Nesta palestra, o Heitor, do NIC.BR, mostrou como funcionam os buscadores, e focou na apresentação das principais características de alguns webcrawlers livres: wire, wget, heritrix e nutch.

  • O wire é um web crawler desenvolvido no Chile (http://cwr.cl), é bastante antigo e foi modificado pelo pessoal do NIC.BR para corrigir algumas de suas deficiências, criando o fork wire-nic, hospedado no sourceforge.net;
  • O wget é talvez o mais conhecido, e mais simples de usar, e ainda assim possui inúmeras opções muito úteis, com destaque para a substituição de links, que permite navegar localmente no site baixado;
  • O heritrix é o crawler usado pelo The Internet Archive, e possui recursos importantes no que se refere à análise de dados;
  • O nutch é desenvolvido pela Apache e também oferece recursos de análise de sites.

Pelo que pude avaliar, Heritrix e Nutch são as melhores opções, mais robustos e com recursos de análise de sites, enquanto o wget é mais simples de usar, porém mais limitado.

Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

Christian Guerreiro

Professor por vocação, blogueiro e servidor público por opção, amante da tecnologia e viciado em informação.


Ensino a distância em Tecnologia da Informação: Virtualização com VMware, Big Data com Hadoop, Certificação ITIL 2011 Foundations e muito mais.


Suporte o Tecnologia que Interessa!

Você acha que as informações compartilhadas aqui são úteis?
Então me ajude a produzir ainda mais e melhores conteúdos!


É muito fácil. Basta divulgar nossos treinamentos pra alguém que conheça!


E se for de Salvador, podemos estruturar um curso presencial para sua empresa!

Eu vou ficar muito grato (e quem fizer os curso também :)!