Skip to main content

Spider / Web Crawler / Aranha / Rastejador de Teias

TL;DR

Web crawlers, conhecidos como spiders ou bots também, rastejam pela World Wide Web para indexar páginas para motores de busca, pelo que os resultados dados após a pesquisa de uma palavra-chave específica são relevantes.

O que é um rastejador da web?

Um web crawler, spider, ou motor de busca bot (como o Googlebot ou Bingbot), rastreia, descarrega e indexa conteúdo de toda a Internet, acedendo automaticamente a um site e passando por todos os links dentro dele.

Como funcionam os web crawlers?

Os motores de busca quase sempre operam bots a fim de recolher, indexar e fornecer links relevantes em resposta às consultas de pesquisa do usuário (palavras-chave).

O papel de um motor de busca crawler bot é muito semelhante ao de uma pessoa que organiza uma biblioteca inteira e cria uma página ou catálogo fácil de verificar todos os livros para encontrá-los facilmente; da mesma forma, os bots organizam as páginas através da web e exibem as páginas relevantes com base no que uma pessoa procura.

Novas páginas e sites são atualizados e publicados a cada segundo, e o principal objetivo dos web crawlers é começar a rastejar a partir de uma lista de URLs conhecidas, e continuar, pois eles vão encontrar hiperlinks para outras URLs, e eles adicionam esses à lista de páginas a serem rastreadas a seguir.