Skip to main content

Ragno / Web Crawler

TL;DR

I web crawler, conosciuti anche come spider o bot, strisciano attraverso il World Wide Web per indicizzare le pagine per i motori di ricerca, in modo che i risultati forniti dopo aver cercato una parola chiave specifica siano rilevanti.

Cos'è un web crawler?

Un web crawler, spider, o bot dei motori di ricerca (come Googlebot o Bingbot), striscia, scarica e indicizza contenuti da tutta Internet accedendo automaticamente a un sito web e passando attraverso tutti i link al suo interno.

Come funzionano i web crawler?

I motori di ricerca utilizzano quasi sempre i bot per raccogliere, indicizzare e fornire link pertinenti in risposta alle query di ricerca degli utenti (parole chiave).

Il ruolo di un bot crawler dei motori di ricerca è molto simile a quello di una persona che organizza un'intera biblioteca e crea una pagina o un catalogo facile da controllare di tutti i libri per trovarli facilmente; allo stesso modo, i bot organizzano le pagine attraverso il web e mostrano quelle rilevanti in base a ciò che una persona cerca.

Nuove pagine e siti vengono aggiornati e pubblicati ogni secondo, e l'obiettivo principale dei web crawler è quello di iniziare la scansione da una lista di URL conosciuti, e continuare a trovare collegamenti ipertestuali ad altri URL, e aggiungerli alla lista di pagine da scansionare successivamente.