Spinne / Web Crawler

TL;DR

Webcrawler, auch Spider oder Bots genannt, durchforsten das World Wide Web, um Seiten für Suchmaschinen zu indizieren, damit die Ergebnisse, die bei der Suche nach einem bestimmten Schlüsselwort angezeigt werden, relevant sind.

Was ist ein Webcrawler?

Ein Web-Crawler, Spider oder Suchmaschinen-Bot (wie z. B. Googlebot oder Bingbot) crawlt, lädt Inhalte aus dem gesamten Internet herunter und indiziert sie, indem er automatisch auf eine Website zugreift und alle darin enthaltenen Links durchgeht.

Wie funktionieren Webcrawler?

Suchmaschinen setzen fast immer Bots ein, um relevante Links zu sammeln, zu indexieren und als Antwort auf die Suchanfragen (Schlüsselwörter) der Nutzer bereitzustellen.

Die Rolle eines Suchmaschinen-Crawler-Bots ist vergleichbar mit der einer Person, die eine ganze Bibliothek organisiert und eine leicht zu überprüfende Seite oder einen Katalog mit allen Büchern erstellt, um sie leicht zu finden; in ähnlicher Weise organisieren die Bots die Seiten im Web und zeigen die relevanten Seiten auf der Grundlage dessen an, was eine Person sucht.

Neue Seiten und Websites werden jede Sekunde aktualisiert und veröffentlicht, und das Hauptziel der Web-Crawler besteht darin, mit dem Crawlen einer Liste bekannter URLs zu beginnen und fortzufahren, wenn sie Hyperlinks zu anderen URLs finden, die sie der Liste der als nächstes zu durchsuchenden Seiten hinzufügen.

up-arrow.svg