Skip to main content

Robots.txt

TL; DR

Robots.txt to protokół wykluczania dla robotów indeksujących, który ignoruje określone strony, foldery lub pliki w witrynie i służy do ulepszania optymalizacji pod kątem wyszukiwarek.

O Robots.txt

Standard wykluczania robotów, zwany także protokołem wykluczania robotów (w skrócie Robots.txt) to plik, który pozwala robotom wyszukiwarek wiedzieć, które strony lub sekcje witryny mają nie indeksować. Ważne jest, aby plik robots.txt był poprawnie skonfigurowany, ponieważ pojedynczy błąd może spowodować usunięcie całej witryny z wyszukiwarek.

Dlaczego plik Robots.txt jest ważny?

Robots.txt jest ważną częścią SEO, ponieważ wszystkie główne wyszukiwarki rozpoznają i przestrzegają tego standardu wykluczania. Większość witryn nie potrzebuje tego protokołu, ponieważ Google indeksuje tylko ważne strony witryny, pomijając resztę (np. zduplikowane strony), ale w niektórych przypadkach zalecane jest użycie pliku robots.txt. Standard wykluczania robotów może służyć do zapobiegania indeksowaniu zasobów multimedialnych (np. obrazów), blokowania stron, które nie są publiczne (np. strony logowania członków) oraz maksymalizacji budżetu indeksowania.

Przykłady plików Robot.txt

Podstawowy format pliku robots.txt to: Klient użytkownika: ______ Disallow: ______ Gdzie klient użytkownika to nazwa robota, do którego jest adresowany, a część po „disallow” będzie zawierać nazwę strony internetowej , folder lub plik, który robot musi zignorować podczas odwiedzania strony internetowej. Gwiazdka (*) może być użyta zamiast nazwy konkretnego bota, jeśli chcesz zaadresować wszystkie roboty, które mogą odwiedzić witrynę. W tym przykładzie przeszukiwacze są informowane, aby nie wchodzić do wymienionych katalogów: User-agent: * Disallow: /tmp/Disallow: /junk/W tym przypadku przeszukiwacze są informowane o unikaniu określonego pliku: User-agent: * Disallow: /katalog/plik.html