Skip to main content

Robots.txt

TL;DR

Robots.txt - это протокол исключения для веб-краулеров, позволяющий игнорировать определенные страницы, папки или файлы на сайте, и используется для улучшения поисковой оптимизации.

О Robots.txt

Стандарт исключения роботов, также называемый протоколом исключения роботов (сокращенно Robots.txt) - это файл, который позволяет паукам поисковых систем знать, какие веб-страницы или разделы веб-сайта не следует просматривать. Очень важно, чтобы robots.txt был настроен правильно, поскольку одна ошибка может привести к тому, что весь сайт будет деиндексирован поисковыми системами.

Почему Robots.txt важен?

Robots.txt является важной частью SEO, поскольку все основные поисковые системы признают и соблюдают этот стандарт исключения. Большинству сайтов этот протокол не нужен, поскольку Google будет индексировать только важные страницы сайта, оставляя без внимания остальные (например, дубликаты страниц), но есть некоторые случаи, в которых рекомендуется использовать robots.txt. Стандарт исключения robots можно использовать для предотвращения индексации мультимедийных ресурсов (например, изображений), блокировки страниц, которые не являются общедоступными (например, страниц входа пользователей), а также для максимизации бюджета ползания.

Примеры файлов Robot.txt

Основной формат файла robots.txt следующий: User-agent: ______ Disallow: ______ Где user-agent - это имя робота, к которому обращаются, а часть, которая идет после "disallow", содержит имя веб-страницы, папки или файла, которые робот должен игнорировать при посещении сайта. Вместо имени конкретного робота можно использовать звездочку (*), если вы хотите обратиться ко всем роботам, которые могут посетить сайт. В данном примере роботам сообщается, что они не должны заходить в упомянутые каталоги: User-agent: * Запретить: /tmp/ Запретить: /junk/ В этом примере роботы информируются о том, что им следует избегать определенного файла: User-agent: * Запретить: /directory/file.html