Skip to main content

Robots.txt

TL; DR

Robots.txt — це протокол виключення для веб-сканерів, який ігнорує певні сторінки, папки або файли на веб-сайті, і використовується для покращення пошукової оптимізації.

Про Robots.txt

Стандарт виключення роботів, також званий протоколом виключення роботів (скорочено Robots.txt) — це файл, який дозволяє пошуковим системам знати, які веб-сторінки чи розділи веб-сайту не слід сканувати. Важливо, щоб robots.txt був правильно налаштований, оскільки одна помилка може призвести до деіндексації всього веб-сайту з пошукових систем.

Чому Robots.txt важливий?

Robots.txt є важливою частиною SEO, оскільки всі основні пошукові системи розпізнають і підкоряються цьому стандарту виключення. Більшості сайтів цей протокол не потрібен, оскільки Google буде індексувати лише важливі сторінки веб-сайту, залишаючи решту (наприклад, сторінки, що повторюються), але в деяких випадках рекомендується використовувати robots.txt. Стандарт виключення роботів можна використовувати, щоб запобігти індексації мультимедійних ресурсів (наприклад, зображень), блокувати сторінки, які не є загальнодоступними (наприклад, сторінки входу для учасників), а також максимізувати бюджет сканування.

Приклади файлів Robot.txt

Основним форматом файлу robots.txt є: User-agent: ______ Disallow: ______ Де user-agent — це ім’я робота, до якого звертаються, а частина, яка йде після «disallow», міститиме назву веб-сторінки. , папку або файл, який робот повинен ігнорувати під час відвідування веб-сайту. Замість назви конкретного бота можна використовувати зірочку (*), якщо потрібно звернутися до всіх роботів, які можуть відвідати веб-сайт. У цьому прикладі сканери інформуються про те, щоб вони не входили до згаданих каталогів: User-agent: * Disallow: /tmp/Disallow: /junk/У цьому випадку сканери інформуються про те, щоб уникати певного файлу: User-agent: * Disallow: /directory/file.html