Saltar al contenido principal
Sobre Nosotros

Robots.txt

TL;DR

Robots.txt es un protocolo de exclusión para que los rastreadores web ignoren ciertas páginas, carpetas o archivos de un sitio web, y se utiliza para mejorar la optimización de los motores de búsqueda.

Acerca de Robots.txt

El estándar de exclusión de robots también conocido como el protocolo de exclusión de robots (Robots.txt para abreviar) es un archivo que permite a las arañas de los motores de búsqueda saber qué páginas web o secciones de un sitio web no deben rastrearse. Es importante que el archivo robots.txt esté configurado correctamente, ya que un solo error puede hacer que todo un sitio web se despeje de los motores de búsqueda.

¿Por qué es importante Robots.txt?

Robots.txt es una parte importante del SEO, ya que todos los principales motores de búsqueda reconocen y obedecen esta norma de exclusión. La mayoría de los sitios no necesitan este protocolo ya que Google sólo indexa las páginas importantes de un sitio web, dejando fuera el resto (por ejemplo, las páginas duplicadas), pero hay algunos casos en los que se recomienda utilizar robots.txt. El estándar de exclusión de robots puede utilizarse para evitar la indexación de recursos multimedia (por ejemplo, imágenes), bloquear páginas que no son públicas (por ejemplo, páginas de inicio de sesión de miembros) y maximizar el presupuesto de rastreo.

Ejemplos de archivos Robot.txt

El formato básico del archivo robots.txt es: User-agent: Rechazar: Donde el usuario-agente es el nombre del robot al que se está dirigiendo, y la parte que viene después de "disallow" contendrá el nombre de la página web, carpeta o archivo que el robot debe ignorar mientras visita un sitio web. Se puede utilizar un asterisco (*) en lugar del nombre de un bot específico, si se quiere dirigir a todos los robots que puedan visitar el sitio web. En este ejemplo se informa a los crawlers de que no deben entrar en los directorios mencionados: User-agent: * Rechazar: /tmp/ Disallow: /junk/ En este caso, se informa a los crawlers para evitar un archivo específico: User-agent: * Rechazar: /directorio/archivo.html