Skip to main content

Robots.txt

TL;DR

Robots.txt è un protocollo di esclusione per i web crawler per ignorare certe pagine, cartelle o file su un sito web, ed è usato per migliorare l'ottimizzazione dei motori di ricerca.

Informazioni su Robots.txt

Lo standard di esclusione dei robot, chiamato anche protocollo di esclusione dei robot (Robots.txt in breve), è un file che permette agli spider dei motori di ricerca di sapere quali pagine web o sezioni di un sito web non scansionare. È importante che il robots.txt sia impostato correttamente, poiché un singolo errore può far deindicizzare un intero sito web dai motori di ricerca.

Perché Robots.txt è importante?

Robots.txt è una parte importante del SEO, poiché tutti i principali motori di ricerca riconoscono e obbediscono a questo standard di esclusione. La maggior parte dei siti non ha bisogno di questo protocollo perché Google indicizza solo le pagine importanti di un sito web, lasciando fuori il resto (ad esempio le pagine duplicate), ma ci sono alcuni casi in cui si raccomanda di usare robots.txt. Lo standard di esclusione dei robot può essere utilizzato per impedire l'indicizzazione delle risorse multimediali (ad esempio le immagini), bloccare le pagine che non sono pubbliche (ad esempio le pagine di login dei membri) e per massimizzare il budget di crawl.

Esempi di file robots.txt

Il formato base del file robots.txt è: User-agent: ______ Disallow: ______ Dove l'user-agent è il nome del robot a cui ci si rivolge, e la parte che viene dopo "disallow" conterrà il nome della pagina web, cartella o file che il robot deve ignorare mentre visita un sito web. Un asterisco (*) può essere usato al posto del nome di un bot specifico, se si vuole indirizzare tutti i robot che potrebbero visitare il sito web. In questo esempio i crawler sono informati di non entrare nelle directory menzionate: User-agent: * Disallow: /tmp/ Disallow: /junk/ Mentre in questo, i crawler sono informati di evitare un file specifico: User-agent: * Disallow: /directory/file.html