Skip to main content

Robots.txt

TL;DR

Robots.txt este un protocol de excludere pentru ca crawlerele web să ignore anumite pagini, foldere sau fișiere de pe un site web și este utilizat pentru îmbunătățirea optimizării motoarelor de căutare.

Despre Robots.txt

Standardul de excludere a roboților, denumit și protocolul de excludere a roboților (Robots.txt pe scurt) este un fișier care le permite păianjenilor motoarelor de căutare să știe ce pagini web sau secțiuni ale unui site nu trebuie să acceseze cu crawlere. Este important ca robots.txt să fie configurat corect, deoarece o singură greșeală poate face ca un întreg site web să fie deindexat de motoarele de căutare.

De ce este important Robots.txt?

Robots.txt este o parte importantă a SEO, deoarece toate motoarele de căutare majore recunosc și respectă acest standard de excludere. Majoritatea site-urilor nu au nevoie de acest protocol deoarece Google va indexa doar paginile importante ale unui site web, lăsând deoparte restul (ex. pagini duplicate), dar există unele cazuri în care se recomandă utilizarea robots.txt. Standardul de excludere a roboților poate fi folosit pentru a preveni indexarea resurselor multimedia (de ex. imagini), pentru a bloca pagini care nu sunt publice (de exemplu, paginile de conectare a membrilor) și pentru a maximiza bugetul de accesare cu crawlere.

Exemple de fișiere Robot.txt

Formatul de bază pentru fișierul robots.txt este: User-agent: ______ Disallow: ______ Unde user-agent este numele robotului căruia i se adresează, iar partea care urmează după „disallow” va conține numele paginii web , folder sau fișier pe care robotul trebuie să îl ignore în timp ce vizitează un site web. Un asterisc (*) poate fi folosit în locul numelui unui anumit bot, dacă doriți să vă adresați tuturor roboților care ar putea vizita site-ul web. În acest exemplu crawlerele sunt informate să nu intre în directoarele menționate: User-agent: * Disallow: /tmp/Disallow: /junk/În timpul acesta, crawlerele sunt informate să evite un anumit fișier: User-agent: * Disallow: /directory/file.html