robots.txt

TL; DR
Robots.txt, web tarayıcılarının bir web sitesindeki belirli sayfaları, klasörleri veya dosyaları yok sayması için bir dışlama protokolüdür ve arama motoru optimizasyonunu iyileştirmek için kullanılır.
Robots.txt hakkında
Robot dışlama protokolü olarak da adlandırılan robot dışlama standardı (kısaca Robots.txt), arama motoru örümceklerinin bir web sitesinin hangi web sayfalarını veya bölümlerini taramayacağını bilmesini sağlayan bir dosyadır. Robots.txt dosyasının doğru bir şekilde kurulması önemlidir, çünkü tek bir hata tüm bir web sitesinin arama motorlarından indekslenmesine neden olabilir.
Robots.txt Neden Önemli?
Robots.txt, tüm büyük arama motorları bu hariç tutma standardını tanıdığı ve bunlara uyduğu için SEO'nun önemli bir parçasıdır. Google, yalnızca bir web sitesinin önemli sayfalarını dizine ekleyecek ve geri kalanları (örneğin yinelenen sayfalar) dışarıda bırakacağından, sitelerin çoğu bu protokole ihtiyaç duymaz, ancak bazı durumlarda robots.txt'nin kullanılması tavsiye edilir. Robotlar hariç tutma standardı, multimedya kaynaklarının (örn. resimler) indekslenmesini önlemek, herkese açık olmayan sayfaları engellemek (örn. üye giriş sayfaları) ve tarama bütçesini en üst düzeye çıkarmak için kullanılabilir.
Robot.txt dosyası örnekleri
robots.txt dosyasının temel formatı şudur: User-agent: ______ Disallow: ______ User-agent, adreslenen robotun adıdır ve “disallow”dan sonra gelen kısım web sayfasının adını içerecektir. , robotun bir web sitesini ziyaret ederken göz ardı etmesi gereken klasör veya dosya. Web sitesini ziyaret edebilecek tüm robotlara hitap etmek isteniyorsa, belirli bir botun adı yerine yıldız işareti (*) kullanılabilir. Bu örnekte, tarayıcılara belirtilen dizinlere girmemeleri konusunda bilgi verilir: User-agent: * Disallow: /tmp/Disallow: /junk/Bu örnekte, tarayıcılar belirli bir dosyadan kaçınmaları konusunda bilgilendirilir: User-agent: * Disallow: /dizin/dosya.html