रोबोट्स.txt

टीएल; डीआर
robots.txt वेब क्रॉलर के लिए एक वेबसाइट पर कुछ पृष्ठों, फ़ोल्डरों या फ़ाइलों को अनदेखा करने के लिए एक बहिष्करण प्रोटोकॉल है, और इसका उपयोग खोज इंजन अनुकूलन में सुधार के लिए किया जाता है।
Robots.txt के बारे में
रोबोट बहिष्करण मानक को रोबोट बहिष्करण प्रोटोकॉल (संक्षेप में रोबोट्स.txt) के रूप में भी जाना जाता है, एक फ़ाइल है जो खोज इंजन स्पाइडर को यह बताती है कि कौन से वेब पेज या वेबसाइट के अनुभाग क्रॉल नहीं करना है। robots.txt को सही तरीके से सेट अप करना महत्वपूर्ण है, क्योंकि एक गलती से पूरी वेबसाइट सर्च इंजन से डीइंडेक्स हो सकती है।
Robots.txt क्यों महत्वपूर्ण है?
Robots.txt SEO का एक महत्वपूर्ण हिस्सा है, क्योंकि सभी प्रमुख सर्च इंजन इस बहिष्करण मानक को पहचानते हैं और उसका पालन करते हैं। अधिकांश साइटों को इस प्रोटोकॉल की आवश्यकता नहीं है क्योंकि Google केवल एक वेबसाइट के महत्वपूर्ण पृष्ठों को अनुक्रमित करेगा, बाकी (जैसे डुप्लिकेट पृष्ठ) को छोड़कर, लेकिन कुछ मामले ऐसे भी हैं जिनमें robots.txt का उपयोग करने की अनुशंसा की जाती है। रोबोट बहिष्करण मानक का उपयोग मल्टीमीडिया संसाधनों (जैसे छवियों) को अनुक्रमित करने से रोकने के लिए, उन पृष्ठों को ब्लॉक करने के लिए किया जा सकता है जो सार्वजनिक नहीं हैं (जैसे सदस्य लॉगिन पृष्ठ) और क्रॉल बजट को अधिकतम करने के लिए।
Robot.txt फ़ाइलों के उदाहरण
robots.txt फ़ाइल के लिए मूल प्रारूप है: उपयोगकर्ता-एजेंट: ______ अस्वीकार करें: ______ जहां उपयोगकर्ता-एजेंट रोबोट का नाम संबोधित किया जा रहा है, और "अस्वीकार करें" के बाद आने वाले भाग में वेब पेज का नाम होगा , फ़ोल्डर या फ़ाइल जिसे रोबोट को किसी वेबसाइट पर जाते समय अनदेखा करना चाहिए। एक विशिष्ट बॉट के नाम के बजाय एक तारांकन (*) का उपयोग किया जा सकता है, यदि कोई वेबसाइट पर आने वाले सभी रोबोटों को संबोधित करना चाहता है। इस उदाहरण में क्रॉलर्स को सूचित किया जाता है कि वे उल्लिखित निर्देशिकाओं में प्रवेश न करें: उपयोगकर्ता-एजेंट: * अस्वीकार करें: /tmp/अस्वीकार करें: /junk/जबकि इसमें क्रॉलर को एक विशिष्ट फ़ाइल से बचने के लिए सूचित किया जाता है: उपयोगकर्ता-एजेंट: * अस्वीकार करें: /निर्देशिका/file.html