खरोंच

टीएल; डीआर
स्क्रैप एक ऐसा शब्द है जो किसी वेबसाइट से डेटा निकालने का प्रतिनिधित्व करता है। यह काम एक कोड द्वारा किया जाता है जिसे "स्क्रैपर" कहा जाता है। डेटा को टेक्स्ट, फोटो, वीडियो, संपर्क जानकारी या उत्पाद आइटम द्वारा दर्शाया जा सकता है।
स्क्रैप के बारे में
स्क्रैप, जिसे वेब स्क्रैपिंग या वेब डेटा निष्कर्षण भी कहा जाता है, एक वेबसाइट से बड़ी मात्रा में डेटा प्राप्त करने की तकनीक है। इस प्रक्रिया के बाद कंप्यूटर या डेटाबेस में डेटा को टेबल फॉर्मेट में सेव किया जाता है।
यहां तक कि स्क्रैपिंग को मैन्युअल रूप से भी किया जा सकता है, आमतौर पर, वेब डेटा को स्क्रैप करते समय स्वचालित टूल का उपयोग किया जाता है क्योंकि यह एक तेज़ और कम खर्चीली प्रक्रिया है।
वेब स्क्रैपिंग अनिवार्य रूप से डेटा निकालने का एक रूप है। वेब स्क्रैपिंग प्रयासों में मौसम रिपोर्ट, बाजार मूल्य निर्धारण, या एकत्रित डेटा की कोई अन्य सूची जैसी वस्तुएं पाई जा सकती हैं।
स्क्रैप का उपयोग कब किया जाता है?
आमतौर पर, वेब स्क्रैपिंग का उपयोग तब किया जाता है जब सर्च इंजन बॉट्स किसी साइट का विश्लेषण करने या उसे रैंकिंग करने के लिए क्रॉल करते हैं, जब कीमत की तुलना करने वाले बॉट्स किए जाते हैं या जब मार्केट रिसर्च कंपनियां मंचों से डेटा खींचने के लिए स्क्रैपर्स का उपयोग करती हैं।
यह कैसे काम करता है?
सारा काम एक स्क्रैपर द्वारा किया जाता है, जो कोड का एक टुकड़ा है।
पहले चरण में, यह उस वेबसाइट पर "प्राप्त करें" कोड क्वेरी भेजता है जिसे वह स्क्रैप करना चाहता है। इसे किसी भी वेबसाइट के साथ काम करने के लिए कॉन्फ़िगर किया जा सकता है, या इसे किसी विशिष्ट वेबसाइट के लिए बनाया जा सकता है।
फिर, वेब स्क्रैपिंग सॉफ़्टवेयर आवश्यकता के आधार पर वेबसाइटों के एकाधिक पृष्ठों से डेटा को स्वचालित रूप से लोड और निकालेगा।
इसके बाद, यह क्वेरी के परिणामों के आधार पर एक HTML दस्तावेज़ को परिभाषित करता है।
अंतिम चरण में, अनुरोधित डेटा को स्क्रेपर्स द्वारा दस्तावेज़ में खोजा जाता है और परिणाम उपयोगकर्ता द्वारा पहले निर्दिष्ट दस्तावेज़ में परिवर्तित किए जाते हैं। एक बटन के एक साधारण क्लिक से, वेबसाइट पर उपलब्ध डेटा को आसानी से सहेजा जा सकता है।