ถู

TL;DR
ขูดเป็นคำที่แสดงถึงการดึงข้อมูลจากเว็บไซต์ งานนี้ดำเนินการโดยรหัสที่เรียกว่า "เครื่องขูด" ข้อมูลสามารถแสดงด้วยข้อความ รูปภาพ วิดีโอ ข้อมูลติดต่อ หรือรายการผลิตภัณฑ์
เกี่ยวกับขูด
การขูดหรือที่เรียกว่าการขูดเว็บหรือการดึงข้อมูลเว็บเป็นเทคนิคในการดึงข้อมูลจำนวนมากจากเว็บไซต์ กระบวนการนี้จะตามมาด้วยการบันทึกข้อมูลบนคอมพิวเตอร์หรือในฐานข้อมูลในรูปแบบตาราง
แม้แต่การขูดก็สามารถทำได้ด้วยตนเอง โดยปกติแล้ว เครื่องมืออัตโนมัติจะถูกนำมาใช้เมื่อทำการขูดข้อมูลเว็บ เนื่องจากเป็นกระบวนการที่รวดเร็วและมีค่าใช้จ่ายน้อยลง
การขูดเว็บเป็นรูปแบบหนึ่งของการดึงข้อมูล รายการต่างๆ เช่น รายงานสภาพอากาศ ราคาในตลาด หรือรายการข้อมูลที่เก็บรวบรวมอื่นๆ สามารถพบได้ในความพยายามในการขูดเว็บ
ขูดใช้เมื่อไหร่?
โดยปกติ การขูดเว็บจะใช้เมื่อบอทของเครื่องมือค้นหารวบรวมข้อมูลเว็บไซต์เพื่อวิเคราะห์หรือจัดอันดับ เมื่อมีการเปรียบเทียบราคาที่ใช้งานบอทเสร็จ หรือเมื่อบริษัทวิจัยตลาดใช้แครปเปอร์เพื่อดึงข้อมูลจากฟอรัม
มันทำงานอย่างไร?
งานทั้งหมดดำเนินการโดยมีดโกนซึ่งเป็นชิ้นส่วนของรหัส
ในขั้นตอนแรก จะส่งแบบสอบถามโค้ด "get" ไปยังเว็บไซต์ที่ต้องการคัดลอก สามารถกำหนดค่าให้ทำงานกับเว็บไซต์ใดก็ได้ หรือสร้างสำหรับเว็บไซต์เฉพาะก็ได้
จากนั้นซอฟต์แวร์ขูดเว็บจะโหลดและดึงข้อมูลจากเว็บไซต์หลายหน้าโดยอัตโนมัติตามความต้องการ
หลังจากนี้ จะกำหนดเอกสาร HTML ตามผลลัพธ์ของแบบสอบถาม
ในขั้นตอนสุดท้าย ข้อมูลที่ร้องขอจะถูกค้นหาในเอกสารโดยเครื่องขูดและผลลัพธ์จะถูกแปลงในเอกสารที่ระบุโดยผู้ใช้ก่อนหน้านี้ เพียงคลิกปุ่มเดียว ข้อมูลที่มีอยู่บนเว็บไซต์ก็สามารถบันทึกได้อย่างง่ายดาย