Skip to main content

ถู

TL;DR

ขูดเป็นคำที่แสดงถึงการดึงข้อมูลจากเว็บไซต์ งานนี้ดำเนินการโดยรหัสที่เรียกว่า "เครื่องขูด" ข้อมูลสามารถแสดงด้วยข้อความ รูปภาพ วิดีโอ ข้อมูลติดต่อ หรือรายการผลิตภัณฑ์

เกี่ยวกับขูด

การขูดหรือที่เรียกว่าการขูดเว็บหรือการดึงข้อมูลเว็บเป็นเทคนิคในการดึงข้อมูลจำนวนมากจากเว็บไซต์ กระบวนการนี้จะตามมาด้วยการบันทึกข้อมูลบนคอมพิวเตอร์หรือในฐานข้อมูลในรูปแบบตาราง

แม้แต่การขูดก็สามารถทำได้ด้วยตนเอง โดยปกติแล้ว เครื่องมืออัตโนมัติจะถูกนำมาใช้เมื่อทำการขูดข้อมูลเว็บ เนื่องจากเป็นกระบวนการที่รวดเร็วและมีค่าใช้จ่ายน้อยลง

การขูดเว็บเป็นรูปแบบหนึ่งของการดึงข้อมูล รายการต่างๆ เช่น รายงานสภาพอากาศ ราคาในตลาด หรือรายการข้อมูลที่เก็บรวบรวมอื่นๆ สามารถพบได้ในความพยายามในการขูดเว็บ

ขูดใช้เมื่อไหร่?

โดยปกติ การขูดเว็บจะใช้เมื่อบอทของเครื่องมือค้นหารวบรวมข้อมูลเว็บไซต์เพื่อวิเคราะห์หรือจัดอันดับ เมื่อมีการเปรียบเทียบราคาที่ใช้งานบอทเสร็จ หรือเมื่อบริษัทวิจัยตลาดใช้แครปเปอร์เพื่อดึงข้อมูลจากฟอรัม

มันทำงานอย่างไร?

งานทั้งหมดดำเนินการโดยมีดโกนซึ่งเป็นชิ้นส่วนของรหัส

ในขั้นตอนแรก จะส่งแบบสอบถามโค้ด "get" ไปยังเว็บไซต์ที่ต้องการคัดลอก สามารถกำหนดค่าให้ทำงานกับเว็บไซต์ใดก็ได้ หรือสร้างสำหรับเว็บไซต์เฉพาะก็ได้

จากนั้นซอฟต์แวร์ขูดเว็บจะโหลดและดึงข้อมูลจากเว็บไซต์หลายหน้าโดยอัตโนมัติตามความต้องการ

หลังจากนี้ จะกำหนดเอกสาร HTML ตามผลลัพธ์ของแบบสอบถาม

ในขั้นตอนสุดท้าย ข้อมูลที่ร้องขอจะถูกค้นหาในเอกสารโดยเครื่องขูดและผลลัพธ์จะถูกแปลงในเอกสารที่ระบุโดยผู้ใช้ก่อนหน้านี้ เพียงคลิกปุ่มเดียว ข้อมูลที่มีอยู่บนเว็บไซต์ก็สามารถบันทึกได้อย่างง่ายดาย