Skip to main content

Răzuire

TL;DR

Scrape este un termen care reprezintă extragerea de date de pe un site web. Această sarcină este efectuată de un cod care se numește "scraper". Datele pot fi reprezentate de text, fotografii, videoclipuri, informații de contact sau articole de produs.

Despre Scrape

Scrape, numit și web scraping sau web data extraction este tehnica de extragere a unor cantități mari de date de pe un site web. Acest proces este urmat de salvarea datelor pe un calculator sau într-o bază de date în format tabelar.

Chiar dacă răzuirea poate fi făcută manual, de obicei, instrumentele automate sunt folosite atunci când se răzuiesc date web, deoarece este un proces mai rapid și mai puțin costisitor.

Web scraping-ul este, în esență, o formă de extragere a datelor. Elemente precum rapoartele meteo, prețurile de pe piață sau orice altă listă de date colectate pot fi găsite în eforturile de web scraping.

Când se folosește scraping-ul?

De obicei, web scraping-ul este utilizat atunci când roboții motoarelor de căutare parcurg un site pentru a-l analiza sau pentru a-l clasifica, atunci când se desfășoară roboți de comparare a prețurilor sau atunci când companiile de cercetare de piață folosesc scrapere pentru a extrage date de pe forumuri.

Cum funcționează?

Toată treaba este efectuată de un scraper, care este o bucată de cod.

În primul pas, acesta trimite o interogare de cod "get" către site-ul web pe care dorește să fie răzuit. Acesta poate fi configurat pentru a lucra cu orice site web sau poate fi construit pentru un anumit site web.

Apoi, software-ul de răzuire web va încărca și va extrage automat date din mai multe pagini de site-uri web în funcție de cerințe.

După aceasta, definește un document HTML pe baza rezultatelor interogării.

În etapa finală, datele solicitate sunt căutate în document de către scraperi, iar rezultatele sunt convertite într-un document specificat anterior de către utilizator. Printr-un simplu clic pe un buton, datele disponibile pe site pot fi salvate cu ușurință.