Skip to main content

Škrábání

TL;DR

Scrape je termín, který představuje extrakci dat z webových stránek. Tuto práci provádí kód, který se nazývá "scraper". Data mohou být reprezentována textem, fotografiemi, videi, kontaktními informacemi nebo položkami produktů.

O scrape

Scrape, nazývaný také web scraping nebo extrakce webových dat, je technika získávání velkého množství dat z webových stránek. Po tomto procesu následuje uložení dat do počítače nebo do databáze ve formátu tabulky.

I když lze scraping provádět ručně, obvykle se při scrapování webových dat používají automatizované nástroje, protože je to rychlejší a méně nákladný proces.

Škrábání webových dat je v podstatě forma získávání dat. Položky, jako jsou zprávy o počasí, ceny na trhu nebo jakýkoli jiný seznam shromážděných dat, lze nalézt při snaze o web scraping.

Kdy se scrape používá?

Obvykle se web scraping používá, když roboti vyhledávačů procházejí web za účelem jeho analýzy nebo hodnocení, když se provádí nasazení robotů pro porovnávání cen nebo když společnosti zabývající se průzkumem trhu používají scrapery k získávání dat z fór.

Jak to funguje?

Veškerou práci provádí scraper, což je kus kódu.

V prvním kroku odešle dotaz "get" kódu na webovou stránku, kterou chce scrapovat. Může být nakonfigurován tak, aby pracoval s jakoukoli webovou stránkou, nebo může být vytvořen pro konkrétní webovou stránku.

Poté software pro škrábání webových stránek automaticky načte a získá data z více stránek webových stránek na základě požadavku.

Poté na základě výsledků dotazu definuje dokument HTML.

V závěrečném kroku jsou požadovaná data vyhledána v dokumentu scraperem a výsledky jsou převedeny do dokumentu, který předtím zadal uživatel. Jednoduchým kliknutím na tlačítko lze snadno uložit data dostupná na webových stránkách.