刮擦

TL;DR
Scrape是一个术语,表示从一个网站上提取数据。这项工作是由一个被称为 "刮刀 "的代码进行的。这些数据可以由文本、照片、视频、联系信息或产品项目表示。
关于搜刮
刮削,也被称为网络刮削或网络数据提取,是从网站上检索大量数据的技术。在这个过程中,要把数据保存在电脑上或以表格的形式保存在数据库中。
即使搜刮可以手动完成,通常情况下,搜刮网络数据时使用自动化工具,因为它是一个更快和更低成本的过程。
网络搜刮本质上是一种数据提取的形式。像天气报告、市场定价或任何其他收集的数据清单等项目都可以在网络搜刮工作中找到。
什么时候使用刮削?
通常,当搜索引擎机器人抓取一个网站进行分析或排名时,当价格比较部署机器人时,或当市场研究公司使用刮刀从论坛上提取数据时,都会使用网络刮削。
它是如何工作的?
所有的工作都是由搜刮器完成的,它是一段代码。
在第一步中,它向它希望被搜刮的网站发送一个 "获取 "代码查询。它可以被配置为与任何网站一起工作,也可以为一个特定的网站建立。
然后,网络刮削软件将根据要求自动加载和提取网站的多个页面的数据。
之后,它根据查询的结果定义一个HTML文档。
在最后一步,要求的数据被搜刮者在文档中搜索,结果被转换为用户之前指定的文档。只需简单地点击一个按钮,就可以轻松地保存网站上的数据。