网络爬虫如何爬取网页数据

房乐 ₂ CISAW CISP-PTE

房乐₂ 3年前 CISAW CISP-PTE

爬虫是什么：网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。又被称为网页蜘蛛，聚焦爬虫，网络机器人。在FOAF社区中间，更经常的称为网页追逐者，另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫工作原理：网络爬虫系统一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合。以这些种子集合作为初始URL，开始数据抓取。

爬虫工作流程：

1) 将这些种子URL集合放入待抓取URL队列。

2) 从待抓取URL队列中，取出待抓取URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。

3) 分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。如此反复进行，直到遍历了整个网络或者满足某种条件后，才会停止下来。

根据用户指令或设置爬取网页数据可以通过网页采集器实现，网页采集器也是爬虫的一种，常用的采集器推荐八爪鱼、火车头等。

3年前