不喜丶不悲
爬虫

网络爬虫如何爬取网页数据

分享
  • 房乐 2 CISAW CISP-PTE
    房乐2 CISAW CISP-PTE

    爬虫是什么:网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。又被称为网页蜘蛛, 聚焦爬虫, 网络机器人。在FOAF社区中间, 更经常的称为网页追逐者,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

    爬虫工作原理:网络爬虫系统一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合。以这些种子集合作为初始URL, 开始数据抓取。

    爬虫工作流程:

    1) 将这些种子URL集合放入待抓取URL队列。

    2) 从待抓取URL队列中, 取出待抓取URL, 解析DNS, 并且得到主机的ip, 并将URL对应的网页下载下来, 存储进已下载网页库中。此外, 将这些URL放进已抓取URL队列。

    3) 分析已抓取URL队列中的URL, 分析其中的其他URL, 并且将URL放入待抓取URL队列,从而进入下一个循环。如此反复进行,直到遍历了整个网络或者满足某种条件后,才会停止下来。

    根据用户指令或设置爬取网页数据可以通过网页采集器实现,网页采集器也是爬虫的一种,常用的采集器推荐八爪鱼、火车头等。

  • 写回答