更新时间:2023年05月09日14时19分 来源:传智教育 浏览次数:
通用网络爬虫和聚焦网络爬虫尽管工作原理有一些差别,但它们抓取网页的流程是类似的。图1展示了网络爬虫抓取网页的详细流程,可以帮助大家更好地理解网络爬虫抓取网页的详细过程。
图1 网络爬虫抓取网页详细流程
关于图1中抓取网页流程的详细介绍如下。
(1)选择一些网页,将这些网页的链接作为种子URL放入待抓取URL队列中。
(2)从待抓取URL队列中依次读取URL。
(3)通过DNS解析URL,把URL地址转换为网站服务器所对应的IP地址。
(4)将IP地址和网页相对路径名称交给网页下载器,网页下载器负责网页内容的下载。
(5)网页下载器将相应网页的内容下载到本地。
(6)将下载到本地的网页存储到页面库中,等待建立索引等后续处理;与此同时,将下载过网页的URL放入已抓取URL队列中。这个队列记载了网络爬虫已经下载过的网页URL,以避免网页重复抓取。
(7)从刚下载的网页中抽取出所包含的URL信息。
(8)在已抓取URL队列中检查抽取的URL是否被下载过。如果它还未被下载过,则将这个URL放入待抓取URL队列中。
如此重复步骤(2)~步骤(8),直到待抓取URL队列为空时停止抓取。