爬虫的架构

爬虫的调度端
1.url管理器(需要爬的url,已爬的url)
2.网页下载器(下载网页)
3.网页解析器(获取数据存储,获取新的url到url管理器)

动态运行流程

调度器(是否有待爬取的url)->url管理器[是,否]
调度器(获取一个待爬url) ->url管理器(响应)
调度器(下载url内容)->下载器(返回下载后的内容)
调度器(解析url内容)->解析器(返回 价值数据,新的url列表)
调度器(价值数据)->应用

HTTPROOT | 自学PHP | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 石头哥 |微信小程序 |木讯 |备案
Copyright © 1998 - 2016 HTTPROOT.COM. All Rights Reserved httproot.com 版权所有