爬虫的架构

爬虫的调度端
1.url管理器(需要爬的url,已爬的url)
2.网页下载器(下载网页)
3.网页解析器(获取数据存储,获取新的url到url管理器)

动态运行流程

调度器(是否有待爬取的url)->url管理器[是,否]
调度器(获取一个待爬url) ->url管理器(响应)
调度器(下载url内容)->下载器(返回下载后的内容)
调度器(解析url内容)->解析器(返回价值数据,新的url列表)
调度器(价值数据)->应用

