url管理器

url管理器:管理待抓取url集合 和已抓取url集合

已抓取url集合:防止重复抓取和循环抓取

url管理器功能

  1. 添加新URL到待爬取集合中
  2. 判断待添加url是否在容器中
  3. 获取待爬取url
  4. 判断是否还有待爬取url
  5. 将url从待爬取移到已爬取集合

实现方式

  1. 将url集合存储在内容中

    python内存
    待爬取集合:set()
    已爬取集合:set()

  2. 关系数据库中

    mysql
    urls(url,is_crawled)

  3. nosql

    redis set

HTTPROOT | 自学PHP | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 石头哥 |微信小程序 |木讯 |备案
Copyright © 1998 - 2016 HTTPROOT.COM. All Rights Reserved httproot.com 版权所有