当前位置: Python > scrapy爬虫框架setting模块解析

scrapy爬虫框架setting模块解析

2020-03-11 分类:Python 作者:admin 阅读(23)

平时写爬虫的时候并不需要设置setting里所有的参数,今天心血来潮,花了点时间查了一下setting模块创建后自动写入的所有参数的含义,记录一下。

  • 模块相关说明信息

  • 项目名字和爬虫模块说明,引擎根据这个信息找到爬虫

  • 浏览器的USER_AGENT,可以自定义伪装。

  • 是否遵守robots协议,默认是遵守的,可以改成False或将其注释

  • 设置scrapy爬虫最大的并发请求数量,默认是16

  • 设置对访问同一个网站进行请求的延时时间,默认情况下,Scrapy在两个请求间不等待一个固定的值,而是使用0.5到1.5之间的一个随机值。

  • 设置对每个网站和每个IP的最大并发请求数量,两个最好只设置一个,如果都设置,则按照限制IP生效。

  • 设置是否禁用cookie,目前默认是可用的,去掉注释则禁用

  • 设置是否可远程登录控制台,目前默认是可以的,去掉注释则禁用

  • 用来设置请求头,一般不用,因为请求头可以动态设置

  • 是否开启使用爬虫spider的中间件,默认不启用,解除注释后启用,后面的数字代表优先级,数字越小,优先级越高

  • 是否开启爬虫下载器的中间件,默认不启用,解除注释后启用

  • 是否禁用爬虫扩展,默认禁用,解除注释后将None改成数字,如500,扩展的优先级一般不重要,因为他们并不相互依赖,多个扩展的value值可以写相同。

  • 是否开启管道,默认关闭,开启則解除注释。是一个字典,默认为空,值任意,不过一般设置在0-1000之间,值越小优先级越高。

  • 设置自动限速,根据Scrapy服务器及爬取的网站的负载自动限制爬取速度,默认关闭,开启需解除注释。

  • 启用和配置HTTP缓存

  • 另外的重要的设置:
  1. DEPTH_LIMIT:爬取网站最大的允许深度,默认值为0,表示没有限制;如果为1,表示只允许解析一层的url。
  2. DOWNLOAD_TIMEOUT:下载器超时时间,默认180s.
  3. LOG_ENABLED:是否启用logging,即日志文件,默认为True。
  4. LOG_ENCODING:设置日志文件的编码,默认使用UTF_8。
  5. LOG_LEVEL:对日志的内容进行等级的设置,有五个级别可以选择:

  1. PROXIES:设置代理;这不是scrapy内置的参数,但可以定义在setting模块,使用的时候可以导入。

「三年博客,如果觉得我的文章对您有用,请帮助本站成长」

赞(0) 打赏

支付宝
微信
0

支付宝
微信
标签:

上一篇:

下一篇:

你可能感兴趣

共有 0 - scrapy爬虫框架setting模块解析

博客简介

精彩评论

  • admin(6年前 (2020-03-09))

    分别用不同厚度的筏板定义,画图后这设置筏板变截面处理。 http://f.fwxgx.co...

    评:新文章!
  • admin(6年前 (2020-03-09))

    分别用不同厚度的筏板定义,画图后这设置筏板变截面处理。 http://f.fwxgx.co...

    评:新文章!
  • admin(6年前 (2020-03-09))

    新增一个框架图! http://biji.jinli.vip/wp-content/upl...

    评:新文章!
  • 一位WordPress评论者(6年前 (2020-02-13))

    嗨,这是一条评论。 要开始审核、编辑及删除评论,请访问仪表盘的“评论”页面。 评论者头像来自...

    评:世界,您好!