盒子
盒子
文章目录
  1. 爬虫(1)
    1. 慕课
  • requests包
    1. r = requests.get(url)
    2. Response属性
    3. r.status_code==200
    4. r.status_code==404
  • requests库异常
    1. requests.ConnectionError
    2. requests.HTTPError
    3. requests.URLRequired
    4. requests.TooMantRedirects
    5. requests.ConnectTimeout
    6. requests.Timeout
  • HTTP协议
    1. HTTP协议对资源的操作
  • request方法中kwargs具体可选项
    1. 1
    2. 2
    3. 3
  • 爬虫引发的问题
    1. 网络爬虫的尺寸
      1. 小规模-网页
      2. 中规模-网站,系列网站
      3. 大规模-搜索引擎
  • spider_learing(一)

    爬虫(1)

    慕课

    requests包

    • r = requests.get(url)

      通过get方法和url构造request对象
      get返回的内容是Response对象
    • Response属性

      r.status_code 返回状态,200成功,404表示失败
      r.text 相应内容的字符串形式,即url对应的页面内容
      r.encoding 从header中猜测的相应内容编码方式
      r.apparent_encoding 从内容分析出的相应内容编码方式()备选编码方式
      r.content Http的二进制形式
    • r.status_code==200

      r.text, r.encoding, r.apparent_encoding, r.content
    • r.status_code==404

      某些原因出错将产生异常

    requests库异常

    • requests.ConnectionError

      网络连接错误异常,eg.DNS查询失败,拒绝连接等
    • requests.HTTPError

      HTTP错误异常
    • requests.URLRequired

      URL缺失异常
    • requests.TooMantRedirects

      超过最大重定向次数,产生重定向异常
    • requests.ConnectTimeout

      连接远程服务器超时异常
    • requests.Timeout

      请求URL超时,产生超时异常

    HTTP协议

    • HTTP协议对资源的操作

      get 获取url位置的资源
      head 获取url的头部信息
      post 请求向url位置的资源后附加新的数据
      put 请求url位置存储一个资源,覆盖原url位置的资源
      paych 请求局部更新url位置资源
      delete 删除url位置存储的资源

    request方法中kwargs具体可选项

    • 1

      params,data,json,headers
    • 2

      cookis,auth,files,timeout
    • 3

      proxies,allow_redirects,stream,verify,cert

    爬虫引发的问题

    • 网络爬虫的尺寸

      小规模-网页
      requests库
      中规模-网站,系列网站
      scrapy库
      大规模-搜索引擎
      定制开发,爬取全网
    支持一下
    扫一扫,支持YC
    • 微信扫一扫
    • 支付宝扫一扫