urlib Python爬虫

要使用Python进行爬虫,可以使用Python自带的urllib库。

urllib是Python内置的HTTP请求库,用于发送HTTP请求、处理响应和处理URL编码等任务。它提供了很多方法和函数,可以方便地进行网络数据的获取和处理,因此在Python爬虫中被广泛应用。

urllib库包含以下几个模块:

  • urllib.request:用于发送HTTP请求并获取响应的模块。
  • urllib.parse:用于解析和操作URL的模块。
  • urllib.error:用于处理HTTP请求过程中的错误的模块。
  • urllib.robotparser:用于解析和处理robots.txt文件的模块。

使用urllib库可以实现爬虫的基本功能,如发送HTTP请求、获取网页内容、解析URL、处理响应等。它可以配合其他库(如BeautifulSoup和正则表达式)一起使用,实现更复杂的爬虫功能。

urlopen()是urllib库中的一个函数,用于发送HTTP请求并获取响应。它的语法如下:

urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None)

参数说明:

  • url:要发送请求的URL地址。
  • data:可选参数,要发送的数据,可以是字典、元组或字符串,默认为None。
  • timeout:可选参数,设置超时时间,单位为秒,默认为socket._GLOBAL_DEFAULT_TIMEOUT(全局默认超时时间)。
  • cafile:可选参数,指定CA证书文件的路径,用于验证服务器端证书。
  • capath:可选参数,指定CA证书文件夹的路径,用于验证服务器端证书。
  • cadefault:可选参数,指定是否使用默认的CA证书文件或文件夹验证服务器端证书,默认为False。
  • context:可选参数,指定SSL上下文。

urlopen()函数返回一个类似于文件对象的Response对象,可以通过该对象的方法和属性来操作响应数据。常用的方法和属性包括:

  • read():读取响应内容。
  • geturl():获取响应的URL地址。
  • getheader(name):获取指定名称的响应头信息。
  • getheaders():获取所有响应头信息。

使用urlopen()函数可以发送GET或POST请求,并获取相应的数据。通过urlopen()函数,可以进行网页内容的抓取、文件的下载、API接口的调用等常见的爬虫任务。

import urllib.request
def request(url):
    '''
    一个参数
    :param url:请求网址
    :return:返回一个请求的字符串。编码为utf-8
    '''
    response = urllib.request.urlopen(url)  # 打开网站
    html=response.read()
    html=html.decode('utf-8')
    return html

在urllib库中,urllib.request模块提供了Request类,用于构建HTTP请求。Request类可以帮助我们更灵活地控制请求的头部、数据、方法、URL等属性。它的语法如下:

urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

参数说明:

  • url:要发送请求的URL地址。
  • data:可选参数,要发送的数据,可以是字典、元组或字符串,默认为None。
  • headers:可选参数,指定请求头信息的字典,默认为{}(空字典)。
  • origin_req_host:可选参数,指定请求的原始主机名,默认为None。
  • unverifiable:可选参数,指定该请求是否可验证,默认为False。
  • method:可选参数,指定请求的方法(GET、POST等),默认为None。

Request对象的实例可以传递给urlopen()函数,用于发送HTTP请求。通过构建Request对象,可以添加自定义的HTTP头部信息、发送POST请求、设置请求的方法等。例如,可以使用Request对象发送带有自定义头部的请求:

import urllib.request

url = 'https://www.example.com'
headers = {'User-Agent': 'Mozilla/5.0'}
req = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(req)

在上面的例子中,我们创建了一个包含自定义User-Agent头部的Request对象。然后,将Request对象传递给urlopen()函数,发送HTTP请求并获取响应。这样可以模拟浏览器发送请求,获取更符合需求的响应。

import urllib.request
import http.cookiejar
def request(url,headers):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return:html
    '''
    cookie = http.cookiejar.CookieJar()   # 创建 CookieJar 对象
    handler = urllib.request.HTTPCookieProcessor(cookie)  # 利用 HTTPCookieProcessor 来构建一个 handler
    opener = urllib.request.build_opener(handler)  # 利用 build_opener 方法构建出 opener 
    r = opener.open(url)  # 执行 open()

    html = r.read().decode('utf-8')
    return html

可以查看urllib官方文档以了解更多的用法和示例:https://docs.python.org/3/library/urllib.html

相关推荐

  1. AI+爬虫 爬虫

    2024-07-09 17:48:07       42 阅读
  2. 爬虫爬虫基础

    2024-07-09 17:48:07       5 阅读
  3. python爬虫

    2024-07-09 17:48:07       47 阅读
  4. python爬虫

    2024-07-09 17:48:07       46 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-09 17:48:07       3 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-09 17:48:07       3 阅读
  3. 在Django里面运行非项目文件

    2024-07-09 17:48:07       2 阅读
  4. Python语言-面向对象

    2024-07-09 17:48:07       2 阅读

热门阅读

  1. 【MySQL】SQL中的DROP、DELETE和TRUNCATE的区别

    2024-07-09 17:48:07       15 阅读
  2. 云原生监控-Kubernetes-Promethues-Grafana

    2024-07-09 17:48:07       13 阅读
  3. arm (exti中断)

    2024-07-09 17:48:07       11 阅读
  4. LRU Cache 双向链表以及STL list实现----面试常考

    2024-07-09 17:48:07       13 阅读
  5. gitlab每日备份以及restore

    2024-07-09 17:48:07       11 阅读
  6. Centos安装Node.js

    2024-07-09 17:48:07       9 阅读
  7. C#多线程并行计算实例

    2024-07-09 17:48:07       6 阅读
  8. C#架构师的成长之路

    2024-07-09 17:48:07       12 阅读
  9. 算法刷题1-10大排序算法汇总

    2024-07-09 17:48:07       12 阅读