【Python-爬虫】

■ 爬虫分类

■ 1. 通用网络爬虫:(搜索引擎使用,遵守robots协议)

■ robots协议(君子协议)

robots协议:通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
网页后面加 robots.txt 查看网站robots协议。

实例一:www.qq.com/robots.txt
在这里插入图片描述

■ 2. 聚集网络爬虫:自己写的爬虫程序

■ urllib.request(要导入的模块)

  1. urllib.request.urlopen(URL,timeout) //URL地址,timeout响应时间

■ User-Agent

User-Agent 有游览器,操作系统信息。
向测试网站: http://httpbin.org/get 发送请求,会返回我们的请求头内容。
在这里插入图片描述
2.

P12 课

相关推荐

  1. python爬虫

    2024-05-13 21:04:09       49 阅读
  2. python爬虫

    2024-05-13 21:04:09       47 阅读
  3. python爬虫

    2024-05-13 21:04:09       23 阅读
  4. python爬虫

    2024-05-13 21:04:09       16 阅读
  5. python爬虫01-爬虫介绍

    2024-05-13 21:04:09       42 阅读
  6. Python爬虫之异步爬虫

    2024-05-13 21:04:09       20 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-13 21:04:09       5 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-13 21:04:09       5 阅读
  3. 在Django里面运行非项目文件

    2024-05-13 21:04:09       4 阅读
  4. Python语言-面向对象

    2024-05-13 21:04:09       6 阅读

热门阅读

  1. Harmony 添加library依赖库步骤

    2024-05-13 21:04:09       18 阅读
  2. Spring+Mybatis-plus 实现 Gauss DB数据库代码生成

    2024-05-13 21:04:09       14 阅读
  3. puppyteer

    2024-05-13 21:04:09       18 阅读
  4. 力扣:738. 单调递增的数字

    2024-05-13 21:04:09       21 阅读
  5. 访问者模式:设计模式中的动态行为扩展

    2024-05-13 21:04:09       23 阅读
  6. SQL简介

    2024-05-13 21:04:09       20 阅读
  7. vue 自定义事件和子组件方法调用

    2024-05-13 21:04:09       13 阅读
  8. 处理Git将本地大文件上传到公共区域失败

    2024-05-13 21:04:09       21 阅读
  9. 通过实例学C#之Stack类

    2024-05-13 21:04:09       18 阅读