【Python-爬虫】

■ 爬虫分类

■ 1. 通用网络爬虫:(搜索引擎使用,遵守robots协议)

■ robots协议(君子协议)

robots协议:通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
网页后面加 robots.txt 查看网站robots协议。

实例一:www.qq.com/robots.txt
在这里插入图片描述

■ 2. 聚集网络爬虫:自己写的爬虫程序

■ urllib.request(要导入的模块)

  1. urllib.request.urlopen(URL,timeout) //URL地址,timeout响应时间

■ User-Agent

User-Agent 有游览器,操作系统信息。
向测试网站: http://httpbin.org/get 发送请求,会返回我们的请求头内容。
在这里插入图片描述
2.

P12 课

相关推荐

  1. python爬虫

    2024-05-13 21:04:09       32 阅读
  2. python爬虫

    2024-05-13 21:04:09       28 阅读
  3. python爬虫

    2024-05-13 21:04:09       8 阅读
  4. python爬虫

    2024-05-13 21:04:09       5 阅读
  5. python爬虫01-爬虫介绍

    2024-05-13 21:04:09       29 阅读
  6. Python爬虫之异步爬虫

    2024-05-13 21:04:09       11 阅读

最近更新

  1. .Net Core WebAPI参数的传递方式

    2024-05-13 21:04:09       2 阅读
  2. QT--气泡框的实现

    2024-05-13 21:04:09       3 阅读
  3. LeetCode 968.监控二叉树 (hard)

    2024-05-13 21:04:09       2 阅读
  4. leetcode热题100.完全平方数(动态规划进阶)

    2024-05-13 21:04:09       2 阅读
  5. leetcode328-Odd Even Linked List

    2024-05-13 21:04:09       3 阅读
  6. C 语言设计模式(结构型)

    2024-05-13 21:04:09       2 阅读
  7. v-if 与 v-show(vue3条件渲染)

    2024-05-13 21:04:09       2 阅读
  8. kafka防止消息丢失配置

    2024-05-13 21:04:09       3 阅读

热门阅读

  1. Harmony 添加library依赖库步骤

    2024-05-13 21:04:09       3 阅读
  2. Spring+Mybatis-plus 实现 Gauss DB数据库代码生成

    2024-05-13 21:04:09       3 阅读
  3. puppyteer

    2024-05-13 21:04:09       5 阅读
  4. 力扣:738. 单调递增的数字

    2024-05-13 21:04:09       5 阅读
  5. 访问者模式:设计模式中的动态行为扩展

    2024-05-13 21:04:09       4 阅读
  6. SQL简介

    2024-05-13 21:04:09       3 阅读
  7. vue 自定义事件和子组件方法调用

    2024-05-13 21:04:09       5 阅读
  8. 处理Git将本地大文件上传到公共区域失败

    2024-05-13 21:04:09       3 阅读
  9. 通过实例学C#之Stack类

    2024-05-13 21:04:09       6 阅读