爬虫学习(二)requests模块的使用

一、requests的概述

requests模块是用于发送网络请求,返回响应数据。底层实现是urllib,而且简单易用,在python2、python3中通用,能够自动帮助我们解压(gzip压缩的等)网页内容。

二、requests的基本使用

1、基本使用:

  • 安装requests模块: pip install requests
  • 导入模块:import reqeusts
  • 发送请求,获取响应:response = requests.get(url)
  • 从响应中获取数据

2、方法:

(1)requests.get(url, params=None, **kwargs),发送一个get请求,返回一个Response对象

  • url:请求的url
  • params:get请求的?后面可选参数字典
    方式一:自己拼接一个带有参数的URL,比如"https://www.sogou.com/web?query={}"
    方式二:在发送请求时,使用params指定,格式requests.get("url", params={})
  • **kwargs:可选参数
    headers请求头参数字典,格式 requests.get(url, headers={})

(2)requests.post(url, data=None, json=None, **kwargs),发送一个post请求

3、对象:

(1)Response对象,是发送请求后的响应对象

常用属性:

  • Response.text:str类型的响应数据
  • Response.content:二进制类型的响应数据
  • Response.status_code:响应状态码
  • Response.headers:响应头
  • Response.request.headers:请求头

原文地址:https://www.cnblogs.com/chjxbt/p/11359679.html

时间: 2024-10-09 07:24:51

爬虫学习(二)requests模块的使用的相关文章

【Rollo的Python之路】Python 爬虫系统学习 (二) Requests 模块学习

Requests模块学习: 1.0  Requests 初识 Requests 模块是一个第三方的库,首先我们要安装Requests.用pip安装,先看一下pip是哪个python 的版本. pip --version 然后用pip安装就OK pip install requests 开始要导入 Requests 模块 import requests 然后我们试一下: import requests results = requests.get('https://www.baidu.com')

爬虫简介和requests模块

目录 爬虫介绍 requests模块 requests模块 1.requests模块的基本使用 2.get 请求携带参数,调用params参数,其本质上还是调用urlencode 3.携带headers,请求头是将自身伪装成浏览器的关键 4.带cookie 5.发送post请求(注册,登陆),携带数据(body) 6.session对象 7.响应对象 8.乱码问题 9.解析json 10.使用代理 11.异常处理 12.上传文件(爬虫用的比较少,一般用于后台写服务,将爬取下来的文件上传给其他服务

爬虫基础之requests模块

1. 爬虫简介 1.1 概述 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 1.2 爬虫的价值 在互联网的世界里最有价值的便是数据, 谁掌握了某个行业的行业内的第一手数据, 谁就是该行业的主宰. 掌握了爬虫技能, 你就成了所有互联网信息公司幕后的老板, 换言之,它们都在免费为你提供有价值的数据. 1.3 robots.txt协议 如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话,那么

python学习-使用requests模块查询ip地址

思路是,使用requests模块调用阿里的ip接口查询ip归属地 关于requests模块的使用,可以查询相关文档,很强大,本次不做描述 #!/usr/bin/python #coding=utf-8 import requests   def checkip(ip):       URL = 'http://ip.taobao.com/service/getIpInfo.php'     try:         r = requests.get(URL, params=ip, timeout

爬虫(四):requests模块

1. requests模块 1.1 requests简介 requests 是一个功能强大.简单易用的 HTTP 请求库,比起之前用到的urllib模块,requests模块的api更加便捷.(本质就是封装了urllib3) 可以使用pip install requests命令进行安装,但是很容易出网络问题,所以我找了下国内的镜像源来加速. 然后就找到了豆瓣的镜像源: pip install 包名 -i http://pypi.douban.com/simple/ --trusted-host

scrapy 爬虫学习二[中间件的学习]

scrapy源码解析参考连接:https://www.jianshu.com/p/d492adf17312 ,直接看大佬的就行了,这里便就不多说了. 今天要学习的是:Scrapy框架中的download middlerware[下载中间件]用法. 一:官方文档中,对下载中间件的解释如下 下载中间件是介于scrapy的requests/response处理的钩子框架,是用于全局修改scrapy requests和response的一个轻量.底层的系统. 二:使用下载器中间件时必须激活这个中间件,方

Python爬虫学习二------爬虫基本原理

爬虫是什么?爬虫其实就是获取网页的内容经过解析来获得有用数据并将数据存储到数据库中的程序. 基本步骤: 1.获取网页的内容,通过构造请求给服务器端,让服务器端认为是真正的浏览器在请求,于是返回响应.python有很多请求的库,像urllib,requests库等,个人比较喜欢requests库,很容易上手. 2.解析获得的数据,可以通过正则表达式,bs4,xpath等解析工具来获得自己想要的数据. 3.存到数据库,现在最流行的三大数据库,mysql,mongodb,redis都可以通过pytho

python3网络爬虫学习——使用requests(1)

reuqests库中有很多便捷的方法,比如以GET方式获得网页,在requests库中就是方法get(),上代码 import requests r = requests.get('https://www.baidu.com') print(type(r)) print(r.status_code) print(type(r.text)) print(r.text) print(r.cookies) 相当于urlopen的方法,得到一个Response对象,然后分别输出他的类型,状态码,相应体的

爬虫学习二

什么是cooker: Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏览器会将Cookie的key/value保存到某个目录下的文本文件内,下次请求同一网站时就发送该Cookie给服务器(前提是浏览器设置为启用cookie).Cookie名称和值可以由服务器端开发自己定义,对于JSP而言也可以直接写入jsessionid,这样服务器可以知道该用户是否合法用户以及是否需要重新登录等. 参数的意义: NAME: cooker的名字 VALURE: cooker的值 Exo

爬虫简介与request模块

一 爬虫简介 概述 近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上爬取数据的手段. 网络爬虫,即Web Spider,是一个很形象的名字.如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的.从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网