Python学习---爬虫学习[requests模块]180411

模块安装

安装requests模块

pip3 install requests

安装beautifulsoup4模块

[更多参考]https://blog.csdn.net/sunhuaqiang1/article/details/65936616

pip install beautifulsoup4

初识requests模块

 

【更多参考】http://www.cnblogs.com/wupeiqi/articles/6283017.html

requests.post(url="", data="data", json="json", **kwargs)
requests.get(url="", params="", **kwargs)
requests.options(url="", **kwargs)
requests.put(url="", data="data", **kwargs)
requests.delete(url="", **kwargs)
requests.head(url="", **kwargs)

requests.get请求实例

import requests
from bs4 import BeautifulSoup

response = requests.get(url="https://www.sogou.com/sgo?query=小猪佩奇")
# print("GET请求结果:", response.text)

soup = BeautifulSoup(response.text, "html.parser")
str = soup.find_all(name="div", class_="rt-news151127")  # 因为class是关键字,所以这里带了下划线
print("BS解析后的内容:", str)

requests.post请求实例

import requests
from bs4 import BeautifulSoup

form_data = {
    ‘phone‘: ‘13235‘,
    ‘password‘: ‘asdf‘,
    ‘oneMonth‘: 1
}
response_post = requests.post(
    url=‘http://dig.chouti.com/login‘,
    data=form_data
)
print(response_post.text)

requests参数

【更多参考】http://www.cnblogs.com/wupeiqi/articles/6283017.html

- requests模块

a. 基本参数:method,url,params,data,json,headers,cookies

b. 其他参数:files,auth,proxies....

实例演示POST/GET请求参数

settings.py

INSTALLED_APPS = [
   ...
 ‘app01‘,   # 注册app
]
MIDDLEWARE = [
...
# ‘django.middleware.csrf.CsrfViewMiddleware‘,
      ...
]

STATICFILES_DIRS = (os.path.join(BASE_DIR, "statics"),)  # 现添加的配置,这里是元组,注意逗号
TEMPLATES = [
   ...
   ‘DIRS‘: [os.path.join(BASE_DIR, ‘templates‘)],
]

urls.py

from django.contrib import admin
from django.urls import path
from django.conf.urls import url, include
from app01 import views
urlpatterns = [
   url(‘test/‘, views.Test),
]

views.py

from django.shortcuts import render, redirect, HttpResponse
from app01 import models
def Test(request):
    print("request.method:", request.method)
    print("request.GET:", request.GET)
    print("request.POST:", request.POST)
    print("request.body:", request.body)
    return HttpResponse("OK ")

test.py  -->[Django的服务端启动后执行该py文件,get和post分开请求]

import requests
# POST请求中data和json参数并无实际意义
requests.request(
    method=‘get‘,  # get请求的参数都会在浏览器内显示
    url=‘http://127.0.0.1:8000/test/‘,
    # 这里是字典形式的拼接
    params={‘username‘: ‘hhh‘, ‘passwd‘: ‘[email protected]‘},  # rqeuests会自动拼接为 test?username=hhh&[email protected]
    # 直接传递拼接好的字符串也是可以的
    # params="username=hhh&[email protected]"  # test?username=hhh&[email protected]
)

# POST请求中可有params、data和json参数
import json
requests.request(
    method=‘post‘,
    url=‘http://127.0.0.1:8000/test/‘,
# 这里是字典形式的拼接
    # params参数需要: request.GET.get(‘username‘)来获取
    # 直接传递拼接好的字符串也是可以的
    # params="username=hhh&[email protected]"  # test?username=hhh&[email protected]
    params={‘username‘: ‘hhh‘, ‘passwd‘: ‘[email protected]‘}, # rqeuests会自动拼接为 test?username=hhh&[email protected]
    # data 参数需要 request.POST.get(‘username‘)来获取
    # data可以直接传递字符串过去: data="username=hhh;[email protected]"  【用封号区分开,实际上也是这样发送数据的】
# data属性默认的请求头为: content-type: application/x-www-form-urlencoded
    data={‘age‘: 24, ‘school‘: ‘peking‘},  # 这里的请求参数是以Form_Data传递过去,不再浏览器显示
# json默认请求头是: content-type: application/json,所以body有内容,POST内无内容
    # json.dumps后的结果是字符串
    # json=json.dumps({‘age‘: 24, ‘school‘: ‘peking‘})
)

Data格式的POST后台显示:

JSON格式的POST后台显示:

GET后台显示

如果需要手动添加App则命令为:

python manage.py startapp app01

实例演示Header请求

一般我们会在post请求的headers里面放2个参数:

‘User-Agent‘: ‘告诉服务器是正常的浏览器访问服务【Chrome/64.0.3282.186 Safari/537.36】‘,

‘Referer‘   : ‘告诉服务器我不是直接登录,上次访问过官网,这次是在上次访问基础上登录操作

import requests
response = requests.post(
    url="https://www.zhihu.com/",
    headers={
        ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36‘,
        ‘Referer‘: ‘https://www.zhihu.com‘,   # 告诉网站我上次访问过本官网
    }
)
print("带header的请求:\n", response.text)

不带请求头的访问:

带请求头的访问:

实例演示Cookies请求:session和cookie都是用于保持和服务器之间的对话

一般我们在post请求的Cookies里面放的参数都是根据前台获取的cookies,进行参数传递

import requests
response = requests.post(
    url="https://home.cnblogs.com/set/",  # 进入设置页面
    cookies={
        ‘.Cnblogs.AspNetCore.Cookies‘:‘CfDJ8Gf34cttDnEy2UYRcGZ0x3iHRU51QX‘,
        ‘.CNBlogsCookie‘:‘4BB40C02AC6BB1861B8A9835F7FC06D‘  # 这里仅举例,非正常cookie内容
    }
)
print("带cookie进行请求:\n", response.text)

前台登录成功后的cookies信息:

后台访问设置页面:

原文地址:https://www.cnblogs.com/ftl1012/p/9419282.html

时间: 2024-10-01 02:20:45

Python学习---爬虫学习[requests模块]180411的相关文章

爬虫学习 04.Python网络爬虫之requests模块(1)

爬虫学习 04.Python网络爬虫之requests模块(1) 引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档症.抑郁.头疼.甚至死亡. 今日概要 基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基于requests模块ajax的post请求 综合项目练习:爬取国家药品监

爬虫学习 06.Python网络爬虫之requests模块(2)

爬虫学习 06.Python网络爬虫之requests模块(2) 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 了解cookie和session - 无状态的http协议 如上图所示,HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容.对于服务器来说,并不关心,也并不知道是哪个用户的请求.对于一般浏览性的网页来说

04,Python网络爬虫之requests模块(1)

Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档症.抑郁.头疼.甚至死亡. 今日概要 基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基于requests模块ajax的post请求 综合项目练习:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据 知识点回顾 常见

python网络爬虫之requests模块

什么是requests模块: requests模块是python中原生的基于网路请求的模块,其主要作用是用来模拟浏览器发送请求,功能强大,用法简洁高效,在爬虫的领域占半壁江山 如何使用requests模块: 安装:pip install requests 使用流程: 1.指定url 2.发送请求 3.获取数据 4.持久化存储 爬虫之反爬机制 未完待续 原文地址:https://www.cnblogs.com/xinjie123/p/10798095.html

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍: 2. 从简单语句中开始: 3. 传送数据给服务器 4. HTTP头-描述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 11. Deb

网络爬虫之requests模块

一 . requests模块的学习 什么是requests模块 ? requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能强大,用法简洁高效.在爬虫领域中占据着半壁江山的地位. 为什么要使用requests模块 因为在使用urllib模块的时候,会有诸多不便之处,总结如下: 手动处理url编码 手动处理post请求参数 处理cookie和代理操作繁琐 ...... 使用requests模块: 自动处理url编码 自动处理post请求参数 简化coo

python网络爬虫学习资料

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则

python 爬虫 基于requests模块的get请求

需求:爬取搜狗首页的页面数据 import requests # 1.指定url url = 'https://www.sogou.com/' # 2.发起get请求:get方法会返回请求成功的响应对象 response = requests.get(url=url) # 3.获取响应中的数据:text属性作用是可以获取响应对象中字符串形式的页面数据 page_data = response.text # 4.持久化数据 with open("sougou.html","w&

python 爬虫 基于requests模块发起ajax的get请求

基于requests模块发起ajax的get请求 需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据 用抓包工具捉取 使用ajax加载页面的请求 鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求, 用抓包工具捉取页面刷新的ajax的get请求,捉取滚轮在最底部时候发起的请求 这个get请求是本次发起的请求的url ajax的get请求携带参数 获取响应内容不再是页面数据,是json字符串,是通过异步请求获取的电影