python爬虫基础,post提交方式复习

#-*-coding:utf8-*-

#参考学习官方资料    http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

#POST请求与POST的提交方式(比如post请求方式,application/json编码后的提交)#application/x-www-form-urlencoded    以form表单的形式提交数据,这是最常见的一种#application/json  以json串提交数据#multipart/form-data:上传文件

#http://httpbin.org/post     用来测试request的网址

import requestsurl=‘http://httpbin.org/post‘d={‘key1‘:‘value‘,‘key2‘:‘value2‘}response=requests.post(url,data=d)print(response.text)print(response.content)#二进制的响应方式print(response.json())#json的响应方式print(response.raise_for_status())#成功什么都不输出print(response.status_code)print(response.headers[‘Content-Type‘])# print(response.request.url)# print(response.url)# print(response.headers)#request上传文件的功能

#requests与cookies的联系print(‘---------------------------------------------------------‘)url2=‘http://httpbin.org/cookies‘cookies=dict(cookies_are=‘working‘)response2=requests.get(url2,cookies=cookies)print(response.cookies)#cookie的返回对象为RequestsCookieJar,它的行为和字典类似,但接口更为完整,适合跨域名跨路径使用。print(response2.text)

#你还可以把 Cookie Jar 传到 Requests 中jar=requests.cookies.RequestsCookieJar()jar.set(‘tasty_cookie‘,‘yum‘,domain=‘httpbin.org‘,path=‘/cookies‘)jar.set(‘gross_cookie‘,‘blech‘,domain=‘httpbin.org‘,path=‘/elsewhere‘)r=requests.get(url2,cookies=jar)print(r.text)

#重定向与禁用重定向re=requests.get(‘http://github.com‘)  #Github 将所有的 HTTP 请求重定向到 HTTPS:print(re.status_code,‘    ‘,re.url,‘    ‘,re.history)

#禁用重定向print(‘---------------------------------------------------‘)re=requests.head(‘http://github.com‘,allow_redirects=True)print(r.url,‘    ‘,r.status_code,‘     ‘,r.history)#使用HEAD启用重定向re=requests.head(‘http://github.com‘,allow_redirects=True)

#requests高级用法url3=‘http://www.yooc.me‘res=requests.get(url3)print(‘-------------------------------------------‘)print(res.request.headers)

#高级用法  http://docs.python-requests.org/zh_CN/latest/user/advanced.html#advanced

原文地址:https://www.cnblogs.com/qingsheng/p/9617262.html

时间: 2024-08-01 02:50:55

python爬虫基础,post提交方式复习的相关文章

python爬虫-基础入门-爬取整个网站《3》

python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python2.x 使用类库: >> urllib 库 >> urllib2 库 python3.x 使用的类库: >> urllib 库 变化: -> 在python2.x中使用import urllib2 ----- 对应的,在python3.x 中会使用import url

Python爬虫基础之requests

一.随时随地爬取一个网页下来 怎么爬取网页?对网站开发了解的都知道,浏览器访问Url向服务器发送请求,服务器响应浏览器请求并返回一堆HTML信息,其中包括html标签,css样式,js脚本等.我们之前用的是Python标准基础库Urllib实现的, 现在我们使用Python的Requests HTTP库写个脚本开始爬取网页.Requests的口号很响亮“让HTTP服务人类“,够霸气. 二.Python Requests库的基本使用 1.GET和POST请求方式 GET请求 1 import re

Python 爬虫基础

下面是一个 Python 爬虫最简单的例子,使用网络库 urllib2 和正则表达式库 re,模拟浏览器的 User-Agent. #!/usr/bin/env python # -*- coding: utf-8 -*- #引入基础网络库 import urllib2 #引入正则表达式模块 import re #模拟User-Agent headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWe

Python爬虫基础知识入门一

一.什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据. 爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值.也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序.以下行为都可以用爬虫实现: 咨询报告(咨询服务行业) 抢票神器 投票神器 预测(

Python爬虫基础知识及前期准备

学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结.第一次写这些,如果有错误,请多指教. 首先我们需要了解一下什么是爬虫. 根据百度百科上给出的定义," 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本."简单来说,爬虫类似手动下载网页信息,比如小说.歌曲.说到这,或许会有疑问,既然这样,干嘛还去敲代码,直接人工处理不好吗?话是这么说,但如果下载的

python爬虫基础02-urllib库

Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib. 官方文档链接为:https://docs.python.org/3/library/urllib.html 而urllib3则是增加了连接池等功能,两者互相都有补充的部分. urllib 它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,基本上涵盖了基础的网络请

Python爬虫基础——HTML、CSS、JavaScript、JQuery网页前端技术

一.HTML HTML是Hyper Text Markup Language(超文本标记语言)的缩写. HTML不是一种编程语言,而是标记语言. HTML的语法 双标签: <标签名></标签名> 单标签: <标签名/> HTML的元素和属性 <标签名 属性名=属性值>元素</标签名> <标签名 属性名=属性值/> HTML的结构 <!DOCTYPE html>----文件为html文件 <html lang=&quo

python爬虫基础

#! usr/bin/env python# -*- coding: utf-8 -*- ''' post''' import urllibimport urllib2url = ''values = {'user' : 'v1', 'password' : 'v2'}data = urllib.urlencode(values) request = urllib2.Request(url, data)response = urllib2.urlopen(request)print respon

python 爬虫基础知识(继续补充)

学了这么久爬虫,今天整理一下相关知识点,还会继续更新 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法. HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层. SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障