Python爬虫-request的用法

import requests

if __name__ == ‘__main__‘:
    #基本用法
    #response = requests.get("http://httpbin.org/get")
    #print(response.text)

    #带参数的get
    #data = {
    #    "name":"wu",
    #    "age":21
    #}

    #response = requests.get("http://httpbin.org/get",params=data)
    #print(response.text)

    #解析json
    #print(response.json)

    #获取二进制信息
    #response = requests.get("http://github.com/favicon.ico")
    #print(response.content)
    #with open("favicon.ico","wb") as f:
    #    f.write(response.content)
    #    f.close()

    #添加headers
    #headers = {
    #    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
    #}
    #response = requests.get("http://www.zhihu.com/explore",headers = headers)
    #print(response.text)

    #post请求
    #data = {
    #    "name":"wu",
    #    "age":21
    #}

    #headers = {
    #    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
    #}

    #response = requests.post("http://www.httpbin.org/post",data = data,headers = headers)

    #状态码判断
    #response = requests.get("http://www.baidu.com")
    #exit() if not response.status_code == requests.codes.ok else print("OK")

    #文件上传
    #...

    #cookie
    #...

    #会话维持(模拟登陆验证)
    #s = requests.Session() #相当于在一个浏览器中
    #s.get("http://httpbin.org/cookies/set/number/123456789")
    #response = s.get("http://httpbin.org/cookies")
    #print(response.text)

    #证书验证(https)
    #response = get("http://www.12306.cn",verify = False)
    #print(response.status_code)
    #指定证书...

    #代理
    #proxies = {
    #    "http":
    #    "https"
    #}

    #response = requests.get("http://www.12306.cn",proxies = proxies)

    #超时设置
    #认证设置

原文地址:https://www.cnblogs.com/amojury/p/9127561.html

时间: 2024-10-10 10:41:18

Python爬虫-request的用法的相关文章

python 爬虫括号的用法

首先是文档说明: >>> import re >>> help(re.findall) Help on function findall in module re: findall(pattern, string, flags=0) Return a list of all non-overlapping matches in the string. If one or more capturing groups are present in the pattern,

python爬虫的进阶用法

应用场景: 01: 去爬虫微信公众号文章,已知requests的执行方式实际就是执行里面request方法, 我们进行重写request方法的init,加入我们需要的字段: 如 callback --获取response执行回调函数     need_proxy --是否需要代理 fail_time --执行get获取url的失败次数   timeout = 10 from requests import Request TIMEOUT = 10 class WeixinRequest(Requ

1、python爬虫 request.urlopen请求网页获取源码

# python3导入request包 from urllib import request import sys import io # 如果需要用print打印时,如果出现异常可以先设置输出环境 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') # 需要获取的url url = 'http://www.xxx.com/' # 头文件 headers = { "User-Agent": "M

Python爬虫利器四之PhantomJS的用法

前言 大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了.所以,我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面. 其中有一个比较常用的工具,那就是 PhantomJS Full web stack No browser required PhantomJS is a headless WebKit scriptable with a Ja

Python爬虫的Urllib库有哪些高级用法?

本文和大家分享的主要是python爬虫的Urllib库的高级用法相关内容,一起来看看吧,希望对大家学习python有所帮助. 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS.CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服.所以最重要的部分是存在于HTML中的,下面我 们就写个例子来扒一个网页下来. imp

Python爬虫入门之Urllib库的高级用法

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多次请求,一般是首先请求HTML文件,然后加载JS,CSS 等等,经过多次

转 Python爬虫入门四之Urllib库的高级用法

静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多次请求,一般

Python爬虫利器六之PyQuery的用法

前言 你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些前端基础了解选择器却与另外一些奇怪的选择器语法混淆了呢? 嗯,那么,前端大大们的福音来了,PyQuery 来了,乍听名字,你一定联想到了 jQuery,如果你对 jQuery 熟悉,那么 PyQuery 来解析文档就是不二之选!包括我在内! PyQuery 是 Python 仿照 jQuery

Python爬虫进阶五之多线程的用法

前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread 库,一个是 multiprocessing 库.而多线程 thread 在 Python 里面被称作鸡肋的存在!而没错!本节介绍的是就是这个库 thread. 不建议你用这个,不过还是介绍下了,如果想看可以看看下面,不想浪费时间直接看 multiprocessing 多进程 鸡肋点 名言: "Pyt