Python爬虫-urllib的基本用法

from urllib import response,request,parse,error
from http import  cookiejar

if __name__ == ‘__main__‘:
    #response = urllib.request.urlopen("http://www.baidu.com")
    #print(response.read().decode("utf-8"))

    #以post形式发送,没有data就是get形式
    #请求头
    #data = bytes(urllib.parse.urlencode({"word":"hello"}),encoding="utf-8")
    #response = urllib.request.urlopen("http://httpbin.org/post",data=data)
    #print(response.read())

    #时间限制
    #response = urllib.request.urlopen("http://www.baidu.com",timeout=0.01)
    #print(response.read().decode("utf-8"))

    #响应处理
    #response = urllib.request.urlopen("http://www.python.org")
    #print(type(response))
    #状态码
    #print(response.status)
    #相应头
    #print(response.getheaders())
    #print(response.getheader("Server"))

    #复杂请求 request
    #request = urllib.request.Request("http://python.org")
    #response = urllib.request.urlopen(request)
    #print(response.read().decode("utf-8"))

    #请求头
    # add_header也可以
    """
    url = "http://httpbin.org/post"
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
        "Host":"httpbin.org"
    }
    dict = {
        "name":"Germey"
    }
    data = bytes(parse.urlencode(dict),encoding="utf8")
    req = request.Request(url,data,headers,method="POST")
    response = request.urlopen(req);
    print(response.read())
    """

    #代理
    """
    proxy_header = request.ProxyHandler({
        #代理IP
    })
    opener = request.build_opener(proxy_header)
    response = opener.open("http://httpbin.org/get")

    #cookies(维持登录状态)
    cookie = cookiejar.CookieJar()
    handler = request.HTTPCookieProcessor(cookie)
    opener = request.build_opener(handler)
    response = opener.open("http://www.baidu.com")
    """

    #保存cookies
    #MozillaCookieJar,LWPCookieJar

    #捕捉异常 基本上HTTPError或者URLError
    """
    try:
        response = request.urlopen("http://amojury.github.io")
    except error.URLError as e:
        print(e.reason)
    """

    #URL解析相关 urlparse urlunparse(反解析) urlencode(字典转请求参数)
    #result = parse.urlparse("https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=python%20%E6%89%B9%E9%87%8F%E6%B3%A8%E9%87%8A&rsv_pq=f9b1a8b300011700&rsv_t=1252nVpaBhdm%2FEdlsdrPgUxIHLfk4QNB443eSTUKoRcHFx9G09YZi9N9Dvo&rqlang=cn&rsv_enter=1&rsv_sug3=9&rsv_sug1=8&rsv_sug7=101&rsv_sug2=1&prefixsug=python%2520%25E6%2589%25B9%25E9%2587%258F&rsp=0&inputT=10498&rsv_sug4=14994")
    #print(result)

原文地址:https://www.cnblogs.com/amojury/p/9123553.html

时间: 2024-10-30 01:52:04

Python爬虫-urllib的基本用法的相关文章

python爬虫Urllib实战

Urllib基础 urllib.request.urlretrieve(url,filenname) 直接将网页下载到本地 import urllib.request >>> urllib.request.urlretrieve("http://www.hellobi.com",filename="D:\/1.html") ('D:\\/1.html', <http.client.HTTPMessage object at 0x0000000

python爬虫---urllib库的基本用法

urllib是python自带的请求库,各种功能相比较之下也是比较完备的,urllib库包含了一下四个模块: urllib.request   请求模块 urllib.error   异常处理模块 urllib.parse   url解析模块 urllib.robotparse    robots.txt解析模块 下面是一些urllib库的使用方法. 使用urllib.request import urllib.request response = urllib.request.urlopen(

Python 爬虫 --- urllib

对于互联网数据,Python 有很多处理网络协议的工具,urllib 是很常用的一种. 一.urllib.request,request 可以很方便的抓取 URL 内容. urllib.request.urlopen(url) 返回请求 url 后的二进制对象· 参数:url='http://www.baidu.com',请求的 url. data=None,请求的数据,可有可无,bytes 类型. timeout=3,设置访问超时时间,可有可无 cafile=None,HTTPS 请求 CA

Python爬虫Urllib库的高级用法

设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如某网站,点登录之后,我们会发现登陆之后界面都变化 了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多次请求,一般是首先请求HTML文 件,然后加载JS,CSS 等等,经过多

python爬虫---requests库的用法

requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多 因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下,正常则说明可以开始使用了. 基本用法: requests.get()用于请求目标网站,类型是一个HTTPresponse类型 import requests response = requests.get('http://www.baidu.com')print(response.status_c

Python爬虫--Urllib库

Urllib库 Urllib是python内置的HTTP请求库,包括以下模块:urllib.request (请求模块).urllib.error( 异常处理模块).urllib.parse (url解析模块).urllib.robotparser (robots.txt解析模块) 一.urllib.request 请求模块 1.urllib.request.urlopen urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=N

python爬虫 urllib库基本使用

以下内容均为python3.6.*代码 学习爬虫,首先有学会使用urllib库,这个库可以方便的使我们解析网页的内容,本篇讲一下它的基本用法 解析网页 #导入urllib from urllib import request # 明确url base_url = 'http://www.baidu.com/' # 发起一个http请求,返回一个类文件对象 response = request.urlopen(base_url) # 获取网页内容 html = response.read().de

python 爬虫urllib基础示例

环境使用python3.5.2  urllib3-1.22 下载安装 wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgz tar -zxf Python-3.5.2.tgz cd Python-3.5.2/ ./configure --prefix=/usr/local/python make && make install mv /usr/bin/python /usr/bin/python275 ln -s /us

Python爬虫之BeautifulSoap的用法

1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序. Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码.你不需要考虑编码方式,除非文档没有指