requests库入门之小爬虫

通用代码框架:

try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"

爬取某网页100次花费的时间

import requests
import time

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__==‘__main__‘:
    url=‘http://www.baidu.com‘
    a=time.time()
    for i in range(100):
        getHTMLText(url)
    b=time.time()
    print(‘爬取100次需要花费的时间为%d秒‘ %(b-a))

爬取京东商品页面的爬取:

import requests

url=‘https://item.jd.com/5369026.html‘
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[:1000])
except:
    print(‘爬取失败‘)

爬取有限制的网页:

import requests
url = ‘http://yzb.tju.edu.cn/xwzx/tkbs_xw/201609/t20160914_285521.htm‘
try:
    kv={‘user-agent‘:‘Mozilla/5.0‘}
    r = requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print(‘爬取失败‘)

百度关键词搜索:

import requests
keyword=‘Python‘
try:
    kv = {‘wd‘:keyword}
    r = requests.get(‘http://www.baidu.com/s‘,params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print(‘爬取失败‘)

360关键词搜索全代码:

import requests
keyword=‘Python‘
try:
    kv={‘q‘:keyword}
    r=requests.get(‘http://www.so.com/s‘,params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print(‘爬取失败‘)

图片爬取:

import requests
import os
url=‘http://image.nationalgeographic.com.cn/2017/0905/20170905114825283.jpg‘
root=‘E://pics//‘
path=root+url.split(‘/‘)[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r=requests.get(url)
        with open(path,‘wb‘) as f:
            f.write(r.content)
            f.close()
            print(‘文件保存成功‘)
    else:
        print(‘文件已存在‘)
except:
    print(‘爬取失败‘)

ip地址查询:

import requests
url=‘http://m.ip138.com/ip.asp?ip=‘
try:
    r=requests.get(url+‘202.204.80.112‘)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[-500:])
except:
    print(‘爬取失败‘)
时间: 2024-10-08 17:14:57

requests库入门之小爬虫的相关文章

Python爬虫之Requests库入门

目录 Requests库 Requests库的7个主要方法 Requests库的get()方法 Response对象的属性 理解Requests库的异常 爬取网页的通用代码框架 HTTP协议 协议对资源的操作 理解PATCH和PUT的区别 HTTP协议与Requests库 Requests库 Requests库的7个主要方法 方法 说明 requests.request() 构造一个请求,支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET

Requests库入门实例

了解了Requests库的基本用法,附上一篇理论链接https://www.cnblogs.com/hao11/p/12593419.html 我们就可以做一些小实例了 1.亚马逊商品的爬取 首先用get方法对亚马逊网站发送请求,然后看返回的状态码,此处503不是200,表明没有成功, 然后要看text内容,首先检查编码格式,header中不存在,用备用的替代,然后看到text中  For information about migrating to our APIs refer to our

python Requests库入门

一.Requests 库的安装 对Requests 库 更多了解移步:http://www.python-requests.org 安装操作: win平台:"以管理员身份运行" cmd ,执行 pip install requests 测试安装是否成功: >>> import requests >>> r=requests.get('http://www.baidu.com') >>> print(r.status_code) 20

requests库的基本使用 | 爬虫

# proxies代理 # 1.用法 import requests # 构建一个url # url = 'http://www.baidu.com' # 构建请求头 # headers = { # 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36' # } # 构建代理 # 网上查找免费代理 # prox

requests库入门

爬去网页的通用代码框架 try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: return "产生异常"

python requests库入门[转]

首先,确认一下: Requests 已安装 Requests是 最新的 让我们从一些简单的示例开始吧. 发送请求 使用Requests发送网络请求非常简单. 一开始要导入Requests模块: >>> import requests 然后,尝试获取某个网页.本例子中,我们来获取Github的公共时间线 >>> r = requests.get('https://github.com/timeline.json') 现在,我们有一个名为 r 的 Response 对象.可

Requests库入门——应用实例-百度、360搜索关键词提交

1 import requests 2 keyword = "Python" 3 try: 4 kv = {'wd':keyword} 5 r = requests.get("http://www.baidu.com/s",params=kv) 6 print(r.request.url) 7 r.raise_for_status() 8 print(len(r.text)) 9 except: 10 print("爬取失败") 原文地址:htt

网络爬虫入门:你的第一个爬虫项目(requests库)

0.采用requests库 虽然urllib库应用也很广泛,而且作为Python自带的库无需安装,但是大部分的现在python爬虫都应用requests库来处理复杂的http请求.requests库语法上简洁明了,使用上简单易懂,而且正逐步成为大多数网络爬取的标准. 1. requests库的安装采用pip安装方式,在cmd界面输入: pip install requests 小编推荐一个学python的学习qun 491308659 验证码:南烛无论你是大牛还是小白,是想转行还是想入行都可以来

python爬虫从入门到放弃(四)之 Requests库的基本使用

什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作.(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库. 默认安装好python之后,是没有安