python3 requests模块

# coding:gbk
import requests

response = requests.get(‘http://www.sina.com.cn/‘)
print(response)
print(response.status_code)  # 200正常,404找不到网页,503等5开头的是人家网站内部错误
print(response.content)

爬虫实例

import re
import requests
from multiprocessing import Pool

def get_page(url, pattern):
    response = requests.get(url)
    if response.status_code == 200:
        return (response.text, pattern)

def parse_page(info):
    page_content, pattern = info
    res = re.findall(pattern, page_content)
    for item in res:
        dic = {
            ‘index‘: item[0],
            ‘title‘: item[1],
            ‘actor‘: item[2].strip()[3:],
            ‘time‘: item[3][5:],
            ‘score‘: item[4]+item[5]

        }
        print(dic)
if __name__ == ‘__main__‘:
    pattern1 = re.compile(r‘<dd>.*?board-index.*?>(\d+)<.*?title="(.*?)".*?star.*?>(.*?)<.*?releasetime.*?>(.*?)‘
                        r‘<.*?integer.*?>(.*?)<.*?fraction.*?>(.*?)<‘, re.S)

    url_dic = {
        ‘http://maoyan.com/board/7‘: pattern1,
    }

    p = Pool()
    for url, pattern in url_dic.items():
        res = p.apply_async(get_page, args=(url, pattern), callback=parse_page)

    p.close()
    p.join()

# {‘index‘: ‘1‘, ‘time‘: ‘2019-05-16‘, ‘title‘: ‘海蒂和爷爷‘, ‘actor‘: ‘阿努克·斯特芬,布鲁诺·甘茨,昆林·艾格匹‘, ‘score‘: ‘9.5‘}
# {‘index‘: ‘2‘, ‘time‘: ‘2019-05-31‘, ‘title‘: ‘尺八·一声一世‘, ‘actor‘: ‘佐藤康夫,小凑昭尚,蔡鸿文‘, ‘score‘: ‘9.4‘}
# {‘index‘: ‘3‘, ‘time‘: ‘2019-06-05‘, ‘title‘: ‘无所不能‘, ‘actor‘: ‘赫里尼克·罗斯汉,亚米·高塔姆,洛尼特·罗伊‘, ‘score‘: ‘9.3‘}
# {‘index‘: ‘4‘, ‘time‘: ‘2019-04-29‘, ‘title‘: ‘何以为家‘, ‘actor‘: ‘赞恩·阿尔·拉菲亚,约丹诺斯·希费罗,博鲁瓦蒂夫·特雷杰·班科尔‘, ‘score‘: ‘9.3‘}
# {‘index‘: ‘5‘, ‘time‘: ‘2019-05-17‘, ‘title‘: ‘一条狗的使命2‘, ‘actor‘: ‘丹尼斯·奎德,凯瑟琳·普雷斯科特,刘宪华‘, ‘score‘: ‘9.2‘}
# {‘index‘: ‘6‘, ‘time‘: ‘2019-05-10‘, ‘title‘: ‘一个母亲的复仇‘, ‘actor‘: ‘希里黛玉,阿克夏耶·坎纳,萨佳·阿里‘, ‘score‘: ‘9.2‘}
# {‘index‘: ‘7‘, ‘time‘: ‘2019-05-24‘, ‘title‘: ‘龙珠超:布罗利‘, ‘actor‘: ‘野泽雅子,堀川亮,中尾隆圣‘, ‘score‘: ‘9.2‘}
# {‘index‘: ‘8‘, ‘time‘: ‘2019-05-01‘, ‘title‘: ‘港珠澳大桥‘, ‘actor‘: ‘2288;‘, ‘score‘: ‘9.2‘}
# {‘index‘: ‘9‘, ‘time‘: ‘2019-05-17‘, ‘title‘: ‘音乐家‘, ‘actor‘: ‘胡军,袁泉,别里克·艾特占诺夫‘, ‘score‘: ‘9.1‘}
# {‘index‘: ‘10‘, ‘time‘: ‘2019-05-24‘, ‘title‘: ‘阿拉丁‘, ‘actor‘: ‘梅纳·玛索德,娜奥米·斯科特,马尔万·肯扎里‘, ‘score‘: ‘9.0‘}

原文地址:https://www.cnblogs.com/lilyxiaoyy/p/10987319.html

时间: 2024-07-31 14:20:04

python3 requests模块的相关文章

python3 requests模块 基本

1 import requests 2 import json 3 4 5 # 1.HTTP方法 6 requests.get('https://github.com/timeline.json') #GET请求 7 requests.post('http://httpbin.org/post') #POST请求 8 requests.put('http://httpbin.org/put') #PUT请求 9 requests.delete('http://httpbin.org/delete

[实战演练]python3使用requests模块爬取页面内容

本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取响应状态码 5.案例演示 后记 1.安装pip 我的个人桌面系统用的linuxmint,系统默认没有安装pip,考虑到后面安装requests模块使用pip,所以我这里第一步先安装pip. $ sudo apt install python-pip 安装成功,查看PIP版本: $ pip -V 2.

python3 爬虫之requests模块使用总结

Requests 是第三方模块,如果要使用的话需要导入.Requests也可以说是urllib模块的升级版,使用上更方便. 这是使用urllib的例子. import urllib.request import json url = 'http://www.weather.com.cn/data/sk/101190408.html' res = urllib.request.urlopen(url)#发送请求 result = res.read().decode()#获取结果,结果是byte类型

Learn_Day12 模块2:模块1内容补充、requests模块、xml模块

模块1内容补充: vars()    python自动设置的全局变量 在py文件开头用三引号注释,表示是对py文件本身的注释 __doc__    py文件本身的文件注释 __file__    文件路径 __package__    导入py文件(自定义模块)的位置(文件夹,目录),用"."分割 __cached__    缓存,python2版本无此属性 __name__    默认 __main__:主文件执行主函数前用作判断 json.loads(形似对象)    用于将形似列

7Python标准库系列之requests模块

Python标准库系列之requests模块 Requests is the only Non-GMO HTTP library for Python, safe for human consumption. 官方文档:http://docs.python-requests.org/en/master/ 安装Requests模块 Requests模块官方提供了两种方式安装: pip方式安装 pip install requests 源码方式安装 git clone git://github.co

python使用requests模块完成get/post/代理/自定义header/自定义cookies

一.背景说明 由于python3的urllib与python2有不少差别,而且urllib.request请求的一些写法不太符合人的思维习惯(文档也相当难看) 所以搞得真不太想用python,直到看urllib.request文档时注意到下边这句话 比较起来requests确实比较好用,文档也当清晰:需要自己额外安装一下,但仍比较推荐使用. 1.1 适用版本 适用于python2.6.python2.7.python3.4及以上版本,参见官方说明. 我这里使用的是当前最新的python3.7.

requests模块的入门使用

学习目标: 了解 requests模块的介绍 掌握 requests的基本使用 掌握 response常见的属性 掌握 requests.text和content的区别 掌握 解决网页的解码问题 掌握 requests模块发送带headers的请求 掌握 requests模块发送带参数的get请求 1 为什么要重点学习requests模块,而不是urllib requests的底层实现就是urllib requests在python2 和python3中通用,方法完全一样 requests简单易

爬虫学习(二)requests模块的使用

一.requests的概述 requests模块是用于发送网络请求,返回响应数据.底层实现是urllib,而且简单易用,在python2.python3中通用,能够自动帮助我们解压(gzip压缩的等)网页内容. 二.requests的基本使用 1.基本使用: 安装requests模块: pip install requests 导入模块:import reqeusts 发送请求,获取响应:response = requests.get(url) 从响应中获取数据 2.方法: (1)request

第三方requests模块

requests模块 requests: 将python编译器当做浏览器使用,可以访问网站,并且接受返回的数据(字符串) 1 import requests 2 import json 3 4 # 发送http请求 5 response = requests.get("http://www.weather.com.cn/adat/sk/101010500.html") 6 response.encoding = 'utf-8' 7 result = response.text 8 pr