Python学习爬虫 requests库

下载图片import requests

response = requests.get(‘http://www.51gis.com.cn/static/upload/3e223daf9df6216f/f3e187dfc0e4143a.jpg‘)

with open(‘51gis.jpg‘, ‘wb‘) as f:
    f.write(response.content)

==================================

import requests

class TiebaSpider(object):
    def __init__(self, tieba_name):
        self.tieba_name = tieba_name
        self.url_temp = "http://tieba.baidu.com/f?kw=" + tieba_name + "&ie=utf-8&pn={}"
        self.headers = {
            ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.75 Safari/537.36‘
        }

    def parse_url(self, url):
        #‘‘‘访问url‘‘‘
        response = requests.get(url, headers=self.headers)
        return response.text

    def save_html(self, url_html, page_num):
        ‘‘‘保存页面‘‘‘
        file_path = "《{}》-第{}页".format(self.tieba_name, page_num)
        with open(file_path + ‘.htm‘, ‘w‘) as f:
            f.write(url_html)

    def get_url_list(self):
        ‘‘‘构造url列表‘‘‘
        # 方法1
        url_list = []
        for i in range(10):
            url_list.append(self.url_temp.format(i * 50))

        return url_list

        # 方法2
        #return [self.url_temp.format(i * 50) for i in range(10)]

    def run(self):
        ‘‘‘主要逻辑‘‘‘
        # 1 构造url
        url_list = self.get_url_list()
        # 2 访问url
        for url in url_list:
            url_html = self.parse_url(url)
            # 3 保存
            page_num = url_list.index(url) + 1  # 获取页码
            self.save_html(url_html, page_num)

if __name__ == ‘__main__‘:
    name = input(‘请输入你想要爬取的论坛名称:‘)
    tb_spider = TiebaSpider(name)
    tb_spider.run()

原文地址:https://www.cnblogs.com/gisoracle/p/12286371.html

时间: 2024-10-08 17:15:07

Python学习爬虫 requests库的相关文章

爬虫requests库的方法与参数

爬虫requests库的方法与参数 import requests """ # 1. 方法 requests.get requests.post requests.put requests.delete ... requests.request(method='POST') """ # 2. 参数 """ 2.1 url 2.2 headers 2.3 cookies 2.4 params 2.5 data,传请求体

python爬虫---requests库的用法

requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多 因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下,正常则说明可以开始使用了. 基本用法: requests.get()用于请求目标网站,类型是一个HTTPresponse类型 import requests response = requests.get('http://www.baidu.com')print(response.status_c

[爬虫] requests库

requests库的7个常用方法 requests.request() 构造一个请求,支撑以下各种方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT requests.patch(

【Python学习】request库

Requests库(https://www.python-requests.org/)是一个擅长处理那些复杂的HTTP请求.cookie.header(响应头和请求头)等内容的Python第三方库. 提交一个最基本的表单 大多数网页表单都是由一些HTML字段.一个提交按钮.一个在表单处理完之后跳转的"执行结果"(表单属性action的值)页面构成. 一个最简单的表单(http://www.pythonscraping.com/pages/files/form.html) 这个表单的源码

爬虫——Requests库初识

1.Requests是什么 首先Requests是HTTP库,在爬虫中用于请求的相关功能. 而且requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库. 默认安装好python之后,是没有安装requests模块的,需要单独通过pip安装. 2.Requests的使用 import requests response = requests.get('https://www.baidu.com') print(response.text) print(respo

python接口测试之requests库(一)

一.requests库的安装 requests库作为第三方库,需要安装 cmd模式下,运行pip install requests 二.在学习如何发送请求之前,我们先来了解一下requests库,查看一下他有什么方法 print dir(requests) 三.模拟发送get请求 1.发送不带参数的get请求 r = requests.get('https://api.github.com/events') 返回的是一个response对象,该对象中包含的内容,通过dir(r) 2.发送带参数的

Python网络爬虫——BeautifulSoup4库的使用

使用requests库获取html页面并将其转换成字符串之后,需要进一步解析html页面格式,提取有用信息. BeautifulSoup4库,也被成为bs4库(后皆采用简写)用于解析和处理html和xml. 1.调用 bs4库中最主要的便是bs类了,每个实例化的对象都相当于一个html页面 需要采用from-import导入bs类,同时通过BeautifulSoup()创建一个bs对象 代码如下: import requests from bs4 import BeautifulSoup r=r

Python学习---爬虫学习[requests模块]180411

模块安装 安装requests模块 pip3 install requests 安装beautifulsoup4模块 [更多参考]https://blog.csdn.net/sunhuaqiang1/article/details/65936616 pip install beautifulsoup4 初识requests模块   [更多参考]http://www.cnblogs.com/wupeiqi/articles/6283017.html requests.post(url=""

Python网络爬虫-requests模块(II)

有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/env python # -*- coding:utf-8 -*- import requests if __name__ == "__main__": #张三人人网个人信息页面的url url = 'http://www.renren.com/289676607/profile' #伪装UA