数据挖掘_requests模块的get方法

关于requests模块

之前在跟大家讲通过字典列表批量获取数据的时候用过这个模块

安装过程就不再讲解了

requests模块是python的http库，可以完成绝大部分与http应用相关的工作，所以我们可以用它来进行数据抓取工作

requests模块有两个常用的方法，get 和 post 我们也主要只是围绕这两个方法来讲解requests模块

注意:requests不能模拟浏览器的全部行为

get方法

在requests模块中，我们可以通过get和post两种形式去向服务器发出http请求

例如，还是用我自己的网站做例子，来简单演示这个方法

# coding=utf-8
__Author__ = "susmote"

import requests

url = "http://www.susmote.com"
resp = requests.get(url)

with open("home.html", ‘w‘, encoding=‘utf8‘) as f:
    f.write(resp.text)

在命令行运行

我们得到了一个文件，也就是我的网站的首页的源码

我们通过浏览器打开，如下

resp还有一些其他的属性，你可通过help(resp)查看response的各种属性和方法

返回如下图

我们试一下里面的一些属性

编码问题

在这里要特别注意一下编码的问题

通过resp.encoding 可以返回默认编码，resp.text就是按照这个进行编码的

但如果将编码改为gb2312，就会出现乱码

response具有content属性，会以二进制的方式返回响应的内容，返回内容如下图所示

response还有json方法，可以将返回的文本内容以json的方式进行解析

http://jsonip.com 这个网站在接受get请求后，作为响应会向请求方法返回一个json格式的文本，里面会有发起请求的ip地址等信息

例如下面这个例子

# coding=utf-8
__Author__ = "susmote"

import requests

url = "http://jsonip.com/"
resp_ip = requests.get(url)

print("字符串格式")
print(resp_ip.text)
print(type(resp_ip))

print("字典格式")
print(resp_ip.json())
print(type(resp_ip))

print(resp_ip.text)

下面我们在命令行运行这个文件

在这个例子中，resp_ip的text包含了返回的文本信息，json格式的信息也是以文本的方式返回的，这个可以从返回结果中看出

resp_ip.json(）是使用json方法对返回的内容进行解析，将json解析的结果以字典的形式返回，但要注意的是json方法只是解析，并不会对resp.text造成影响，也就是之前的resp.text的内容是不变的

关与get方法大概就是这些，还有一些后面再讲

官方博客 www.susmote.com

原文地址：https://www.cnblogs.com/susmote/p/8948087.html

时间： 2024-11-09 00:35:28

数据挖掘_requests模块的get方法的相关文章

数据挖掘_requests模块的post方法

前面已经跟大家讲了requests模块的get方法,这一篇文章我们要介绍的是requests模块中的另一个比较常用的方法,post方法 post方法的形式相比于get要复杂一些,这时因为post在提交时需要提供一些数据信息,对于使用来说,两种方法基本差不多请注意,查询字符串(名称/值对)是在 POST 请求的 HTTP 消息主体中发送的: 下面我们通过一个例子简单了解一下post方法的使用首先我们要了解一下,下面这个网站 www.httpbin.org httpbin这个网站能测试 HTTP

urllib模块中的方法

urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作.本例试着打开google >>> import urllib >>> f = urllib.urlopen('http://www.google.com.hk/') >>> firstLine = f.readline() #读取html页面的第一行 >>>

Python中optionParser模块的使用方法[转］

本文以实例形式较为详尽的讲述了Python中optionParser模块的使用方法,对于深入学习Python有很好的借鉴价值.分享给大家供大家参考之用.具体分析如下: 一般来说,Python中有两个内建的模块用于处理命令行参数: 一个是 getopt,<Deep in python>一书中也有提到,只能简单处理命令行参数: 另一个是 optparse,它功能强大,而且易于使用,可以方便地生成标准的.符合Unix/Posix 规范的命令行说明. 示例如下: ? 1 2 3 4 5 6 7 8

数据挖掘之七种常用的方法

数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的.先前未知的并有潜在价值的信息的非平凡过程利用数据挖掘进行数据分... 数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的.先前未知的并有潜在价值的信息的非平凡过程利用数据挖掘进行数据分析常用的方法主要有分类.回归分析.聚类.关联规则.特征.变化和偏差分析.Web页挖掘等, 它们分别从不同的角度对数据

常用的python模块及安装方法

adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheetahcherrypy:一个WEB frameworkctypes:用来调用动态链接库DBUtils:数据库连接池django:一个WEB frameworkdocutils:用来写文档的dpkt:数据包的解包和组包MySQLdb:连接MySQL数据库的py2exe:用来生成windows可执行文件Pylons:我们领导推荐的web frameworkpysql

MSP430WARE++的使用3：modbus模块的调用方法

MSP430WARE++的使用3:modbus模块的调用方法 MSP430WARE是一套基于C++语言的开源的MSP430层次化软件架构,支持多种外设.本文将介绍modbus模块驱动程序的调用方法. 1.硬件原理图使用modbus模块驱动程序需要与MSP430单片机的UART0端口相连接. 2.使用方法 a.加入驱动程序选中modbus文件夹,右键点击"Exclude from Build"即可. modbus驱动程序由多个个文件组成,如下图所示.其中RSP1_config.hpp

Discuz! X2.5 添加自定义数据调用模块（简单方法）

转:http://521-wf.com/archives/46.html Discuz! X2.5 添加自定义数据调用模块(简单方法) Discuz!X系列的diy功能还是相当不错的,在对其进行二次开发的过程中,或许需要加入新的数据调用模块,这样可以使你开发的功能模块也像原来的模块一样,只需要点点鼠标,填写一些简单的信息,就可以在各个页面的各个位置显示你想显示的数据啦. 以下就目前最新版X2.5做一个简答的介绍:大致可以分为以下三个步骤:一.添加数据调用程序二.后台更新diy模块分类缓存三.添加

源码解析一种无模块注入进程方法

对windows安全比较熟悉的同学对模块注入应该都比较了解,很多病毒.木马.外挂都会用到,无模块注入应用得则比较少. 无模块注入的好处是DLL注入进去后,确实已经不以模块的形式存在了,用任何进程模块查看工具,都找不到注入进去的DLL.因为它已经变为一块纯堆内存,跟EXE主模块里申请的堆没有任何差别. 这里讲的一种无模块注入的方法,能够让DLL自身实现这样的功能,无需外部注入工具帮助处理.当然如果进程内自行加载这样的DLL后,也是以无模块DLL形式存在. 注入完成后,进程内找不到注入的模块存在,用

转《python开发_常用的python模块及安装方法》

http://www.cnblogs.com/hongten/p/hongten_python_more_modules.html adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheetahcherrypy:一个WEB frameworkctypes:用来调用动态链接库DBUtils:数据库连接池django:一个WEB frameworkdocutils:用来写文档的dpkt:数据包的解包和组包MySQLdb: