1、python爬虫 request.urlopen请求网页获取源码

# python3导入request包
from urllib import request
import sys
import io
# 如果需要用print打印时,如果出现异常可以先设置输出环境
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=‘utf-8‘)
# 需要获取的url
url = ‘http://www.xxx.com/‘
# 头文件
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"
}
# 生成请求对象
req = request.Request(url, headers=headers)
# 调用request的urlopen方法发起请求,并返回结果对象,如果没有data参数时,则是get请求,否则是post请求
response = request.urlopen(req)
# 将结果写入html文件中,
with open(‘a.html‘, ‘wb‘) as f:
    f.write(response.read())
# 打印返回的状态码
print(response.getcode())
# 打印返回的url,防止重定向url变化
print(response.url)

原文地址:https://www.cnblogs.com/toloy/p/8611036.html

时间: 2024-08-30 02:46:55

1、python爬虫 request.urlopen请求网页获取源码的相关文章

Python爬虫之路——简单网页抓图升级版(增加多线程支持)

转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗,将上一篇文章介绍的爬虫稍微改进了下(Python爬虫之路--简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,而且这次的爬虫不仅仅可以爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/下面的图片都会被爬到,而且提供了多种分辨率图片的文件下载,具体设置方法代码注释里面有介绍. 这次的代码仍然有点不足,Ctrl-C无法终止程

Python爬虫之路——简单网页抓图升级版(添加多线程支持)

转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,并且这次的爬虫不只能够爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/以下的图片都会被爬到,并且提供了多种分辨率图片的文件下载,详细设置方法代码凝视里面有介绍. 这次的代码仍然有点不足,Ctrl-C无法终止程序

Python 爬虫修养-处理动态网页

Python 爬虫修养-处理动态网页 本文转自:i春秋社区 0x01 前言 在进行爬虫开发的过程中,我们会遇到很多的棘手的问题,当然对于普通的问题比如 UA 等修改的问题,我们并不在讨论范围,既然要将修养,自然不能说这些完全没有意思的小问题. 0x02 Selenium + PhantomJS 这个东西算是老生长谈的问题吧,基本我在问身边的朋友们的时候,他们都能讲出这条解决方案: Selenium + PhantomJS(Firefox Chrome之类的) 但是真正的有实践过的人,是不会把这个

iOS项目开发实战——iOS网络编程获取网页Html源码

现在我们身处互联网的时代.不论什么一个软件或是App,都会或多或少与网络打交道,并不断发生数据交互.一个没有涉及网络编程的应用会显得比較low,这里我们将会開始使用Swift开发iOS应用,而且主要来实现网络操作方面的功能. 这里的需求是获取某个网页的Html源码,即从网上获取数据.详细实现例如以下: (1)创建一个iOS项目,Language选择Swift.然后在ViewController.swift中实现例如以下代码: override func viewDidLoad() { super

C#获取网页HTML源码实例

本文实例讲述了C#获取网页HTML源码的方法,分享给大家供大家参考.具体方法如下: 关键代码如下: 代码如下: /// <summary> /// 获取网页HTML源码 /// </summary> /// <param name="url">链接 eg:http://www.baidu.com/ </param> /// <param name="charset">编码 eg:Encoding.UTF8&

Python:渗透测试开源项目【源码值得精读】

sql注入工具:sqlmap DNS安全监测:DNSRecon 暴力破解测试工具:patator XSS漏洞利用工具:XSSer Web服务器压力测试工具:HULK SSL安全扫描器:SSLyze 网络 Scapy: send, sniff and dissect and forge network packets. Usable interactively or as a library pypcap, Pcapy and pylibpcap: several different Python

基于Python接口自动化测试框架(初级篇)附源码

引言 很多人都知道,目前市场上很多自动化测试工具,比如:Jmeter,Postman,TestLink等,还有一些自动化测试平台,那为啥还要开发接口自动化测试框架呢?相同之处就不说了,先说一下工具的局限性: 1.测试数据不可控:    接口虽然是对业务逻辑.程序代码的测试,而实际上是对数据的测试,调用接口输入一批数据,通过断言代码验证接口返回的数据,整个过程围绕数据测试.    如果返回的数据不是固定的,是变化的,那么断言失败,就无法知道是接口程序错误引起的,还是数据变化引起的,所以就需要进行测

【随笔】从gitHub上获取源码

有时候,需要从gitHub上获取源码,下面介绍几个方法: 1.获取链接: 打开gitHub代码库的页面,能在右边看到这个: 点击红圈里的标记,该链接就会复制下来. 然后,如果安装了小乌龟(TortoiseGit),就可以获取该源码了. 首先点击右键,选择小乌龟的选项: 然后在出现的窗口中粘上刚才复制的链接,以及选择主目录: 点击OK,现在,你就可以用小乌龟来获取源码或者上传源码了. 在Linux中,可以使用命令: git clone https://github.com/ajaxorg/ace.

python附录-builtins.py模块str类源码(含str官方文档链接)

python附录-builtins.py模块str类源码 str官方文档链接:https://docs.python.org/3/library/stdtypes.html#text-sequence-type-str builtins.py class str(object): """ str(object='') -> str str(bytes_or_buffer[, encoding[, errors]]) -> str Create a new stri