Python 爬虫常见的坑和解决方法

1.请求时出现HTTP Error 403: Forbidden

headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0‘}  

req = urllib.request.Request(url=url, headers=headers)  

urllib.request.urlopen(req).read()  

详细:https://www.2cto.com/kf/201309/242273.html

2.保存html内容时出现Python UnicodeEncodeError: ‘gbk‘ codec can‘t encode character

f = open("out.html","w")

换成

f = open("out.html","w",encoding=‘utf-8‘)  

详细:http://www.jb51.net/article/64816.htm

原文地址:https://www.cnblogs.com/cxscode/p/8214578.html

时间: 2024-10-14 14:37:46

Python 爬虫常见的坑和解决方法的相关文章

coreseek常见错误原因及解决方法

coreseek常见错误原因及解决方法 Coreseek 中文全文检索引擎 Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索.论坛/站内搜索.数据库搜索.文档/文献检索.信息检索.数据挖掘等应用场景,用户可以免费下载使用 本文为大家整理了coreseek/sphinx中文检索引擎的常见问题和解决方法,感兴趣的同学参考下. Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协

anaconda python no module named 'past'的解决方法

如上图所示,错误就是:No module named 'past' 解决办法不是下载'past'包,而是下载'future'包: 我是安装了anaconda集成环境,python的单独环境应该也是同样的,下面以anaconda安装 'future'包为例,命令是" pip install future",如下图: 成功安装即可解决这个问题(? ω ?) anaconda python no module named 'past'的解决方法

python在windows下UnicodeDecodeError的解决方法

之前在windows下使用python调用某些模块时都会报错,像这样: C:\Documents and Settings\Administrator>python -m CGIHTTPServer Traceback (most recent call last): File "C:\Python27\lib\runpy.py", line 162, in _run_module_as_main "__main__", fname, loader, pkg_

【Error】Python:SyntaxError: Non-ASCII character '\xe5'解决方法

在编写Python程序时,程序中有中文时经常会出现错误信息:SyntaxError: Non-ASCII character '\xe5' 出现这种情况,可以用如下解决办法: Python的默认编码文件是用的ASCII码,你将文件存成了UTF-8,解决办法很简单,在文件开头加入如下代码: #coding=utf-8 这就可以了,希望对大家有所帮助. [Error]Python:SyntaxError: Non-ASCII character '\xe5'解决方法

LAMP系列之PHP编译过程中常见错误信息的解决方法

LAMP系列之PHP编译过程中常见错误信息的解决方法 在CentOS编译PHP5的时候有时会遇到以下的一些错误信息,基本上都可以通过yum安装相应的库来解决.以下是具体的一些解决办法: ******************************************************************************* checking for BZip2 support- yes checking  for BZip2 in default path- not foun

Python ImportError: No module named 'requests'解决方法

前言:最近在学习python,安装了python3.5的环境后,在网上下载了一个python文件运行的时候,提示ImportError: No module named 'requests'(找不到requests模块). requests介绍:requests是python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢?官方文档中是这样说明的:python的标准库urllib2提供了大部分需要的HTTP功能,但是API太逆天了,一

magento常见的问题及解决方法

刚接触magento时,会遇到很多问题,大多数都是些magento配置及操作上的问题,因为刚接触magento不久所有对这些问题比较陌生也不知道如何处理.今日根据模版堂技术指导下和网上的相关例子,这里罗列了一些操作Magento常见的报错问题解决方法? 后台首页出现404错误 >查看模版是否没有 查看后台—系统配置—设计配置的模版 >因为在/etc/local.xml中修改过后台入口的路径 而后登录后台成功后 报404错误 查看后发现后台的新路径前面总是加了默认的管理入口admin 例如:ht

机器学习中常见的过拟合解决方法

在机器学习中,我们将模型在训练集上的误差称之为训练误差,又称之为经验误差,在新的数据集(比如测试集)上的误差称之为泛化误差,泛化误差也可以说是在模型在总体样本上的误差.对于一个好的模型应该是经验误差约等于泛化误差,也就是经验误差要收敛于泛化误差,根据霍夫丁不等式可知经验误差在一定条件下是可以收敛于泛化误差的. 当机器学习模型对训练集学习的太好的时候(再学习数据集的通性的时候,也学习了数据集上的特性,这些特性是会影响模型在新的数据集上的表达能力的,也就是泛化能力),此时表现为经验误差很小,当往往此

Python: ImportRequestsError: No module named 'requests'解决方法

运行Python程序时,出现下面错误: import requests  ModuleNotFoundError: No module named 'requests' 原因:没有导入requests库 解决办法: 开始菜单选择运行,输入cmd运行,然后cd命令进入到python安装目录下的Scripts文件中, 然后输入pip install requests,就好了. 或者 打开Python文件的安装目录,进入Scripts文件中,按住Shift键+鼠标右击 如果上面的还是不能解决你的问题,