python写爬虫时的编码问题解决方案

  在使用Python写爬虫的时候,常常会遇到各种令人抓狂的编码错误问题。下面给出一些简单的解决编码错误问题的思路,希望对大家有所帮助。

  首先,打开你要爬取的网站,右击查看源码,查看它指定的编码是什么,如:

  

<META http-equiv=Content-Type content="text/html; charset=gb2312">

  我这里指定的charset为gb2312,下面我都会用gb2312作为例子进行编码解码

  提交输入

    我们常常要获取输入,通过参数的形式提交请求。如果直接 request.get(url+input) 的话,很容易出现编码错误。这时候,不妨尝试一下下面的方法:

1 data = {
2     "key":input.encode(‘gb2312‘,‘ignore‘)
3 }
4 request.post(url,data=data)

  获取输出

    当获取输出的时候,推荐使用如下获取方式:

1 res = request.get(xxx)
2 html = res.content.decode(‘gb2312‘,‘ignore‘)

  写入到文件

    把获取到的数据保存到文件中时

1 f = open(path,‘w+‘,encoding=‘gb2312‘)
2 f.write(xxx)

  

  

原文地址:https://www.cnblogs.com/iceli/p/8456440.html

时间: 2024-11-05 16:01:42

python写爬虫时的编码问题解决方案的相关文章

python写爬虫使用urllib2方法

python写爬虫使用urllib2方法 整理了一部分urllib2的使用细节. 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy. 如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理. 新建test14来实现一个简单的代理Demo: import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http" : 'htt

Error:cannot import name&#39;is_list_like&#39; --python使用pandas_datareader时出现错误,解决方案

1 import pandas as pd 2 pd.core.common.is_list_like = pd.api.types.is_list_like 在下行代码之前插入 from pandas_datareader import data 这个方法不必修改本地文件,在pandas_datareader 0.7.0版本会修复这个问题. Error:cannot import name'is_list_like' --python使用pandas_datareader时出现错误,解决方案

Python写爬虫-爬甘农大学校新闻

Python写网络爬虫(一) 关于Python: 学过C. 学过C++. 最后还是学Java来吃饭. 一直在Java的小世界里混迹. 有句话说: "Life is short, you need Python!"  翻译过来就是: 人生苦短, 我用Python 究竟它有多么强大,  多么简洁? 抱着这个好奇心, 趁不忙的几天. 还是忍不住的小学了一下.(- - 其实学了还不到两天) 随便用一个"HelloWorld"的例子 //Java class Main{ pu

python写文件时,使用代码强制刷新文件

一.实验环境 1.Windows10x64 2.anaconda4.6.9 + python3.7.1(anaconda集成,不需单独安装) 3.pyinstaller3.5 二.任务需求 三.问题描述 1.文件1中内容,添加至总文件后,被后续的文件2覆盖! 2.文件1添加至总文件后,添加一行打印语句(打印语句执行需要时间),未被后续文件2覆盖! 四.问题分析 怀疑python写入文件,Windows操作系统未及时刷新,未执行真正的写动作,存在短暂延时,需要使用文件刷新函数. 五.文件刷新 1.

用Python写爬虫爬取58同城二手交易数据

爬了14W数据,存入Mongodb,用Charts库展示统计结果,这里展示一个示意 模块1 获取分类url列表 from bs4 import BeautifulSoup import requests,pymongo main_url = 'http://bj.58.com/sale.shtml' client = pymongo.MongoClient('localhost',27017) tc_58 = client['58tc'] tab_link_list = tc_58['link_

在Linux用Python写爬虫(五)

在Ubuntu安装Charles 4 https://stackoverflow.com/questions/43894374/how-to-install-charles-proxy-4-in-ubuntu-16-04 原文地址:https://www.cnblogs.com/chowkaiyat/p/10981388.html

Hello Python!用python写一个抓取CSDN博客文章的简单爬虫

网络上一提到python,总会有一些不知道是黑还是粉的人大喊着:python是世界上最好的语言.最近利用业余时间体验了下python语言,并写了个爬虫爬取我csdn上关注的几个大神的博客,然后利用leancloud一站式后端云服务器存储数据,再写了一个android app展示数据,也算小试了一下这门语言,给我的感觉就是,像python这类弱类型的动态语言相比于java来说,开发者不需要分太多心去考虑编程问题,能够把精力集中于业务上,思考逻辑的实现.下面分享一下我此次写爬虫的一下小经验,抛砖引玉

python网络爬虫之cookie的使用方法汇总

在编写python网络爬虫时,除了要考虑到爬虫的异常处理问题,我们是否还会考虑到cookie的使用呢?在使用cookie时,有想过为什么要使用cookie吗?一起来看看吧. Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的.那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了. 在此之前呢,我们必须先介绍一个open

2017.07.28 Python网络爬虫之爬虫实战 今日影视2 获取JS加载的数据

1.动态网页指几种可能: 1)需要用户交互,如常见的登录操作: 2)网页通过js / AJAX动态生成,如一个html里有<div id="test"></div>,通过JS生成<divid="test"><span>aaa</span></div>: 3)点击输入关键字后进行查询,而浏览器url地址不变 2.想用Python获取网站中JavaScript返回的数据,目前有两种方法: 第一种方法