python爬虫之中文编码问题

python编码是个博大精深的知识，而我还是出血python，所以我目前所要求自己的仅仅是在自己的爬取网页获取中文信息时不会出错，仅此而已，对于其他更深层次的内容随着知识的积累想必有更深刻的理解。以下并不是我的原创理解，而是在网上查阅很多博主有想法更直观的表达后自己才能对这些编码有更直认识，感谢他们

首先附上中文编码比较，更直观的显示出不同编码对文字输出的影响

编译环境是wingide win8.1

输入#-*- coding:utf-8 -*-
s=‘ab我是中文字符串‘
ss=u‘ab我是中文字符串‘
u=s.decode(‘utf-8‘)
print s
print repr(s)
print ss
print repr(ss)
print u
print repr(u)

输出

ab鎴戞槸涓枃瀛楃涓?‘ab\xe6\x88\x91\xe6\x98\xaf\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe7\xac\xa6\xe4\xb8\xb2‘
ab我是中文字符串
u‘ab\u6211\u662f\u4e2d\u6587\u5b57\u7b26\u4e32‘
ab我是中文字符串
u‘ab\u6211\u662f\u4e2d\u6587\u5b57\u7b26\u4e32‘

由上可以知道当输入时utf-8格式编码的时候，输出文字为乱码，而输入时unicode时输出不会乱码

而且decode是解码，而decode（utf-8（源网页的编码格式））的目的就是将原网页的编码格式转化成unicode然后输入，使中文不会乱码

而encode是解码，跟上面的作用相反

另外介绍一个chardet命令，使用这个命令可以让你知道源网页的编码是什么，然后再进行解码就好了，问题完美解决。

时间： 2024-10-16 01:34:57

python爬虫之中文编码问题的相关文章

[Python爬虫] 中文编码问题：raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题

最近研究搜索引擎.知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前.虽然市面上讲述中文编码问题的文章数不胜数,同时以前我也讲述过PHP处理数据库服务器中文乱码问题,但是此处还是准备简单做下笔记.方便以后查阅和大家学习. 中文编码问题的处理核心都是--保证所有的编码方式一致即可,包括编译器.数据库.浏览器编码方式等,而Python通常的处理流程是将unicode作为中间转换码进行过渡.先将待处理字符串用unicode函数以正确的编码转换为Unicode码,在程序中统一用Unicode字

（原）爬取辽宁科技大学相关新闻---python爬虫入门

有人说大部分python程序员都是通过爬虫入门的或者都是由爬虫喜欢上python的.还有大部分人学爬虫都喜欢拿自己学校的网站练手.我就是基于以上两点开始的... ok,开始,首先你需要一点python基础,一点点基础就可以,找一本薄薄的书过一遍,可以上这来找找 http://wiki.woodpecker.org.cn/moin/PyBooks 看书不爽,那你上这来看看,几道简简单单的题做过之后,顿觉一览众山小 http://www.pythontutor.com/ 咱们不是一边学爬虫,一边学p

Python爬虫Csdn系列III

Python爬虫Csdn系列III By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢. 说明: 在上一篇博客中,我们已经能够获取一个用户所有文章的链接了,那么这一节自然就是要将这些博客下载下来咯. 分析: 有了链接下载文章自然是不难.但是,获取的数据该怎么处理?每一篇文章都带有格式换行这些信息,自然,我们存储它们也是要存储其对应的html格式的数据的(注意,我们编辑的带有格式的博客或者其他文本都是以html代码格式存储的).如何存?使用数据库

开始我的Python爬虫学习之路

因为工作需要经常收集一些数据,我就想通过学爬虫来实现自动化完成比较重复的任务. 目前我Python的状况,跟着敲了几个教程,也算是懂点基础,具体比较深入的知识,是打算从做项目中慢慢去了解学习. 我是觉得如果一开始就钻细节的话,是很容易受到打击而放弃的,做点小项目让自己获得点成就感路才更容易更有信心走下去. 反正遇到不懂的就多查多问就对了. 知乎上看了很多关于入门Python爬虫的问答,给自己总结出了大概的学习方向. 基础: HTML&CSS,JOSN,HTTP协议(这些要了解,不太需要精通) R

Python爬虫实战（2）：爬取京东商品列表

1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript. 我们在<Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容>一文已经成功检验了动态网页内容的抓取方法,本文将实验程序进行改写,使用开源Python爬虫

转载：用python爬虫抓站的一些技巧总结

原文链接:http://www.pythonclub.org/python-network-application/observer-spider 原文的名称虽然用了<用python爬虫抓站的一些技巧总结>但是,这些技巧不仅仅只有使用python的开发可以借鉴,我看到这篇文章的时候也在回忆自己做爬虫的过程中也用了这些方法,只是当时没有系统的总结而已,谨以此文为鉴,为以前的爬虫程序做一个总结. 转载原文如下: 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,

python爬虫Urllib实战

Urllib基础 urllib.request.urlretrieve(url,filenname) 直接将网页下载到本地 import urllib.request >>> urllib.request.urlretrieve("http://www.hellobi.com",filename="D:\/1.html") ('D:\\/1.html', <http.client.HTTPMessage object at 0x0000000

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

一. 文章介绍前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID.用户名.微博数.粉丝数.关注数等. 微博信息:包括转发或原创.点赞数.转发数.评论数.发布时间.微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩: http://weibo.cn/guangxianliuya 因为手机端数据相对精简简单,所以采用输

猜你喜欢

python第三章

一.三目运算也叫三元运算,例如result=x if x<y else y 二.集合(set) 集合(set):把不同的元素组成一起形成集合,是python基本的数据类型. 集合元素(set ...

基于fab自动化部署

fab是一个python库,强大好使,可以做很多帮助你减轻工作量的事情,比如在多台服务器上部署web项目,这里就讲讲使用它简单的方法来执行部署的过程. 关于fab的安装的基本使用,网上一搜一大把,内容 ...

[补档][中山市选2011]杀人游戏

题目一位冷血的杀手潜入 Na-wiat,并假装成平民.警察希望能在 N 个人里面,查出谁是杀手. 警察能够对每一个人进行查证,假如查证的对象是平民,他会告诉警察,他认识的人,谁是杀手,谁是平民.假如 ...

9款一键快速搭建PHP运行环境的好工具

原文链接: http://www.cmhello.com/a-key-build-php-environment.html 内容提要: 建立一个PHP网站,首先需要搭建PHP的开发和运行环境,对于PH ...

ADS7830 FPGA实现

PCB设计的一般原则 Xilinx学习心得1-管脚约束 ADS7830 FPGA实现 2012-05-11 11:18:12| 分类: 工作笔记 | 标签: |字号大中小订阅 ADS7830是T ...

PHP 7 编译安装开启 libevent 扩展支持

libevent是一个基于事件驱动的高性能网络库. 支持多种 I/O 多路复用技术, epoll. poll. dev/poll. select 和 kqueue 等:支持 I/O,定时器和信号等事件 ...

CentOS下Apache安装SSL

CentOS下Apache安装SSL https是一个安全的访问方式,数据在传输过程中是加密的.https基于ssl. 一.安装apache和ssl模块1.安装apacheyum install ht ...

2014年江苏省中小学教师全员培训

一. 使用方法双击“教师全员远程培训获取序列号.exe”打开“教师之家 – 2014教师全员远程培训挂机”用户登录界面. 把您的授权码输入第一列文本框中,然后单击“登录”按钮,如果通过验证,则打开 ...

matlab画折线图

y1 = [99.02,99.22,98.86]; y2 = [98.59,98.49,98.14]; plot(y1,'-b','LineWidth',1.5); %其中-b表示为蓝色,linewi ...

标签navtab

创建navtab 创建一个navtab有以下两种方式: 1.Data属性:DOM添加属性data-toggle="navtab"后,单击触发. a链接示例: <a href= ...

Opinions quoted from forums about the Autel MaxiDAS 708

Thousands of and millions of Autel sellers, and it’s hard to make sure to buy a genuine MaxiDAS DS70 ...

在一周之内，快速看完整部教材，列出不懂的5至10个问题

1可以有方法简化单元测试吗?毕竟单元测试十分繁琐而且需要花费大量的时间,而且还只能由作者一个人完成 2如何把需求细化成任务来完成? 3如果设计好的软件中存在小Bug但是并不是十分影响软件的性能和功能, ...

日志系统之定时任务执行引擎

概述最近这段时间在强化日志系统自身的稳定性和可靠性,一个稳定可靠的系统离不开监控,我们这里谈及的监控除了服务是否存活还有这些组件的核心metrics采集与抓取,为此我们将这些任务做成了定时任务来执行 ...

LeetCode – Refresh – Multiply Strings

Notes: 1. Dont have to allocate l1*l2, just l1+l2 is fare enough. 2. remember i--, j--. 3. upgrade[i ...

（附）mysql：在w3schools文档上学习sql语法（约束概要）

约束:设置条件限制填入表的数据,或者给表中某一列的数据设置属性(如:not full,设置填入数据不为空) 条件筛选:可用于填入表或是从表用得出数据,作用是满足自己设立的某些条件(如:select时使 ...

tornado 源码分析之异步io的实现方式

前言本文将尝试详细的带大家一步步走完一个异步操作,从而了解tornado是如何实现异步io的. 其实本文是对[上一篇文][1]的实践和复习主旨在于关注异步io的实现,所以会忽略掉代码中的一些异常处 ...

python md5 加密模块

今天有同学找到我说,能不能写一个简单的python md5加密模块,作为服务器端程序的响应函数.信息安全之类的问题了.md5采用单向加密机制. 直接上代码: (k1, k2 是系统自动生成的随机整数, ...

Oracle EBS-SQL (BOM-18):检查BOM与工艺路线对照.sql

/*有工艺路线,无BOM清单*/ select msi.segment1, msi.description from apps.BOM_OPERATIONAL_ROUTINGS bor, apps.m ...

[51nod1079]中国剩余定理

解题关键:注意爆long long $x \equiv {M_1}M_1^{ - 1}{a_1} + ... + {M_k}M_k^{ - 1}{a_k}(\bmod m)$ 其中,$m = \pro ...

WDS

特性: 方便网络部署.安装,实现灵活组网.低成本,高性能,扩展性好定义:WDS :Wireless Distribution System:通过无线链路连接两个或者多独立的有线局域网或者无线局域网, ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.