关于Python 中unicode 转码的问题

Python 中urllib2.urlopen 中存在中文转码问题，解决方法如下：

1.

import BeautifulSoup
import chardet

response =urllib2.urlopen(‘%s‘%line)
#response.decode(‘utf-8‘)
#response = urllib2.urlopen(‘http://www.baidu.com/‘)
html = response.read()
pdb.set_trace()
#print html.decode(‘big5‘).encode(‘utf8‘)
urlcodestyle=chardet.detect(html)
sourcehtml=html.decode(‘%s‘%urlcodestyle[‘encoding‘]).encode(‘utf-8‘)

2.sourcehtml 的使用方法：

import BeautifulSoup
"""
if ‘encoding‘ in urlcodestyle:
soup=BeautifulSoup(html,fromEncoding="%s"%urlcodestyle[‘encoding‘])
else :
soup=BeautifulSoup(html,fromEncoding="gb18030")
"""

最好能够通过获得请求页面的编码格式，然后再对fromEncoding 进行赋值

时间： 2024-11-08 01:31:05

关于Python 中unicode 转码的问题的相关文章

Python中Unicode字符串

Python中Unicode字符串字符串还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),0 - 255被用来表示大小写英文字母.数字和一些符号,这个编码表被称为ASCII编码,比如大写字母 A 的编码是65,小写字母 z 的编码是122. 如果要表示中文,显然一个字节是不够的,至少需要两个字节,而且

python中unicode和str的组合

python中unicode对象和str对象拼接在一起,会自动将str对象转换成unicode对象即:a="aa" b=u"bb" c=a+b type(c)会打印出此对象为unicode对象另外,json.loads(a)返回的对象,key和value的类型均是unicode类型

Python中Unicode码和非Unicode码引起的错误与格式转换

1.1. 问题 Problem You need to deal with data that doesn't fit in the ASCII character set. 你需要处理不适合用ASCII字符集表示的数据. 1.2. 解决 Solution Unicode strings can be encoded in plain strings in a variety of ways, according to whichever encoding you choose: Unicode

python中unicode 和 str相互转化

python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byte[]. 而python中的unicode对象应该才是等同于java中的String对象,或本质上是java的char[]. str: s = "你好" unicode: u = u"你好“ unicode转化为str,采用encode 编码: str = u.encode('gbk') str转化为unicode ,采用decode 解码: unic

解读python中SocketServer源码

再看继承真正的大餐来之前,还是来点儿开胃菜!回顾一下关于类的继承的知识: 我们先看上面的代码,这是一个简单的类继承,我们可以看到父类Base和子类Son,它们中各有一个Testfunc方法,当我们实例化子类的对象sonobj时,可以看到初始化方法中黄色框框调用了Testfunc,那么这个时候执行的是哪个类里面的代码呢?我会告诉你执行的是子类里面的方法,不信就自己试试吧,代码在下面~ 为什么呢?其实这里是绕了一个圈,所以把很多人绕晕了,包括我!后来想想其实很容易,我们看最右边的图: 如果这

使用C语言为python编写动态模块(2)--解析python中的对象如何在C语言中传递并返回

楔子编写扩展模块,需要有python源码层面的知识,我们之前介绍了python中的对象.但是对于编写扩展模块来讲还远远不够,因为里面还需要有python中模块的知识,比如:如何创建一个模块.如何初始化python环境等等.因此我们还需要了解一些前奏的知识,如果你的python基础比较好的话,那么我相信你一定能看懂,当然我们一开始只是介绍一个大概,至于细节方面我们会在真正编写扩展模块的时候会说. 关于使用C为python编写扩展模块,我前面还有一篇博客,强烈建议先去看那篇博客,对你了解Pytho

Python中的字符串驻留

C#中的字符串驻留熟悉.NET的人都应该知道C#中的字符串驻留机制,.NET维护了一个驻留池,它会把在编译期间就相同的字符串只保留一份拷贝.如果仅在运行期间值才相同的字符串变量,.NET不会为这个2个相同的字符串变量指向同一份引用的.不过.NET提供了一个方法,让开发人员可以强制将两个相同的字符串指向同一个引用,使用String类中的Intern方法. string s1 = "!QAZ2wsx3$%5$$%fe _ ###[email protected]"; string s2

python中的字符串编码问题——2.理解ASCII码、ANSI码、Unicode编码、UTF-8编码

ASCII码:全名是American Standard Code for Information Interchange,ASCII码中,一个英文字母(不分大小写)占一个字节的空间,范围0x00~0x7f,即0-128. ANSI码:ANSI编码是一种对ASCII码的拓展.ANSI编码用0x00~0x7f 范围的1 个字节来表示 1 个英文字符,超出一个字节的 0x80~0xFFFF 范围来表示其他语言的其他字符.前126个与ASCII码相同,之后的字符全是某个国家语言的所有字符.容量2的16次

在Python中使用protobuf2.6.1 string format utf-8 and unicode error

版本信息: protobuf: v2.6.1 python: 2.7 关于在Python中使用protobuf时 string格式字段的编码问题在python中编码格式多采用utf-8格式.而protobuf 官网中这样说到: 如果不做处理,在message 中定义了一个string类型的字段后,出现错误如下: ERROR: ValueError: '\xe5\x94\x90\xe6\x9e\x9c' has type bytes, but isn't in 7-bit ASCII encod

猜你喜欢

C++ 文件的简单操作

=================================================================== 编写程序时,很多时候都要对文件进行操作,比如从文件中读取数据,通 ...

Android中与ViewRoot相关的一些概念

1.View和ViewRoot ViewRoot从名称上来理解似乎是"View树的根",这很容易让人产生误解.因为ViewRoot并不属于View树的一份子.从源码实现上来看,Vi ...

java接口和抽象类

(一)接口和抽象类作用: 1 利于设计和实现分工: 2 体现代码的层次性: (二)钩子方法或者叫模板方法方式概念:23中设计模式中的一种,在代码执行的中间阶段,加入钩子,使得我们根据需要调用子类的 ...

wordpress系统网站访问慢的解决方案

从2013年5月底开始,google在中国基本处于无法访问状态,谷歌官网域名,香港域名均无法访问,就连之前的IP访问方法也都失效,而Google Adsense打不开,恐怕做谷歌联盟的站长也要倒霉了 ...

欧拉函数+费马定理 POJ3358

题意:给一个分数p/q,求它的小数的二进制表示的循环部分的开始位置和循环长度. 对于一个十进制小数,求二进制的方法是不断的乘2取整数部分.所以首先把p/q化成最简的形式p'/q',然后对其不断乘2,直 ...

多地养老金上调看看有你那里吗

根据全国社会保险局长会议(16日至17日在广西南宁召开)上最新发布的消息:截至2016年底,我国机关事业单位和企业退休人员基本养老金待遇首次同步调整并发放到位,养老保险制度的公平性进一步提高. 另外, ...

[个人开发人员赚钱九］做一个日收入10元的APP！

?[导语］尽管讲了非常多个人开发人员的文章.但新手开发人员怎样赚自己的第一个10块钱.确是最难的事情.群里有人说都不知道干什么app赚钱.全然没有想法.而且常常问我有什么高速赚钱的方法.我仅仅能遗憾地 ...

Visio中如何绘制黑白图像

alert(EDate< new Date().format("yyyy-MM-dd hh:mm:ss")); 1 Date.prototype.format = funct ...

html表单实例：登录页面

1 <!DOCTYPE html> 2 <html> 3 <head> 4 <meta charset="utf-8"> 5 ...

【转】程序员/开发人员的真实生活[多图预警]

[本文转自伯乐在线,看一次笑一次啊,,] 本文借用了多张动态图,以诙谐的方式,展示了程序员/开发人员的真实生活.文章原始版本是西班牙语,由Alex Soto 翻成了英文版,再由伯乐在线翻成了中文版. ...

中科燕园GIS外包案例之11---机场工程地理信息系统EGIS

对于大型机场建设工程,无论工程建设过程中,还是工程建设完成后,进入运行和维护阶段,必定要产生和使用到大量的各式各样的信息资料,包括工程项目过程管理控制类文档,工程图档,电子表格,工程技术性文档,各种图 ...

bzoj2653 -- 二分+主席树

对于每一个询问二分答案. 设当前答案为x,将>=x的数的权值设为1,<x的数的权值设为-1. 当 [b+1,c-1]的权值和+[a,b]权值和最大的后缀+[c,d]权值和最大的前缀> ...

互联网主题分析

iOS音频播放(一)：概述

(本文转自码农人生) 前言从事音乐相关的app开发也已经有一段时日了,在这过程中app的播放器几经修改,我也因此对于iOS下的音频播放实现有了一定的研究.写这个系列的博客目的一方面希望能够抛砖引玉 ...

Sudoku Killer（hdu 1426 数独）

数独游戏的规则是这样的:在一个9x9的方格中,你需要把数字1-9填写到空格当中,并且使方格的每一行和每一列中都包含1-9这九个数字.同时还要保证,空格中用粗线划分成9个3x3的方格也同时包含1-9这九 ...

CAPI写密钥对到USBKey CSP中

在前面了解了CryptoAPI和CSP的相关概念之后,我们具体分析了CryptoAPI的相关函数,实现了写证书.私钥的过程和更新证书的过程.写证书和私钥到CSP的方案:首先将CA返回给RA的证书和私 ...

ARM+llinux系统移植3G拨号上网收发短信（二）【转】

本文转载自:http://blog.csdn.net/hanmengaidudu/article/details/17099749 一.发送text格式的短信给联通发text格式的短信: ~ > ...

Android L5.0 CardView与RecycleView

http://doc.okbase.net/a396901990/archive/107839.html http://www.tuicool.com/articles/3IziIba http:// ...

持续集成的成功要素

相信持续集成在现今的软件行业,应该是必须具备的标准之一.你的项目还没有持续集成吗?赶紧弄一个吧! 成功的持续集成环境,在我看来包括几个重要部分: 清晰的依赖管理 Dependency Manageme ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.