Python判断字符串编码以及编码的转换

判断字符串编码

使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要

>>> import urllib
>>> html = urllib.urlopen(‘http://www.chinaunix.net‘).read()

>>> import chardet
>>> chardet.detect(html)
{‘confidence‘: 0.98999999999999999, ‘encoding‘: ‘GB2312‘}

函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。

编码转换

先把其他编码转换为unicode再转换其他编码, 如utf-8转换为gb2312

>>> import chardet
>>> str = "我们"
>>> print(chardet.detect(str))
{‘confidence‘: 0.7525, ‘encoding‘: ‘utf-8‘}

>>> str1 = str.decode(‘utf-8‘)

>>> str2 = str1.encode(‘gb2312‘)
>>> print(chardet.detect(str2))
{‘confidence‘: 0.8095977270813678, ‘encoding‘: ‘TIS-620‘}
时间: 2024-10-06 00:32:37

Python判断字符串编码以及编码的转换的相关文章

Python判断字符串是否为字母或者数字(浮点数)

str为字符串s为字符串 str.isalnum() 所有字符都是数字或者字母 str.isalpha() 所有字符都是字母 str.isdigit() 所有字符都是数字 str.isspace() 所有字符都是空白字符.\t.\n.\r 检查字符串是数字/浮点数方法 float部分 >> float('Nan') nan >> float('Nan') nan >> float('nan') nan >> float('INF') inf >>

python判断字符串是否包含另一字符串的方法的代码

把做工程过程中经常用到的内容段做个备份,下边内容是关于python判断字符串是否包含另一字符串的方法的内容. contains = 'abcde'.find('bcd') >= 0 方法二: contains = 'abcde'.count('bcd') > 0 原文地址:https://www.cnblogs.com/cantury/p/11473891.html

Python 判断字符串是否含有指定字符or字符串

Python 判断字符串是否含有指定字符or字符串 ,有如下方法: 1.使用成员操作符 in str1= "ABCDEF123descsf" str2= "CD" result = str2 in str1 print(result) # True 2.使用string模块的find()  rfind  index()  rindex() 原文地址:https://www.cnblogs.com/shenxiaolin/p/12602360.html

判断字符串是否UTF8编码

UTF-8的编码规则很简单,只有二条: 1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码.因此对于英语字母,UTF-8编码和ASCII码是相同的. 2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10.剩下的没有提及的二进制位,全部为这个符号的unicode码. 举个例子,已知“严”的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内 (0000 0800-0

python判断字符串,str函数isdigit、isdecimal、isnumeric的区别

s为字符串s.isalnum() 所有字符都是数字或者字母s.isalpha() 所有字符都是字母s.isdigit() 所有字符都是数字s.islower() 所有字符都是小写s.isupper() 所有字符都是大写s.istitle() 所有单词都是首字母大写,像标题s.isspace() 所有字符都是空白字符.\t.\n.\r 判断是整数还是浮点数a=123b=123.123 >>>isinstance(a,int)True>>>isinstance(b,floa

python判断字符串是否包含子字符串

python的string对象没有contains方法,不可以使用string.contains的方法判断是否包含子字符串,但是python有更简单的方法来替换contains函数 python的string对象没有contains方法,不可以使用string.contains的方法判断是否包含子字符串,但是python有更简单的方法来替换contains函数 python的string对象没有contains方法,不可以使用string.contains的方法判断是否包含子字符串,但是pyth

Python判断字符串是否符合某一正则表达式

直接上代码: #encode:u8 import re s1 = 'adkkdk' #判断s1字符串是否负责都为小写的正则 an = re.search('^[a-z]+$', s1) if an: print 'yes' else: print 'no'

python 判断字符串中字符类型的常用方法

s为字符串 s.isalnum() 所有字符都是数字或者字母 s.isalpha() 所有字符都是字母 s.isdigit() 所有字符都是数字 s.islower() 所有字符都是小写 s.isupper() 所有字符都是大写 s.istitle() 所有单词都是首字母大写,像标题 s.isspace() 所有字符都是空白字符. .. 判断是整数还是浮点数 a=123 b=123.123 >>>isinstance(a,int) True >>>isinstance(

Python判断字符串是否为字母或者数字

严格解析:有除了数字或者字母外的符号(空格,分号,etc.)都会Falseisalnum()必须是数字和字母的混合isalpha()不区分大小写 str_1 = "123" str_2 = "Abc" str_3 = "123Abc" #用isdigit函数判断是否数字 print(str_1.isdigit()) Ture print(str_2.isdigit()) False print(str_3.isdigit()) False #用i