1. chardet模块
Python在处理字符串问题,常常会遇到字符串编码的问题。chardet是一个非常优秀的编码识别模块。
能够识别的格式有:
- ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants)
- Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese)
- EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP (Japanese)
- EUC-KR, ISO-2022-KR (Korean)
- KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (Cyrillic)
- ISO-8859-2, windows-1250 (Hungarian)
- ISO-8859-5, windows-1251 (Bulgarian)
- windows-1252 (English)
- ISO-8859-7, windows-1253 (Greek)
- ISO-8859-8, windows-1255 (Visual and Logical Hebrew)
- TIS-620 (Thai)
chardet 是python的第三方库,需要下载和安装。
安装chardet
Mac 下Python已经集成在系统中,OS X Yosemite 10.10 版本的系统Python的版本为Python2.7 。 Python的安装目录在/usr/bin/python
, 库目录在/Library/Python/2.7/site-packages/
中。
将下载的chardet-2.3.0.tar.gz解压,然后复制到Python的库目录中。
# sudo cp -rf chardet /Library/Python/2.7/site-packages/
mac下需要使用sudo加权限。
测试代码
import chardet
import urllib
#可根据需要,选择不同的数据
TestData = urllib.urlopen(‘http://www.baidu.com/‘).read()
print chardet.detect(TestData)
结果表示有99%的概率认为这段代码是utf-8编码方式。
时间: 2024-11-07 11:34:53