使用chardet模块判断网页编码

import chardet
import urllib.request

url=‘http://stock.sohu.com/news/‘
html = urllib.request.urlopen(url).read()
chardit1 = chardet.detect(html)

print(chardit1[‘encoding‘])

时间： 2024-10-15 05:18:14

使用chardet模块判断网页编码的相关文章

python chardet模块查看字符编码方式

电脑配置:联想笔记本电脑 windows8系统 Python版本:2.7.8 本文章撰写时间:2014.12.25 作者:陈东陈阅读说明: 1.本文都是先解释,后放图片: 2.文中斜体部分要么为需要输入的内容,要么为电脑本来的一些功能名称如果没有安装chardet模块,需要先安装该模块. 总结: 中文字符在python自带的IDL和Sublime text2的编码方式不一样,这个问题我也不清楚,还请大牛能解答. 一.运行环境——python 2.7.8自带IDL 1.输入中文字符‘中国’ 输

spider JAVA如何判断网页编码（转载）

原文链接 http://www.cnblogs.com/nanxin/archive/2013/03/27/2984320.html 前言最近做一个搜索项目,需要爬取很多网站获取需要的信息.在爬取网页的时候,需要获得该网页的编码,不然的话会发现爬取下来的网页有很多都是乱码. 分析一般情况下,网页头信息会指定编码,可以解析header或者meta获得charset.但有时网页并没没有指定编码,这时就需要通过网页内容检测编码格式,通过调研,最好用的还是cpdetector. cpdetector

【转载】python抓取网页时候，判断网页编码格式

在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能.我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取.但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:网上很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8等.我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码,避免乱码问题的出现. 使用chardet模块 1 #如果你的python没有安装c

chardet 模块

#coding:utf-8 #指定本文件编码为utf-8 #python 27 #xiaodeng #chardet模块 #chardet模块下载地址: #1)http://pan.baidu.com/s/1gdfOH95 #2)登录python官网下载 import os,chardet filename=r'D:\测试文件.txt' #怎么判断文件/string的编码格式? #在处理字符串时,常常会遇到不知道字符串是何种编码,如果不知道字符串的编码就不能将字符串转换成需要的编码, #如此,c

Python判断字符串编码以及编码的转换

判断字符串编码使用 chardet 可以很方便的实现字符串/文件的编码检测.尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要 >>> import urllib >>> html = urllib.urlopen('http://www.chinaunix.net').read() >>> import chardet >>> chardet.detect(html) {

Mac os Python 安装 chardet模块

1. chardet模块 Python在处理字符串问题,常常会遇到字符串编码的问题.chardet是一个非常优秀的编码识别模块. 能够识别的格式有: ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants) Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese) EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP

PHP判断字符串编码是否为utf8以及转换问题

今天说说编码乱码问题,当一个页面存在两种编码的时候,无论你乍么选择都会出现乱码,解决方法: 1.你据在网页编码是哪个. 2.首先判断字符串编码是否为utf8代码如下: PHP代码 function is_utf8($word) { if (preg_match("/^([".chr(228)."-".chr(233)."]{1}[".chr(128)."-".chr(191)."]{1}[".chr(128

Python模块-chardet模块

chardet模块用来获取文件的编码 # -*- coding:utf-8 -*- __author__ = "MuT6 Sch01aR" import chardet f = open('test.txt','rb') data = f.read() f.close() result = chardet.detect(data) print(result) 运行结果以字典形式返回结果编码为GB2312,对结果正确的把握为78%左右,语言为中文原文地址:https://www.c

使用chardet模块获取文件的编码格式，进而正确的读取文件内容

import chardet ''' 不同的文件编写的时候,会有不同的编码格式,有的用utf-8进行的编码,有的呢用的是gbk进行的编码. 在我们读取文件的时候,我们实现并不知情这个当前读取的文件是用的什么编码方式进行的存储.所以就要用的chardet模块 chardet.detect(文件对象),在打开文件的时候,用rb或者wb进行打开.然后将文件对象通过chardet模块获取它当时编码的格式然后获取文件的时候,decode解码的时候,通过decode(编码格式)进行解码,展现. ''' #