chardet字符集检测模块

chardet字符集检测模块


chardet 字符集检测模块

需要安装

pip install chardet 

可以检测网页,也可以检测字符串

import urllib
import chardet

‘‘‘
从网页的头部信息可以查看的内容
网页的大小,编码等(有时候可能为空)

可以使用chardet来检测网页的编码
‘‘‘

url = ‘http://baidu.com‘

headerInfo = urllib.urlopen(url).info()

# headerInfo.getparam(‘charset‘)

context = urllib.urlopen(url)

print chardet.detect(context)

返回的是一个字典,可以通过字典的key拿到对应的值

result = chardet.detect(context)

print result[‘encoding‘]

代码整理

import urllib
import chardet

‘‘‘
代码的封装
‘‘‘

def auto_getCharset(targetUrl):
    context = urllib.urlopen(targetUrl).read()
    result = chardet.detect(context)
    return result[‘encoding‘]

if __name__==‘__main__‘:
    urls = [‘http://www.csdn.net/‘,‘http://www.imooc.com/‘,‘http://www.51cto.com/‘,
            ‘http://www.mukedaba.com/‘,‘http://www.nowcoder.com/‘]
    for url in urls:
        print url , auto_getCharset(url)

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-12-28 15:55:15

chardet字符集检测模块的相关文章

nginx下后端realserver健康检测模块ngx_http_upstream_check_module

想用Nginx或者Tengine替代LVS,即能做七层的负载均衡,又能做监控状态检测,一旦发现后面的realserver挂了就自动剔除,恢复后自动加入服务池里,可以用Tengine的ngx_http_upstream_check_module模块.本文主要介绍在工作中,搭建遇到问题及处理方法,便以后查询. 首先,我们大多数站点都是nginx+tomcat这个比较常见模式,其实nginx本身也有自己的健康检测模块,本人觉得不好用,故使用ngx_http_upstream_check_module.

Python_01_IP代理池_实现代理池的检测模块

目的:检测代理ip的可用性,保证代理池中代理ip基本可用 思路: 1.在proxy_test.py中,创建ProxyTester类 2.提供一个run方法,用于处理检测代理ip的核心逻辑 1)从数据库中获取所有代理ip 2)遍历代理ip列表 3)检查代理ip可用性 如果不可用,代理分数-1,如果代理分数=0则删除该代理,否则更新代理ip 如果可用,恢复代理ip的分数,更新到数据库中 3.为了提高检查的速度,使用异步来执行检测任务 1)把要检测的代理ip放到队列中 2)把检查一个代理可用性的代码抽

nginx下后端节点realserverweb健康检测模块ngx_http_upstream_check_module

本文章收录做资料使用,非本人原创,特此说明. 公司前一段对业务线上的nginx做了整理,重点就是对nginx上负载均衡器的后端节点做健康检查.目前,nginx对后端节点健康检查的方式主要有3种,这里列出: 1.ngx_http_proxy_module 模块和ngx_http_upstream_module模块(自带) 官网地址:http://nginx.org/cn/docs/http/ngx_http_proxy_module.html#proxy_next_upstream 2.nginx

智能小车二十一 《电压检测模块设计》

小车经常出现一个问题:玩着玩着,操作它前后左右动,但它不动.这时候就不知道到底是那儿的问题,是线断了还是电压不够了.经过我很多次的经验得出,这是因为没电了.因为我每次这时候都会拿电压表去测一下,发现电池电压都在6v以下了.根据这个线索我设计了一个小电路来测电压. 我计划是用小led灯来报警,当电压不足时,灯就常亮.电压不够时(6v)一般小灯还是能够点亮的.经查资料,5mm小灯的工作电流是20ma,红.黄颜色电压是1.8-2.4之间,蓝.白.绿的电压则是3.0-3.6之间.我现在有一个白灯,那么需

python urllib相关学习

#-*-coding:-utf-8 import urllib #url='http://iplaypython.com/' #url1=urllib.urlopen(url)#打开url地址,urlopen(url, data=None, proxies=None) #print url1.read()#读取read() , readline() , readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样 #print url1.getcode

Nginx 负载均衡 后端 监控检测 nginx_upstream_check_module 模块的使用

在使用nginx 的负载均衡 中,我们通常会使用到 Nginx 自带的 ngx_http_proxy_module 健康检测模块. ngx_http_proxy_module 自带的 健康检测模块参数如下: weight   : 轮询权值也是可以用在ip_hash的,默认值为1 max_fails : 允许请求失败的次数,默认为1.当超过最大次数时,返回proxy_next_upstream 模块定义的错误. fail_timeout : 有两层含义,一是在 30s 时间内最多容许 2 次失败:

Python爬虫连载1-urllib.request和chardet包使用方式

一.参考资料 1.<Python网络数据采集>图灵工业出版社 2.<精通Python爬虫框架Scrapy>人民邮电出版社 3.[Scrapy官方教程](http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html) 4.[Python3网络爬虫](http://blog.csdn.net/c406495762/article/details/72858983 二.前提知识 url.http协议.web前端:html\

汽车检测SIFT+BOW+SVM

整个执行过程如下:1)获取一个训练数据集. 2)创建BOW训练器并获得视觉词汇. 3)采用词汇训练SVM. 4)尝试对测试图像的图像金字塔采用滑动宽口进行检测. 5)对重叠的矩形使用非极大抑制. 6)输出结果. 该项目的结构如下: |-----car_detector|       |--detector.py| |--__init__.py| |--non_maximum.py| |--pyramid.py| |--sliding_window.py|-----car_sliding_wind

[每日电路图] 5、心率检测电路设计详解——送给想了解心率计的小白(博主推荐)

Why I Write This Artical? 现在基本上到处都有心率检测的影子,然而淘宝上找个相应的心率检测的模块却是又少又贵! 本人不服,遂打算自己做一个心率检测模块! 一.心率小常识:(18px) 心率是一项重要的人体机能指标,健康成年人大约每分钟心跳72下(72 beats per minute (bpm)).通常情况下运动员的心率比缺少运动的程序员的心率低.小孩心率会高一些,大约120bpm.大一点的小孩心率大约在90bpm.当一个人运动时,心率会逐渐升高,当停下后又会慢慢恢复.如