【转载】python抓取网页时候，判断网页编码格式

在web开发的时候我们经常会遇到网页抓取和分析，各种语言都可以完成这个功能。我喜欢用python实现，因为python提供了很多成熟的模块，可以很方便的实现网页抓取。
但是在抓取过程中会遇到编码的问题，那今天我们来看一下如何判断网页的编码：
网上很多网页的编码格式都不一样，大体上是GBK,GB2312，UTF-8等。
我们在获取网页的的数据后，先要对网页的编码进行判断，才能把抓取的内容的编码统一转换为我们能够处理的编码，避免乱码问题的出现。

使用chardet模块

 1 #如果你的python没有安装chardet模块，你需要首先安装一下chardet判断编码的模块哦
 2 #author:pythontab.com
 3 import chardet
 4 import urllib
 5 #先获取网页内容
 6 data1 = urllib.urlopen(‘http://www.baidu.com‘).read()
 7 #用chardet进行内容分析
 8 chardit1 = chardet.detect(data1)
 9
10 print chardit1[‘encoding‘] # baidu

执行结果为：

gb2312

这个结果都是正确的哦，各位可以去亲自验证一下~~

原文地址：https://www.cnblogs.com/huochaihe/p/8366514.html

时间： 2024-11-10 11:38:53

【转载】python抓取网页时候，判断网页编码格式的相关文章

Python抓取需要cookie的网页

Python抓取需要cookie的网页在仿照<Python小练习:可视化人人好友关系>一文时,需要登录模拟登录人人网.然而自从CSDN事件之后,人人网开始使用加密方式处理登录名和密码,直接使用post方式已经无法登陆人人网.这时,从豆瓣讨论中找到了解决方法: 1. 首先使用浏览器登陆人人,然后找到浏览器中关于登陆的Cookie: 2. 将Cookie记录下来,在Python中使用cookie模块模拟浏览器的行为: 3. 取得并解析数据. 1. HTTP协议与Cookie 抓取网页的过程跟浏览

python抓取网页

一不需要登录的 import urllib2 content = urllib2.urlopen('http://XXXX').read() 二使用代理 import urllib2 proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'}) opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) urllib2.install_o

Python抓取网页&批量下载文件方法初探（正则表达式+BeautifulSoup） (转)

Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) 最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法. 一.用Python抓取网页基本方法: [python] view plaincopyprint? import urllib2,urllib url = 'http://www.baidu.com' req

[python]乱码：python抓取脚本

参考: http://www.zhxl.me/1409.html 使用 python urllib2 抓取网页时出现乱码的解决方案发表回复这里记录的是一个门外汉解决使用 urllib2 抓取网页时遇到乱码.崩溃.求助.解决和涨经验的过程.这类问题,事后看来只是个极小极小的坑,不过竟然花去很多时间,也值得记录一下.过程如下: 目标: 抓取 http://sports.sina.com.cn/g/premierleague/index.shtml 代码: 1 2 3 4 5 6 # coding

微信好友大揭秘，使用Python抓取朋友圈数据，通过人脸识别全面分析好友，一起看透你的“朋友圈”

微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友的动态,而朋友圈中或虚或实的状态更新,似乎都在证明自己的"有趣",寻找那份或有或无的存在感. 有人选择在朋友圈记录生活的点滴,有人选择在朋友圈展示自己的观点.有时我们想去展示自己,有时又想去窥探着别人的生活,而有时又不想别人过多的了解自己的生活,或是屏蔽对方,或是不给对方看朋友圈,又或是不

python抓取百度彩票的双色球数据

最近在学习<机器学习实战>这本书,在学习的过程中不免要自己去实践,写些练习.这写练习的第一步就需要收集数据,所以为了写好自己的练习程序,我得先学会收集一些网络数据.了解到用python抓取网页数据的一些方法后,我就根据别人的demo,自己实践了一下,学着从百度彩票网站上抓取双色球的历史数据.以下我就介绍一下自己的小程序. 大致思路如下找到相关url和其参数找出页面上你要抓取的数据的位置,也就是说这个数据在那些标签下将每页中学要的数据取下来按一定格式存放在自己本地需要的环境: pytho

用Python抓取全站中的404错误

链接是SEO的一个重要因素.为了在搜索引擎中获取更好的排名,一定要定期检查下网站中的链接是否依然有效.特别是由于一些巨大的改动可能会导致坏链接的出现.要检测这些站内的链接问题,可以通过一些在线的工具.比如Google Analytics,Bing Webmaster Tools,brokenlinkcheck.com等.尽管有现成的工具,我们也可以自己来编写一个.使用Python会非常容易. 参考原文:How to Check Broken Links with 404 Error in Pyt

房东要给我涨800房租，生气的我用Python抓取帝都几万套房源信息，我主动涨了1000。

老猫我在南五环租了一个80平两居室,租房合同马上到期,房东打电话问续租的事,想要加房租:我想现在国家正在也在抑制房价,房子价格没怎么涨,房租应该也不会涨,于是霸气拒绝了,以下是聊天记录:确认不续租之后,两三年没找过房的我上网搜索租房,没想到出来一坨自如,蛋壳,贝壳等中介网站:进去看看,各种房照非常漂亮,但是一看房租,想送给自己一首<凉凉>:附近房租居然比我当前房租高1000多RMB:自我安慰下,这些网站房源价格不是真实的,于是切换到我爱我家,链家等大中介平台,结果发现房租价格都差不多:心想这才

使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）

本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过BeautifulSoup对页面进行解析,并从中获取房源价格,面积,户型和关注度的数据. 准备工作首先是开始抓取前准备工作,导入需要使用的库文件,这里主要使用的是requests和BeautifulSoup两个.Time库负责设置每次抓取的休息时间.这里并非全部,后续还会在过程中导入新的库. 抓取列表页开始抓取

《一出好戏》讲述人性，使用Python抓取猫眼近10万条评论并分析，一起揭秘“这出好戏”到底如何？

黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的.目前<一出好戏>在猫眼上已经获得近60万个评价,评分为8.2分,票房已破10亿. 作者本人(汤小洋 )今天也走进了电影院,对这部电影做了亲身的观看,看完后的感觉是有些许失落的,本以为是喜剧片,结果发现笑点一般,从搞笑的角度来看,不如<西虹市首富>,影片更多的是反映人类本性的一部电影,不应当做喜剧片来看,影片中展现的人与人之间的关系倒是值得我们去深思.

猜你喜欢

郭美美、赵晓来开设赌场案9月10日开审

新京报快讯 (记者李禹潼) 记者刚刚从北京市东城区法院获悉,郭美美.赵晓来开设赌场案将于9月10号上午开庭审理. 2014年7月世界杯期间,北京警方查获一个赌球团伙,抓获团伙成员8名.这个团伙在境外赌 ...

Unity5 项目设置 .gitignore 解决 Missing Prefab 问题

同步Unity工程时候,两边总是出现Missing Prefab问题. 按照网上的教程设置是无效的. 后来Google了一下才发现新版Unity和旧版的设置方式是不同的. 1.在 Edit-&g ...

菜鸟系列之C/C++经典试题(四)

题目一:查找最小的k个元素输入n个整数,输出其中最小的k个. 例如输入1,2,3,4,5,6,7和8这8个数字,则最小的4个数字为1,2,3和4. 分析:这道题最简单的思路莫过于把输入的n个整数排序 ...

一首rap唱响百姓获得感《厉害了，我们的2016年！》s

纵观经济发展趋势,吴晓波人为,每一轮财富积累都与经济大周期息息相关.今后十年,我们正迎来改革开放后的第三次产业大转型.以新实业.新消费.新金融.新城镇化为代表的四大新动力将引领未来增长. 会议在通过了 ...

1, xml 文件 <?xml version="1.0" encoding="utf-8"?><root> <person> ...

创业的第四十三天

今天把详细商品的显示功能做出来了,现在能够上传商品和查看商品了,APP端也快赶上这个进度了.接下来就是购买商品了,也就是订单提交. 要完成订单模块,首先APP可以提交购物车的订单,服务器应该建个数据库 ...

SqlFunctions 可以在EF种调用sqlserver的函数

在EF5环境下,首先添加EF环境,在引用中添加Syste.Data.Entity,再添加命名空间 using System.Data.Objects.SqlClient; 然后写一个控制器测试 1 p ...

c++primer4 Chapter2变量和基本类型2.3

2.3 变量 Exercise2.11 #include <iostream>using namespace std;int main(){ cout<<"Enter ...

POJ1064

1 #include <iostream> 2 #include <iomanip> 3 #include <cmath> 4 using namespace st ...

使用多个代理IP爬某投资机构的公司信息

使用requests+beautifulsoup4爬取某网站的项目信息,此网站比较复杂,所需的数据在6个不同网页中,每抓取一条数据需要打开6个不同网页取数据,然后保存在某一条数据的数据字典中.某些数据 ...

无理数是无限不循环小数,或者无理数是一个有理数列的极限的说法并没有给实数一个定义,而是在给了实数定义之后才有意义. dedekind分割给了实数一个严格的定义.dedekind分割基于这样一种观察:有 ...

关于KeyMob-移动广告聚合观察 By KeyMob

随着移动互联网的发展崛起,亿万用户的移动应用也越来越多,而如何将这些丰富的用户资源变现,就是众多开发者所甚为担心的问题.目前来看,相对比较成熟的还是移动广告营销. 在行业内,提起KeyMob,人们也许 ...

python课程day1

本节内容 Python介绍发展史 Python 2 or 3? 安装 Hello World程序变量用户输入模块初识 .pyc是个什么鬼? 数据类型初识数据运算表达式if ...else语 ...

2个2D向量计算交点的夹角和补角

2维向量如何计算与某一个交点之间的夹角,假设A,B是向量,C是他们共同连接的一个点计算出A-C-B形成的角度我们先了解几个简单的计算: 2D向量的乘积计算 (A.x * B.x + A.y * ...

oldboy

决心书大家好,我叫熊阳,老男孩教育linux运维期学员,我来自江西宜春,即将毕业的我,面临的是迷茫和无措,但就在这时!我看到了老男孩!他自带耀眼圣光和宏大的BGM,为暂时我找到了一条路,可能是宽敞的 ...

eclipse查看hadoop中文件出现乱码

出现这个问题, 我首先去找了一下几个问题: 1.文件是否是utf-8 2.上传到Linux中的hadoop, 在Linux下去查看是否乱码 3.上面都没有问题, 就去检查eclipse,将项目工程改成 ...

shell中调用mysql 原格式输出到文件里面

sql5="select * from 表名 ;"; 第一种方法 #ss1=$(mysql -u $DB_USER -h ${DB_IP} -p${DB_PASSWD} $DB_N ...

Cache 判断Ip几分钟内攻击次数

要做一个防止一个Ip攻击网站的功能,想到了使用Cache,里面有Add 和 Insert方法.方法中有很多参数,他是以key-Value 方式存储,区别在于,Add方法一旦创建,里面的数据不可以修 ...

JS正则表达式基本语法

1.正则表达式基本语法两个特殊的符号'^'和'$'.他们的作用是分别指出一个字符串的开始和结束. 例子如下: "^The":表示所有以"The"开始的字符串( ...

jquery,tree无限级树形菜单+简单实用案例

jquery,tree无限级树形菜单+简单实用案例我在项目中用到产品类别的树形.各种地方都要用. 我就封装起来,方便以后调用. 记录下来,希望给新手们提供帮助.要记得导入jquery.js tre ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.