python3.4 伪装成浏览器获取页面信息失败

最近学了下网络爬虫,打算从一个网站上提取点东西,自己练练手,刚开始还从这个网站上取了正确的html,后来百般尝试还是不能取正确的html,希望能得到大家的帮助~

我刚开始的代码是:

1     url="http://www.karger.com/Collections/Hospital";
2     data = urllib.request.urlopen(url).read();
3     data=data.decode(‘gb2312‘);
4     data=BeautifulSoup(data);
5     print(data);

后来改成下面这样:

 1 url="http://www.karger.com/Collections/Hospital";
 2
 3 headers = [(‘Host‘,‘www.karger.com‘),
 4             (‘Connection‘, ‘keep-alive‘),
 5             (‘Cache-Control‘, ‘max-age=0‘),
 6              (‘Accept‘, ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘),
 7               (‘User-Agent‘, ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0‘),
 8               (‘Accept-Encoding‘,‘gzip, deflate‘),
 9                (‘Accept-Language‘, ‘zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3‘),
10                (‘If-None-Match‘, ‘90101f995236651aa74454922de2ad74‘),
11                (‘Referer‘,‘"http://www.karger.com/Collections/Hospital"‘),
12                (‘If-Modified-Since‘, ‘Thu, 01 Jan 1970 00:00:00 GMT‘)]
13 opener = urllib.request.build_opener()
14 opener.addheaders = headers
15 data = opener.open(url).read();
16 print(data)  

得到的执行结果都是下面这样:

b‘<html>\r\n<head>\r\n<META NAME="robots" CONTENT="noindex,nofollow">\r\n<script>\r\n(function() {  function getSessionCookies() {   cookieArray = new Array();   var cName = /^\\s?incap_ses_/;   var c = document.cookie.split(";");   for (var i = 0; i < c.length; i++) {    key = c[i].substr(0, c[i].indexOf("="));    value = c[i].substr(c[i].indexOf("=") + 1, c[i].length);    if (cName.test(key)) {     cookieArray[cookieArray.length] = value    }   }   return cookieArray  }  function setIncapCookie(vArray) {   try {    cookies = getSessionCookies();    digests = new Array(cookies.length);    for (var i = 0; i < cookies.length; i++) {     digests[i] = simpleDigest((vArray) + cookies[i])    }    res = vArray + ",digest=" + (digests.join())   } catch (e) {    res = vArray + ",digest=" + (encodeURIComponent(e.toString()))   }   createCookie("___utmvc", res, 20)  }  function simpleDigest(mystr) {   var res = 0;   for (var i = 0; i < mystr.length; i++) {    res += mystr.charCodeAt(i)   }   return res  }  function createCookie(name, value, seconds) {   if (seconds) {    var date = new Date();    date.setTime(date.getTime() + (seconds * 1000));    var expires = "; expires=" + date.toGMTString()   } else {    var expires = ""   }   document.cookie = name + "=" + value + expires + "; path=/"  }  function test(o) {   var res = "";   var vArray = new Array();   for (var j = 0; j < o.length; j++) {    var test = o[j][0]    switch (o[j][1]) {    case "exists_boolean":     try { \t if(typeof(eval(test)) != "undefined"){ \t\tvArray[vArray.length] = encodeURIComponent(test + "=true") \t } \t else{ \t\tvArray[vArray.length] = encodeURIComponent(test + "=false") \t }     } catch (e) {      vArray[vArray.length] = encodeURIComponent(test + "=false")     }     break;    case "exists":     try {      vArray[vArray.length] = encodeURIComponent(test + "=" + typeof(eval(test)))     } catch (e) {      vArray[vArray.length] = encodeURIComponent(test + "=" + e)     }     break;    case "value":     try {      vArray[vArray.length] = encodeURIComponent(test + "=" + eval(test).toString())     } catch (e) {      vArray[vArray.length] = encodeURIComponent(test + "=" + e)     }     break;     case "plugins":     try{         p=navigator.plugins         pres=""         for (a in p){pres+=(p[a][\‘description\‘]+" ").substring(0,20)}         vArray[vArray.length] = encodeURIComponent("plugins=" + pres);         }     catch(e){         vArray[vArray.length] = encodeURIComponent("plugins=" +e);         } \tbreak;      case "plugin":     try {      a = navigator.plugins;      for (i in a) {       f = a[i]["filename"].split(".");       if (f.length == 2) {        vArray[vArray.length] = encodeURIComponent("plugin=" + f[1]);        break       }      }     } catch (e) {      vArray[vArray.length] = encodeURIComponent("plugin=" + e)     }     break    }   }   vArray = vArray.join();   return vArray  }  var o = [   ["navigator", "exists_boolean"],   ["navigator.vendor", "value"],   ["opera", "exists_boolean"],   ["ActiveXObject", "exists_boolean"],   ["navigator.appName", "value"],   ["platform", "plugin"],   ["webkitURL", "exists_boolean"],   ["navigator.plugins.length==0", "value"],   ["_phantom", "exists_boolean"] ];  try {   setIncapCookie(test(o));   document.createElement("img").src = "/_Incapsula_Resource?SWKMTFSR=1&e=" + Math.random()  } catch (e) {   img = document.createElement("img");   img.src = "/_Incapsula_Resource?SWKMTFSR=1&e=" + e  } })();\r\n</script>\r\n<script>\r\n(function() { \r\nvar z="";var b="7472797B766172207868723B76617220743D6E6577204461746528292E67657454696D6528293B766172207374617475733D227374617274223B7661722074696D696E673D6E65772041727261792833293B77696E646F772E6F6E756E6C6F61643D66756E6374696F6E28297B74696D696E675B325D3D22723A222B286E6577204461746528292E67657454696D6528292D74293B646F63756D656E742E637265617465456C656D656E742822696D6722292E7372633D222F5F496E63617073756C615F5265736F757263653F4553324C555243543D363726743D373826643D222B656E636F6465555249436F6D706F6E656E74287374617475732B222028222B74696D696E672E6A6F696E28292B222922297D3B69662877696E646F772E584D4C4874747052657175657374297B7868723D6E657720584D4C48747470526571756573747D656C73657B7868723D6E657720416374697665584F626A65637428224D6963726F736F66742E584D4C4854545022297D7868722E6F6E726561647973746174656368616E67653D66756E6374696F6E28297B737769746368287868722E72656164795374617465297B6361736520303A7374617475733D6E6577204461746528292E67657454696D6528292D742B223A2072657175657374206E6F7420696E697469616C697A656420223B627265616B3B6361736520313A7374617475733D6E6577204461746528292E67657454696D6528292D742B223A2073657276657220636F6E6E656374696F6E2065737461626C6973686564223B627265616B3B6361736520323A7374617475733D6E6577204461746528292E67657454696D6528292D742B223A2072657175657374207265636569766564223B627265616B3B6361736520333A7374617475733D6E6577204461746528292E67657454696D6528292D742B223A2070726F63657373696E672072657175657374223B627265616B3B6361736520343A7374617475733D22636F6D706C657465223B74696D696E675B315D3D22633A222B286E6577204461746528292E67657454696D6528292D74293B6966287868722E7374617475733D3D323030297B706172656E742E6C6F636174696F6E2E72656C6F616428297D627265616B7D7D3B74696D696E675B305D3D22733A222B286E6577204461746528292E67657454696D6528292D74293B7868722E6F70656E2822474554222C222F5F496E63617073756C615F5265736F757263653F535748414E45444C3D313134343931363832343539363439303734382C31343832303638373230383234383031333036362C31343339363333303438303432363939313530392C3735353431222C66616C7365293B7868722E73656E64286E756C6C297D63617463682863297B7374617475732B3D6E6577204461746528292E67657454696D6528292D742B2220696E6361705F6578633A20222B633B646F63756D656E742E637265617465456C656D656E742822696D6722292E7372633D222F5F496E63617073756C615F5265736F757263653F4553324C555243543D363726743D373826643D222B656E636F6465555249436F6D706F6E656E74287374617475732B222028222B74696D696E672E6A6F696E28292B222922297D3B";for (var i=0;i<b.length;i+=2){z=z+parseInt(b.substring(i, i+2), 16)+",";}z = z.substring(0,z.length-1); eval(eval(\‘String.fromCharCode(\‘+z+\‘)\‘));})();\r\n</script></head>\r\n<body>\r\n<iframe style="display:none;visibility:hidden;" src="//content.incapsula.com/jsTest.html" id="gaIframe"></iframe>\r\n</body></html>‘

希望大家能够帮我找到问题,谢谢大家~

时间: 2024-10-08 17:14:50

python3.4 伪装成浏览器获取页面信息失败的相关文章

爬虫实例——爬取煎蛋网OOXX频道(反反爬虫——伪装成浏览器)

煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' print requests.get(url).text 执行上述代码,你得到的结果应该跟我一样: 煎蛋网应该是通过检测headers来判断是否爬虫,要想获取正常的源代码,需要伪装成浏览器. # -*- coding: utf-8 -*- import re import requests from

【裸机装系统】获取硬盘信息失败,请谨慎操作!

公司新买了两台服务器,需要安装操作系统. 我在安装其中一台进PE时,提示“获取硬盘信息失败,请谨慎操作!” 研究了半天,网上说是因为磁盘设置了RAID,于是我把RAID删除.按CTRL+R键到配置RAID的地方,有如下提示,如图 找了半天将RAID删除 删除RAID后,没有了上面的提示,可是PE依然提示“获取硬盘信息失败,请谨慎操作” 同事说要不用光盘引导安装,于是我拿了张光盘刻录了一个镜像,也还是不行,报下面的错误: 既然光盘也不行,我把BIOS的参数也都看了几遍,实在是没辙了,于是找公司买服

通过jquery获取页面信息

获取浏览器显示区域(可视区域)的高度 : $(window).height(); 获取浏览器显示区域(可视区域)的宽度 :$(window).width(); 获取页面的文档高度 $(document).height(); 获取页面的文档宽度 :$(document).width(); 浏览器当前窗口文档body的高度: $(document.body).height();浏览器当前窗口文档body的宽度: $(document.body).width();获取滚动条到顶部的垂直高度 (即网页被

Android USB API获取设备信息失败问题

在华为荣耀的盒子验证openni的程序,发现orbbec的3d摄像头一直无法使用,一直卡在 设备找不到的提示. 开始从下面2个方面验证:1.验证openni的本身自带的SimpleRead程序,看看是否正常读取到设备信息和depth 图.2.验证Android层usb权限控制问题. 经过验证发现openni自带的c++的可执行程序,可以正常读取到设备信息和depth 图.由此推测 orbbec 3d的驱动和openni的这块部分没有什么问题.问题可能出在Android层的usb权限和获取设备信息

使用Python Requests伪装成浏览器请求百度360获取关键词批量排名

#!/usr/local/python/bin/python3.7import requests,re,time,random,string#error='360搜索_访问异常出错' #360error="location.href.replace" #baiduurl=["www.a.com", "www.b.com"] #你要查询的网址,可以是多个uaList = ['Mozilla/5.0 (Windows NT 6.1; WOW64) A

通过js触发launch事件获取页面信息

注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814776265602499080/ 承接上一篇文档<页面Cookie的JS文件编写> 思路 继续之前的js编写 在keys中添加launch事件标识 再添加一个会员编号的参数 加入get/set方法 准备发送到服务器的列名称,这是发送到服务器的名称信息,方便日后统计,如果不断添加信息,就可以在这个地方添加.服务器地址在clientConfig中配置 其中一些列名称是公共信息,和其它信息是有区别的,所以单独拿

跳转链接前通过浏览器获取定位信息

<script type="text/javascript" src="http://webapi.amap.com/maps?v=1.3&key=5dacabfc3bd5924cdb6373195dcf68a0"></script> <script type="text/javascript"> var map, geolocation; var lng, lat; //加载地图,调用浏览器定位服务

通过js触发onPageView和event事件获取页面信息

注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814814715022148100/ 承接上一篇文档<js页面触发launch事件编写> pageView事件是pc端的基本事件类型,主要是描述用户访问网站信息 思路图 首先keys中添加事件标识 然后发送到服务器的列名称 执行对外方法前必须执行的方法preCallApi onPageView事件方法 添加pageView事件触发 查看日志效果 查看网络访问信息 工具显示 编写一个html表示跳转页面 访问地

小程序获取用户信息失败

最近在写小程序的时候遇到了一个问题:在修改了AppID信息之后,在页面中调用wx.getUserInfo会直接失败,换了一种<button open-type="getUserInfo">授权用户信息</button>手动授权的方法,这个方法虽然成功获取到了用户信息,但是:在页面第一次加载的时候,却出现了解密失败的情况,必须刷新一下程序. 解决方法:在wx.getUserInfo中加入属性withCredentials,并设置为true,表示带上登录状态信息 原