遇到百度云加速,网页内容爬不到的快速解决

在爬网站时,发现网站做了百度云加速,每次访问首页时要求输入验证码,才能打开网站首页

没采用网上自动解析验证码图片的方案,快过年了,不想PIP,快速解决快速回家

经过分析网站,发现如果你拿到一个当期可用的Cooikes后,你就可以一直爬数据,且并不会触发百度验证输入

代码如下(注意:代码中的网址、Cookies都是假的,如果想用代码,把你自己的网址和Cookies替换上

import request 

from datetime import datetime, timedelta

from scrapy.selector import Selector

s=requests.session()

headers = {
            ‘cookie‘: ‘__cfduid=134343474e8d3f723cae541fb7d7f6b01f1546501720; _ga=GA1.2.573376275.1546501778; _gid=GA1.2.543022193.1549014020; cf_clearance=b19851c48ae560c62485879ac37a257a3f12df1e-1549086155-1800-250; ‘,
            ‘user-agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/536.34 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.34‘,
    }

url = ‘https://www.samle.com/news/page/2/‘
res = requests.get(url,headers=headers)
hxs = Selector(res)
#print(res.text)
datePub = hxs.xpath(‘//main[@class="content"]//time/text()‘).extract()
#print (datePub)
links = hxs.xpath(‘//main[@class="content"]//h2/a‘)
for index, link in enumerate(links):
            pubDateStr = datePub[index]
            pubDateStr = pubDateStr.strip()

            url = ‘‘.join(link.xpath(‘./@href‘).extract())
            item_pubDateStr = datetime.strftime(pubDate, ‘%Y-%m-%d‘)
            item_res = requests.get(url, headers=headers)
            item_hxs = Selector(item_res)
            item_title = item_hxs.xpath("//h2/text()").extract()
            item_content = item_hxs.xpath("//main//div[@class=‘econtent‘]/p//text()").extract()
            item_datePublish =item_pubDateStr
            item_linkAddress = url
            filename = datetime.now().strftime(‘%Y%m%d%H%M%S%f‘)+".txt"
            str_result = ‘{"linkAddress":["‘+url+‘"],‘
            str_result = str_result + ‘"title":["‘+item_title[0]+‘"],‘
            str_result = str_result + ‘"datePublish": ["‘+item_pubDateStr+‘"],‘
            if len(item_content)>1:
                str_result = str_result + ‘"content": ["‘+item_content[0]+‘"]}‘
            else:
                str_result = str_result + ‘"content": ["‘ + "" + ‘"]}‘

            if len(str_result) >0:
                with open(filename, ‘w‘,encoding=‘utf-8‘) as f:
                    f.write(str_result)
                    print(item_title)

如何获取当期可用的Cookies的方法:

打开Chorme,打开“开发者工具”(按F12)

访问网址后

去开发发工具里的“Network”Tab页里去找它的Cookies!

enjoy :P

原文地址:https://www.cnblogs.com/want990/p/10348737.html

时间: 2024-10-25 04:38:30

遇到百度云加速,网页内容爬不到的快速解决的相关文章

使用百度云加速防apache的ab测试

Apache带的有一个ab压力测试的: 具体的概念性的东西:咱不扯:有兴趣的自行搜索: 这里只简单介绍使用方法: windows示例:e:\wamp64\bin\apache\apache2.4.17\bin\ab.exe -n1000 -c100http://baijunyao.com/article/8 mac.linux示例:/usr/bin/ab -n1000 -c100 http://baijunyao.com/article/8 e:\wamp64\bin\apache\apache

记一次网站访问故障---百度云加速初尝

官网更新了一张图片和两个视频. 上传之后无法访问图片,检查配置文件.服务状态.日志,最终发现同一目录下旧图片可以访问,新的却有时可以有时不行. 忽然想到前阵子另一同事试用了百度云加速,可能是用户访问被转到了百度云加速节点上,而这些节点尚未全部同步过来,又因为某些原因不能够做缓存(同一个客户访问时好时坏),所以才会出现这样尴尬的事情(为毛没有个缓存,同一用户还能是随机的加速节点?). 其他线索: 服务器流量被百度云节点占用() 页面打开开发者工具在图片页面上Network,能看到hit 云加速猜中

Error 522 百度云加速节点无法连接源站 解决方案

百度云加速节点无法连接源站 处理步骤如下: 1.登录绑定源代码服务器,在服务上直接访问网址.(保证百度云和服务链接正常)(多访问几次保证服务端可以访问.) 2.本地客户端链接网址测试,测试是否正常,如果不正常,走下一步. 3.如果链接不上网址,表面本地无法解析百度云,更换dns,将备用dns设置为8.8.8.8. 4.更换后尝试刷新,清除浏览器缓存,估计基本没有问题,可以直接浏览了. 问题分析:两种原因:一.服务器和百度云无法链接,二.本地dns无法解析指定ip.

百度云管家下载大文件速度慢的解决办法

win7下百度云管家下载百度网盘上的大文件,速度基本在100K以内.网上搜索解决办法有2类: 1,一种是迅雷法.采用替换URL中的home为wap,取得下载链接,然后用迅雷下载.但实际上迅雷下载速度也不快,且不稳定,有时200~300KB/s,有时根本没速度,下载会失败.换成QQ旋风也一样,没速度. 2,一种是换云管家版本,采用不限速的低版本.实践中发现,2.1版并不行,4.1版OK,基本满速下载. 新版本的百度云的问题,换个老版本,我用4.1.0,一样全速下载,下面百度云4.1.0绿色版连接,

巧妙解决百度云管家下载速度慢

经常从百度云盘下载东西的用户都知道,使用百度云盘下载文件超过2GB的就要必须要用百度云管家来下载了,更坑爹的是本来下载速度非常快的东西,用百度云管家下载速度就会变得比较慢,据说是百度云管家限速了,如遇到要下载比较大的文件,真的是要考验用户的耐心了.下面就介绍如何绕过百度云管家使用其他工具下载,以解决云管家下载慢的问题. 至于什么用以前的老版本不限速 纯属扯淡. 先登录自己的百度云盘:pan.baidu.com,然后进入要下载的资源的百度云分享下载页面,点击“保存至网盘”,将要下载的文件转存至自己

网易云课堂资源合集百度云分享

链接: https://pan.baidu.com/s/1zke9VoOhFy1myrs1m0F9Bg 提取码: gsas<手把手教你做产品>实战演练 百度云资源 免费分享 刘文智突破设计瓶颈[排版色彩字体全集] 百度云资源 免费分享 顾领中知识管理:科学搭建高效知识体系 百度云资源 免费分享 钱闯老师时间管理神器-OmniFocus for iOS 百度云资源 免费分享 知常学社零基础:21天搞定Python分布爬虫 百度云资源 免费分享 知了课堂新概念英语第一册 144课全 百度云资源 免

新版百度云如何加速

之前的aria2已经不好使了,用mac版的客户端,下载速度又极其慢. 操作方法 一. https://greasyfork.org/zh-CN/ 在这个网站上可以给chrome装上一个插件 二. 加载这个 https://greasyfork.org/zh-CN/scripts/23635-%E7%99%BE%E5%BA%A6%E7%BD%91%E7%9B%98%E7%9B%B4%E6%8E%A5%E4%B8%8B%E8%BD%BD 三 打开一个下载百度云文件的网页,可看到右侧处多了一个下载助手

百度云资源下载加速软件推荐:proxyee-down

百度云是个好东西(现在叫百度网盘不过我还是习惯叫百度云),2个T的免费容量可以存视频.软件包等各式文件,就是下载速度有点让人看不下去,不开会员的话就算你是百兆光纤还是量子通信都是被限速的,做为一个商业公司还是能理解的.前些天有个朋友找我要会员,仿佛我就是大财主了,什么会员都有,虽然我没有会员,但是我有数亿的网友啊,之前在网上碰到过一款可以突破下载速度限制的软件,现在推荐给大家. proxyee-down:让下载速度得到解放 机缘巧合之下在一个帖子上面遇见了这款神器,我是一个喜欢收集软件的人,遇到

百度云管家5.0.0 绿色优化版

今天,百度云管家PC客户端迎来全新5.0版本,首个具体版本号为:v5.0.0.14,进入5.0大版本,新版带来了数据线功能,现在电脑手机可以连接互传文件,另外新版支持在线打开CAD文档.在线播放asf格式文件. 云管家是百度推出的云服务产品.它支持便捷地查看.上传.下载云端各类数据.通过存文件,不占本地空间.上传.下载文件过程更稳定,不会因浏览器.网络等突发问题中途中断,大文件传输更稳定. 百度云管家 V5.0 更新内容: 1.新增数据线功能:电脑手机轻松连接互传文件 2.支持在线打开CAD文档