Scrapy selenium 设置头部信息headers-------UA

1,PhantomJS

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium import webdriver
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap[‘phantomjs.page.settings.userAgent‘] = ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36‘
browser = webdriver.PhantomJS(desired_capabilities=dcap)
browser.save_screenshot(‘ctrip.png‘)(你可以截图下来看看你是不是正常访问页面数据)

2,Chrome

将上面的PhantomJS替换掉就可以。

时间: 2024-11-11 06:16:26

Scrapy selenium 设置头部信息headers-------UA的相关文章

phantomjs和selenium设置proxy、headers

设置ip 方法1: service_args = [ '--proxy=%s' % ip_html, # 代理 IP:prot (eg:192.168.0.28:808) '--proxy-type=http', # 代理类型:http/https '--load-images=no', # 关闭图片加载(可选) '--disk-cache=yes', # 开启缓存(可选) '--ignore-ssl-errors=true' # 忽略https错误(可选) ] driver = webdriv

关于nginx获取真实ip,proxy_set_head设置头部信息的理解

$proxy_add_x_forwarded_for $http_x_forwarded_for 这两个的变量的值的区别,就在于,proxy_add_x_forwarded_for 比http_x_forwarded_for 多了一个$remote_addr的值 但是$remote_addr 只能获取到与服务器本身直连的上层请求ip,所以设置$remote_addr一般都是设置第一个代理上面 但是问题是,有时候是通过cdn访问过来的,那么后面web服务器获取到的,永远都是cdn 的ip 而非真是

pycharm设置文件头部信息模板

设置头部信息路径: 打开File—Settings—Editor—File and Code Templates—Python Script 输入要自动生成的头部信息模板 这样,新建py文件就会自动生成头部信息 参考设置: # coding: utf-8 # Team : Quality Management Center # Author:Carson # Date :$DATE $TIME # Tool :$PRODUCT_NAME 来源:https://www.cnblogs.com/xi

pycharm 设置py文件的默认模版头部信息

pycharm 设置py文件的默认模版头部信息,打开设置settings 进入File->settings->Editor->File and Code Templates->Python Script 在Python Script中输入: # encoding: utf-8 #set( $SITE = "http://www.cnblogs.com/andu99/" ) """ @version: ?? @author: andu

http头部信息详解

打开一个网页(以淘宝网站为例)就会出现相对应的内容,这些内容是通过怎么样的方式展现在我们的面前呢?我们可以通过查看网页的http头部信息来获取相关的内容,如HTTP的请求报文与响应报文等,如下所示 1.General: Request URL:https://img.alicdn.com/tfs/TB1qfbtawMPMeJjy1XcXXXpppXa-160-56.gif ##请求的资源,可以是相对路径,也可以是完整的URL Request Method:GET ##请求方法,希望服务器端执行的

使用scrapy爬虫,爬取今日头条首页推荐新闻(scrapy+selenium+PhantomJS)

爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面 查看源代码你会发现 全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 得到了今日头条的推荐新闻的接口地址:https://www.toutiao.com/api/pc/focus/ 单独访问这个地址得到 此接口得到的数据格式为json数据 我们用scrapy+selenium+PhantomJS的方式获取今日头条推荐的内容 下面是是scrapy中最核心的代码,位于s

网络爬虫之scrapy框架详解,scrapy框架设置代理

twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted, 它是基于事件循环的异步非阻塞网络框架,可以实现爬虫的并发. twisted是什么以及和requests的区别: request是一个python实现的可以伪造浏览器发送Http请求的模块,它封装了socket发送请求 twisted是基于时间循环的异步非阻塞的网络框架,它也封装了socket发送请求,但是他可以单线程的完成并发请求. twisted的特点是: 非阻塞:不等待

深入理解ajax系列第三篇——头部信息

前面的话 每个HTTP请求和响应都会带有相应的头部信息,其中有的对开发人员有用.XHR对象提供了操作头部信息的方法.本文将详细介绍HTTP的头部信息 默认信息 默认情况下,在发送XHR请求的同时,还会发送下列头部信息 Accept: 浏览器能够处理的内容类型 Accept-Charset: 浏览器能够显示的字符集 Accept-Encoding: 浏览器能够处理的压缩编码 Accept-Language: 浏览器当前设置的语言 Connection: 浏览器与服务器之间连接的类型 Cookie:

HTTP头部信息解读

前端开发人员也是需要了解各种网络协议的,下面是关于HTTP消息头部信息的解读. 通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息.客户端向服务器发送一个请求,请求包含请求的方法.URL.协议版本.以及包含请求修饰符.客户信息和内容的类似于MIME(邮件组织结构)的消息结构.服务器以一个状态行作为响应,相应的内容包括消息协议的版本,成功或者错误编码加上包含服务器信息.实体元信息以及可能的实体内容. HTTP协议定义了很多与服务器交互的方法,最基本的有四种,分别是GET.POS