phantomjs配置

# -*- coding: utf-8 -*-
from lxml import html
from time import sleep
import requests
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium import webdriver

url = ‘http://www.tianyancha.com/company/638562997‘
‘‘‘
for i in range(0, 100000):
    data = requests.get(url)
    dataHtml = html.fromstring(data.content)
    print dataHtml.xpath(‘//title/text()‘)[0], len(data.content),data.status_code
‘‘‘

dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap = {
    "phantomjs.page.settings.userAgent": "Mozilla/5.0 (Windows NT     10.0; WOW64) AppleWebKit/537.36 "                                         "(KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36",
    "phantomjs.page.settings.loadImages": False,
    "phantomjs.page.settings.resourceTimeout": 5000
}
proxy = [
            ‘--proxy=120.27.142.209:82‘,
            ‘--proxy-type=http‘,
            ‘--ignore-ssl-errors=true‘,
            ‘--ssl-protocol=tlsv1‘
        ]
for i in range(0, 50):
    driver = webdriver.PhantomJS(desired_capabilities=dcap,service_args=proxy)
    #driver = webdriver.Chrome()
    driver.get(url)
    #wait = WebDriverWait(driver, 10)
    #a = wait.until(EC.presence_of_element_located(By.CSS_SELECTOR,         ‘div.datatable‘))
    sleep(5)
    open(‘logs/2.html‘, ‘w‘).write(driver.page_source.encode(‘utf8‘))
    print i, driver.title
时间: 2024-10-17 10:20:06

phantomjs配置的相关文章

ChromeDriver和PhantomJS配置到$PATH

1.ChromeDriver配置 2.PhantomJ配置 $1. 在Linux和Mac下,可以将ChromeDriver配置到$PATH.首先,可以将可执行文件放到某一目录,目录可以任意选择. 例如将当前可执行文件放在/usr/local/目录下,用下面命令打开此路径, 1 open /usr/local/ 接下来可以修改~/.profile文件,相关命令如下: 1 export PATH="$PATH:/usr/local/chromedriver" 保存后执行如下命令: 1 so

盘点selenium phantomJS使用的坑

说到python爬虫,刚开始主要用urllib库,虽然接口比较繁琐,但也能实现基本功能.等见识了requests库的威力后,便放弃urllib库,并且也不打算回去了.但对一些动态加载的网站,经常要先分析请求,再用requests模拟,比较麻烦.直到遇到了selenium库,才发现爬动态网页也可以这么简单,果断入坑! selenium是python的一个第三方自动化测试库,虽然是测试库,却也非常适合用来写爬虫,而phantomJS是其子包webdriver下面的一个浏览器.phantomJS本身是

数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置

数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 2013-05-15 15:08:14 分类: Python/Ruby 数据抓取是一门艺术,和其他软件不同,世界上不存在完美的.一致的.通用的抓取工具.为了不同的目的,需要定制不同的代码.不过,我们不必Start from Scratch,已经有许多的基本工具.基本方法和基础框架可供使用.不同的工具.不同的方法.不同的框架的特点也不同.了解这些工具.方法和框架是首要任务,接下来就需要明白它们的差异都在哪里.什么情境该用什

PhantomJS、CasperJS安装配置图文详解

目前网站主流的加载方式: 一种是同步加载:另一种是异步加载,也即我们常说的用ajax.对于同步加载的网站,普通的爬虫程序轻松就能搞定.但是对于那种异步请求数据的网站,通常使用selenium+PhantomJS组合来完成. (1)selenium:是一个web自动化测试工具,最初是为网站自动化测试而开发的,可以通过它用代码操作浏览器以及网页中的元素.Selenium支持绝大部分发浏览器,类似PhantomJS无界面的浏览器 (2)PhantomJS:是一个基于webkit的无界面浏览器,除了没有

MAC 上的Phantomjs的安装和配置

1.下载 http://phantomjs.org/download.html 选择mac版本下载 2.下载完成后,解压缩,然后放到自己的一个目录下面 例如:/usr/local/Phantomjs/ 3.设置环境变量 添加: export PATH=/Users/jerry/phantomjs-2.1.1-macosx/bin:$PATH 保存 4.验证 输入phantomjs MacBook-Pro:~ jerry$ phantomjs phantomjs> 搞定! 方法二: brew up

python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片

本篇博文在编写时参考了http://cuiqingcai.com/2652.html,向作者表示感谢 一.新的问题与工具 平时在淘宝上剁手的时候,总是会看到各种各样的模特.由于自己就读于一所男女比例三比一的工科院校--写代码之余看看美女也是极好的放松方式.但一张一张点右键–另存为又显得太过麻烦而且不切实际,毕竟图片太多了.于是,我开始考虑用万能的python来解决问题. 我们先看看淘女郎页面的URL,https://mm.taobao.com/json/request_top_list.htm?

Python爬虫进阶二之PySpider框架安装配置

关于 首先,在此附上项目的地址,以及官方文档 PySpider 官方文档 安装 1. pip 首先确保你已经安装了pip,若没有安装,请参照 pip安装 2. phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API.它全面支持web而不需浏览器支持,其快速.原生支持各种Web标准:DOM 处理.CSS 选择器.JSON.Canvas 和 SVG. PhantomJS 可以用于页面自动化.网络监测.网页截屏以及无界面测试等. 安装 以上附有官方安

Python爬虫利器四之PhantomJS的用法

前言 大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了.所以,我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面. 其中有一个比较常用的工具,那就是 PhantomJS Full web stack No browser required PhantomJS is a headless WebKit scriptable with a Ja

PhantomJS

PhantomJS 来自<JavaScript 标准参考教程(alpha)>,by 阮一峰 目录 概述 REPL环境 webpage模块 open() evaluate() includeJs() render() viewportSize,zoomFactor onResourceRequested onResourceReceived system模块 应用 过滤资源 截图 抓取图片 生成网页 参考链接 概述 有时,我们需要浏览器处理网页,但并不需要浏览,比如生成网页的截图.抓取网页数据等