selenium-java爬虫实现

推荐的网站学习网站

　　1.官方文档　　http://www.seleniumhq.org/docs/

　　2.selenium多线程　　http://www.cnblogs.com/dingmy/p/3438084.html

Selenium Standalone Server

搭建RC环境

　　1.下载Selenium Standalone Server（http://www.seleniumhq.org/download/）

　　2.下载Chrome Drivers,与selenium-server-standalone.jar包放在同目录（http://www.seleniumhq.org/download/）

启动hub

　　1.打开终端，切换到selenium-server-standalone所在的目录

　　2.执行java -jar selenium-server-standalone-3.2.0.jar -role hub -maxSession 40 -port 4444

　 3.启动成功时，提示信息信息如图

参数说明：

maxSession最大会话数

port 监听端口，默认4444，如果监听端口被其他程序占用，程序无法启动成功（可自定义）

启动node

打开终端，切花对应目录

1.执行java -Dwebdriver.chrome.driver=D:\chromeDriver\chrodriver.exe -jar selenium-server-standalone-3.2.0.jar -role node -hub http://(自己的ip):4444/grid/register -maxSession 20 -browser "browser=chrome,maxInstances=20" -port 5555

参数说明：

-Dwebdriver.chrome.driver chrome驱动

-hub hub服务器地址

-browser 设置浏览器参数，最大进程数

-maxSession 最大会话数，注意分支node上的最大会话数不能超过hub服务器上定义的最大会话数

-port 监听端口，默认5555

调用RC

DesiredCapabilities capabilities = DesiredCapabilities.chrome();

WebDriver driver = new RemoteWebdriver(new URL(new URL("http://192.168.199.146:4444/wd/hub")),capabilities);

要在代码中始终selenium工具，需要在maven配置中添加依赖

<groupId>org.seleniumhq.selenium</groupId>

<artifactId>selenium-java</artifactId>

</dependency>

注意：最后选用最好都使用最新版本，因为要和浏览器兼容（曾经踩过的坑）。

时间： 2024-08-27 11:46:19

selenium-java爬虫实现的相关文章

webmagic的设计机制及原理-如何开发一个Java爬虫转

此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-manual.md 之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方面倒是有一些心得,希望对读者有帮助. webmagic的目标一般来说,一个爬虫包括

Java爬虫框架调研

Python中大的爬虫框架有scrapy(风格类似django),pyspider(国产python爬虫框架). 除了Python,Java中也有许多爬虫框架. nutch apache下的开源爬虫程序,功能丰富,文档完整.有数据抓取解析以及存储的模块 heritrix 比较成熟地址:internetarchive/heritrix3 · GitHub很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多.有自己的web管理控制台,包含了一个HTTP 服务器.操作者可

Selenium+Java+Eclipse 自动化测试环境搭建

一.下载Java windows java下载链接 https://www.java.com/zh_CN/download/win10.jsp 二.安装Java 安装好后检查一下需不需要配置环境变量,现在java 8已经不用配置环境变量了,直接在命令行输入:java -version 三.下载和安装Eclipse windows Eclipse下载链接 https://www.eclipse.org/downloads/ 你也可以下载绿色版四.下载selenium,然后解压 selenium

JAVA爬虫 WebCollector

爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫内核: WebCollector致力于维护一个稳定.可扩的爬虫内核,便于开发者进行灵活的二次开发.内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫.源码中集成了Jsoup,可进行精准的网页解析. 量级: WebCollector最常用的爬取器BreadthCrawler使用2^24的布隆过滤器进行URL管理,可处理2^24量级

福利贴——爬取美女图片的Java爬虫小程序代码

自己做的一个Java爬虫小程序废话不多说,先上图. 文件夹命名是用标签缩写,如果大家看得不顺眼可以等下载完成后手动改一下,比如像有强迫症的我一样... 这是挂了一个晚上下载的总大小,不过还有很多因为一些问题没有遍历下载到,而且会产生很多空文件,最下面我附带了一个递归删除空文件夹的小程序代码. 接下来是文件夹内部~ 图片存放位置默认为d:\picture,可在程序中更改,main函数的开头就是,有注释.爬取的网站为http://www.mmonly.cc/,大家有更好的资源网站可以私我. 爬虫源

Java爬虫

1.昨天复习了Java基础(I/O流)和正则表达式今天不讲Java中的 I/O 主要用一个实例来爬取网站中的邮箱代码如下: 1 package com.miao.baba.pacong; 2 3 import java.io.BufferedReader; 4 import java.io.IOException; 5 import java.io.InputStream; 6 import java.io.InputStreamReader; 7 import java.net.URL;

软件测试之Selenium Java WebDriver

编写Selenium Java WebDriver程序,测试inputgit.csv表格中的学号和git地址的对应关系 package selenium2; import java.util.regex.Pattern; import java.util.concurrent.TimeUnit; import org.junit.*; import org.junit.runner.RunWith; import org.junit.runners.Parameterized; import o

自动化测试框架selenium+java+TestNG——配置篇

最近来总结下自动化测试 selenium的一些常用框架测试搭配,由简入繁,最简单的就是selenium+java+TestNG了,因为我用的是java,就只是总结下java了. TestNG在线安装: 打开Eclipse Help ->Install New Software , 然后Add "http://beust.com/eclipse" 选择TestNG,finish下一步完成安装. 验证是否安装成功 File->new->other 导入sele

Java爬虫项目实战（一）

目的: 通过网络爬虫爬取中国最小粒度的区域维度信息,包括省(Province) .市(City).县(County).镇(town).村委会(village) 主网站链接: http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html 主要jar包: http://jsoup.org/packages/jsoup-1.8.1.jar 之前一节我们说过java爬虫从网络上利用jsoup获取网页文本,也就是说我们可以有三种方法获取h

Java爬虫框架SeimiCrawler的工程自动打包工具使用

为了便于开发者对使用SeimiCrawler框架开发的爬虫工程的打包部署,SeimiCrawler现已推出maven-seimicrawler-plugin,一个maven工程的自动化打包插件.下面简要介绍下他的使用. 开始 pom添加添加plugin <plugin> <groupId>cn.wanghaomiao</groupId> <artifactId>maven-seimicrawler-plugin</artifactId> <