selenium模块在爬虫中的应用

1. 相关概念

1. selenium模块

　　是一个基于浏览器自动化的模块

2. 与爬虫之间的关联

　　便捷的捕获到动态加载到的数据（可见即可得）

　　实现模拟登陆

3.环境安装

pip3 install selenium

简单演示

from selenium import webdriver
from time import sleep

# 后面是你的浏览器驱动位置，记得前面加r‘‘,‘r‘是防止字符转义的
driver = webdriver.Chrome(r‘chromedriver.exe‘)

# 用get打开百度页面
driver.get("http://www.baidu.com")

# 查找页面的“设置”选项，并进行点击
driver.find_elements_by_link_text(‘设置‘)[0].click()
sleep(2)

# 打开设置后找到“搜索设置”选项，设置为每页显示50条
driver.find_elements_by_link_text(‘搜索设置‘)[0].click()
sleep(2)

# 选中每页显示50条
m = driver.find_element_by_id(‘nr‘)
sleep(2)
m.find_element_by_xpath(‘//*[@id="nr"]/option[3]‘).click()
m.find_element_by_xpath(‘.//option[3]‘).click()
sleep(2)

# 点击保存设置
driver.find_elements_by_class_name("prefpanelgo")[0].click()
sleep(2)

# 处理弹出的警告页面   确定accept() 和 取消dismiss()
driver.switch_to_alert().accept()
sleep(2)

# 找到百度的输入框，并输入 美女
driver.find_element_by_id(‘kw‘).send_keys(‘美女‘)
sleep(2)

# 点击搜索按钮
driver.find_element_by_id(‘su‘).click()
sleep(2)

# 在打开的页面中找到“Selenium - 开源中国社区”，并打开这个页面
driver.find_elements_by_link_text(‘美女_百度图片‘)[0].click()
sleep(3)

# 关闭浏览器
driver.quit()

2.基本使用

　　准备好某一款浏览器的驱动程序：http://chromedriver.storage.googleapis.com/index.html

　　版本的映射关系：https://blog.csdn.net/huilan_same/article/details/51896672

1.实例化某一款浏览器对象

from time import sleep
from selenium import webdriver

bro = webdriver.Chrome(executable_path="chromedriver.exe")

# 录入路由地址
bro.get("https://www:jd.com/")
sleep(2)

# 进行标签定位
search_input = bro.find_element_by_id("key")

# 向搜索框中录入关键词
search_input.send_keys("苹果")

# 定位搜索按钮
btn = bro.find_element_by_xpath(‘//*[@id="search"]/div/div[2]/button‘)

# 点击搜索按钮
btn.click()
sleep(2)

# 退出访问
bro.quit()

原文地址：https://www.cnblogs.com/zangyue/p/12203214.html

时间： 2024-10-23 03:48:19

selenium模块在爬虫中的应用的相关文章

3、爬虫之selenium模块

selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转.输入.点击.下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 1 简单使用 from selenium import webdriver fro

爬虫解析Selenium 之(九) --- Selenium模块

Selenium elenium 是一套完整的web应用程序测试系统, 包含: 1. 测试的录制(selenium IDE) 2.编写及运行(Selenium Remote Control) 3.测试的并行处理(Selenium Grid) Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上. selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript

爬虫-selenium模块

阅读目录一介绍二安装三基本使用四选择器五等待元素被加载六元素交互操作七其他八项目练习一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转.输入.点击.下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium import webdriver browser=webdriver.Chrom

web爬虫讲解—PhantomJS虚拟浏览器+selenium模块操作PhantomJS

PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器也就是没有显示界面的浏览器,利用这个软件,可以获取到网址js加载的任何信息,也就是可以获取浏览器异步加载的信息下载后解压PhantomJS文件,将解压文件夹,剪切到python安装文件夹然后将PhantomJS文件夹里的bin文件夹添加系统环境变量 cdm 输入命令:PhantomJS 出现以下信息说明安装成功 selenium模块是一个python操作PhantomJS软件的一个模块 seleni

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai

selenium模块

一.介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题. selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转.输入.点击.下拉等.来拿到网页渲染之后的结果,可支持多种浏览器. from selenium import webdriver browser=webdriver.Chrome() browser=webdriver.Firefox() browser=webdriver.Phantom

selenium模块当然可以用来测试啦

一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转.输入.点击.下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium import webdriver browser=webdriver.Chrome() browser=webdriver.Firefox() browser=webdriver.PhantomJS

python selenium模块使用出错-selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH.

Python 2.7+selenium+Firefox 55.0.3 代码: from selenium import webdriver from selenium.common.exceptions import NoSuchElementException from selenium.webdriver.common.keys import Keys import time browser = webdriver.Firefox() # Get local session of firef

孤荷凌寒自学python第八十六天对selenium模块进行较详细的了解

(今天由于文中所阐述的原因没有进行屏幕录屏,见谅) 为了能够使用selenium模块进行真正的操作,今天主要大范围搜索资料进行对selenium模块的学习,并且借2019年的新年好运居然在今天就来了,还在学习Python的过程中就接到一个任务,完成了第一个真正有实用价值的作品,大大增强了信心,也对Python爬取内容,操纵网页的能力有了真切的体会. 一.首先真诚感谢以下文章作者的无私分享: 查找到html页面标签对象方法的参考 https://www.cnblogs.com/zhuque/p/8