Python爬虫之Selenium的元素选取

1.单个元素的选取

find_element_by_id 通过标签属性Id查找元素

find_element_by_name 通过标签属性name查找元素

find_element_by_xpath 通过标签Xpath路径查找元素

find_element_by_link_text 通过标签中的元素文本链接查找元素

find_element_by_partial_link_text

find_element_by_tag_name 通过标签名tag name查找元素

find_element_by_class_name 通过标签的class属性查找元素

find_element_by_css_selector 通过css样式查找元素

2.多个元素的选取

find_elements_by_name

find_elements_by_xpath

find_elements_by_link_text

find_elements_by_partial_link_text

find_elements_by_tag_name

find_elements_by_class_name

find_elements_by_css_selector

3.返回当前会话中的cookies

driver.get_cookies()

4.截取当前页面

driver.get_screenshot_as_file(r"C:Desktop\test.jpg")

driver.save_screenshot(‘screenshot.png‘)

5.输入值方法

driver.find_element_by_id("kw").send_keys(‘admin‘) 注意：如果是中文需要加u driver.find_element_by_id("kw").send_keys(u‘青春‘)

6.获取元素后模拟单击操作

driver.find_element_by_id("kw").click()

6.关闭浏览器

driver.close()

driver.quit() 关闭浏览器并且推出驱动程序

时间： 2024-10-04 23:36:20

Python爬虫之Selenium的元素选取的相关文章

Python爬虫之selenium的使用（八）

Python爬虫之selenium的使用一.简介二.安装三.使用一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试.Selenium 支持这些浏览器驱动.Selenium支持多种语言开发,比如 Python,Java,C,Ruby等等. 二.安装 1.安装selenium pip3 install seleniu

python爬虫3——获取审查元素(板野友美吧图片下载)

测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0 测试网址:http://tieba.baidu.com/p/2827883128 目的是下载该网页下所有图片,共160+张.可以分为以下几步: 1.获取网页源代码. 发现直接通过urllib2或者request获取到的源代码和实际图片对应不起来,通过chrome审查元素功能可以查询到对应的图片,猜测是该页面的图片加载是通过ajax异步传输的.因此使用工具selenium + chromedr

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

在上一篇python使用xslt提取网页数据中,要提取的内容是直接从网页的source code里拿到的. 但是对于一些Ajax或动态html, 很多时候要提取的内容是在source code找不到的,这种情况就要想办法把异步或动态加载的内容提取出来. python中可以使用selenium执行javascript,selenium可以让浏览器自动加载页面,获取需要的数据.selenium自己不带浏览器,可以使用第三方浏览器如Firefox, Chrome等,也可以使用headless浏览器如P

python爬虫之Selenium

首先解决python中使用selenium调用Firefox缺少geckodriver的问题 geckodriver.exe下载地址 : https://pan.baidu.com/s/10Vy9WH1ZpkvdFmZ3T7aw_w , https://github.com/mozilla/geckodriver/releases 解压完成,然后放到python的安装目录与python.exe在同一目录下 Selenium是一个第三方模块,可以完全模拟用户在浏览器上操作(在浏览器上点点点). 安

python爬虫之selenium、phantomJs

图片懒加载技术什么是图片懒加载技术图片懒加载是一种网页优化技术.图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间.为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的技术就被称为“图片懒加载”. 如何实现图片懒加载技术在网页源码中,在img标签中首先会使用一个“伪属性”(通常使用src2,original......)去存放真正的图片链接而并非是直接存放

【python爬虫】selenium的三种等待

一. 强制等待第一种也是最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间. 1 from selenium import webdriver 2 from time import sleep 3 driver = webdriver.Firefox() 4 driver.get('https://huilansame.github.io') 5 sleep(3) # 强制等待3秒再执行下一步 6 print

Python爬虫利器：Selenium的用法

本文和大家分享的主要是python 爬虫利器Selenium的相关内容,一起来看看吧,希望对大家学习python爬虫有所帮助. Selenium 是什么?一句话,自动化测试工具.它支持各种浏览器,包括 Chrome , Safari , Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现 Web界面的测试.换句话说叫 Selenium 支持这些浏览器驱动.话说回来, PhantomJS 不也是一个浏览器吗,那么 S

[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员还是写个程序来进行吧! 所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取. 前面讲过太多Python爬虫相关的文章了,如爬取新浪博客.维基百科Infobox.百度百科.游迅网图片,也包括Selenium安装过程等等,详见我的两个专栏:

Python爬虫实战（2）：爬取京东商品列表

1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript. 我们在<Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容>一文已经成功检验了动态网页内容的抓取方法,本文将实验程序进行改写,使用开源Python爬虫