selenium 操作 获取动态页面数据

# selenium

from selenium import webdriver
import time

driver_path = r"G:\Crawler and Data\chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path)
driver.get(‘https://www.baidu.com/‘)

time.sleep(5)

driver.close() # 关闭页面
driver.quit() # 关闭整个浏览器
# selenium 定位元素  常用的6种
# find_element只获取满足条件的第一个, find_elements获取所有满足条件的

1.find_element_by_id
2.find_element_by_class_name
3.find_element_by_name
4.find_element_by_tag_name
5.find_element_by_xpath
6.find_element_by_css_selector

############################
from selenium import webdriver
import time
from lxml import etree

driver_path = r"G:\Crawler and Data\chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path)
driver.get(‘https://www.baidu.com/‘)

# 使用 xpath 方式获取 效率高  如果只是解析页面就使用这种
tree = etree.HTML(driver.page_source)
li_lists = tree.xpath(‘xxxxxxxxxx‘)

# 通过id 的方式获取  如果对元素进行操作时,
# 比如要发送字符串, 点击按钮, 下拉操作 就使用这种方法
inputTag = driver.find_element_by_id(‘kw‘)
inputTag.send_keys(‘python‘)

time.sleep(3)
driver.close() # 关闭页面
# driver.quit() # 关闭整个浏览器
# 常见的表单元素:
# input标签  type=‘text/password/email/number‘ 属于文本框
# button、input   type=‘submit‘
# checkbox  type=‘checkbox’
# 

###############
# 操作表单元素
# 1.  操作输入框
inputTag = driver.find_element_by_id(‘kw‘)
inputTag.send_keys(‘python‘)
time.sleep(3)

# 2.  操作checkbox标签  豆瓣为例
rememberBtn = driver.find_element_by_name(‘remember‘)
rememberBtn.click()

# 3.  操作select标签  要用Select类
from selenium import webdriver
from selenium.webdriver.support.ui import Select

selectBtn = Select(driver.find_element_by_name(‘jumpMenu‘))
selectBtn.select_by_index(1) # 通过index 选中下拉框里的选项
# selectBtn.select_by_visible_text(‘95秀客户端‘)  通过文本内容选中

# 4.  按钮的点击事件
inputTag = driver.find_element_by_id(‘kw‘) #拿到输入框按钮
inputTag.send_keys(‘python‘)
submitTag = driver.find_element_by_id(‘su‘) #拿到点击按钮
submitTag.click()
# selenium 的行为链   简单介绍   有时候页面中的操作有很多步,需要一系列操作
# 在爬虫中用的不多, 在测试用的多

from selenium import webdriver
import time
from selenium.webdriver.common.action_chains import ActionChains

driver_path = r"G:\Crawler and Data\chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path)
driver.get(‘https://www.baidu.com/‘)

# 拿到两个标签
inputTag = driver.find_element_by_id(‘kw‘)
submitBtn = driver.finr_element_by_id(‘su‘)

actions = ActionChains(driver)
actions.move_to_element(inputTag)
actions.send_keys_to_element(inputTag,‘python‘)
actions.move_to_element(submitBtn)
actions.click(submitBtn)
actions.perform()
# 在selenium中  cookies操作
# 1.获取所有的cookie
for cookie in driver.get_cookies():
    print(cookie)

# 2.根据cookie的key获取value
value = driver.get_cookie(key)

# 3.删除所有的cookie
driver.delete_all_cookies()

# 4.删除某一个cookie
driver.delete_cookie(key)

#################################
from selenium import webdriver
import time

driver_path = r"G:\Crawler and Data\chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path)
driver.get(‘https://www.baidu.com/‘)

for cookie in driver.get_cookies():  # 获取的是百度域名下的所有cookie
    print(cookie)
    
# 页面等待  重要 防止数据没有被加载就开始使用
# 因为页面很多用ajax技术,有时候要使用的数据没有加载出来,这时候使用就会报错.所以selenium提供两种等待方式

# 隐式等待: 调用driver.implicitly_wait. 那么获取不可用元素之前会先等待10秒时间.
driver = webdriver.Chrome(executble_path=driver_path)
driver.implicitly_wait(10)  # 设置等待时间
driver.get(‘https://www.baidu.com/‘)  #请求访问

# 显示等待:表明某个条件成立之后才执行获取元素的操作.
# 也可以在等待的时候制定一个最大的时间,如果超过这个时间那么久跑出异常.
# 显示等待使用selenium.webdriver.support.excepted_condition期望条件 和 selenium.webdriver.support.ui.webDriverWait配合完成
from selenium import webdriver
import time
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

driver_path = r"G:\Crawler and Data\chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path)
driver.get(‘https://www.baidu.com/‘)

# 等待10秒后找这个对应的id标签, 因为是错误的所以等待10秒后报错
# 如果是正确的id 标签, 找到后直接继续执行, 不会等10 秒
WebDriverWait(driver,10).until(
    EC.presence_of_element_located((By.ID,‘shjdkah‘))
)
# 打开多个窗口, 切换页面  重要 ******

from selenium import webdriver
import time

driver_path = r"G:\Crawler and Data\chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path)
driver.get(‘https://www.baidu.com/‘)

# 打开豆瓣
driver.execute_script(‘window.open("https://www.douban.com/")‘)
# 但是当前的driver还是停留在baidu页面
print(driver.current_url)
print(driver.window_handles)  # 窗口句柄 看看现在打开的窗口有什么
driver.switch_to_window(driver.window_handles[1]) # 切换窗口
print(driver.current_url)

# 虽然在窗口中切换到了新的页面,但是driver中还没有切换
# 如果想要在代码中切换到新的页面,并且做爬虫
# 那么应该使用dirver.switch_to_window来切换到指定的窗口
# 从dirver.window_handler中取出具体的第几个窗口
# driver.window_handlers是一个列表,里面装的都是窗口句柄
# 它会按照打开页面的顺序存储窗口句柄
# selenium 设置代理ip  主要是添加一个option参数就可以了

from selenium import webdriver

# 设置代理
options = webdriver.ChromeOptions()
options.add_argument("--proxy-server-http://112.247.176.104:8060")

driver_path = r"G:\Crawler and Data\chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path,chrome_options=options)
driver.get(‘http://httpbin.org/ip‘)

原文地址:https://www.cnblogs.com/kenD/p/11192657.html

时间: 2025-01-12 17:42:56

selenium 操作 获取动态页面数据的相关文章

js子页面获取父页面数据

做页面预览的时候,数据没有存入数据库,但是要打开一个页面进行预览,询问众大婶,原来是这样来做. 1.父页面 <input type="text" id="name" value="zhangsan"/> <a href="a.html" target="_blank">预览</a> 2.子页面,也就是a.html获取父页面中文本框的value $(function(){

selenium+phantomjs爬取动态页面数据

1.安装selenium pip/pip3 install selenium 注意依赖关系 2.phantomjs for windows 下载地址:http://phantomjs.org/download.html phantomjs-2.1.1-windows 仅支持64位系统 phantomjs-1.9.7-windows 支持32位系统,更早的版本没测试过 把下载好的安装包bin目录下的phantomjs.exe文件拷贝到python安装目录下的Scripts目录下 3.模拟浏览器操作

Jsoup获取部分页面数据失败 org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/

用Jsoup在获取一些网站的数据时,起初获取很顺利,但是在访问某浪的数据是Jsoup报错,应该是请求头里面的请求类型(ContextType)不符合要求. 请求代码如下: private static void testOuGuanMatch() throws IOException{        Document doc = Jsoup.connect("我的URL").userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.1;

爬虫---selenium动态网页数据抓取

动态网页数据抓取 什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新.传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面.因为传统的在传输数据格式方面,使用的是XML语法.因此叫做AJAX,其实现在数据交互基本上都是使用JSON.使用AJAX加载的数据,即使使用了JS,将数

第四章爬虫进阶之动态网页数据抓取

动态网页数据抓取 什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新.传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面.因为传统的在传输数据格式方面,使用的是XML语法.因此叫做AJAX,其实现在数据交互基本上都是使用JSON.使用AJAX加载的数据,即使使用了JS,将数

Vue动态添加v-model绑定及获取其返回数据

从数据库拿到的动态数据绑定到页面对应的v-model或者v-bind上,并且根据对页的操作获取到返回的值: 1.首先在data里定义一个数据 timeTip 为一个空数组 data () { return { timeTip:[] } } 2.将获取到的数据进行动态生成,并塞入 timeTip 中 creadeTimeTip(data.data) //返回的数据 creadeTimeTip(data){ this.timeTip = []; //对空数组进行清空,以免影响后续操作 var len

动态加载页面数据的小工具 javascript + jQuery (持续更新)

使用该控件,可以根据url,参数,加载html记录模板(包含json参数对应,以及具体记录位置Index根据参数描述加载对应的属性,并可以根据简单的判断分支加载对应html或者控件)至列表容器内(JQuery选择器字符串)注: 该控件在使用前需引入JQuery框架支持,使用该控件,可极大的减少Ajax列表数据动态加载开发工作的实际工作量. 使用方式: 首先,添加控件引用,并加入Jquery支持 <script src="js/jquery.js"></script&g

获取WebBrowser全cookie 和 httpWebRequest 异步获取页面数据

获取WebBrowser全cookie [DllImport("wininet.dll", CharSet = CharSet.Auto, SetLastError = true)] static extern bool InternetGetCookieEx(string pchURL, string pchCookieName, StringBuilder pchCookieData, ref int pcchCookieData, int dwFlags, object lpRe

asp.net mvc后台操作之读写xml控制首页动态页面开关显示

一.背景 在asp.net mvc项目里,用户需要开拓几个活动版面,并以侧栏的方式呈现在首页右侧,几个活动时间不一致,为避免浏览者在活动未开放之时进入未开放的服务页面.因此不仅需要在活动代码中加入限制功能,也需要在前台取消不合时宜的页面的展示.后台效果图: 二.问题分析 要想控制页面开关显示,就得有存储开关信息的介质,将在后台产生的操作记录下来,并在浏览者加载首页之时能读取操作记录并达到控制页面开关的目的.因此,考虑两种介质储存开关记录信息,一是用数据库mysql,二是用xml.考虑到这对数据库