Python爬虫教程-26-Selenium + PhantomJS

动态前端页面：
- JavaScript：
  
  JavaScript一种直译式脚本语言，是一种动态类型、弱类型、基于原型的语言，内置支持类型。它的解释器被称为JavaScript引擎，为浏览器的一部分，广泛用于客户端的脚本语言，最早是在HTML（标准通用标记语言下的一个应用）网页上使用，用来给HTML网页增加动态功能
- jQuery：
  jQuery是一个快速、简洁的JavaScript框架，是继Prototype之后又一个优秀的JavaScript代码库（或JavaScript框架）。jQuery设计的宗旨是“write Less，Do More”，即倡导写更少的代码，做更多的事情。它封装JavaScript常用的功能代码，提供一种简便的JavaScript设计模式，优化HTML文档操作、事件处理、动画设计和Ajax交互
- ajax：
  Ajax 即“Asynchronous Javascript And XML”（异步 JavaScript 和 XML），是指一种创建交互式网页应用的网页开发技术。
  
  Ajax = 异步 JavaScript 和 XML（标准通用标记语言的子集）。
  
  Ajax 是一种用于创建快速动态网页的技术。
  
  Ajax 是一种在无需重新加载整个网页的情况下，能够更新部分网页的技术。
  
  通过在后台与服务器进行
- DHTML：
  DHTML是Dynamic HTML的简称，就是动态的html（标准通用标记语言下的一个应用），是相对传统的静态的html而言的一种制作网页的概念。所谓动态HTML（Dynamic HTML，简称DHTML），其实并不是一门新的语言，它只是HTML、CSS和客户端脚本的一种集成，即一个页面中包括html+css+javascript（或其它客户端脚本），其中css和客户端脚本是直接在页面上写而不是链接上相关文件。DHTML不是一种技术、标准或规范，只是一种将目前已有的网页技术、语言标准整合运用，制作出能在下载后仍然能实时变换页面元素效果的网页设计概念

Python 采集动态数据

从 JavaScript 代码入手采集
Python 第三方库运行 JavaScript，直接采集你在浏览器看到的页面

Selenium + PhantomJS

Selenium：web 自动化测试工具
Selenium 官方文档：https://www.seleniumhq.org/docs/
Selenium 的功能：
1.自动加载页面
2.获取数据
3.截屏
PhantomJS：基于 Webkit 的无界面浏览器
- 由 Selenium 操作 PhantomJS

Selenium 的安装

如果使用的是 Anaconda：
- 进入当前环境：(我的环境名为learn，如果只有一个base环境，忽略此步)
  
  activate learn
- 安装 selenium
  
  conda install selenium
当然也可以直接在 Pycharm 进行安装
- 【PyCharm】>【file】>【settings】>【Project Interpreter】>【+】 >【selenium】>【install】
- 具体操作截图：

PhantomJS 的安装

下载地址：http://phantomjs.org/download.html
根据自己操作系统版本下载，解压即可用

Selenium 的使用

Selenium 库有一个 WebDriver 的 API
WebDriver 可以跟页面上的元素进行各种交互，用它可以来进行爬取
注意：使用 PhantomJS 时自动按照环境变量查找相应浏览器，如果没有配置环境变量就将路径作为参数
案例代码28dhtml.py文件：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py28dhtml.py

# Selenium 的使用

# 通过 WebDriver 操作百度进行查找

from selenium import webdriver
import time

# 通过 Keys 模拟键盘
# 也就是放入需要输入的东西，就不用键盘输入了
from selenium.webdriver.common.keys import Keys

# 操作哪个浏览器就对哪个浏览器创建一个实例，这里是 PhantomJS
# 自动按照环境变量查找相应浏览器，如果没有配置环境变量就将路径作为参数
driver = webdriver.PhantomJS(executable_path=r"D:\app\phantomjs-2.1.1-windows\bin\phantomjs.exe")

driver.get("http://www.baidu.com")

# 通过函数查找 title 标签
print("Title: {0}".format(driver.title))

运行结果

注意：如果没有配置环境变量就将自己的路径作为参数

红字不是出错，打印 title 成功才算使用成功

- 本笔记不允许任何个人和组织转载

Python爬虫教程-26-Selenium + PhantomJS

原文地址：https://www.cnblogs.com/xpwi/p/9600969.html

时间： 2024-10-07 00:04:38

Python爬虫教程-26-Selenium + PhantomJS的相关文章

Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍

本篇介绍项目开发的过程中,对 Setting 文件的配置和使用 Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍 settings.py 文件的使用想要详细查看 settings.py文件的更多内容,可查看中文文档: https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/settings.html Settings 中配置 USER_AGENTS 在 settings.py 文件中很多东西默认是给注释掉的

Python爬虫利器四之PhantomJS的用法

前言大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了.所以,我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面. 其中有一个比较常用的工具,那就是 PhantomJS Full web stack No browser required PhantomJS is a headless WebKit scriptable with a Ja

Python爬虫教程-27-Selenium Chrome版本与chromedriver兼容版本对照表

我们使用Selenium+Chrome时,版本不一样, 会导致 chromedriver 停止运行 chromedriver 所有版本下载链接:http://npm.taobao.org/mirrors/chromedriver/ 请根据下面表格下载支持自己 Chrome 的版本 Selenium Chrome版本与chromedriver兼容版本对照表 ChromeDriver 版本支持的 Chrome 版本 ChromeDriver v2.41 (2018-07-27) Supports

python爬虫教程：《利用Python爬取表情包》

python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!

Python爬虫教程-09-error 模块

Python爬虫教程-09-error模块今天的主角是error,爬取的时候,很容易出现错,所以我们要在代码里做一些,常见错误的处,关于urllib.error URLError URLError 产生的原因: 1.无网络连接 2.服务器连接失败 3.找不到指定的服务器 4.URLError是OSError的子类案例v9文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py09error.py # 案例v9 # URLError的使用 fro

Python爬虫教程-08-post介绍(百度翻译)（下）

Python爬虫教程-08-post介绍(下) 为了更多的设置请求信息,单纯的通过urlopen已经不太能满足需求,此时需要使用request.Request类构造Request 实例 req = request.Request(url=baseurl,data=data,headers=header) 发出请求 rsp = request.urlopen(req) 文件: 案例v8文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py08po

Python爬虫教程-25-数据提取-BeautifulSoup4（三）

Python爬虫教程-25-数据提取-BeautifulSoup4(三) 本篇介绍 BeautifulSoup 中的 css 选择器 css 选择器使用 soup.select 返回一个列表通过标签名称:soup.select("title") 通过类名:soup.select(".centent") id 查找:soup.select("#name_id") 组合查找:soup.select("div #input_content

Python爬虫教程-24-数据提取-BeautifulSoup4（二）

Python爬虫教程-24-数据提取-BeautifulSoup4(二) 本篇介绍 bs 如何遍历一个文档对象遍历文档对象 contents:tag 的子节点以列表的方式输出 children:子节点以迭代器形式返回 descendants:所有子孙节点 string:用string打印出标签的具体内容,不带有标签,只有内容案例代码27bs3.py文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py27bs3.py # BeautifulS

Python爬虫教程-31-创建 Scrapy 爬虫框架项目

本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Anaconda 下载地址:https://www.anaconda.com/download/ Scrapy 爬虫框架项目的创建 0.打开[cmd] 1.进入你要使用的 Anaconda 环境 1.环境名可以在[Pycharm]的[Se