使用selenium爬取网站动态数据

处理页面动态加载的爬取

selenium

selenium是python的一个第三方库，可以实现让浏览器完成自动化的操作，比如说点击按钮拖动滚轮等

环境搭建：
- 安装:pip install selenium
- 获取浏览器的驱动程序：下载地址http://chromedriver.storage.googleapis.com/index.html
- 驱动与浏览器版本对应：https://blog.csdn.net/ezreal_tao/article/details/80808729
  设置chorme浏览器无界面模式：
编码流程：

from selenium import  webdriver
import time
# 创建一个浏览器对象 executable_path:驱动路径
bro = webdriver.Chrome(executable_path=‘./chromedriver‘)

# get方法可以指定一个url，让浏览器进行请求
bro.get(‘https://www.baidu.com‘)

# 让浏览器进行指定词条搜索
‘‘‘
#使用下面的方法，查找指定的元素进行操作即可
    find_element_by_id            根据id找节点
    find_elements_by_name         根据name找
    find_elements_by_xpath        根据xpath查找
    find_elements_by_tag_name     根据标签名找
    find_elements_by_class_name   根据class名字查找
‘‘‘
text = bro.find_element_by_id(‘kw‘)
text.send_keys(‘人民币‘) # send_keys表示向文本框中录入指定内容

time.sleep(3)
button = bro.find_element_by_id(‘su‘)
button.click()# click表示的是点击操作
time.sleep(5)
bro.quit()

phantomJs

phantomJs是一个无界面的浏览器，其自动化流程与上述操作谷歌自动化流程是一模一样的

from selenium import webdrvier

使用selenium爬取豆瓣电影搞笑排行榜动态数据

from selenium import webdriver
import time
from lxml import etree
bro = webdriver.Chrome(‘./chromedriver‘)
url = ‘https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=‘
bro.get(url)

# 等待五秒页面加载完毕
time.sleep(5)

# 重复20次使用页面滚轮
for i in range(20):
    time.sleep(2)
    bro.execute_script(‘window.scrollTo(0,document.body.scrollHeight)‘)

# 获取页面源代码，可以使用三种解析方式进行解析，这里使用xpath解析数据
text = bro.page_source
tree = etree.HTML(text)
div_list = tree.xpath(‘//div[@class="movie-info"]‘)
f = open(‘豆瓣喜剧电影排行榜.txt‘,‘w‘,encoding=‘utf-8‘)
count = 0
for div in div_list:
    # 获取电影具体数据，并进行持久化存储
    try:
        name = div.xpath(‘./div[@class="movie-name"]/span/a/text()‘)[0]
        link = div.xpath(‘./div[@class="movie-name"]/span/a/@href‘)[0]
        man = div.xpath(‘./div[@class="movie-crew"]/text()‘)[0]
        country = div.xpath(‘./div[@class="movie-misc"]/text()‘)[0]
        num = div.xpath(‘./div[@class="movie-rating"]/span[2]/text()‘)[0]
    except IndexError:
        continue

    f.write(‘电影名：‘+name+‘\n链接‘+link+‘\n‘+‘导演：‘+man+‘\n国家：‘+country+‘\n评分：‘+num+‘\n-----------------------------\n\n\n‘)
    print(‘写入成功:‘,name)
    count += 1
print(‘爬取完毕,共抓取%s跳数据‘%count)
f.close()
time.sleep(5)
bro.quit()

原文地址：https://www.cnblogs.com/wualin/p/10257527.html

时间： 2024-10-09 22:23:17

使用selenium爬取网站动态数据的相关文章

爬虫(十七)：Scrapy框架(四) 对接selenium爬取京东商品数据

1. Scrapy对接Selenium Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态谊染的页面.在前面的博客中抓取JavaScript渲染的页面有两种方式.一种是分析Ajax请求,找到其对应的接口抓取,Scrapy同样可以用此种方式抓取.另一种是直接用 Selenium模拟浏览器进行抓取,我们不需要关心页面后台发生的请求,也不需要分析渲染过程,只需要关心页面最终结果即可,可见即可爬.那么,如果Scrapy可以对接S

python爬取ajax动态生成的数据以抓取淘宝评论为例子

在学习python的时候,一定会遇到网站内容是通过ajax动态请求.异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看博客内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一获取淘宝评论时,ajax请求链接(url) 二获取该ajax请求返回的json数据三使用python解析json数据四

Scrapy实战---Scrapy对接selenium爬取京东商城商品数据

本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据,故需要借助于selenium模拟人的行为发起请求,输出源代码,然后解析源代码,得到我们想要的数据. 第一步:设置我们需要提取的字段,也就是在Scrapy框架中设置Item.py文件. class ProductItem(scrapy.Item): # define the fields for y

利用linux curl爬取网站数据

看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在结果嘛,呵呵. 2.首先利用curl工具后者wget工具把整个网站数据爬取下来 curl 网址 >wangzhan.txt 3.查看wangzhan.txt文件,找出规则,看到数据是存放在哪个地方,本人是把txt文件拷到本机上用UE打开方便查看.通过查看文件,我发现数据是存储在"var aut

使用scrapy爬取网站的商品数据

目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错的爬虫框架,于是基于scrapy写了一个简易的爬虫. 先分析商品页面,在http://www.muyingzhijia.com/主页面上,有类链接有用的链接,即:http://www.muyingzhijia.com/Shopping/category.aspx?cateID=11和http://w

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

一. 文章介绍前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID.用户名.微博数.粉丝数.关注数等. 微博信息:包括转发或原创.点赞数.转发数.评论数.发布时间.微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩: http://weibo.cn/guangxianliuya 因为手机端数据相对精简简单,所以采用输

[python爬虫] Selenium爬取CSDN博客摘要及问题

本文主要是采用Selenium来爬取CSDN的博文摘要,为后面对CSDN的热点技术.近几年专家发表的博客作数据分析.由于采用BeautifulSoup爬取该网站会报错"HTTPError: Forbidden",所以作者采用Selenium爬取.同时,在爬取过程中遇到了局部动态更新的问题,无法定位换页的问题,作者采用Firebug进行分析,也希望读者提出更好的方法.代码下载地址: 一. CSDN博客网站分析及问题本文主要爬取CSDN专家的博客,因为专家的论文水平相对高点,同时专栏较多

[Python爬虫] Selenium爬取新浪微博移动端热点话题及评论 (下)

这篇文章主要讲述了使用python+selenium爬取新浪微博的热点话题和评论信息.其中使用该爬虫的缺点是效率极低,傻瓜式的爬虫,不能并行执行等,但是它的优点是采用分析DOM树结构分析网页源码并进行信息爬取,同时它可以通过浏览器进行爬取中间过程的演示及验证码的输入.这篇文章对爬虫的详细过程就不再论述了,主要是提供可运行的代码和运行截图即可.希望文章对你有所帮助吧~ 参考文章 [python爬虫] Selenium爬取新浪微博内容及用户信息 [Python爬虫] Selenium爬取新浪微博客户

第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有