爬虫3:html页面+webdriver模块+demo

  保密性好的网站,不能使用request请求页面信息,这样可以使用webdriver模块先开启一个浏览器,然后爬去信息,甚至还可以click等操作对页面操作,再爬取。

  demo 一般流程:

  1)包含selenium 模块

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

  2)设置采用火狐浏览器(chrome也可以)

driver = webdriver.Firefox()

  3)get方式打开(为了保密,url省略)

driver.get("http://www.---------------")

  4)css方式筛选

elements = driver.find_elements_by_css_selector("span.c9.ng-binding")

  5)由于webdriver模块的筛选功能不是很好用,这里推荐转成html形式,然后使用beautifulsoap筛选

html = driver.page_source

  6)BeautifulSoup筛选信息-find_all  和 css 选择器方式更好用

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html)
# soup.find_all(‘div‘,text=re.compile(u"信息"))[0]
for i in soup.select(‘a[href*="human"]‘):
    print i
时间: 2024-10-06 00:31:06

爬虫3:html页面+webdriver模块+demo的相关文章

爬虫3:pdf页面+pdfminer模块+demo

本文介绍下pdf页面的爬取,需要借助pdfminer模块 demo一般流程: 1)设置url url = 'http://www.------' + '.PDF' 2)requests模块获取url import requestsr = requests.get(inner_url) 3)写入.pdf文件 myFile = open("PDF/" + i[u'associateAnnouncement'] + '.pdf', "wb") myFile.write(

python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai

easeChat模块demo实现静态聊天窗口测试源码分享

easeChat模块demo(vue+api实现会话列表滑动删除静态,我曾用于手机推币城APP中的房间用户聊天功能)聊天窗口界面静态页面,发送文本消息/消除最新消息/监听消息等环信的接口数据交互功能 *****使我代码的时候,一定记住config.xml里面,关于环信的value,环信开发控制台官网申请key,vuale修改完之后,上传到云端编译才会有效******* message_frm.html代码片段 置顶删除暂时没有做动态数据交换,只是实现了静态功能,留下的点击删除置顶事件,数据交互功

Python登录模块Demo示例

Python登录模块Demo示例: #!/usr/bin/env python # This content comes from alex. while True:     NAME = raw_input("Please input your name:\n")     if NAME == 'alex':         P = '123'         PASSWD = raw_input("Please input your password:\n")

IOKING真正无锁服务器引擎之消息引擎模块Demo(no-lock)

 关键词: no-lock interlocked lock-free tcp/ip socket server engine epoll iocp server out-of-orderexecution无锁 原子锁 原子操作 原子指令 锁无关 开放锁 通讯服务器 引擎 高并发 大数据 搜索引擎 完成端口服务器 cpu乱序并行执行 内存栅栏 IOKING 真正无锁服务器引擎之消息引擎模块Demo(no-lock) 这是继无锁iocp通讯模块以后,又一个无锁模块.下一步有时间将会把两个整合在

爬虫2:html页面+beautifulsoap模块+post方式+demo

爬取html页面,有时需要设置参数post方式请求,生成json,保存文件中. 1)引入模块 import requests from bs4 import BeautifulSoup url_ = 'http://www.c.....................' 2)设置参数 datas = { 'yyyy':'2014', 'mm':'-12-31', 'cwzb':"incomestatements", 'button2':"%CC%E1%BD%BB",

使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO

写在前面 最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象.抓取HTML节点通过像Jquery选择器一样选择节点,非常方便,Gecco代码主要利用注解实现来实现URL匹配,看起来比较简洁美观. Gecoo GitHub地址 https://github.com/xtuhcy/gecco Gecoo 作者博客 http://my.oschina.net/u/

互联网金融爬虫怎么写-第四课 雪球网股票爬虫(单页面多数据)

Previous on  系列教程: 互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门) 互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门) 互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析) 哈哈,我又来了,话说出教程就是这么任性,咱们乘热打铁,把上节课分析完成但是没写的代码给完成了! 工具要求: 教程中主要使用到了 1.神箭手云爬虫 框架  这个是爬虫的基础,2.Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确

评论模块Demo(XML读写,定时器。)

这个Demo主要是自己做练习熟悉jquery,ajax,与xml文件的读写,以下是实现页面效果: 后台控制器: public ActionResult AddMsg() { XmlDocument xmlD = new XmlDocument(); xmlD.Load(Server.MapPath("/App_Data/info.xml")); XmlNodeList nodeList=xmlD.SelectSingleNode("root").ChildNodes