python selenium爬取QQ空间方法

from selenium import webdriver
import time
# 打开浏览器
dr = webdriver.Chrome()
# 打开某个网址
dr.get(‘https://user.qzone.qq.com/2330331400/main‘)
# 切换框架
dr.switch_to_frame(‘login_frame‘)
time.sleep(1)
dr.find_element_by_link_text(‘帐号密码登录‘).click()
# 输入账号
dr.find_element_by_xpath(‘//*[@id="u"]‘).send_keys(‘2330331400‘)
time.sleep(8)
# 点击登录
dr.find_element_by_xpath(‘//*[@id="login_button"]‘).click()
time.sleep(2)
# 点击个人档
dr.find_element_by_xpath(‘//*[@id="menuContainer"]/div/ul/li[6]/a‘).click()
time.sleep(2)
# 请求好友的空间地址
dr.get(‘https://user.qzone.qq.com/481135195‘)
time.sleep(3)
# dr.switch_to_alert()
# dr.find_element_by_link_text(‘我知道了‘).click()
# 点击好友的个人档
dr.find_element_by_xpath(‘//*[@id="menuContainer"]/div/ul/li[6]/a‘).click()
time.sleep(1)
# 切换框架
dr.switch_to_frame(‘app_canvas_frame‘)
# 点击好友的个人资料
dr.find_element_by_link_text(‘个人资料‘).click()
# dr.find_element_by_link_text(‘//*[@id="info_link"]‘).click()
# 输入当前页面的源代码
print(dr.page_source)

dr.get(‘https://user.qzone.qq.com/495483884‘)
time.sleep(3)
# dr.switch_to_alert()
# dr.find_element_by_link_text(‘我知道了‘).click()
dr.find_element_by_xpath(‘//*[@id="menuContainer"]/div/ul/li[6]/a‘).click()
time.sleep(1)
dr.switch_to_frame(‘app_canvas_frame‘)
dr.find_element_by_link_text(‘个人资料‘).click()
# dr.find_element_by_link_text(‘//*[@id="info_link"]‘).click()
print(dr.page_source)

原文地址:https://www.cnblogs.com/duanlinxiao/p/9847706.html

时间: 2024-11-07 11:44:11

python selenium爬取QQ空间方法的相关文章

python爬虫爬取QQ说说并且生成词云图,回忆满满!

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收

Python爬取QQ空间好友说说并生成词云(超详细)

前言 先看效果图:  思路 1.确认访问的URL 2.模拟登录你的QQ号 3.判断好友空间是否加了权限,切换到说说的frame,爬取当前页面数据,下拉滚动条,翻页继续获取 爬取的内容写入本地TXT文件中 4.爬取到最后一页,读取TXT文件从而生成词云 具体分析 1.确认访问的URL 这就很简单了,我们通过观察发现,QQ空间好友的URL: https://user.qzone.qq.com/{好友QQ号}/311 2.我们在请求的时候会遇到模拟登录,也就是要通过Selenium+浏览器登录你的QQ

python+selenium爬取百度文库不能下载的word文档

有些时候我们需要用到百度文库的某些文章时,却发现需要会员才能下载,很难受,其实我们可以通过爬虫的方式来获取到我们所需要的文本. 工具:python3.7+selenium+任意一款编辑器 前期准备:可以正常使用的浏览器,这里推荐chrome,一个与浏览器同版本的驱动,这里提供一个下载驱动的链接https://chromedriver.storage.googleapis.com/77.0.3865.40/chromedriver_win32.zip 首先我们来看一下百度文库中这一篇文章https

python selenium爬取kuku漫画

在爬取这个网站之前,试过爬取其他网站的漫画,但是发现有很多反爬虫的限制,有的图片后面加了动态参数,每秒都会更新,所以前一秒爬取的图片链接到一下秒就会失效了,还有的是图片地址不变,但是访问次数频繁的话会返回403,终于找到一个没有限制的漫画网站,演示一下selenium爬虫 # -*- coding:utf-8 -*- # crawl kuku漫画 __author__='fengzhankui' from selenium import webdriver from selenium.webdr

python — selenium爬取微博指数

---恢复内容开始--- 需要用到的工具:python(pymouse.selenium).chrome.webdriver 使用的webdriver一定要和chrome的版本相匹配,具体的对应关系可以参考以下博客:http://blog.csdn.net/goblinintree/article/details/47335563.为了避免这个问题,最好直接使用最新的chrome和最新的webdriver. 以下代码是PyMouse的源码 # -*- coding: iso-8859-1 -*-

python3.7 爬取QQ空间好友

使用selenium库自动登录,记录登录的Cookie.以下URL分别代表不同的动作,虽然没有全用. 留言:https://user.qzone.qq.com/proxy/domain/m.qzone.qq.com/cgi-bin/new/get_msgb?uin=1612893772&hostUin=1148639090&start=0&s=0.8883444517176473&format=jsonp&num=10&inCharset=utf-8&

Python——selenium爬取斗鱼房间信息

1 from selenium import webdriver 2 import os 3 import json 4 import time 5 6 7 class Douyu: 8 def __init__(self): 9 # 1.发送首页的请求 10 self.driver = webdriver.Chrome('../chromedriver.exe') 11 self.driver.get('https://www.douyu.com/g_yz') 12 13 # 获取页面内容 1

python+selenium爬取关键字搜索google图片

1 # -*- coding: utf-8 -*- 2 3 import json 4 import os 5 import time 6 from multiprocessing import Pool 7 import multiprocessing 8 import requests 9 from selenium import webdriver 10 11 12 def get_image_links(keyword, num_requested = 1000): 13 ""

[Python爬虫] Selenium爬取新浪微博移动端热点话题及评论 (下)

这篇文章主要讲述了使用python+selenium爬取新浪微博的热点话题和评论信息.其中使用该爬虫的缺点是效率极低,傻瓜式的爬虫,不能并行执行等,但是它的优点是采用分析DOM树结构分析网页源码并进行信息爬取,同时它可以通过浏览器进行爬取中间过程的演示及验证码的输入.这篇文章对爬虫的详细过程就不再论述了,主要是提供可运行的代码和运行截图即可.希望文章对你有所帮助吧~ 参考文章 [python爬虫] Selenium爬取新浪微博内容及用户信息 [Python爬虫] Selenium爬取新浪微博客户