用python+selenium抓取微博24小时热门话题的前15个并保存到txt中

抓取微博24小时热门话题的前15个,抓取的内容请保存至txt文件中,需要抓取阅读数

#coding=utf-8
from selenium import webdriver
import unittest
from time import sleep

class Weibo(unittest.TestCase):

	def setUp(self):
		self.dr = webdriver.Chrome()
		self.hot_list = self.get_weibo_hot_topic()
		self.weibo_topic = self.get_top_rank_file()

	def get_weibo_hot_topic(self):
		self.dr.get(‘http://weibo.com/‘)
		sleep(5)
		self.login(‘[email protected]‘,‘kemi_xxxx‘) #微博帐号密码
		self.dr.get(‘http://d.weibo.com/100803?refer=index_hot_new‘)  #热门话题url
		sleep(5)
		hot_topic_list = []
		i = 0
		while i < 15:
			rank_and_topic = self.dr.find_elements_by_css_selector(‘.title.W_autocut‘)[i].text #定位排行和话题
			number = self.dr.find_elements_by_css_selector(‘.number‘)[i].text #定位阅读数
			hot_topic_list.append([rank_and_topic, number])
			i += 1
		return hot_topic_list

	def get_top_rank_file(self):
		self.file_title = ‘微博24小时热门话题‘
		self.file = open(self.file_title + ‘.txt‘, ‘wb‘)
		for item in self.hot_list:
			separate_line = ‘~~~~~~~~~~~~~~~~~~~~~~~~\n‘
			self.file.write(separate_line.encode(‘utf-8‘))
			self.file.write((item[0]+‘  ‘+‘阅读数:‘+item[1]+‘\n‘).encode(‘utf-8‘))
		self.file.close()

	def login(self, username, password):
		self.dr.find_element_by_name(‘username‘).clear()
		self.dr.find_element_by_name(‘username‘).send_keys(username)
		self.dr.find_element_by_name(‘password‘).send_keys(password)
		self.dr.find_element_by_css_selector(‘.info_list.login_btn‘).click()

	def test_weibo_topic(self):
		pass
		print(‘抓取完毕‘)

	def tearDown(self):
		self.dr.quit()

if __name__== ‘__main__‘:
	unittest.main()

网页如下:

生成txt文件如下:

时间: 2024-11-05 08:35:50

用python+selenium抓取微博24小时热门话题的前15个并保存到txt中的相关文章

[Python爬虫] 之四:Selenium 抓取微博数据

抓取代码: # coding=utf-8import osimport refrom selenium import webdriverimport selenium.webdriver.support.ui as uifrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclas

一篇文章教会你使用Python定时抓取微博评论

[Part1——理论篇] 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先从微博api寻找抓取评论的接口,如下图所示. 但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了. 接下来小编又选择微博的移动端网站,先登录,然后找到我们想要抓取评论的微博,打开浏览器自带流量分析工具,一直下拉评论,找到评论数据接口,如下图所示. 之后点击“参数”选项卡,可以看到参数为下图所示的内容

用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序

抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from selenium import webdriver import unittest from time import sleep class DoubanMovie(unittest.TestCase):     def setUp(self):          self.dr = webdriv

用python+selenium抓取豆瓣读书中最受关注图书,按照评分排序

抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评论 #coding=utf-8 from selenium import webdriver from time import sleep class DoubanPopularBook:     def __init__(self):         self.dr = webdriver.Chrome()         self.

用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件

抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答,保存至html文件,该html文件的文件名应该是20160228_zhihu_today_hot.html,也就是日期+zhihu_today_hot.html 代码如下: from selenium import webdriver from time import sleep import time class ZhiHu():    def __init__(self):       self.dr = webdriver.Chr

Python爬虫抓取微博评论

第一步:引入库 import time import base64 import rsa import binascii import requests import re from PIL import Image import random from urllib.parse import quote_plus import http.cookiejar as cookielib import csv import os 第二步:一些全局变量的设置 comment_path = 'comme

python — selenium爬取微博指数

---恢复内容开始--- 需要用到的工具:python(pymouse.selenium).chrome.webdriver 使用的webdriver一定要和chrome的版本相匹配,具体的对应关系可以参考以下博客:http://blog.csdn.net/goblinintree/article/details/47335563.为了避免这个问题,最好直接使用最新的chrome和最新的webdriver. 以下代码是PyMouse的源码 # -*- coding: iso-8859-1 -*-

python爬虫抓取哈尔滨天气信息

python 爬虫 爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip install requests:pip install BeautifulSoup4) 代码:(亲测可以正确执行) 1 # coding:utf-8 2 """ 3 总结一下,从网页上抓取内容大致分3步: 4 1.模拟浏览器访问,获取html源代码 5 2.通过正则匹配,获取指定

用Selenium抓取新浪天气

(1)用Selenium抓取新浪天气 系统环境: 操作系统:macOS 10.13.6 python :2.7.10 用虚拟环境实现 一.创建虚拟环境: mkvirtualenv --python=/usr/bin/python python_2 二.激活虚拟环境: workon python_2 三.安装Selenium pip install Selenium 四.安装firefox的Selenium补丁文件: brew install geckodriver 五.在~/.bash_prof