爬取微博热搜榜

import requests
from bs4 import BeautifulSoup
url = ‘https://s.weibo.com/top/summary?cate=realtimehot‘
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3; Win64; x64)‘
                  ‘AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘}
urls = requests.get(url, headers=headers)
urls.encoding = urls.apparent_encoding
text = urls.text
soup = BeautifulSoup(text, ‘lxml‘)
a = soup.find_all(class_="td-02")
b = [i.get_text() for i in a]
print(‘热搜榜‘)
print(‘{:25}‘.format(‘标题(搜索数)‘))
for i,y in zip(b,a):
   print(‘{:10}\t{}\n‘.format(i,y))

原文地址:https://www.cnblogs.com/zyy-k/p/12539701.html

时间: 2024-11-05 13:32:09

爬取微博热搜榜的相关文章

爬取百度热搜榜

1.打开网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b42 2.按Ctrl+u查看网页源代码 3.招到要爬取的数据 4. import requests from bs4 import BeautifulSoup import pandas as pd url = 'http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513' headers = {'Use

爬取百度热搜榜前十

1.导入相应的库 2.找到要爬取的网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513 3.找到爬取的内容: 4.用for循环将需要的内容添加到空列表中,在使用DataFrame打印出热搜榜前十 import requests from bs4 import BeautifulSoup import bs4 import pandas as pd url = 'http://top.baidu.com/buzz?b=34

爬取微博热搜

import requests from lxml import etree ###网址 url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6" ###模拟浏览器 header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3

爬去百度热搜榜

1.打开网站http://top.baidu.com/buzz?b=1&fr=topindex 2.右键找到源代码 3.用工具爬取数据 import requestsfrom bs4 import BeautifulSoupimport pandas as pdtitles=[]hots=[]url='http://top.baidu.com/buzz?b=1&fr=topindex'#百度今日热搜headers = {'User-Agent':'Mozilla/5.0 (Windows

获取微博热搜榜前十

import requests from lxml import etree url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6" header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/

爬取微博热门话题

1 介绍 本文主要介绍爬取微博热门话题及话题下的微博.这是我毕业设计的数据来源,在这里先记录一下进展. 我买的阿里云服务器,[轻量应用服务器]预装宝塔Linux面板--三个月¥28.5.配置如下: 用起来还是很方便的,宝塔面板可视化文件上传下载,搭建web网站简便,可以定时爬虫程序.在阿里云服务器进行运行爬虫代码并连接到mysql数据库,运行环境如下: 类型 版本 服务器 CentOS Linux 7.4.1708 (Core) web服务器 Apache 2.4 数据库 mysql5.7 PY

2020不平凡的90天,Python分析三个月微博热搜数据带你回顾

前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 北京时间4月3日凌晨,全球新冠病毒感染人数突破100万,死亡人数超过5万.而这一切都在2020年刚开始的三个月内发生.可能你觉得这三个月很快,有些事情已经逐渐忘记,而互联网的记忆不会消失,数据也会说话.因此作者抓取了2020年1月1日至4月2日的每

爬虫实例(一)——爬取微博动态

首语:开始准备认真学习爬虫了,先从基础的开始学起,比如先爬取微博的个人动态. 两个难点:获取动态加载的内容和翻页这两项操作. 对象:何炅的个人 需要的URL: 首页url:https://weibo.com/hejiong?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=1#feedtop 我们可以直接用get方法请求该URL,但是注意要带上cookies,这样才能得到网页信息.cookies

Django学习---抽屉热搜榜分析【all】

Python实例---抽屉热搜榜前端代码分析 Python实例---抽屉后台框架分析 Python学习---抽屉框架分析[点赞功能分析] Python学习---抽屉框架分析[数据库设计分析]180313 Python学习---抽屉框架分析[ORM操作]180314 Python学习---抽屉框架分析[小评论分析]0315 Python学习---抽屉框架分析[点赞功能/文件上传分析]0317 原文地址:https://www.cnblogs.com/ftl1012/p/9495299.html