爬取微博热搜榜

import requests
from bs4 import BeautifulSoup
url = ‘https://s.weibo.com/top/summary?cate=realtimehot‘
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3; Win64; x64)‘
‘AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘}
urls = requests.get(url, headers=headers)
urls.encoding = urls.apparent_encoding
text = urls.text
soup = BeautifulSoup(text, ‘lxml‘)
a = soup.find_all(class_="td-02")
b = [i.get_text() for i in a]
print(‘热搜榜‘)
print(‘{:25}‘.format(‘标题(搜索数)‘))
for i,y in zip(b,a):
print(‘{:10}\t{}\n‘.format(i,y))

原文地址：https://www.cnblogs.com/zyy-k/p/12539701.html

时间： 2024-11-05 13:32:09

爬取微博热搜榜的相关文章

爬取百度热搜榜

1.打开网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b42 2.按Ctrl+u查看网页源代码 3.招到要爬取的数据 4. import requests from bs4 import BeautifulSoup import pandas as pd url = 'http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513' headers = {'Use

爬取百度热搜榜前十

1.导入相应的库 2.找到要爬取的网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513 3.找到爬取的内容: 4.用for循环将需要的内容添加到空列表中,在使用DataFrame打印出热搜榜前十 import requests from bs4 import BeautifulSoup import bs4 import pandas as pd url = 'http://top.baidu.com/buzz?b=34

爬取微博热搜

import requests from lxml import etree ###网址 url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6" ###模拟浏览器 header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3

爬去百度热搜榜

1.打开网站http://top.baidu.com/buzz?b=1&fr=topindex 2.右键找到源代码 3.用工具爬取数据 import requestsfrom bs4 import BeautifulSoupimport pandas as pdtitles=[]hots=[]url='http://top.baidu.com/buzz?b=1&fr=topindex'#百度今日热搜headers = {'User-Agent':'Mozilla/5.0 (Windows

获取微博热搜榜前十

import requests from lxml import etree url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6" header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/

爬取微博热门话题

1 介绍本文主要介绍爬取微博热门话题及话题下的微博.这是我毕业设计的数据来源,在这里先记录一下进展. 我买的阿里云服务器,[轻量应用服务器]预装宝塔Linux面板--三个月￥28.5.配置如下: 用起来还是很方便的,宝塔面板可视化文件上传下载,搭建web网站简便,可以定时爬虫程序.在阿里云服务器进行运行爬虫代码并连接到mysql数据库,运行环境如下: 类型版本服务器 CentOS Linux 7.4.1708 (Core) web服务器 Apache 2.4 数据库 mysql5.7 PY

2020不平凡的90天，Python分析三个月微博热搜数据带你回顾

前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 北京时间4月3日凌晨,全球新冠病毒感染人数突破100万,死亡人数超过5万.而这一切都在2020年刚开始的三个月内发生.可能你觉得这三个月很快,有些事情已经逐渐忘记,而互联网的记忆不会消失,数据也会说话.因此作者抓取了2020年1月1日至4月2日的每

爬虫实例(一)——爬取微博动态

首语:开始准备认真学习爬虫了,先从基础的开始学起,比如先爬取微博的个人动态. 两个难点:获取动态加载的内容和翻页这两项操作. 对象:何炅的个人需要的URL: 首页url:https://weibo.com/hejiong?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=1#feedtop 我们可以直接用get方法请求该URL,但是注意要带上cookies,这样才能得到网页信息.cookies

Django学习---抽屉热搜榜分析【all】

Python实例---抽屉热搜榜前端代码分析 Python实例---抽屉后台框架分析 Python学习---抽屉框架分析[点赞功能分析] Python学习---抽屉框架分析[数据库设计分析]180313 Python学习---抽屉框架分析[ORM操作]180314 Python学习---抽屉框架分析[小评论分析]0315 Python学习---抽屉框架分析[点赞功能/文件上传分析]0317 原文地址:https://www.cnblogs.com/ftl1012/p/9495299.html

猜你喜欢

洛谷 P2814 家谱

P2814 家谱题目背景现代的人对于本家族血统越来越感兴趣. 题目描述给出充足的父子关系,请你编写程序找到某个人的最早的祖先. 输入输出格式输入格式: 输入由多行组成,首先是一系列有关父子关系 ...

Android 四大组件

活动(Activity): 用于表现功能. 服务(Service): 后台运行服务,不提供界面呈现. 广播接收器(Broadcast Receiver):用于接收广播. 内容提供商(Content P ...

windows 中使用MongoDB

MongoDB简介 MongoDB是一个高性能,开源,无模式的文档型数据库,是当前NoSql数据库中比较热门的一种.它在许多场景下可用于替代传统的关系型数据库或键/值存储方式. 传统的关系数据库一般由 ...

互联网时代改革开放的人生

十年前,高中入学的那天,我在日记里写下了一句话:我要革命. 七年前,大学入学的那天,我在日记里写下了一句话:用四年的时间,让自己脱胎换骨. 三年前,大学毕业的那天,我在日记里写下了一句话:用三年的时间 ...

service httpd does not support chkconfig

pache 作为linux启动就运行服务程序 cp /usr/local/apache2/bin/apachectl /etc/rc.d/init.d/httpd 但是在执行: chkconfig - ...

一个JS的小练习

目的是让一个DIV小格子在页面中跑起来并且变色 1 <style> 2 * { 3 margin: 0px; 4 padding: 0px; 5 } 6 7 #DIV1 { 8 posit ...

Java 单元测试Junit

@Test @Before @After 测试方法运行前执行Before动作(比如创建资源),运行后执行After动作(比如销毁资源) @BeforeClass @AfterClass 测试类运行前执 ...

Unity3D 批量修改贴图导入设置工具脚本

这个Unity3D 批量修改贴图导入设置工具脚本十分小巧,但是威力大.特别针对大批量贴图要调整尺寸等等的时候作用尤为明显.在菜单中添加"Custom→Texture"的方式来批量改 ...

数据结构-线性表（2）

线性表定义: 线性表是最基本.最简单.也是最常用的一种数据结构.线性表中数据元素之间的关系是一对一的关系,即除了第一个和最后一个数据元素之外,其它数据元素都是首尾相接的.线性表的逻辑结构简单,便于实现 ...

SEED实验——Environment Variable and Set-UID Program实验描述与实验任务

第一部分:实验描述该实验的学习任务是理解环境变量是如何影响程序和系统行为的.环境变量是一组动态命名的变量第二部分:实验任务 2.1 任务一:操作环境变量在这个任务中,我们研究可以用来设置和取消设 ...

ELK平台搭建 ES

系统环境: System: Centos 6.5 ElasticSearch: 2.3.3 Logstash: 2.3.3 Kibana: 4.5.1 Java: jdk_1.8.0_71 新建用户: ...

MATLAB plot画线的颜色设定

plot中画线的颜色通常是八种: 标记符颜色r 红g 绿b 蓝c 蓝绿m 紫红y 黄 ...

C#WebBroswer控件的使用

在WebBroswer中可以嵌入一个网页文件,通过Url属性绑定. URI,统一资源标识符,用来唯一的标识一个资源. URL,统一资源定位器,它是一种具体的URI,即URL可以用来标识一个资源. 它包 ...

构造字符串。。

构造字串生成长度为n的字串,其字符从26个英文字母的前p(p≤26)个字母中选取,使得没有相邻的子序列相等.例如p=3,n=5时 ‘a b c b a’满足条件 ‘a b c b c’不满足条件 I ...

netbeans 快捷键（常用）

* 代码自动完成:Ctrl+\ * 代码注释 :Alt+ / * 代码自动插入:Alt+Insert * 自动格式化代码:Alt-Shift-F * 自动修复导入包:Ctrl+S ...

第四章深入类的方法

4.1构造函数通过SE engineer=new SE():创建SE对象这种创建类实例的方法被称为构造函数类的构造函数是类中的一种特殊方法构造函数的几个特点 : 1.方法名与类型相同 2.没 ...

Oracle 10g ORA-12154: TNS: could not resolve the connect identifier specified 问题解决! 我同事遇到的问题。 username/

Oracle 10g ORA-12154: TNS: could not resolve the connect identifier specified 问题解决! 我同事遇到的问题. userna ...

函数登录注册事例

1 #!/usr/bin/env python3 2 # -*-conding:utf-8-** 3 # __Author__:'liudong' 4 5 6 def login(username,p ...

java查询数据库列名，输出需要编写的代码

程序开发中有时候会有一些列特别多的数据库表,这时候一个一个绑定t数据列就比较麻烦,可以通过查询数据库的列名,直接输出出来,可以通过输出的列,添加不同的内容输出 /** * 此方法是按照查询的结果集分离 ...

HBase Full GC宕机

最近在给HBase集群进行扩容,然而事事不顺: 1.新添加的机器中有一台竟然无故重启,这个问题直接推给了系统部. 2.部署完HDFS和HBase后,启动都没有任何问题,然而过一夜后,HBase节点全部 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.