爬去百度热搜榜

1.打开网站http://top.baidu.com/buzz?b=1&fr=topindex

2.右键找到源代码

3.用工具爬取数据

import requests
from bs4 import BeautifulSoup
import pandas as pd
titles=[]
hots=[]
url=‘http://top.baidu.com/buzz?b=1&fr=topindex‘#百度今日热搜
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/69.0.3497.100 Safari/537.36‘}#伪装爬虫
r=requests.get(url)#请求网站
r.raise_for_status()
r.encoding = r.apparent_encoding
html = r.text
table = BeautifulSoup(html,"html.parser").find("table")
soup=BeautifulSoup(html,‘lxml‘)#使用工具
for m in soup.find_all(class_="list-title"):
titles.append(m.get_text().strip())
for n in soup.find_all(class_="icon-rise"):
hots.append(n.get_text().strip())
final=[titles,hots]
print(final)
s=pd.DataFrame(final,index=["标题","搜索指数"])
print(s.T)

4.爬取的数据为

原文地址：https://www.cnblogs.com/xx1129/p/12543514.html

时间： 2024-08-30 09:19:56

爬去百度热搜榜的相关文章

爬取百度热搜榜

1.打开网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b42 2.按Ctrl+u查看网页源代码 3.招到要爬取的数据 4. import requests from bs4 import BeautifulSoup import pandas as pd url = 'http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513' headers = {'Use

爬取百度热搜榜前十

1.导入相应的库 2.找到要爬取的网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513 3.找到爬取的内容: 4.用for循环将需要的内容添加到空列表中,在使用DataFrame打印出热搜榜前十 import requests from bs4 import BeautifulSoup import bs4 import pandas as pd url = 'http://top.baidu.com/buzz?b=34

爬取微博热搜榜

import requestsfrom bs4 import BeautifulSoupurl = 'https://s.weibo.com/top/summary?cate=realtimehot'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64)' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safar

python网络爬虫：实现百度热搜榜数据爬取

from bs4 import BeautifulSoup from selenium import webdriver import time import xlwt #打开网页 url="http://top.baidu.com/buzz?b=1&fr=topindex" driver = webdriver.Chrome() driver.get(url) #time.sleep(5) #获取网页信息 html=driver.page_source soup=Beauti

Django学习---抽屉热搜榜分析【all】

Python实例---抽屉热搜榜前端代码分析 Python实例---抽屉后台框架分析 Python学习---抽屉框架分析[点赞功能分析] Python学习---抽屉框架分析[数据库设计分析]180313 Python学习---抽屉框架分析[ORM操作]180314 Python学习---抽屉框架分析[小评论分析]0315 Python学习---抽屉框架分析[点赞功能/文件上传分析]0317 原文地址:https://www.cnblogs.com/ftl1012/p/9495299.html

Python(16)_爬去百度图片（urlopen和urlretrieve）

import urllib.request image_url = 'http://img18.3lian.com/d/file/201709/21/f498e01633b5b704ebfe0385f52bad20.jpg' response = urllib.request.urlopen(url=image_url) # 二进制的形式保存,方法一 with open('qing.jpg','wb') as fp: fp.write(response.read()) 方法2: 直接保存 imp

Python实例---抽屉热搜榜学习版

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>欢迎来到FTL的网站</title> <style> /*------------------------------------头部信息开始------------------------*/ * { margin: 0; padding: 0

Python爬去百度音乐

编译器环境:Python3.6 代码: #!/usr/bin/env python #-*-coding=utf-8 -*- #AUTHOR:duwentao import requests import re import json def get_sids_by_name(name): url = 'http://music.baidu.com/search' data = { 'key':name } reponse = requests.

爬取微博热搜

import requests from lxml import etree ###网址 url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6" ###模拟浏览器 header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3

猜你喜欢

静态修饰符static，类中的常量定义修饰符

static可以用来区分成员变量.方法是属于类本身还是属于类实例化后的对象.有static修饰的成员属于类本身,没有static修饰的成员属于类的实例. 静态变量仅在局部函数域中存在,但当程序执行离开 ...

记录一次git的误删除操作--恢复

git commit之后想撤销重来一次,就执行了git reset操作,但是加个--hard参数,git reset --hard 把所有提交的文件都删除了,尝试了git reflog show和gi ...

Mac抓包工具 - Paros

一.安装Paros 1:点击Paros时,需要安装JDK工具. 2:安装JDK 8 (1)安装JDK8 (2)安装成功JDK8 (3)安装成功图标. 二.打开Paros工具 1: 2:

JavaScript--windows--基本功能（一）

window对象是BOM的核心,window对象指当前的浏览器窗口! <!DOCTYPE HTML> <html> <head> <meta http-equ ...

微信支付注意事项

微信支付,Android客户端开发注意事项: 最近项目要添加一个微信支付的功能,结果Android客户端总是无法调起支付页面,被卡了几天终于解决了,现做一个简单的总结. 必须实现以下流程否则微信支 ...

java中nextLine()和next()的区别

>概述在实现字符窗口的输入时,我个人更喜欢选择使用扫描器Scanner,它操作起来比较简单.我发现用Scanner实现字符串的输入有两种方法,一种是next(),一种nextLine(),但是 ...

多段图动态规划dp

多段图问题是DP的基础题目.大体的意思是有一个赋权有向图,其顶点集被分为几个子集.求经过每个子集从源点到终点的最短路径 1 import java.util.ArrayList; 2 import j ...

OpenCV实现基于图像内容检索--视频播放（上）

最近要交个小作业,恰好刚开了博客园的博客,就想着把这个记下来当是做点笔记)=.=(,做的小作业的题目是基于图像内容的内容检索,主要是包括OpenCV和使用ActiveX插件两种方法来播放,这部分就写关 ...

1.5Vim工具使用详解

Vim编辑器是Vi的升级版,在选择最小化安装Linux系统,默认没有安装Vim工具. 一.安装Vim 1.查询安装包 [[email protected] ~]# yum search vimLoad ...

SF-项目部署

Salesforce项目部署:从开发环境到测试环境,从测试环境到生产环境: 用Change Set来部署用Eclipse来部署用Ant来部署: 需要的环境: JDK 1.6以上,配置JAVA_HO ...

More Effective C++ 条款9 利用 destructor 避免泄露资源

1. “函数抛出异常的时候,将暂停当前函数的执行,开始查找匹配的catch语句.首先检查throw本身是否在try块内部,如果是,检查与该try块相关的catch语句,看是否其中之一与被抛出的对象相匹 ...

JSP自定义标签配置

JSP自定义标签 <taglib> <taglib-uri>/WEB-INF/you.tld</taglib-uri> <taglib-location> ...

Javascript实现《推箱子》游戏

在线预览: http://runjs.cn/detail/sfvwwb2i 或者点击我关于: 这段代码主要是为了检验自己学习Javascript的成果,游戏其实很简单,主要思维,里面我尽量的标记注 ...

九度OJ1020-最小正方形-判大小

题目1020:最小长方形时间限制:1 秒内存限制:32 兆特殊判题:否提交:7410 解决:3521 题目描述: 给定一系列2维平面点的坐标(x, y),其中x和y均为整数,要求用一个 ...

javaweb之监听器详解

在servlet中定义了多种类型的监听器,他们用于监听事件源分别是servletContext,httpsession,servletrequest 这三个域对象. servlet中监听器主要有三类: ...

探索gff/gtf格式

参考: GFF格式说明 Generic Feature Format Version 3 (GFF3) 先下载一个 gtf 文件浏览一下 1 havana gene 11869 14409 . + . ...

Python3基础通过拆分元素把元组的数据删除

镇场诗: 诚听如来语,顿舍世间名与利.愿做地藏徒,广演是经阎浮提. 愿尽吾所学,成就一良心博客.愿诸后来人,重现智慧清净体.-------------------------------------- ...

转：Monoids and Finger Trees

转自:http://apfelmus.nfshost.com/articles/monoid-fingertree.html This post grew out of the big monoid ...

转：如何为你的开源项目选择一个合适的开源协议？

转自:http://mp.weixin.qq.com/s?__biz=MzI1MzIyMTIxMg==&mid=2247483694&idx=1&sn=4ac5dc5e1285 ...

商品列表页一次添加多个规格

可能题目的表述不是特别清晰,具体有一下截图看这会比较明显页面上的功能描述1. 当页面加载完成后,需要根据不同规格的商品刷新出对应规格商品的价格,2.重置默认数量,这个功能在input标签中设置默认的 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.