爬取百度热搜榜前十

1.导入相应的库

2.找到要爬取的网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513

3.找到爬取的内容:

4.用for循环将需要的内容添加到空列表中,在使用DataFrame打印出热搜榜前十

import requests
from bs4 import BeautifulSoup
import bs4
import pandas as pd
url = ‘http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513‘
def f(s):
    try:
        headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘}
        r=requests.get(s,timeout=30,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        soup=BeautifulSoup(r.text,‘lxml‘)
        return soup
    except:
        return ""
soup=f(url)
a=[]
b=[]
for link1 in soup.find_all(class_=‘list-title‘):
    a.append(link1.get_text())
for link2 in soup.find_all(‘td‘,class_=‘last‘):
    b.append(link2.get_text().strip())
data=pd.DataFrame([a,b],index=["关键词","搜索指数"]).T
print("爬取百度热搜榜前十:","\n")
print(data.iloc[0:10])

原文地址:https://www.cnblogs.com/lzq129/p/12504595.html

时间: 2024-10-12 17:02:31

爬取百度热搜榜前十的相关文章

爬取百度热搜榜

1.打开网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b42 2.按Ctrl+u查看网页源代码 3.招到要爬取的数据 4. import requests from bs4 import BeautifulSoup import pandas as pd url = 'http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513' headers = {'Use

爬取微博热搜榜

import requestsfrom bs4 import BeautifulSoupurl = 'https://s.weibo.com/top/summary?cate=realtimehot'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64)'                  'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safar

爬去百度热搜榜

1.打开网站http://top.baidu.com/buzz?b=1&fr=topindex 2.右键找到源代码 3.用工具爬取数据 import requestsfrom bs4 import BeautifulSoupimport pandas as pdtitles=[]hots=[]url='http://top.baidu.com/buzz?b=1&fr=topindex'#百度今日热搜headers = {'User-Agent':'Mozilla/5.0 (Windows

获取微博热搜榜前十

import requests from lxml import etree url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6" header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/

python网络爬虫:实现百度热搜榜数据爬取

from bs4 import BeautifulSoup from selenium import webdriver import time import xlwt #打开网页 url="http://top.baidu.com/buzz?b=1&fr=topindex" driver = webdriver.Chrome() driver.get(url) #time.sleep(5) #获取网页信息 html=driver.page_source soup=Beauti

爬取微博热搜

import requests from lxml import etree ###网址 url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6" ###模拟浏览器 header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3

爬取百度实时热点前十排行榜

import requests#导入相应库from bs4 import BeautifulSoupimport pandas as pdurl = 'http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341_c513'#要爬取的网址headers = {'User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/

第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有

百度图片爬虫-python版-如何爬取百度图片?

上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://5912119.blog.51cto.com/5902119/1771391 这一篇我想写写如何爬取百度图片的爬虫,这个爬虫也是:搜搜gif(在线制作功能点我) 的爬虫代码,其实爬虫整体框架还是差不多的,但就是会涉及到图片的的一些处理,还是花费了我不少时间的,所以我请阅读的本爬虫的孩子还是认真一些,毕竟程序猿都不容易啊.好的,我也不想多说,爬虫的代码我会分享到去转盘网,想下载本爬虫代码的孩子请点我下载,如果没有下