爬虫实践-爬取酷狗TOP500数据

源代码:

import requestsfrom bs4 import BeautifulSoupimport time

headers = {    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ‘                  ‘ (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36‘}

def get_info(url):    wb_data = requests.get(url, headers=headers)    soup = BeautifulSoup(wb_data.text, ‘lxml‘)    ranks = soup.select(‘span.pc_temp_num‘)    titles = soup.select(‘div.pc_temp_songlist > ul > li > a‘)    times = soup.select(‘span.pc_temp_tips_r > span‘)    for rank, title, time in zip(ranks, titles, times):        data = {            ‘rank‘: rank.get_text().strip(),            ‘singer‘: title.get_text().split(‘-‘)[0],            ‘song‘: title.get_text().split(‘-‘)[0],            ‘time‘: time.get_text().strip()        }        print(data)

if __name__ == ‘__main__‘:    urls = [‘http://www.kugou.com/yy/rank/home/{}-8888.html‘.format(str(i)) for i in range(1, 24)]    for url in urls:        get_info(url)        time.sleep(1)
时间: 2024-10-08 12:27:53

爬虫实践-爬取酷狗TOP500数据的相关文章

爬虫程序2-爬取酷狗top500

爬取的内容为酷狗榜单中酷狗top500的音乐信息,如图所示. 网页版酷狗不能手动翻页,进行下一步的浏览.但通过观察第一页的URL: http://www.kugou.com/yy/rank/home/1-8888.html 这里尝试把数字1换为数字2,进行浏览,恰好返回的是第2页的信息(下图).进行多次尝试,发现更换不同数字即为不同页面,故只需更改home/后面的数字即可.由于每页显示的为22首歌曲,所以总共需要23个URL import requestsfrom bs4 import Beau

【Python】【爬虫】爬取酷狗音乐网络红歌榜

原理:我的上篇博客 import requests import time from bs4 import BeautifulSoup def get_html(url): ''' 获得 HTML ''' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53 7.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' }

Java爬虫系列之实战:爬取酷狗音乐网 TOP500 的歌曲

在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天就来实战下,用他们来抓取酷狗音乐网上的 Top500排行榜音乐.接下来的代码中除了会用到HttpClient和Jsoup之外,还会用到log4j和ehcache,分别用来记录日志和实现缓存,如果看官对这两个不是很熟悉的话,请自行百度,现在网上的入门实例有很多,我就不专门记笔记了. 那为什么会想到爬取

python使用beautifulsoup4爬取酷狗音乐

声明:本文仅为技术交流,请勿用于它处. 小编经常在网上听一些音乐但是有一些网站好多音乐都是付费下载的正好我会点爬虫技术,空闲时间写了一份,截止4月底没有问题的,会下载到当前目录,只要按照bs4库就好, 安装方法:pip install beautifulsoup4 完整代码如下:双击就能直接运行 from bs4 import BeautifulSoup import requests import re headers = { 'User-Agent': 'Mozilla/5.0 (Windo

爬取酷狗音乐华语新歌榜前100

import requests import time import lxml from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36', 'Cookie': 'gr_user_id=c6f58a39-ea25-4

python爬虫实践——爬取京东商品信息

1 ''' 2 爬取京东商品信息: 3 请求url: 4 https://www.jd.com/ 5 提取商品信息: 6 1.商品详情页 7 2.商品名称 8 3.商品价格 9 4.评价人数 10 5.商品商家 11 ''' 12 from selenium import webdriver 13 from selenium.webdriver.common.keys import Keys 14 import time 15 16 17 def get_good(driver): 18 try

爬虫实践-爬取豆瓣音乐TOP250的数据

doubanyinyue.py: import requestsfrom lxml import etreeimport reimport pymongoimport time client = pymongo.MongoClient('localhost', 27017)mydb = client['mydb']musictop = mydb['musictop'] headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) A

爬虫实践-爬取糗事百科网段子信息

qiushibaike.py: # 导入相应的库文件import requestsimport re # 加入请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ' '(KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'} # 初始化列表,用于装入爬虫信息info_lists = [] # 定义获取用户性别的函数def j

爬虫实践-爬取起点中文网小说信息

qidian.py: import xlwtimport requestsfrom lxml import etreeimport time all_info_list = [] def get_info(url): html = requests.get(url) selector = etree.HTML(html.text) infos = selector.xpath('//ul[@class="all-img-list cf"]/li') for info in infos: