爬虫程序2-爬取酷狗top500

爬取的内容为酷狗榜单中酷狗top500的音乐信息，如图所示。

网页版酷狗不能手动翻页，进行下一步的浏览。但通过观察第一页的URL：

http://www.kugou.com/yy/rank/home/1-8888.html

这里尝试把数字1换为数字2，进行浏览，恰好返回的是第2页的信息（下图）。进行多次尝试，发现更换不同数字即为不同页面，故只需更改home/后面的数字即可。由于每页显示的为22首歌曲，所以总共需要23个URL

import requests
from bs4 import BeautifulSoup
import time

headers = {
‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36‘
}

def get_info(url):
wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,‘lxml‘)
ranks = soup.select(‘span.pc_temp_num‘)
titles = soup.select(‘div.pc_temp_songlist > ul > li > a‘)
times = soup.select(‘span.pc_temp_tips_r > span‘)
for rank,title,time in zip(ranks,titles,times):
data = {
‘rank‘:rank.get_text().strip(),
‘singer‘:title.get_text().split(‘-‘)[0],
‘song‘:title.get_text().split(‘-‘)[0],
‘time‘:time.get_text().strip()
}
print(data)

if __name__ == ‘__main__‘:
urls = [‘http://www.kugou.com/yy/rank/home/{}-8888.html‘.format(str(i)) for i in range(1,24)]
for url in urls:
get_info(url)
time.sleep(1)

原文地址：https://www.cnblogs.com/wuxingqueshui/p/10049824.html

时间： 2024-11-10 00:13:04

爬虫程序2-爬取酷狗top500的相关文章

爬虫实践-爬取酷狗TOP500数据

源代码: import requestsfrom bs4 import BeautifulSoupimport time headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ' ' (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'} def get_info(url): wb_data = requests.get(url,

Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲

在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天就来实战下,用他们来抓取酷狗音乐网上的 Top500排行榜音乐.接下来的代码中除了会用到HttpClient和Jsoup之外,还会用到log4j和ehcache,分别用来记录日志和实现缓存,如果看官对这两个不是很熟悉的话,请自行百度,现在网上的入门实例有很多,我就不专门记笔记了. 那为什么会想到爬取

python使用beautifulsoup4爬取酷狗音乐

声明:本文仅为技术交流,请勿用于它处. 小编经常在网上听一些音乐但是有一些网站好多音乐都是付费下载的正好我会点爬虫技术,空闲时间写了一份,截止4月底没有问题的,会下载到当前目录,只要按照bs4库就好, 安装方法:pip install beautifulsoup4 完整代码如下:双击就能直接运行 from bs4 import BeautifulSoup import requests import re headers = { 'User-Agent': 'Mozilla/5.0 (Windo

爬取酷狗音乐华语新歌榜前100

import requests import time import lxml from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36', 'Cookie': 'gr_user_id=c6f58a39-ea25-4

【Python】【爬虫】爬取酷狗音乐网络红歌榜

原理:我的上篇博客 import requests import time from bs4 import BeautifulSoup def get_html(url): ''' 获得 HTML ''' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53 7.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' }

python爬取酷狗排行音乐

import time import requests from bs4 import BeautifulSoup urlFormat='https://www.kugou.com/yy/rank/home/{}-8888.html' count=1 rank=1 while 1: url=urlFormat.format(count) res=requests.get(url) soup=BeautifulSoup(res.text, 'html.parser') songName=[s.te

htmlunit+fastjson抓取酷狗音乐 qq音乐链接及下载

上次学了jsoup之后,发现一些动态生成的网页内容是无法抓取的,于是又学习了htmlunit,下面是抓取酷狗音乐与qq音乐链接的例子: 酷狗音乐: import java.io.BufferedInputStream; import java.io.FileOutputStream; import java.io.InputStream; import java.net.URL; import java.net.URLEncoder; import java.util.UUID; import

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可

爬虫的定向爬取与垂直搜索

转爬虫的定向爬取与垂直搜索定向爬虫是网络爬虫的一种. 定向爬虫定向爬虫可以精准的获取目标站点信息. 定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储. 优势: 基于模版的信息提取技术,能提供更加精准的信息.比如价格,房屋面积,时间,职位,公司名等等. 劣势: 目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本. 也就是说定向爬取就是我们要针对不同的网页

猜你喜欢

UVa 11572 唯一的雪花

https://vjudge.net/problem/UVA-11572 题意:输入一个长度为n的序列A,找到一个尽量长的连续子序列,使得该序列中没有相同的元素. 思路:很简单的题,也没啥好解释的了. ...

jQuery-1.9.1源码分析系列（十六）ajax——ajax处理流程以及核心函数

先来看一看jQuery的ajax核心处理流程($.ajax) a. ajax( [url,] options )执行流程第一步,为传递的参数做适配.url可以包含在options中 //传递的参数只 ...

《夏洛》是个悲剧

最近情绪十分压抑,甚至影响到我不能思考,不能工作的地步.确实有很多话想说,但我是一个在公共平台从来不表露情绪的人,一是不想让大家去评判我的内心,也不想我的情绪会影响到大家.但终于憋到窒息,所以在这个本 ...

凸包（Convex Hull）构造算法——Graham扫描法

凸包(Convex Hull) 在图形学中,凸包是一个非常重要的概念.简明的说,在平面中给出N个点,找出一个由其中某些点作为顶点组成的凸多边形,恰好能围住所有的N个点. 这十分像是在一块木板上钉了N个 ...

MarkdownPad2.5 注册码

邮箱: [email protected] 授权秘钥: GBPduHjWfJU1mZqcPM3BikjYKF6xKhlKIys3i1MU2eJHqWGImDHzWdD6xhMNLGVpbP2M5SN6 ...

FutureTask与Callable运用

最近项目需要用到FutureTask异步获取执行结果,并与Callable结合起来运用. 首先,看下FutureTask执行过程:FutureTask可用于异步获取执行结果或取消执行任务的场景.通过传 ...

光复会腹股沟好好规范化...

http://www.zww.cn//baike/t/5/79905.htm http://www.zww.cn//baike/t/4/79904.htm http://www.zww.cn// ...

《软件测试》实验二

(1)写一个程序,用于分析一个字符串中各个单词出现的频率,并将单词和它出现的频率输出显示.(单词之间用空格隔开,如“Hello World My First Unit Test”): (2)编写单元测 ...

Bloom Filter概念和原理

Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某 ...

用qemu与gdb调试linux kernel tcp/ip协议栈

description 用gdb debug linux kernel容易吗?其实要走到这步真的不容易啊,其实也难道是不难,就是要知道的东西太多了.用gdb debug linux kernel 可以 ...

Linux Mint 18 将拥有自己的应用集

对于发行版开发者来说,创建和发布一系列专为他们发行版设计的应用是再平常不过的事情.一个最典型的例子就是 elementary OS .而在经过九年的努力后,Linux Mint 终于孤注一掷做了相同的 ...

【转】Google 的秘密- PageRank 彻底解说中文版

原文链接 http://www.t086.com/good/pagerank_cn.htm 原著:Google の秘密 - PageRank 徹底解説 Hajime BABA / 馬場肇翻译: ...

Tomcat：bio nio 的设计

BIO 由Acceptor接收Socket,将其转交给Worker来处理. NIO 由Acceptor接收Socket,将其转交给Poller来轮询处理.Poller再将可处理的Socket交给Wo ...

仿TestCpp实现Layout页面切换效果

//HelloWorld.h #include "cocos2d.h" #include "ui/CocosGUI.h" #include "Firs ...

delphi TPopupMenu.Popup

procedure TPopupMenu.Popup(X, Y: Integer); 这个点是相对桌面的而不是窗体的 GetCursorPos是鼠标的位置鼠标动这个点就不一样 var p:TPoin ...

Android的日期选择器

TimePicker(时间选择器) 方法描述 Integer getCurrentHour () 返回当前设置的小时 Integer getCurrentMinute() 返回当前设置的分钟 boo ...

Spring Boot让开发如此简单

从html到asp后一直专注.net开发,从.net诞生到如今,从winform到webform,从asp.net到.net mcv,从.net mvc到.net core,从ado.net到linq ...

*基础架构*-创业型公司

公司环境: 1.电信IPS: 2.3台以下的Server 3.节点在60以下硬件设备: 1 路由器:飞鱼星路由器 2 交换机:TP24口千兆*3 3 无线AP:TP-451C*1~2 4 网线 : ...

多个显示器, window.open的定位

// Pops a window relative to the current window position function popup(url, winName, xOffset, yOffs ...

CSS3秘笈复习：第一章&第二章&第三章

第一章: 1.<cite>标签不仅可以将网页设置为斜体,还能给标题做上标记,使它便于被搜索引擎搜索到. 第二章: 1.import指令链接样式表: CSS本身有一种添加外部样式的方法:@i ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.