一步步分析百度音乐的播放地址,利用Python爬虫批量下载

百度音乐不需要登录也可以下载?听到这个消息是不是很兴奋呢,

接下来我们打开百度音乐,随便打开一首歌,切换到百度播放页面:如图

我这里用的是Firfox 浏览器,打开firebug 先清空所有的请求,如图:

现在我们重新刷新下页面,看到这个.mp3的地址就是百度音乐的地址,我们可以直接复制到迅雷里下载,但是这种做法太初级了吧,如果有很多首歌曲呢,每个都这样复制,岂不是很麻烦啊。,接下来我们继续分析。

这个链接有个特点,就是music/1658513  这个是什么呢? 你猜的没错,这个是每首歌曲的Id ,再看后面的参数xcode 这个是个guid ,经过对比之后,每个都不一样,这个从哪来的啊。。我们继续分析其他请求。。

哈哈,还是被我们找到了吧,这个songLink 就是音乐的地址,但是这个请求是怎么来的呢,我们继续往上找,我们看到post请求里的参数,有个songIds 这个就是每首歌的Id,

到了这一步,一切都很顺利,把这个地址复制下来,接下来,该我们的Python出场了。。

这里使用的环境是Python3.4  ,第三方库BeautifulSoup,requests,怎么安装,网上有很多,接下来上代码

新建一个xml文件取名为music.xml 格式如下

<?xml version="1.0" encoding="utf-8"?>
<root>
    <url>http://music.baidu.com/tag/纯净</url>
    <pageSize>40</pageSize>
    <savePlay>d:\\纯净\\</savePlay>
</root>

url 是百度音乐的分类地址 pageSize 是要下载的页数,savePlay 是保存的路径

接下来我们再建一个py文件 主要代码部分:

模拟浏览器请求,防止被屏蔽

headers={
            ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0‘,
            ‘Referer‘:‘http://play.xml.baidu.com/‘,
            ‘Accept‘:‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
            ‘Accept-Encoding‘:‘gzip, deflate, br‘,
            ‘Accept-Language‘:‘zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3‘,
            ‘Cache-Control‘:‘max-age=0‘,
            ‘Connection‘:‘keep-alive‘
        }

读取xml文件的方法
def getTagText(tag):
    rc = ""
    dom=xml.dom.minidom.parse("play.xml")
    node = dom.getElementsByTagName(tag)[0]
    for node in node.childNodes:
        if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):
            rc=node.data
    return rc

解析html方法

def DownHtml(url):
        try:
           savePlay=getTagText("savePlay")
           print("准备开始解析页面:"+url+"  请稍候...")
           html=requests.get(url,headers=headers,timeout=2000)
           html.encoding="utf-8"
           soup=BeautifulSoup(html.text,"html.parser")
           div_html=soup.find("div",class_="search-song-list song-list song-list-hook")
           span_html=re.findall(‘<span class="music-icon-hook" data-musicicon=\‘(.*?)\‘>‘,str(div_html))
           for v in span_html:
               data=json.loads(v)
               play=data["id"],data["songTitle"]
               queue.append(play)
           while queue:
               time.sleep(5)
               music_tuple=queue.popleft()
               playUrl=music.replace("$0$",music_tuple[0])
               print(music_tuple[1]+".mp3进入下载通道,开始排队等待...\n")
               resultJson=requests.get(playUrl,headers=headers,timeout=2000)
               data=resultJson.json()
               if not data[‘data‘]:
                   pass
               else:
                   v=data["data"]["songList"][0];
                   print("正在下载, "+v["songName"]+".mp3 ...\n")
                   time.sleep(2)
                   request.urlretrieve(v["songLink"],savePlay+v["songName"]+".mp3")
                   print(v["songName"]+".mp3 下载完成,下载路径:"+savePlay+v["songName"]+".mp3")
        except:
            pass

if __name__=="__main__":
    start = time.time()
    pageSize=int(getTagText("pageSize"))
    pageIndex=25
    url=getTagText("url")
    playurls.append(url)
    if pageSize>1:
        for v in range(pageSize):
            if v>0:
                purl=url+"?start="+str(pageIndex)+"&size=25&third_type=0"
                playurls.append(purl)
                pageIndex+=25
    with Pool(4)as p:
        p.map(DownHtml,playurls)

    print("本次下载共用时:"+time.time()-start)
最后发个截图,一起来看看我们运行的效果吧,


ps :新手自学,如有不足的地方,欢迎指正,环境是在vs2013上开发的,如果其他ide可以单独复制出py,和xml 文件
 
源码地址

时间: 2024-10-07 04:48:16

一步步分析百度音乐的播放地址,利用Python爬虫批量下载的相关文章

类似百度音乐唱片播放时CD图片不停旋转的实现

类似百度音乐唱片播放时CD图片不停旋转的实现 效果图 html代码 <img src="img/logo.png" class="img-responsive" style="float: left;" /> css3代码 # img{ -webkit-transition: -webkit-transform 5s; -webkit-transform: rotate(0deg); -moz-transform: rotate(0d

python3.4爬虫批量下载音乐

最近在学习python,使用的版本为python3.4,开发环境为使用Pydev插件的eclipse.正好觉得http://www.dexiazai.com/?page_id=23上的音乐不错,决定使用python批量下载下来. 1.音乐地址 经过分析,页面嵌入的虾米播放器中的地址如下,后面以逗号分隔的字符为音乐的id,如音乐的地址为http://www.xiami.com/song/2088578 <span style="font-size:14px;"><spa

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

项目内容 本案例选择>> 商品类目:沙发: 数量:共100页  4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. 不同关键词word对应的sales的统计分析 3. 商品的价格分布情况分析 4. 商品的销量分布情况分析 5. 不同价格区间的商品的平均销量分布 6. 商品价格对销量的影响分析 7. 商品价格对销售额的影响分析 8. 不同省份或城市的商品数量分布 9.不同省份的商品平均销量分布 注:本项目仅以以上几项分析为

python爬虫--百度风云榜--pandas画趋势图

好久没有更新博客,最近做了一个小项目,利用python爬虫功能,每天记录爬取百度风云榜的数据,然后画出趋势图,从而预测旅游城市热度. 原本准备用pandas直接读取table,后来发现pandas不能打包成exe,就只能放弃,尝试了petl也失败了. 在画图的过程中出现了中文无法显示的问题,查询得出是因为matplotlib的问题,没有引入中文字体. 先上分析代码 import os import pandas as pd rootdir='C:/files' #先删除一下result.csv#

ubuntu 14.04 安装 深度音乐播放器与百度音乐插件

从window转到ubuntu真有点不习惯,之前玩玩虚拟机感觉还挺好,但看到ubuntu的界面感觉还蛮好看的,一狠心把硬盘给格了.我,从此IT男!!!囧 罗嗦完了,转正题,刚刚搞好的音乐播放器,把步骤写出来,以后重装少花点时间: 1: 更新源和安装deepin-music-player sudo add-apt-repository ppa:mc3man/trusty-media sudo add-apt-repository ppa:noobslab/deepin-sc sudo apt-ge

团队项目 NABCD分析java音乐播放器

NABCD分析java音乐播放器 程设计题目:java音乐播放器 一.课程设计目的 1.编程设计音乐播放软件,使之实现音乐播放的功能. 2.培养学生用程序解决实际问题的能力和兴趣. 3.加深java中对多媒体编程的应用. 二.课程设计的要求 利用学到的编程知识和编程技巧,要求学生: 1.系统设计要能完成题目所要求的功能,设计的软件可以进行简单的播放及其他基本功能. 2.编程简练,可用,尽可能的使系统的功能更加完善和全面 3.说明书.流程图要清楚. 三.课程设计内容 1.课程设计的题目及简介 音乐

Android获取百度音乐的音乐下载地址和歌词下载连接

首先通过你要下载的歌曲通过下列连接: http://box.zhangmen.baidu.com/x?op=12&count=1&title={title}$${author}$$$$ 可以获取一个xml文件通过解析xml文件就可以读取到音乐下载的地址和歌词下载的地址. 部分代码: String title = "六月的雨"; String singer = "胡歌"; String url = "http://box.zhangmen.b

Ubuntu 14.04 用户如何安装深度音乐播放器和百度音乐插件

播放本地音乐或者收听国外的音乐电台,Ubuntu 14.04 自带的音乐播放器 Rhythmbox 完全能够满足,但是如果你想有像酷狗那样的国内播放器就需要折腾一下,还好有深度音乐播放器,这是一款完全为中国人开发的音乐播放器,深度音乐播放器(Dmusic)+ 百度音乐插件=酷狗,但是如果是deepin系统用户就完全不需要折腾了.先截图一下: 安装方法 (注释:我的系统是Ubuntu 14.04 其他系统没有实验,所以不保证是否成功) 先安装深度音乐播放器,安装很方便,有PPA可用,不过安装之前需

网页对youtube真实播放地址进行分析,拉回来分辨率列表

先参照这篇博客写sign,https://www.cnblogs.com/boothsun/p/7460105.html了解一下sign 然后开始youtube视频真实地址分析,之所以用youtube做分析,是因为youtube并没有做视频切片,新建网站服务端不需要做很多工作,基本上都可以丢给浏览器客户端用js做(使用客户端做的话就另说了,这里主要是说网页做的思路) youtube的下载链接如下: https://r5---sn-i3b7knlk.googlevideo.com/videopla