Python---BeautifulSoup 简单的爬虫实例

对python自动化比较熟的同学，很多都懂一些爬虫方法，有些还研究的很深，下面呢我介

绍一个简单的爬虫实例，供大家参考。当然里面有很多需求是可以再学习的，下载进度的显

示、下载完成的提示等等。

一、首先我们要研究爬虫网站的架构，我这里已ring.itools.cn为例，我需要爬的是铃声。

大家可以自己去分析，这个网站的架构比较简单就不讲了。

我们最终要获取的是下面两个信息：

二、我们写下面的脚本来获取

上面的脚本呢，获取到songname和playaddr都是一组数据，即都是列表，我们需要把

他们一个一个的给分开。

三、把数据一个一个分开，并且写入到字典里

好到这里我们脚本就算写完了，我们运行看一下结果

四、看下运行的结果

看，我们已经获取到了歌曲的名称和播放地址了。

有问题可以加群交流QQ群：610845268

时间： 2024-10-24 20:55:03

Python---BeautifulSoup 简单的爬虫实例的相关文章

$python爬虫系列（1）——一个简单的爬虫实例

本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容: 分析html中图片的html标签特征,用正则解析出所有的图片url链接列表: 根据图片的url链接列表将图片下载到本地文件夹中. 2. urllib+re实现 #!/usr/bin/python # coding:utf-8 # 实现一个简单的爬虫,爬取百度贴吧图片 import urllib import r

python 最简单的爬虫

一个简单的爬虫工程环境: OS:Window10 python:3.7 安装一些库文件 pip install requests pip install beautifulsoup4 pip install lxml 在安装的时候如果遇到了你的pip版本过低的错误的话,可以找到你本地的C:\Users\XXX\PycharmProjects\getHtml\venv\Lib\site-packages下面的pip-18.1.dist-info文件夹删除,之后在进行更新下面是提取一个网页的图片

python 一个简单的爬虫（1）

1.一个简单的爬虫:爬取豆瓣的热门电影的信息技能:获取网页源码,正则表达式,函数调用,全局变量的定义 1 #! /usr/bin/env python 2 # -*- coding=utf-8 -*- 3 import requests 4 import json 5 import re 6 import sys 7 reload(sys) 8 sys.setdefaultencoding("utf-8") 9 classinfo = [] 10 f = open('info.txt

[Python学习] 简单网络爬虫抓取博客文章及思想介绍

前面一直强调Python运用到网络爬虫方面非常有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简单介绍下Python是如何爬去网络数据的,文章知识非常简单,但是也分享给大家,就当简单入门吧!同时只分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要包括: 1.介绍爬取CSDN自己博客文章的简单思想及过程 2.实现Python源码爬取新浪韩寒博客的316篇文章一.爬虫的简单思想最近看刘兵的<Web数据挖掘>知道,在研

Python BeautifulSoup 简单笔记

body { font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5;

使用python编写简单网络爬虫（一）

总算有时间动手用所学的python知识编写一个简单的网络爬虫了,这个例子主要实现用python爬虫从百度图库中下载美女的图片,并保存在本地,闲话少说,直接贴出相应的代码如下: ------------------------------------------------------------------------------------------- #coding=utf-8 # 导入urllib和re模块 import urllib import re # 定义获取百度图库URL的类

使用Python编写简单网络爬虫抓取视频下载资源

我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎.所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚本语言,没有之中的一个. Python的语言简洁灵活,标准库功能强大.寻常能够用作计算器,文本编码转换,图片处理,批量下载,批量处理文本等.总之我非常喜欢,也越用越上手,这么好用的一个工具,一般人我不告诉他.. .很多其它网络编程教程请上网维教程网由于其强大的字符串处理能力,以及urllib2,c

python scrapy 简单的爬虫

1 scrapy的文档比较简单 http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html 我假定你已经安装了Scrapy.假如你没有安装,你可以参考这篇文章. 在本文中,我们将学会如何使用Scrapy建立一个爬虫程序,并爬取指定网站上的内容 1. 创建一个新的Scrapy Project scrapy creatproject "project-name" 2. 定义你需要从网页中提取的元素Item 3.实现一

Python 实现简单的爬虫

Python 是一种跨平台的计算机程序设计语言,面向对象动态类型语言,Python是纯粹的自由软件,源代码和解释器CPython遵循 GPL(GNU General Public License)协议,随着版本的不断更新和语言新功能的添加,Python 越来越多被用于独立的.大型项目的开发. 快速抓取网页: 使用urllib最基本的抓取功能,将百度首页的内容保存到本地目录下. >>> import urllib.request >>> >>> res=