下载图片-使用beautifulSoup模块

图片处理 - 使用beautifulSoup模块

标签(空格分隔): python


使用beautifulSoup模块

使用BeautifulSoup对HTML内容解析之后,HTML内容就变成了结构化数据,可以轻易对其中的DOM元素进行操作,比如获取数据,修改,删除等。

from bs4 import BeautifulSoup
import urllib,urllib2

def getContext(url):
    ‘‘‘
    获取html
    ‘‘‘
    html = urllib2.urlopen(url).read()

    return html

def getImages(html):
    soup = BeautifulSoup(html)

    allPic = soup.findAll(‘img‘,class_="BDE_Image")

    for imgUrl in allPic:
        print imgUrl[‘src‘]

    # return a list

    return [imgUrl[‘src‘] for imgUrl in allPic]

def downLoadPicture(urlList):

    i = 1
    for item in urlList:
        urllib.urlretrieve(item, ‘%s.jpg‘ % i)
        i +=1

url = ‘http://tieba.baidu.com/p/3932177087‘
if __name__==‘__main__‘:
    html = getContext(url)

    urls = getImages(html)

    downLoadPicture(urls)

beautifulSoup中文文档

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-03 22:24:34

下载图片-使用beautifulSoup模块的相关文章

我的第一个python爬虫程序(从百度贴吧自动下载图片)

这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成

使用爬虫下载图片

import urllib#调用urllib模块 import re#调用正则模块 def getHtml(url): if url is None:#如果url为空的话直接return return html=urllib.urlopen(url)#使用urllib.urlopen打开网页 if html.getcode()!=200: return page=html.read()#返回网页信息 return page def getImg(page): if page is None: r

python BeautifulSoup模块的安装

python BeautifulSoup模块的安装 ···一个BeautifulSoup的模块,安装就浪费了俺这么长时间,下载的是BeautifulSoup4-4.1.3, 安装的时候就是 python setup.py build python setup.py install 就这么简单的两个命令,因为安装之前也看了下别人的就是这样,可是自己import的时候,总出错,弄了半天才搞好,原来是版本升级到4, 引入包要用 import bs4 from bs4 import BeautifulS

一个完整的微信上传图片下载图片实例,把手把教学

步骤一:绑定域名 先登录微信公众平台进入“公众号设置”的“功能设置”里填写“JS接口安全域名”. 备注:登录后可在“开发者中心”查看对应的接口权限. 步骤二:引入JS文件 在需要调用JS接口的页面引入如下JS文件,(支持https):http://res.wx.qq.com/open/js/jweixin-1.0.0.js 请注意,如果你的页面启用了https,务必引入 https://res.wx.qq.com/open/js/jweixin-1.0.0.js ,否则将无法在iOS9.0以上系

用java页面下载图片

try { //根据String形式创建一个URL对象 String filePath = materialProductWorks.getDownloadImageUrl(); URL url = new URL(filePath); //实列一个URLconnection对象,用来读取和写入此 URL 引用的资源 HttpURLConnection conn = (HttpURLConnection)url.openConnection(); //设置请求方式为"GET" conn

Requests 与 BeautifulSoup 模块

一.Requests库 参考 :http://www.python-requests.org/en/master/user/quickstart/#make-a-request Requests是一个很实用的Python HTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到.Requests 完全满足如今网络的需求 安装方式一般采用 pip install requests In [1]: import requests In [2]: response=requests.get('htt

Day3-scrapy爬虫下载图片自定义名称

学习Scrapy过程中发现用Scrapy下载图片时,总是以他们的URL的SHA1 hash值为文件名,如: 图片URL:http://www.example.com/image.jpg 它的SHA1 hash值为:3afec3b4765f8f0a07b78f98c07b83f013567a0a 则下载的图片为:3afec3b4765f8f0a07b78f98c07b83f013567a0a.jpg 目的是下载的图片为:image.jpg或者xxx.jpg 可以通过编写Pipeline来实现. 以

爬取今日头条历史图集将信息保存到MongDB,并且下载图片到本地

写在前面:学习<崔庆才_Python3爬虫入门到精通课程视频>动手写的小项目. (一) 分析页面 访问今日头条页面(https://www.toutiao.com/)在输入框中输入要搜索的关键字,搜索出的页面点击图集.要爬取的就是这里的所有图集. 查看页面的URL可以发现这是一个POST请求,然后我们就检查页面找到POST请求包,进行分析. 这个就是POST请求服务器返回的response 这是一个JSON格式的数据,复制下来放在解析器中查看.(使用jsonView) 可以看到data字段中的

requests和BeautifulSoup模块的使用

用python写爬虫时,有两个很好用第三方模块requests库和beautifulsoup库,简单学习了下模块用法: 1,requests模块 Python标准库中提供了:urllib.urllib2.httplib等模块以供Http请求,使用起来较为麻烦.requests是基于Python开发的HTTP 第三方库,在Python内置模块的基础上进行了高度的封装,使用了更简单,代码量更少. 官方文档:http://docs.python-requests.org/zh_CN/latest/us