用Beautifulsoup 来爬取贴吧图片

import urllib.request
import bs4
import  re
import os

url="https://tieba.baidu.com/p/1988291937?fr=ala0&pstaala=1&tpl=5&isgod=0"
html=urllib.request.urlopen(url)
bsobj=bs4.BeautifulSoup(html)    #将整个网页的标签提取出来

namelist=bsobj.findAll(‘img‘,{‘class‘:‘BDE_Image‘})#找到img标签 并放到集合中

foder=‘c://hand‘   建立一个文件夹
os.mkdir(foder)
os.chdir(foder)

for name in namelist:
    addr=name.attrs[‘src‘] #迭代每一条标签src属性
    filename=addr.split(‘/‘)[-1]
    urllib.request.urlretrieve(addr,filename,None)

另一种迭代并保存网页图片的方式
 for name in namelist:#     addr=name.attrs[‘src‘] #迭代每一条标签src属性    #     filename=addr.split(‘/‘)[-1]#     with open(filename,‘wb‘) as f:#         response = urllib.request.urlopen(addr)    #         img = response.read()#         f.write(img)
				
时间: 2024-08-22 06:09:05

用Beautifulsoup 来爬取贴吧图片的相关文章

爬虫入门-4-2.爬取豆瓣读书图片

一.利用lxml解析 from lxml import etree import os import requests PROXY = { 'HTTPS': '116.209.55.208:9999' } def spider(): url = 'https://book.douban.com/latest?icn=index-latestbook-all' response = requests.get(url, proxies=PROXY) html = etree.HTML(respons

爬虫爬取百度搜狗图片持久化存储

1.图片下载 # 百度图片:http://image.baidu.com/# 搜狗图片:https://pic.sogou.com/ # 图片爬取:1).寻找图片下载的url: elements与network抓包2).浏览器中访问url, 进行验证3).编写代码获取url4).请求url地址, 获取二进制流5).将二进制流写入文件 # 百度图片:import timeimport requestsfrom lxml import etreefrom selenium import webdri

Python 爬取堆糖图片

1 import requests,json,urllib.parse 2 import threading 3 threading_lock=threading.BoundedSemaphore(value=10)#设置最大线程 4 5 def get_page(url): 6 page=requests.get(url) 7 page=page.content 8 page=page.decode('utf-8') 9 return page 10 11 def pages_from_dui

简单的爬取并下载图片的程序

闲来无事就编写了一个爬取美女图片并下载的爬虫.看好多爬虫都是爬妹子图的我就写编写了一个爬取妹子图网站上的图片. 需求:将妹子图网站上的首页到73页正文中的妹子图片爬取下来并保存在当前目录下 思路:通过查看网站的源代码发现,网站展示的图片都是有html链接的,每个图片都会链接到新的网址,来展示一个美女的多张图片.于是,需要先将以及界面的链接爬取出来,然后进入二级界面开始爬取并下载图片. 程序效果:通过简单的一个程序实现了图片的下载,在连续爬取了一个小时左右的时间爬取了大概有1000张图片.  遇到

用WebCollector爬取网站的图片

用WebCollector爬取整站图片,只需要遍历整站页面,然后将URL为.jpg.gif的页面(文件)保存到本地即可. 例如我们爬取一个美食网站,获取里面所有的图片: import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler; import cn.edu.hfut.dmic.webcollector.model.Page; import cn.edu.hfut.dmic.webcollector.util.FileUtils; im

第一个nodejs爬虫:爬取豆瓣电影图片

第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require('https'); //使用https模块 var fs = require('fs');//文件读写 var cheerio = require('cheerio');//jquery写法获取所得页面dom元素 var request = require('request');//发送reques

用Ajax爬取今日头条图片

Ajax原理 ? 在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 HTML文档,而浏览器中页面 则是经过Ajax处理数据后生成的.这些数据可能在HTML文档中,也可能是经过JavaScript和特定算法后生成的. ? 刚开始HTML文档中不包含某些数据,当原始页面加载完后,会向服务器发送Ajax请求获取数据,这些数据被JavaScript处理形成一些新页面. ?

python爬取网站美女图片

今天周五,项目刚刚上线完,有些时间,闲着无聊,继续复习爬虫,这次打算爬取网站的美女图片.得先找到目标,然后目标网站还不会反爬虫,因为自己只是小白,好了开始. 寻找目标,发现了目标,哈哈 http://www.meizitu.com 里面图片按专题分类.先看下页面找出相关源码 页面 源码 即只要抓出来图片集的link跟图片集里面的link对应的jpg就可以了, 可以用beautifulsoup或者正则匹配,我这里用正则匹配需要的link.然后遍历整个网站就可以了 请看源码解释 #!bin/pyth

03:requests与BeautifulSoup结合爬取网页数据应用

1.1 爬虫相关模块命令回顾 1.requests模块 1. pip install requests 2. response = requests.get('http://www.baidu.com/ ')            #获取指定url的网页内容 3. response.text                                                                                #获取文本文件 4. response.cont