爬虫小案例 爬取(妹子图片)

import requests #请求库

from bs4 import BeautifulSoup #网页解析库

def get_girl(url):

  #伪造请求头信息

  header = {

    #用户代理

    ‘User-Agent‘:"Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.1(KHTML,like Gecko) Chrome/22.0.1207.1 Safari/537.1",

    #上个页面的url

    ‘referer‘:‘https://www.mzitu.com/‘, #这个很重要,好多f反爬虫都验证这个字段

  }

  html = request.get(url, headers = headers) # 发送请求

  all_list = BeautifulSoup(html.text,‘lxml‘).find(‘ul‘,id = ‘pin‘).find_all(‘li‘) #解析网页内容

  

  for i in all_list:

    girl_title = i.get_text() #拿到图片标题

    girl_url = i.find(‘img‘)[‘data-original‘] #拿到图片url

    

    response = requests.get(girl_url, headers = headers) #下载图片

    file_name = girl_title + ".jpg" #拼接图片名称

    

    print("正在保存图片文件:" + file_name)

    with open(file_name,"wb") as f: #图片写入到本地

      f.write(response.content)

if __name__ == "__main__":

  for page in range(1,21) :#下载前20页

    url = ‘https://www.mzitu.com/mm/page/%s‘ % page #拼接每一页的url

    get_gril(url) #得到图片

  

  

原文地址:https://www.cnblogs.com/yanhonghong/p/11681885.html

时间: 2024-10-07 20:47:58

爬虫小案例 爬取(妹子图片)的相关文章

爬取妹子图片

学习练习爬虫的时候写了一个爬取妹子的小程序玩玩. from bs4 import BeautifulSoup import requests import os from threading import Thread ''' soup.find( name , attrs , recursive , string , **kwargs )函数 name:查找哪一个标签 attrs:标签里的指定那个参数,比如class 注意: BeautifulSoup()返回的类型是<class 'bs4.B

一个简单的网络爬虫-从网上爬取美女图片

CrawlerPicture.java 文件 package com.lym.crawlerDemo; import java.io.DataInputStream; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.net.URL; import java.util.ArrayList; import

基于webmagic的爬虫小应用--爬取知乎用户信息

听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Java要30行. 这里推荐大家一个大牛做的java爬虫框架 [WebMagic] 文档简单易懂!java爬虫开发的福利啊! 一起来动手做一个小应用吧! 爬虫小应用–知乎用户信息 爬虫思想有3步 1. 抽取目标链接 2. 抽取需要的信息 3. 处理数据 一. 抽取目标链接 (确定入口地址,这里的入口是ht

python爬虫初学之:爬取网页图片

#!/usr/bin/env python3.5 # -*-coding:utf-8 -*- """ 作者:MR RaoJL 日期:'Sun Dec 25 12:28:08 2016' 用途:爬 www.aitaotu.com/guonei 网站的图片地址 运行环境:Python3.5(widows或linux都可以)主要在linux下测试的 现有的问题:爬取速度太慢 初学者,问题估计太多 """ from itertools import ch

Python爬虫之——爬取妹子图片

首先声明,本博文为我原创,但是我在看了 崔庆才 博主的文章之后加以自己的实际处理的所得,感谢 崔庆才 博主,写的爬虫文章都好,博主文章地址:http://cuiqingcai.com/3179.html 环境:python 3.6 注:单线程版以在安卓的Qpython(py2.7)上运行成功 第三方库 requests:解析url beautifulsoup4:不会正则表达式童鞋的福音,可以容易的提取到html文件中各种标签及其属性 安装方法: pip install requests pip

Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 爬虫成果 当你运行代码后,文件夹就会越来越多,如果爬完的话会有2

一个咸鱼的Python爬虫之路(三):爬取网页图片

学完Requests库与Beautifulsoup库我们今天来实战一波,爬取网页图片.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图.所以我找了这个网站http://www.ivsky.com 网站里面有很多的图集,我们就找你的名字这个图集来爬取 http://www.ivsky.com/bizhi/yourname_v39947/ 来看看这个页面的源代码: 可以看到我们想抓取的图片信息在<li> 里面然后图片地址在img里面那么我们这里可以用Beautifu

python爬虫爬取美女图片

python 爬虫爬取美女图片 #coding=utf-8 import urllib import re import os import time import threading def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImgUrl(html,src): srcre = re.compile(src) srclist = re.findall(srcre,html)

百度图片爬虫-python版-如何爬取百度图片?

上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://5912119.blog.51cto.com/5902119/1771391 这一篇我想写写如何爬取百度图片的爬虫,这个爬虫也是:搜搜gif(在线制作功能点我) 的爬虫代码,其实爬虫整体框架还是差不多的,但就是会涉及到图片的的一些处理,还是花费了我不少时间的,所以我请阅读的本爬虫的孩子还是认真一些,毕竟程序猿都不容易啊.好的,我也不想多说,爬虫的代码我会分享到去转盘网,想下载本爬虫代码的孩子请点我下载,如果没有下