python爬煎蛋妹子图

# python3
# jiandan meizi tu
import urllib.request
import os
import time
import random

def url_open(url):
    req1 = urllib.request.Request(url, headers={‘User-Agent‘: ‘Mozilla/4.0‘})
    req2 = urllib.request.Request(url, headers={‘User-Agent‘: ‘Mozilla/4.1‘})
    req3 = urllib.request.Request(url, headers={‘User-Agent‘: ‘Mozilla/4.5‘})
    req4 = urllib.request.Request(url, headers={‘User-Agent‘: ‘Mozilla/5.1‘})
    req_list = [req1, req2,req3, req4]
    response = urllib.request.urlopen(random.choice(req_list))
    html = response.read()
    # print (‘url_open done!‘)
    return html

def get_current_page(url):
    html = url_open(url).decode(‘utf-8‘)
    a = html.find(‘current-comment-page‘) + 23
    b = html.find(‘]‘,a)
    return html[a:b]

def find_imgs(url):
    html = url_open(url).decode(‘utf-8‘)
    img_addrs = []
    a = html.find(‘img src="http‘)
    while a != -1:
        b = html.find(‘.jpg‘,a, a+255)
        if b != -1:
            img_addrs.append(html[a+9:b+4])
        else:
            b = a + 13
        a = html.find(‘img src="http‘, b)
    return img_addrs

def save_imgs(folder,img_addrs):
    for each in img_addrs:
        filename = each.split(‘/‘)[-1]
        with open(filename,‘wb‘) as f:
            img = url_open(each)
            f.write(img)

def download_mm(folder = ‘xx‘,pages = 300):
    # os.mkdir(folder)
    os.chdir(folder)

    url = ‘http://jandan.net/ooxx/‘
    current_page_num = int(get_current_page(url))
    for i in range(pages):
        print (time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()),‘current_page_num‘, current_page_num)
        if i%3 == 0:
            print (time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()),"sleep 2 seconds...")
            time.sleep(2)
        current_page_num -= 1
        page_url = url + ‘page-‘ + str(current_page_num) + ‘#comments‘
        img_addrs = find_imgs(page_url)
        save_imgs(folder, img_addrs)

if __name__ == ‘__main__‘:
    download_mm()

时间： 2025-01-04 01:47:12

python爬煎蛋妹子图的相关文章

[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图

第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果: 从程序来讲,步骤分为三步: 1.发起一个http请求,获取返回的response内容: 2.解析内容,分离出有效图片的url: 3.根据这些图片的url,生成图片保存至本地. 开始详细说明: 准备工作:HttpClient的Jar包,访问http://hc.apache.org/ 自行下

手把手教你用Python爬虫煎蛋妹纸海量图片

我们的目标是用爬虫来干一件略污事情最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛.而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着有人身体就比较好的套路,特意分享下用点简单的技术去获取资源. 以后如果有机会,再给大家说说日本爱情动(大)作(雾)片的种子搜索爬取,多多关注. 请先准备作案工具我们只准备最简单的 python 2.7.11 Google Chrome 安装的时候记得把pip带上,这样可以方便我们安装一些好用的包,来方便我们干坏事(学

「玩转Python」突破封锁继续爬取百万妹子图

前言从零学 Python 案例,自从提交第一个妹子图版本引来了不少小伙伴的兴趣.最近,很多小伙伴发来私信说,妹子图不能爬了!? 趁着周末试了一把,果然爬不动了,爬下来的都是些 0kb 的假图片,然后就是一系列的报错信息,显然妹子图图长已经做了防御措施. 伪装无论怎么做防御措施,总不能把正常用户也给禁了?所以,我们要尽可能的伪装成正常用户,我就是来看妹子图的. 防盗链处理延时处理请求图片准备尽量多的请求头动态代理IP(花钱,暂且不考虑) 请求头,越多越好,尽量避免同一个请求头去处理图片.

python爬虫之一---------豆瓣妹子图

1 #-*- coding:utf-8 -*- 2 __author__ = "carry" 3 import urllib 4 import urllib2 5 from bs4 import BeautifulSoup 6 7 8 url = 'http://www.dbmeinv.com/?pager_offset=1' 9 x = 1 10 def crawl(url): 11 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6

Python爬虫之爬取煎蛋网妹子图

这篇文章通过简单的Python爬虫(未使用框架,仅供娱乐)获取并下载煎蛋网妹子图指定页面或全部图片,并将图片下载到磁盘. 首先导入模块:urllib.request.re.os import urllib.request import re import os urllib.request模块用于获取HTML页面数据 re模块用于通过正则表达式解析并截取HTML页面图片url os模块用于文件夹相关操作代码不多,直接贴出来,代码解释在注释中: def crawl_jiandan(page, p

python3爬虫爬取煎蛋网妹纸图片

其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低.本次以解密参数来完成爬取的过程. 首先打开煎蛋网http://jandan.net/ooxx,查看网页源代码.我们搜索其中一张图片的编号,比如3869006,看下在源代码中是否能找到图片链接从上面的HTML结构中找到这个标号对应的一些属性,没有直接的图片链接地址,只有一个src=//img.jandan.net/blank.gif,这很明显不是个真实的链接地址,因为每一个图片编号都有这个值.我

Python 爬虫入门(二)——爬取妹子图

Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 公众号:[智能制造专栏].欢迎关注,分享智能制造与编程那些事. 爬虫成果当你运行代码后,文件夹就会越来越多,如果爬完的话会有2000多个文件夹,20000多张图片.不过会很耗时间,可以在

Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 爬虫成果当你运行代码后,文件夹就会越来越多,如果爬完的话会有2

Python又来爬取妹子图啦，一个T的硬盘都不够用

淘女郎爬虫,可动态抓取淘女郎的信息和照片. 需要额外安装的第三方库 requests pip install requests pymongo pip install pymongo 学习Python过程中会遇到很多问题,你可以到我们的 python学习交流群[七三五,九三四,八四一],基础,进阶.从企业招聘人才需求到怎么学习python,和学习什么内容都有免费系统分享,让你无论是自学还是找相应的培训都能让你少走弯路.希望可以帮助你快速了解Python,学习python 模块功能