Python爬虫抓取煎蛋(jandan.net)无聊图

 1 #!/usr/bin/python
 2 #encoding:utf-8
 3 ‘‘‘
 4 @python 3.6.1
 5 @author: [email protected]
 6 @create date: 20170611
 7
 8 ‘‘‘
 9 import requests
10 import urllib
11 import re
12 import os
13
14 #当前最大页数
15 url=‘http://jandan.net/pic‘
16 data=urllib.request.urlopen(url).read().decode(‘utf-8‘)
17 max_page_num=re.findall(r‘<span class.*current-comment-page.*?>\[(.*?)\]</span>‘,data)[1]
18
19 def download_pic(start_page,stop_page,download_file):
20     for num in range(start_page,stop_page):
21         os.chdir(download_file)#图片保存目录
22         url=‘http://jandan.net/pic/page-%s‘ % num
23         data=urllib.request.urlopen(url).read().decode(‘utf-8‘)
24         pics=re.findall(r‘<a href="//(.*?)" target.*?</a><br />‘,data, re.I|re.S|re.M)
25         for i in pics:
26             i=‘http://‘+i
27             r=requests.get(i)
28             pic_name=i[28:100]
29             with open(pic_name,‘wb‘) as f:
30                 f.write(r.content)
31                 f.close()
32
33 if __name__==‘__main__‘:
34     print(‘当前最大页数为:  %s‘ % max_page_num)
35     page1,page2=input(‘请输入要下载页数范围，例如     500,513 :‘).split(‘,‘)
36     download_pic(int(page1),int(page2),r‘C:\Users\samsung\Desktop\jd_pics‘)
37

时间： 2024-10-12 14:38:18

Python爬虫抓取煎蛋(jandan.net)无聊图的相关文章

用python来抓取“煎蛋网”上面的美女图片，尺度很大哦！哈哈

废话不多说,先上代码: import urllib.request import re #获得当前页面的页数page_name def get_pagenum(url): req = urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safar

python 爬虫爬取煎蛋网妹子图

首先查看js渲染前的html源码,发现放图片的位置是这样的本该放地址的地方赫然放着blank.gif,并且在onload属性上绑定了一个jandan_load_img函数.这个jandan_load_img就成为本次爬虫的突破所在了.继续ctrl+shift+F全局搜索,找到这个函数流程图: import hashlib import base64 from bs4 import BeautifulSoup import requests import re import random im

[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图

第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果: 从程序来讲,步骤分为三步: 1.发起一个http请求,获取返回的response内容: 2.解析内容,分离出有效图片的url: 3.根据这些图片的url,生成图片保存至本地. 开始详细说明: 准备工作:HttpClient的Jar包,访问http://hc.apache.org/ 自行下

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

Python爬虫抓取网页图片

本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地. 下面就看看如何使用python来实现这样一个功能. # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def schedule(a,b,c): ''''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0 * a * b / c if per > 100 : per =

python爬虫抓取站长之家IP库，仅供练习用！

python爬虫抓取站长之家IP库,单线程的,仅供练习,IP库数据有43亿条,如果按此种方法抓取至少得数年,所以谨以此作为练手,新手代码很糙,请大家见谅. #!/usr/bin/python #coding=UTF-8 import urllib2 import re import os import csv import codecs user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-

python 爬虫抓取心得分享

/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/ 0x1.urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'h

python爬虫学习(1)__抓取煎蛋图片

#coding=utf-8 #python_demo 爬取煎蛋妹子图在本地文件夹 import requests import threading import time import os from bs4 import BeautifulSoup #伪造头文件 headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chr

python3爬虫爬取煎蛋网妹纸图片

其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低.本次以解密参数来完成爬取的过程. 首先打开煎蛋网http://jandan.net/ooxx,查看网页源代码.我们搜索其中一张图片的编号,比如3869006,看下在源代码中是否能找到图片链接从上面的HTML结构中找到这个标号对应的一些属性,没有直接的图片链接地址,只有一个src=//img.jandan.net/blank.gif,这很明显不是个真实的链接地址,因为每一个图片编号都有这个值.我