python爬虫之一---------豆瓣妹子图

 1 #-*- coding:utf-8 -*-
 2 __author__ = "carry"
 3 import urllib
 4 import urllib2
 5 from bs4 import BeautifulSoup
 6
 7
 8 url = ‘http://www.dbmeinv.com/?pager_offset=1‘
 9 x = 1
10 def crawl(url):
11     headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36‘}
12     req = urllib2.Request(url,headers=headers)
13     page = urllib2.urlopen(req,timeout=20)
14     contents = page.read()
15     #print (contents.decode(‘utf-8‘))
16     soup = BeautifulSoup(contents,‘html.parser‘)
17     my_girl = soup.find_all(‘img‘)
18     #print my_girl
19     for girl in my_girl:
20         link = girl.get(‘src‘)
21         print link
22         global x
23         urllib.urlretrieve(link,‘image\%s.jpg‘%x)
24         print("正在下载第%s张"%x)
25         x +=1
26
27 for page in range(1,20):
28     url = ‘http://www.dbmeinv.com/?pager_offset=%d‘%page
29     crawl(url)
30 print("图片下载完毕")

时间： 2024-11-05 12:32:13

python爬虫之一---------豆瓣妹子图的相关文章

python爬虫,爬豆瓣top250电影

python爬虫,爬豆瓣top250电影 import string import re import urllib2 class DouBanSpider(object) : def __init__(self) : self.page = 1 self.cur_url = "http://movie.douban.com/top250?start={page}&filter=&type=" self.datas = [] self._top_num = 1 def

用Python爬虫对豆瓣《敦刻尔克》影评进行词云展示

最近很想看的一个电影,去知乎上看一下评论,刚好在学Python爬虫,就做个小实例. 代码基于第三方修改原文链接 http://python.jobbole.com/88325/#comment-94754 #coding:utf-8 from lib2to3.pgen2.grammar import line __author__ = 'hang' import warnings warnings.filterwarnings("ignore") import jieba #分词包

Python爬虫之豆瓣-新书速递-图书解析

1- 问题描述抓取豆瓣“新书速递”[1]页面下图书信息(包括书名,作者,简介,url),将结果重定向到txt文本文件下. 2- 思路分析[2] Step1 读取HTML Step2 Xpath遍历元素和属性 3- 使用工具 Python,lxml模块,requests模块 4- 程序实现 1 # -*- coding: utf-8 -*- 2 from lxml import html 3 import requests 4 5 6 page = requests.get('http://bo

手把手教你用Python爬虫煎蛋妹纸海量图片

我们的目标是用爬虫来干一件略污事情最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛.而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着有人身体就比较好的套路,特意分享下用点简单的技术去获取资源. 以后如果有机会,再给大家说说日本爱情动(大)作(雾)片的种子搜索爬取,多多关注. 请先准备作案工具我们只准备最简单的 python 2.7.11 Google Chrome 安装的时候记得把pip带上,这样可以方便我们安装一些好用的包,来方便我们干坏事(学

python爬煎蛋妹子图

# python3 # jiandan meizi tu import urllib.request import os import time import random def url_open(url): req1 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.0'}) req2 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.1

python爬虫获取豆瓣网前250部电影的详细信息

网址 https://movie.douban.com/top250 一共250部电影,有分页,获取每一部的详细信息不采用框架,使用 urilib读取网页,re进行正则表达式匹配,lxml进行xpath查找 1 from film import * 2 from urllib import request 3 import time,re 4 url=r'https://movie.douban.com/top250?start=' 5 for i in range(10): 6 url=ur

第一次写，python爬虫图片，操作excel。

第一次写博客,其实老早就注册博客园了,有写博客的想法,就是没有行动,总是学了忘,忘了丢,最后啥都没有,电脑里零零散散,东找找,西看看,今天认识到写博客的重要性. 最近闲着看了潭州教育的在线直播课程,颇受老师讲课实用有感.只作为自己笔记学习,我们都知道学习一门编程都是先照抄,在创作.这里完全按照老师讲解,照抄作为学习. 一.Python抓取豆瓣妹子图. 工具:python3.6.0;bs4.6.0;xlwt(1.2.0)需要版本对应,之前就安装了bs4但是运行的时候提示版本不对应.可以在线升级:p

Python爬虫之爬取煎蛋网妹子图

这篇文章通过简单的Python爬虫(未使用框架,仅供娱乐)获取并下载煎蛋网妹子图指定页面或全部图片,并将图片下载到磁盘. 首先导入模块:urllib.request.re.os import urllib.request import re import os urllib.request模块用于获取HTML页面数据 re模块用于通过正则表达式解析并截取HTML页面图片url os模块用于文件夹相关操作代码不多,直接贴出来,代码解释在注释中: def crawl_jiandan(page, p

Python 爬虫入门(二)——爬取妹子图

Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 公众号:[智能制造专栏].欢迎关注,分享智能制造与编程那些事. 爬虫成果当你运行代码后,文件夹就会越来越多,如果爬完的话会有2000多个文件夹,20000多张图片.不过会很耗时间,可以在