python爬虫之一---------豆瓣妹子图

 1 #-*- coding:utf-8 -*-
 2 __author__ = "carry"
 3 import urllib
 4 import urllib2
 5 from bs4 import BeautifulSoup
 6
 7
 8 url = ‘http://www.dbmeinv.com/?pager_offset=1‘
 9 x = 1
10 def crawl(url):
11     headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36‘}
12     req = urllib2.Request(url,headers=headers)
13     page = urllib2.urlopen(req,timeout=20)
14     contents = page.read()
15     #print (contents.decode(‘utf-8‘))
16     soup = BeautifulSoup(contents,‘html.parser‘)
17     my_girl = soup.find_all(‘img‘)
18     #print my_girl
19     for girl in my_girl:
20         link = girl.get(‘src‘)
21         print link
22         global x
23         urllib.urlretrieve(link,‘image\%s.jpg‘%x)
24         print("正在下载第%s张"%x)
25         x +=1
26
27 for page in range(1,20):
28     url = ‘http://www.dbmeinv.com/?pager_offset=%d‘%page
29     crawl(url)
30 print("图片下载完毕")
时间: 2024-11-05 12:32:13

python爬虫之一---------豆瓣妹子图的相关文章

python爬虫,爬豆瓣top250电影

python爬虫,爬豆瓣top250电影 import string import re import urllib2 class DouBanSpider(object) : def __init__(self) : self.page = 1 self.cur_url = "http://movie.douban.com/top250?start={page}&filter=&type=" self.datas = [] self._top_num = 1 def

用Python爬虫对豆瓣《敦刻尔克》影评进行词云展示

最近很想看的一个电影,去知乎上看一下评论,刚好在学Python爬虫,就做个小实例. 代码基于第三方修改 原文链接  http://python.jobbole.com/88325/#comment-94754 #coding:utf-8 from lib2to3.pgen2.grammar import line __author__ = 'hang' import warnings warnings.filterwarnings("ignore") import jieba #分词包

Python爬虫之豆瓣-新书速递-图书解析

1- 问题描述 抓取豆瓣“新书速递”[1]页面下图书信息(包括书名,作者,简介,url),将结果重定向到txt文本文件下. 2- 思路分析[2] Step1 读取HTML Step2 Xpath遍历元素和属性 3- 使用工具 Python,lxml模块,requests模块 4- 程序实现 1 # -*- coding: utf-8 -*- 2 from lxml import html 3 import requests 4 5 6 page = requests.get('http://bo

手把手教你用Python爬虫煎蛋妹纸海量图片

我们的目标是用爬虫来干一件略污事情 最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛.而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着有人身体就比较好的套路,特意分享下用点简单的技术去获取资源. 以后如果有机会,再给大家说说日本爱情动(大)作(雾)片的种子搜索爬取,多多关注. 请先准备 作案工具 我们只准备最简单的 python 2.7.11 Google Chrome 安装的时候记得把pip带上,这样可以方便我们安装一些好用的包,来方便我们干坏事(学

python爬煎蛋妹子图

# python3 # jiandan meizi tu import urllib.request import os import time import random def url_open(url): req1 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.0'}) req2 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.1

python爬虫获取豆瓣网前250部电影的详细信息

网址 https://movie.douban.com/top250 一共250部电影,有分页,获取每一部的详细信息 不采用框架,使用 urilib读取网页,re进行正则表达式匹配,lxml进行xpath查找 1 from film import * 2 from urllib import request 3 import time,re 4 url=r'https://movie.douban.com/top250?start=' 5 for i in range(10): 6 url=ur

第一次写,python爬虫图片,操作excel。

第一次写博客,其实老早就注册博客园了,有写博客的想法,就是没有行动,总是学了忘,忘了丢,最后啥都没有,电脑里零零散散,东找找,西看看,今天认识到写博客的重要性. 最近闲着看了潭州教育的在线直播课程,颇受老师讲课实用有感.只作为自己笔记学习,我们都知道学习一门编程都是先照抄,在创作.这里完全按照老师讲解,照抄作为学习. 一.Python抓取豆瓣妹子图. 工具:python3.6.0;bs4.6.0;xlwt(1.2.0)需要版本对应,之前就安装了bs4但是运行的时候提示版本不对应.可以在线升级:p

Python爬虫之爬取煎蛋网妹子图

这篇文章通过简单的Python爬虫(未使用框架,仅供娱乐)获取并下载煎蛋网妹子图指定页面或全部图片,并将图片下载到磁盘. 首先导入模块:urllib.request.re.os import urllib.request import re import os urllib.request模块用于获取HTML页面数据 re模块用于通过正则表达式解析并截取HTML页面图片url os模块用于文件夹相关操作 代码不多,直接贴出来,代码解释在注释中: def crawl_jiandan(page, p

Python 爬虫入门(二)——爬取妹子图

Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 公众号:[智能制造专栏].欢迎关注,分享智能制造与编程那些事. 爬虫成果 当你运行代码后,文件夹就会越来越多,如果爬完的话会有2000多个文件夹,20000多张图片.不过会很耗时间,可以在