Python 简单网页爬虫

网上的妹子图爬虫：只爬取一个人物相册

import requests
from bs4 import BeautifulSoup

headers = {
            ‘User-Agent‘:‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)‘,
            ‘Referer‘:‘http://www.mzitu.com‘
        }
# 初始链接
start_url = ‘https://www.mzitu.com/161470‘
start_html = requests.get(start_url,headers=headers)    #生成一个response对象
# print(start_html.text)                                #text是类型，如果是多媒体，则是content

soup = BeautifulSoup(start_html.content,‘lxml‘)

max_span=soup.find(‘div‘,class_=‘pagenavi‘).find_all(‘span‘)[-2].get_text()  

for page in range(1,int(max_span)+1):
    page_url = start_url+‘/‘+str(page)    #给初始链接加上页码数，就是某页的链接地址
    image_page = requests.get(page_url,headers=headers)
    # print(image_page.text)
    image_soup = BeautifulSoup(image_page.content,‘lxml‘)
    image_url = image_soup.find(‘div‘,class_=‘main-image‘).find(‘img‘)[‘src‘]   #找到img标签的src属性的值，如<img src=‘lslsls‘>,则返回lslsls
    name = str(image_url)      #别忘了转换类型
    #print(name)
    img = requests.get(name,headers = headers)
    fpath = ‘C:\\Users\\wztshine\\Desktop\\新建文件夹\\‘+name[-7:]    #对name参数切片，从倒数第七个开始。
    with open(fpath, ‘wb‘) as  f:
        print(‘output:‘, fpath)
        f.write(img.content)

原文地址：https://www.cnblogs.com/wztshine/p/12207785.html

时间： 2025-01-11 04:49:41

Python 简单网页爬虫的相关文章

Python简单网页爬虫

由于Python2.x与Python3.x存在很的差异,Python2.x调用urllib用指令urllib.urlopen(), 运行时报错:AttributeError: module 'urllib' has no attribute 'urlopen' 原因是在Python3.X中应该用urllib.request. 下载网页成功后,调用webbrowsser模块,输入指令webbrowsser .open_new_tab('baidu.com.html') true open('bai

Python编写网页爬虫爬取oj上的代码信息

OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了. 首先观赏一下原始代码,我给加了一些注释: # -*- coding: cp936 -*- import urllib2 import urllib import re import

Python简单网络爬虫实战—下载论文名称，作者信息（下）

在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从soup中get到data类 soup中提供了select方法来筛选所需的类.该方法使用方法如下: articlename = soup.select('title') 该语句即将soup中所有的title元素放到articlename中.select也有其他用法 articlename = soup.s

亲身试用python简单小爬虫

前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: 1 #coding=utf-8 2 import urllib 3 import re 4 5 def getHtml(url): 6 page = urllib.urlopen(url) 7 html = page.read() 8 return html 9 10 def getImg(html): 11 reg = r'src="(.+?\.jpg)

python静态网页爬虫实例01

前些日子学习了一些爬虫知识,鉴于时间较短,就只看了静态网页爬虫内容,而有关scrapy爬虫框架将在后续继续探索. 以下以重庆市统计局官网某页面爬取为例(http://tjj.cq.gov.cn/tjsj/sjjd/201608/t20160829_434744.htm): 0.程序代码 1 import requests 2 from bs4 import BeautifulSoup 3 4 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10

Python学习之简单网页爬虫

0x00案例爬取博客园某页面的所有图片并下载到本地连续搞了一周的python,收获颇多,主要还是锻炼了自己的脾气...话不多说,先贴上脚本 #coding:utf-8 import urllib2 import re url="https://www.cnblogs.com/peterpan0707007/p/7620048.html" headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:59.0) Ge

Python静态网页爬虫相关知识

想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现爬虫包括调度器,管理器,解析器,下载器和输出器.调度器可以理解为主函数的入口作为整个爬虫的头部,管理器实现包括对URL是否重复进行判断,将已经爬到的URL加入到列表防止重复爬取.解析器则是对网页内容进行解析,解析出新的URL和网页内容.下载器则是下载解析器解析出的URL.输出器则是顾名思义. 1.1 调度器我的理解为类似主函数的入口,可以启

【爬虫】如何用python+selenium网页爬虫

一.前提爬虫网页(只是演示,切勿频繁请求):https://www.kaola.com/ 需要的知识:Python,selenium 库,PyQuery 参考网站:https://selenium-python-zh.readthedocs.io/en/latest/waits.html 二.简单的分析下网站三.步骤 1.目标: 1.open brower 2.open url from selenium import webdriver from selenium.common.excep

Python简单的爬虫

Python3 的requests的requests 库 1 安装: 在配好python的基础上,在dos命令框中,使用 pip install requests 就行了 2 演示: python 用requests的get的方法爬取链接是很简单的,代码如下: import requests url='https://item.jd.com/5188000.html' try: r=requests.get(url) r.raise_for_status() r.encoding=r.appa