Python爬虫的步骤和工具

#四个步骤

1.查看crawl内容的源码格式 crawl的内容可以是 url(链接），文字，图片，视频

2.请求网页源码　　　　　　　　（可能要设置）代理，限速，cookie

3.匹配　　　　　　　　　　　　用正则表达式匹配

4.保存数据　　　　　　　　　　文件操作

#两个基本工具（库）

1.urllib

2.requests

#使用reuests库的一个例子，抓取可爱图片

import requests #导入库
import re

url =r‘https://www.woyaogexing.com/tupian/keai‘ #链接
response =requests.get(url) #get()函数，得到网页
response.encoding =‘utf-8‘　　　　　　　　　　#让源码中的中文正常显示
html =response.text　　　　　　　　　　　　　#加载网页源码
strs =‘<div class="txList_1 .">.*?src="(.*?)".*?>‘ #正则表达式
patern =re.compile(strs,re.S)　　　　　　　　　#封装成对象，以便多次使用
items =re.findall(patern,html)　　　　　　　　　#匹配
for i in items:
    with open(‘%d.jpg‘%items.index(i),‘wb‘) as file: #新建文件，以二进制写形式‘wb‘
        url =‘https:‘+i
        file.write(requests.get(url).content)　　　　#写入数据，图片是二进制数据

原文地址：https://www.cnblogs.com/vvlj/p/9580423.html

时间： 2024-08-30 14:39:21

Python爬虫的步骤和工具的相关文章

Python爬虫知识点——Chrome开发者工具Network

Chrome开发者工具中Network功能介绍第一列Name:请求的名称,一般会将URL的最后一部分内容当作名称. 第二列Status: 响应的状态码,这里显示为200,代表响应是正常的.通过状态码,我们可以判断发送了请求之后是否得到了正常的响应. 第三列Type: 请求的文档类型.这里为document, 代表我们这次请求的是一个HTML文档,内容就是一些HTML代码. 第四列initiator: 请求源.用来标记请求是由哪个对象或进程发起的. 第五列Size: 从服务器下载的文件和

工具准备的差不多了,接下来就是python爬虫的封装了

python爬虫的方便大家都懂的.那么,既然常用,那么我们当然要封装啦. 那么我们可以先封装一个父类的爬虫我自己的设计想法就是,首先,爬虫必须要有个字段来存储匹配的规则gainRule,然后有个字段存储需要取什么属性outAttr, 然后就是有个需要处理的数据列表gainList,最后是一个存储输出列表数据的outList,和存储输出单条数据的outData 那么这个爬虫的父类定义如下 from bs4 import BeautifulSoup import requests import r

python爬虫步骤（新手备学）爬虫编程。

Python爬虫是用Python编程语言实现的网络爬虫,主要用于网络数据的抓取和处理,相比于其他语言,Python是一门非常适合开发网络爬虫的编程语言,大量内置包,可以C Python爬虫可以做的事情很多,如搜索引擎.采集数据.广告过滤等,Python爬虫还可以用于数据分析,在数据的抓取方面可以作用巨大! Python爬虫架构组成 1. URL管理器:管理待爬取的url集合和已爬取的url集合,传送待爬取的url给网页下载器: 2. 网页下载器:爬取url对应的网页,存储成字符串,传送给网页解析

Python爬虫进阶三之Scrapy框架安装配置

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1.安装Python 安装过程我就不多说啦,我的电

Python爬虫入门书籍好的有哪些

近年来,随着网络不断的发展,网络信息量也变得更多更大,基于传统搜索引擎的局限性,网络爬虫应运而生,在这里,我们向各位读者们推荐几本关于学习Python爬虫的书籍. 根据小编的经验,小编向大家推荐以下书籍: 这本<Python基础教程(第2版．修订版)>书里包括Python程序设计的方方面面,从Python的安装开始,到Python的基础知识和基本概念,并且循序渐进地介绍了一些相对高级的主题,还探讨了如何将Python与数据库.网络.C语言等工具结合使用等知识,书里结合前面讲述的内容,按照实

python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 编写正则表达式或者XPath表达式(就是前面说的那个神器) 正式编写python爬虫代码效果运行: 恩,让我输入关键词,让我想想,输入什么好呢?好像有点暴露爱好了. 回车好像开始下载了!好赞!,我看

Python爬虫总结（二）常见数据类型及其解析方法

Python爬虫总结(二)常见数据类型上一篇我们简单介绍了如何用Python发送 http/https 请求获取网上数据,从web上采集回来的数据的数据类型有很多种,主要有: 放在HTML里. 直接放在javascript里. 放在JSON里. 放在XML里. 注意:这里很多概念都是web前端开发里的,因为我们采集的大多数数据都来自web,因此了解一些前端知识还是挺有必要的. 下面我简单介绍下各种数据类型,并结合一些实例介绍它们的解析方法. 数据类型放在HTML里 HTML即超文本标记语言,

【图文详解】python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap show me the code! 制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 1. 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 2. 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 3. 编写正则表达式或

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

近期准备深入学习Python相关的爬虫知识了.假设说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正則表達式"就能搞定的话.那么动态生成的信息页面.如Ajax.JavaScript等就须要通过"Phantomjs + CasperJS + Selenium"来实现了. 所以先从安装和功能介绍入门.后面在介绍一些Python相关的爬虫应用. 一. 介绍 PhantomJS PhantomJS是一个server端的 Jav

猜你喜欢

Spring基础

理解什么是Spring? 03年,spring框架发布,通过10多年的发展,spring框架已经发展成JavaEE开发中的非常重要的一个框架.虽然还是有公司采用自己的方式来处理代码间的耦合问题,但是他 ...

AJAX中get与post区别

1. get是从服务器上获取数据,post是向服务器传送数据. 2. get是把参数数据队列加到提交表单的ACTION属性所指的URL中,值和表单内各个字段一一对应,在URL中可以看到.post是通过 ...

Windows 95 vs. Windows 10

@property、@staticmethod 、@classmethod、

在绑定属性时,如果我们直接把属性暴露出去,虽然写起来很简单,但是,没办法检查参数,导致可以对属性随便修改,不能限制输入. 1 class Student(object): 2 def __init__ ...

树莓派笔记——初始化及系统设置（3）

接着上一章,系统已经安装好. 一.连接树莓派准备工具:putty.网线将树莓派插上电源和SD卡,并插入网线,网线的另一端连到路由器.同时,笔记本(电脑)也连到该路由器上. 笔记本(电脑)打开put ...

ThinkPHP的缓存 F方法

一般使用文件方式的缓存就能够满足要求,而thinkphp还提供了一个专门用于文件方式的快速缓存方法f方法. 由于采用的是php返回方式,所以其效率较s方法较高. f方法具有如下特点: 1.简单数据缓存 ...

2060: [Usaco2010 Nov]Visiting Cows 拜访奶牛

2060: [Usaco2010 Nov]Visiting Cows 拜访奶牛 Time Limit: 3 Sec Memory Limit: 64 MBSubmit: 252 Solved: 1 ...

使用XmlInclude解决WebService调用时无法识别子类的异常

一.定义抽象类及子类,WebMethod实际返回子类参数 //使用XmlInclude解决WebService调用时无法识别子类的异常 [System.Xml.Serialization.XmlInc ...

缓存的几种不同的实现方法？

HttpContext.Current.Application:整个应用程序都可以共享的,当然存储的时候应该加锁的. HttpRuntime.Cache与HttpContext.Current.Cac ...

CentOS7.2如何修改主机名

在CentOS7.2或RHEL7.2中,有三种定义的主机名:静态的(static),瞬态的(transient),以及灵活的(pretty)."静态"主机名也称为内核主机名,是系统 ...

POJ 1613 Cave Raider

SPFA过的. 虽然很麻烦,其实就是加上一个限制条件的最短路. 题意是说给你一些点,一些边,起点与终点. 然后这些边通过的时候需要花费时间,但是也有开关限制. 问你到达重点的最短路.(无向图) 比如输 ...

asp.net MVC 使用PagedList.MVC实现分页

在上一篇的EF之DB First中,存在以下的两个问题: 1. 添加/编辑页面显示的是属性名称,而非自定义的名称(如:姓名.专业...) 2. 添加/编辑时没有加入验证 3. 数据展示使用分页 @Ht ...

vue简介

本文旨在对vue进行简单的介绍: vue的目标:通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件. vue的特点:vue是以数据驱动和组件开发为基础构建的.主要是通过一些特殊的HTML语法 ...

发布一个简单的网站，网页内容为100首《悯农》（练习STS的使用、web.xml的配置、Tomcat的发布流程）

开发环境为Spring Tool Suite: 一.首先配置STS.ini,配置文件如下: -startupplugins/org.eclipse.equinox.launcher_1.3.200.v ...

(19)Powershell字符串合并运算符

Powershell 提供了对字符串的合并运算符,连接运算符 -join 将一组字符串连接成单个字符串,子字符串按其在命令中出现的顺序添加到生成的字符串中. 连接运算符 Powershell中字符串的 ...

《JAVA学习笔记(14-1---14-7)》

[14-1]面向对象-继承-概述 /* //描述学生 class Student { //属性 String name; int age; //行为 void study() { System.out ...

跨域问题解决方式(HttpClient安全跨域 &amp; jsonp跨域)

1 错误场景今天要把项目部署到外网的时候,出现了这种问题, 我把两个项目放到自己本机的tomcat下, 进行代码调试, 执行都没有问题的, 一旦把我须要调用接口的项目B放到其它的server上, ...

python with as的用法

With语句是什么? 有一些任务,可能事先需要设置,事后做清理工作.对于这种场景,Python的with语句提供了一种非常方便的处理方式.一个很好的例子是文件处理,你需要获取一个文件句柄,从文件中读取 ...

防御sql注入

1. 领域驱动安全领域驱动安全是一种代码设计方法.其思想是将一个隐式的概念转化为显示,个人认为即是面向对象的方法,将一个概念抽象成一个类,在该类中通过方法对类的属性进行约束.是否是字符串,包含什么字 ...

AS下NDK开发（一）

捣鼓了一天的NDK,总结下. Eclipse下开发ndk好像挺麻烦的样子,看书上要下载Cygwin,eclipse还要下载插件CDT..而在AS上就方便多啦.下载android ndk.安装,配置环境 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.033 s.