Python网络爬虫入门,带你领略Python爬虫的乐趣!

前段时间小编写了一篇有关于Python入门的文章,我觉得写的还是不够好,所以我特地补上一篇Python爬虫的入门的,本文特别适合Python小白,刚学习爬虫不久。接下来就让我们一起来写第一个例子吧!

一、我们的目标

1、作为第一个例子,我就以抓取糗事百科热门贴为例吧

2、糗事百科热门帖,获取其发布者、评论、点赞数、评论等信息

3、将信息清洗并打印,循环输出

4、设计程序,使可以选择抓取的页面范围

5、将每一页的信息保存到文本

二、开发环境介绍

phthon 2.7.13

IDE:PyCharm

采用库:re、requests、time

三、步骤

1、获取源码

首先用requests库的get方法获取首页源代码

<span style="font-size:14px;">user_agent = ‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36‘
headers={‘User_agent‘: user_agent}
r=requests.get(url,headers=headers)
result=r.text
print result</span>

结果输出如下

2、正则匹配

打开360浏览器,右键点击审查元素,可以清晰的看到发布者、年龄、发布内容、评论数等的分布及标签构造,根据各种关键词可以匹配正则设置循环,打印输

<span style="font-size:14px;">pattern=re.compile(‘<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>‘,re.S)
items=re.findall(pattern,result)
 <span style="white-space:pre">	</span>number=1
 for item in items:
 print u‘‘
 print number,u‘楼‘,u‘\n楼主:‘,item[0],u‘‘,item[1],u‘岁‘,u‘\n发言:‘,self.tool.replace(item[2]),u‘\n好笑:‘,item[3],u‘\n评论:‘,item[4],u‘\n赞:‘,item[5],u‘\n踩:‘,item[6]
 time.sleep(0.1)
 number+=1</span>

3、 面向对象

<span style="font-size:14px;">#定义一个Spider类
class Spider(object):
 #初始化参数
 def __init__(self):
 self.siteURL =‘http://www.qiushibaike.com/‘
 self.tool=Tool()
 #获取网页源码
 def getSource(self,url):
 user_agent = ‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36‘
 headers = {‘User_agent‘: user_agent}
 r=requests.get(url,headers=headers)
 result=r.text
 return result
 #获取详情页信息,并循环打印输出
 def getDetailPage(self,detailURL):
 source=self.getSource(detailURL)
 pattern=re.compile(‘<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>‘,re.S)
 items=re.findall(pattern,source)
 number=1
 for item in items:
 print u‘‘
 print number,u‘楼‘,u‘\n楼主:‘,item[0],u‘‘,item[1],u‘岁‘,u‘\n发言:‘,self.tool.replace(item[2]),u‘\n好笑:‘,item[3],u‘\n评论:‘,item[4],u‘\n赞:‘,item[5],u‘\n踩:‘,item[6]
 time.sleep(0.1)
 number+=1
 return items</span><strong>
</strong>

4、数据清洗

可以看到所得代码中含较多的</br><br><br />等标签,可以定义一个Tool类进行清洗

class Tool():
 def replace(self,x):
 x=re.sub(re.compile(‘<br>|</br>|/>|<br‘),"",x)
 return x.strip()

5、文本保存

定义一个saveDetailPage函数,传入文件名和数据,在此不赘述

6、获取多页

上面的内容我们已经成功用正则表达式匹配出想要的内容,想获取多页,只需设置一个循环即可

所以关键内容来啦!

观察底面标签可知热门评论共35页,观察网页地址栏可发现规律:

首页 url即‘糗事百科 - 超搞笑的原创糗事笑话分享社区‘,从第二页开始为 url+/8hr/page/x/?s=4964698 ,可以推测:8hr为8小时内最热门,x即页数,后面s=4964698,博主猜测是访问该网站的总次数,因为如果在同一个会话中,s是相同的,反之另外打开访问时s又不同,且每次发现s有增加!

由以上分析,我们要遍历这35页,要分情况讨论。

最后来看抓取的结果:

以上就是小编带领大家一起学习的Python爬虫的基础入门啦,喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发,如果你有好的意见或意见也可以在下面留言或评论,如果你想进一步学习Python或者了解Python,可以私信小编0505,小编准备了一份适合Python初学者的系统入门学习资料可供领取喔。文末小编奉上本次的源码!

四、奉上源码

<span style="font-size:14px;">#usr/bin/env python
# -*- coding: utf-8 -*-
import re
import requests
import time
#定义一个Tool类,方便用replace方法把换行符等删除
class Tool():
 def replace(self,x):
 x=re.sub(re.compile(‘<br>|</br>|/>|<br‘),"",x)
 return x.strip()
#定义一个Spider类
class Spider(object):
 #初始化参数
 def __init__(self):
 self.siteURL =‘http://www.qiushibaike.com/‘
 self.tool=Tool()
 #获取网页源码
 def getSource(self,url):
 user_agent = ‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36‘
 headers = {‘User_agent‘: user_agent}
 r=requests.get(url,headers=headers)
 result=r.text
 return result
 #获取详情页信息,并循环打印输出
 def getDetailPage(self,detailURL):
 source=self.getSource(detailURL)
 pattern=re.compile(‘<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>‘,re.S)
 items=re.findall(pattern,source)
 number=1
 for item in items:
 print u‘‘
 print number,u‘楼‘,u‘\n楼主:‘,item[0],u‘‘,item[1],u‘岁‘,u‘\n发言:‘,self.tool.replace(item[2]),u‘\n好笑:‘,item[3],u‘\n评论:‘,item[4],u‘\n赞:‘,item[5],u‘\n踩:‘,item[6]
 time.sleep(0.1)
 number+=1
 return items
 #保存信息写入文件
 def saveDetailPage(self,data,name):
 fileName=‘page‘+name+‘.‘+‘txt‘
 f=open(fileName,‘wb‘)
 f.write(data.encode(‘utf-8‘))
 print u‘‘,u‘成功将数据保存入文件‘,fileName
 f.close()
 #对一页的操作
 def OnePage(self,detailURL,name):
 data=self.getDetailPage(detailURL)
 self.saveDetailPage(str(data),str(name))
 #对很多页的操作
 #分两种情况讨论,start页等于1\start页大于1
 def getAllPage(self,start,end):
 if start==1:
 print u‘正在获取第1页的数据...‘
 detailURL=self.siteURL
 self.OnePage(detailURL,start)
 number=2
 for page in range(2, end+1):
 print u‘正在获取第‘, number, u‘页的数据...‘
 detailURL = self.siteURL + ‘8hr/page/‘ + str(page) + ‘/?s=4964625‘
 self.OnePage(detailURL,number)
 time.sleep(2)
 number +=1
 if number==end+1:
 print u‘‘,u‘\n加载结束!‘
 return False
 elif start>1:
 number=start
 for page in range(start,end+1):
 print u‘‘,u‘\n正在获取第‘,number,u‘页的数据...‘
 detailURL=self.siteURL + ‘8hr/page/‘ +str(page)+ ‘/?s=4964625‘
 self.OnePage(detailURL,number)
 time.sleep(2)
 number += 1
 if number==end+1:
 print u‘‘,u‘加载结束!‘
 return False
spider=Spider()
spider.getAllPage(start=int(raw_input(‘请输入起始页数:‘)),end=int(raw_input(‘请输入结束页数)

本文来自网络,如有侵权,请联系小编删除!

前段时间小编写了一篇有关于Python入门的文章,我觉得写的还是不够好,所以我特地补上一篇Python爬虫的入门的,本文特别适合Python小白,刚学习爬虫不久。接下来就让我们一起来写第一个例子吧!

一、我们的目标

1、作为第一个例子,我就以抓取糗事百科热门贴为例吧

2、糗事百科热门帖,获取其发布者、评论、点赞数、评论等信息

3、将信息清洗并打印,循环输出

4、设计程序,使可以选择抓取的页面范围

5、将每一页的信息保存到文本

二、开发环境介绍

phthon 2.7.13

IDE:PyCharm

采用库:re、requests、time

三、步骤

1、获取源码

首先用requests库的get方法获取首页源代码

<span style="font-size:14px;">user_agent = ‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36‘
headers={‘User_agent‘: user_agent}
r=requests.get(url,headers=headers)
result=r.text
print result</span>

结果输出如下

2、正则匹配

打开360浏览器,右键点击审查元素,可以清晰的看到发布者、年龄、发布内容、评论数等的分布及标签构造,根据各种关键词可以匹配正则设置循环,打印输

<span style="font-size:14px;">pattern=re.compile(‘<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>‘,re.S)
items=re.findall(pattern,result)
 <span style="white-space:pre">	</span>number=1
 for item in items:
 print u‘‘
 print number,u‘楼‘,u‘\n楼主:‘,item[0],u‘‘,item[1],u‘岁‘,u‘\n发言:‘,self.tool.replace(item[2]),u‘\n好笑:‘,item[3],u‘\n评论:‘,item[4],u‘\n赞:‘,item[5],u‘\n踩:‘,item[6]
 time.sleep(0.1)
 number+=1</span>

3、 面向对象

<span style="font-size:14px;">#定义一个Spider类
class Spider(object):
 #初始化参数
 def __init__(self):
 self.siteURL =‘http://www.qiushibaike.com/‘
 self.tool=Tool()
 #获取网页源码
 def getSource(self,url):
 user_agent = ‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36‘
 headers = {‘User_agent‘: user_agent}
 r=requests.get(url,headers=headers)
 result=r.text
 return result
 #获取详情页信息,并循环打印输出
 def getDetailPage(self,detailURL):
 source=self.getSource(detailURL)
 pattern=re.compile(‘<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>‘,re.S)
 items=re.findall(pattern,source)
 number=1
 for item in items:
 print u‘‘
 print number,u‘楼‘,u‘\n楼主:‘,item[0],u‘‘,item[1],u‘岁‘,u‘\n发言:‘,self.tool.replace(item[2]),u‘\n好笑:‘,item[3],u‘\n评论:‘,item[4],u‘\n赞:‘,item[5],u‘\n踩:‘,item[6]
 time.sleep(0.1)
 number+=1
 return items</span><strong>
</strong>

4、数据清洗

可以看到所得代码中含较多的</br><br><br />等标签,可以定义一个Tool类进行清洗

class Tool():
 def replace(self,x):
 x=re.sub(re.compile(‘<br>|</br>|/>|<br‘),"",x)
 return x.strip()

5、文本保存

定义一个saveDetailPage函数,传入文件名和数据,在此不赘述

6、获取多页

上面的内容我们已经成功用正则表达式匹配出想要的内容,想获取多页,只需设置一个循环即可

所以关键内容来啦!

观察底面标签可知热门评论共35页,观察网页地址栏可发现规律:

首页 url即‘糗事百科 - 超搞笑的原创糗事笑话分享社区‘,从第二页开始为 url+/8hr/page/x/?s=4964698 ,可以推测:8hr为8小时内最热门,x即页数,后面s=4964698,博主猜测是访问该网站的总次数,因为如果在同一个会话中,s是相同的,反之另外打开访问时s又不同,且每次发现s有增加!

由以上分析,我们要遍历这35页,要分情况讨论。

最后来看抓取的结果:

以上就是小编带领大家一起学习的Python爬虫的基础入门啦,喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发,如果你有好的意见或意见也可以在下面留言或评论,如果你想进一步学习Python或者了解Python,加群959997225,群里有很多适合Python初学者的系统入门学习资料可供领取喔。文末小编奉上本次的源码!

四、奉上源码

<span style="font-size:14px;">#usr/bin/env python
# -*- coding: utf-8 -*-
import re
import requests
import time
#定义一个Tool类,方便用replace方法把换行符等删除
class Tool():
 def replace(self,x):
 x=re.sub(re.compile(‘<br>|</br>|/>|<br‘),"",x)
 return x.strip()
#定义一个Spider类
class Spider(object):
 #初始化参数
 def __init__(self):
 self.siteURL =‘http://www.qiushibaike.com/‘
 self.tool=Tool()
 #获取网页源码
 def getSource(self,url):
 user_agent = ‘Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36‘
 headers = {‘User_agent‘: user_agent}
 r=requests.get(url,headers=headers)
 result=r.text
 return result
 #获取详情页信息,并循环打印输出
 def getDetailPage(self,detailURL):
 source=self.getSource(detailURL)
 pattern=re.compile(‘<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>‘,re.S)
 items=re.findall(pattern,source)
 number=1
 for item in items:
 print u‘‘
 print number,u‘楼‘,u‘\n楼主:‘,item[0],u‘‘,item[1],u‘岁‘,u‘\n发言:‘,self.tool.replace(item[2]),u‘\n好笑:‘,item[3],u‘\n评论:‘,item[4],u‘\n赞:‘,item[5],u‘\n踩:‘,item[6]
 time.sleep(0.1)
 number+=1
 return items
 #保存信息写入文件
 def saveDetailPage(self,data,name):
 fileName=‘page‘+name+‘.‘+‘txt‘
 f=open(fileName,‘wb‘)
 f.write(data.encode(‘utf-8‘))
 print u‘‘,u‘成功将数据保存入文件‘,fileName
 f.close()
 #对一页的操作
 def OnePage(self,detailURL,name):
 data=self.getDetailPage(detailURL)
 self.saveDetailPage(str(data),str(name))
 #对很多页的操作
 #分两种情况讨论,start页等于1\start页大于1
 def getAllPage(self,start,end):
 if start==1:
 print u‘正在获取第1页的数据...‘
 detailURL=self.siteURL
 self.OnePage(detailURL,start)
 number=2
 for page in range(2, end+1):
 print u‘正在获取第‘, number, u‘页的数据...‘
 detailURL = self.siteURL + ‘8hr/page/‘ + str(page) + ‘/?s=4964625‘
 self.OnePage(detailURL,number)
 time.sleep(2)
 number +=1
 if number==end+1:
 print u‘‘,u‘\n加载结束!‘
 return False
 elif start>1:
 number=start
 for page in range(start,end+1):
 print u‘‘,u‘\n正在获取第‘,number,u‘页的数据...‘
 detailURL=self.siteURL + ‘8hr/page/‘ +str(page)+ ‘/?s=4964625‘
 self.OnePage(detailURL,number)
 time.sleep(2)
 number += 1
 if number==end+1:
 print u‘‘,u‘加载结束!‘
 return False
spider=Spider()
spider.getAllPage(start=int(raw_input(‘请输入起始页数:‘)),end=int(raw_input(‘请输入结束页数)

以上就是小编带领大家一起学习的Python爬虫的基础入门啦,喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发,如果你有好的意见或意见也可以在下面留言或评论,如果你想进一步学习Python或者了解Python,可以私信小编0505,小编准备了一份适合Python初学者的系统入门学习资料可供领取喔。文末小编奉上本次的源码!

本文来自网络,如有侵权,请联系小编删除!

原文地址:https://www.cnblogs.com/666fx/p/10122633.html

时间: 2024-10-03 15:01:30

Python网络爬虫入门,带你领略Python爬虫的乐趣!的相关文章

Python网络编程02----基于UDP的Python简易服务器

UDP 服务器不是面向连接的,所以不用像 TCP 服务器那样做那么多设置工作.事实上,并不用设置什么东西,直接等待进来的连接就好了. ss = socket() # 创建一个服务器套接字 ss.bind() # 绑定服务器套接字 inf_loop: # 服务器无限循环 cs = ss.recvfrom()/ss.sendto() # 对话(接收与发送) ss.close() # 关闭服务器套接字 服务器端: from socket import * from time import ctime

什么是网络爬虫?有什么用?怎么爬?一篇文章带你领略python爬虫的魅力

网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理.在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高. 此时,我们可以使用网络爬虫对数据信息进行自动采集,比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析.目标客户数据的收集等各个领域. 当然,要学习网络爬虫开发,首先需要认识网络爬虫,本文将带领大家一起认识

爬虫入门【8】Python连接MongoDB的用法简介

MongoDB的连接和数据存取 MongoDB是一种跨平台,面向文档的NoSQL数据库,提供高性能,高可用性并且易于扩展. 包含数据库,集合,文档等几个重要概念. 我们在这里不介绍MongoDB的特点和用法了,感兴趣的可以查一下官方文档. 在此重点介绍如何使用python连接MongoDB,并通过PyMongo操作MongoDB数据库. 这里默认MongoDB已经安装好啦,安装教程可以参考: http://www.yiibai.com/mongodb/mongodb_environment.ht

爬虫入门【9】Python链接Excel操作详解-openpyxl库

Openpyx是一个用于读写Excel2010各种xlsx/xlsm/xltx/xltm文件的python库. 现在大多数用的都是office2010了,如果之前之前版本的可以使用xlrd读,xlwt写,这里就不介绍了. 入门范例 from openpyxl import Workbook wb=Workbook()#创建一个工作簿 ws=wb.active#获取工作的激活工作表 ws['A1']=42#在A1中插入内容 ws.append([1,2,3])#这里其实是在第二行插入了3个数字,占

小飞侠带你精通Python网络编程系列01-为什么是Python?

But what is Python and why is it the language of choice by many DevOps engineers? Python是什么?为什么这么多的开发运维工程师选择Python? 下面是来自PSF(The Python Software Foundation)的一段解释: Python is an interpreted, object-oriented, high-level programming language with dynamic

Python网络编程小例子:使用python获取网站域名信息

Whois简介 whois(读作"Who is",非缩写)是用来查询域名的IP以及所有者等信息的传输协议.简单说,whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人.域名注册商).通过whois来实现对域名信息的查询.早期的whois查询多以命令列接口存在,但是现在出现了一些网页接口简化的线上查询工具,可以一次向不同的数据库查询.网页接口的查询工具仍然依赖whois协议向服务器发送查询请求,命令列接口的工具仍然被系统管理员广泛使用.whois通常

python量化交易入门学习 之用 Python 实现你的量化交易策略 实现之优矿使用

优矿 https://uqer.io/labs 注册 登录 在“开始研究”页面,新建一个 Notebook,就可以开始用 Python 写你自己的策略. 入门文档 数据  https://uqer.io/data/browse/0/?page=1 DataAPI.EquGet(secID=u"",ticker=u"",equTypeCD=u"A",listStatusCD=u"",field=u"",pan

Python零基础入门(4)-------简单了解Python是怎么运行

1.编码 即是编写代码 2.将我们写好的源代码编译成字节码(后缀名是 pyc的文件) [导致重新编译的原因:源代码改变,版本不一致.] 3.载入到PVM(Python Virtual Machine)运行 以上都是由Python解释器完成的 看起来方式跟JAVA虚拟机   .NET framework  很是相似 原文地址:https://www.cnblogs.com/Hong-Bin/p/8343726.html

爬虫入门 手写一个Java爬虫

本文内容 涞源于  罗刚 老师的 书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的?  2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做什么的?  他的主要工作就是 跟据指定的url地址 去发送请求,获得响应, 然后解析响应 , 一方面从响应中查找出想要查找的数据,另一方面从响应中解析出新的URL路径, 然后继续访问,继续解析;继续查找需要的数据和继续解析出新的URL路径  . 这就是网络爬虫主要干的工作.  下面是流程图: 通过上面的流程图