网络爬虫实例代码优化 面试重点

我在“python3开发桌面软件之程序主体”一文中已经分享了919网监助手1.0程序的主体源代码(即events.py中的代码),后用迭代器、生成器表达式等对代码进行优化,使程序运行更快、更稳定。优化后的代码如下:

#coding:utf-8
import wx
import configparser
import requests
import re
import os
import string
from bs4 import BeautifulSoup
from openpyxl import load_workbook

class Getlike():
def __init__(self, filePath,row1,erow1,bcol1,obj1):
self.filePath=filePath
self.row1=row1
self.erow1=erow1
self.bcol1=bcol1
self.obj1=obj1
def main1(self):
list1 = self.rexcel()
hr1 = []
st1 = []
for site in list1:
if site == None:
break

if site[0:4] == ‘http‘:
demo = self.get_html0(site)

if demo == ‘‘:
hr1.append(site)
st1.append(u‘获取主页数据失败‘)
continue

soup = BeautifulSoup(demo, "html.parser")
self.obj1.SetLabel(site)
if site[-1] == ‘/‘:
site = site[0:-1]
i = 0
for a in soup.find_all(‘a‘):
i += 1
if a.has_attr(‘href‘):
if (a[‘href‘][0:4] != ‘http‘) and (‘@‘ not in a[‘href‘]) and (
‘javascript:‘ not in a[‘href‘]) and (‘javasrcipt:‘ not in a[‘href‘]) and (
‘tel:‘ not in a[‘href‘]): # 非站外链接且非正常链接
urlg = a[‘href‘]
if len(urlg) > 0:
if urlg[0] != ‘/‘:
urlg = ‘/‘ + urlg
urlhb = site + urlg
if urlhb in hr1: # 过虑重复链接
continue
hr1.append(urlhb)
st1.append(a.string)
if i == 0:
hr1.append(site)
st1.append(u‘该网页无链接‘)

hr2=iter(hr1)# 创建迭代器对象
st2=iter(st1)# 创建迭代器对象
self.wexcel0(hr2, st2)
def get_html0(self,url):
headers = {
‘User-Agent‘: ‘Mozilla/5.0(Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)\
like Gecko‘
} # 模拟浏览器访问
try:
r = requests.get(url, timeout=30, headers=headers) # 请求访问网站
r.raise_for_status()
r.encoding = r.apparent_encoding

if r.status_code == 200:
return r.text
else:
return ‘‘
except:
return ‘‘

def rexcel(self): # 读excel文件
list1 = []
if not os.path.exists(self.filePath):
wx.MessageBox(u‘没找到excel文件‘, u‘提示‘)
return list1
wb = load_workbook(self.filePath,read_only=True)
#wb = load_workbook(self.filePath)
ws = wb.active
j =self.row1
if self.erow1<j :
erow2=ws.max_row
else:
erow2 =self.erow1
list1=(ws.cell(row=r, column=self.bcol1).value for r in range(j,erow2)) #生成器表达式
return list1

def wexcel0(self, hr1, st1): # 写excel文件,站内链接
if not os.path.exists(self.filePath):
return 0
wb = load_workbook(self.filePath)
ws = wb.active
nrows = ws.max_row+2
if ws.column_dimensions[‘B‘].width<10:
upper_string = string.ascii_uppercase[:5]
for co in upper_string:
ws.column_dimensions[co].width = 50 # 设置列宽

for r in range(1, nrows): #避免覆盖原数据
if ws.cell(row=r, column=self.bcol1+1).value is None:
break

for (x,y) in zip(hr1,st1):
ws.cell(row=r, column=self.bcol1 + 1).value = x
ws.cell(row=r, column=self.bcol1 + 2).value =y
r = r + 1
if r> 1048575:
break
try:
wb.save(self.filePath)
wb.close()
except:
wx.MessageBox(u‘权限被拒绝,请关闭打开的excel文件‘, u‘提示‘)
return 0
return 1

class Mgzfind(Getlike):
def __init__(self, filePath, row1, erow1, bcol1, obj1,mgz):
Getlike.__init__(self, filePath, row1, erow1, bcol1, obj1)
self.mgz=mgz

def main2(self):
list1= Getlike.rexcel(self)
regex1 = self.mgz # 敏感词之间用|分隔
pattern = \
r‘([\u4e00-\u9fa5]{1,}(‘ + regex1 + ‘))‘
re_compile = re.compile(pattern)
list11=[]
list2 = []
for m in list1:
list11.append(m)
content = ‘‘
#s1 = list1[m]
if m == None:
break

if m[0:4] == ‘http‘:
webcontent = self.get_html(m)
else:
continue

if webcontent == ‘‘:
list2.append(u‘获取页面数据失败‘)
continue
else:
for n in re_compile.finditer(webcontent):
content = content + n.group() + ‘;‘
if content==‘‘:
content =‘nothing‘
list2.append(content)
self.obj1.SetLabel(m)
list1s=iter(list11) # 创建迭代器对象
list2s = iter(list2) # 创建迭代器对象
self.wexcel(list1s,list2s)

def get_html(self,url):
headers = {
‘User-Agent‘: ‘Mozilla/5.0(Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)\
like Gecko‘
} # 模拟浏览器访问
requests.adapters.DEFAULT_RETRIES = 3
# s = requests.session()
# s.keep_alive = False
try:
r = requests.get(url, timeout=10, headers=headers) # 请求访问网站
r.raise_for_status()
r.encoding = r.apparent_encoding

if r.status_code == 200:
return r.text
else:
return ‘‘
except:
return ‘‘

def wexcel(self,list1, list2): # 写excel文件,敏感词
if not os.path.exists(self.filePath):
return 0
wb = load_workbook(self.filePath)
ws = wb.active
col = 2 + self.bcol1
nrows = ws.max_row+2

for r in range(1, nrows): #避免覆盖原数据
if ws.cell(row=r, column=col+1).value is None:
break

for (x,y) in zip(list1,list2): #在空白处追加数据
ws.cell(row=r, column=col).hyperlink = x
ws.cell(row=r, column=col + 1).value =y
r = r + 1
if r > 1048575:
break
try:
wb.save(self.filePath)
wb.close()
except:
wx.MessageBox(u‘权限被拒绝,请关闭打开的excel文件‘, u‘提示‘)
return 0
return 1

#主窗体事件
class MyFrame1_events():
def __init__(self, frame):
self.frame = frame

#设置图标
self.frame.SetIcon(wx.Icon(u‘t1.ico‘, wx.BITMAP_TYPE_ICO))
self.readcon()

#绑定事件
self.frame.Bind(wx.EVT_CLOSE, self.MyFrame1_OnClose)
self.frame.m_radioBtn15.Bind(wx.EVT_RADIOBUTTON, self.radio5)
self.frame.m_radioBtn6.Bind(wx.EVT_RADIOBUTTON, self.radio6)
self.frame.m_button14.Bind(wx.EVT_BUTTON, self.openf)
self.frame.m_button12.Bind(wx.EVT_BUTTON, self.mymain)

# 自定义函数
def readcon(self):
cf = configparser.ConfigParser()
cf.read("config.ini",encoding="utf-8")
secs = cf.sections()
filePath = cf.get("excel", "path")
if self.frame.m_radioBtn15.GetValue():
brow1 = cf.get("excel", "brow1")
erow1 = cf.get("excel", "erow1")
bcol1 = cf.get("excel", "bcol1")
else:
brow1 = cf.get("excel", "brow2")
erow1 = cf.get("excel", "erow2")
bcol1 = cf.get("excel", "bcol2")

word = cf.get("keyword", "word")
word = word.replace(",", "|")
self.frame.m_textCtrl25.Clear()
#filePath=filePath.decode(‘gbk‘, ‘ignore‘).encode(‘utf-8‘)
self.frame.m_textCtrl25.WriteText(filePath)
self.frame.m_spinCtrl1.SetValue(brow1)
self.frame.m_spinCtrl2.SetValue(erow1)
self.frame.m_spinCtrl3.SetValue(bcol1)
#word1=word.decode(‘gbk‘, ‘ignore‘).encode(‘utf-8‘)
self.frame.m_textCtrl32.Clear()
self.frame.m_textCtrl32.WriteText(word)
return
def savecon(self):
filePath = self.frame.m_textCtrl25.GetValue()
#brow1 = self.frame.m_spinCtrl1.GetValue()
erow1 = self.frame.m_spinCtrl2.GetValue()
bcol1 = self.frame.m_spinCtrl3.GetValue()
mgz = self.frame.m_textCtrl32.GetValue()
mgz = mgz.replace(",", "|")
cf = configparser.ConfigParser()
cf.read("config.ini", encoding="utf-8")
secs = cf.sections()
cf.set("keyword", "word", mgz)
cf.set("excel", "path", filePath)
if self.frame.m_radioBtn15.GetValue():
cf.set("excel", "brow1",str(erow1))
cf.set("excel", "erow1", str(erow1+10))
self.frame.m_spinCtrl2.SetValue(erow1 + 10)
cf.set("excel", "bcol1", str(bcol1))
else:
cf.set("excel", "brow2", str(erow1))
cf.set("excel", "erow2", str(erow1+30))
self.frame.m_spinCtrl2.SetValue(erow1 + 30)
cf.set("excel", "bcol2", str(bcol1))
cf.write(open(‘config.ini‘, "r+",encoding=‘UTF-8‘))
self.frame.m_spinCtrl1.SetValue(erow1)
return

#关闭窗口事件
def MyFrame1_OnClose(self, event):
"""窗体关闭"""
if self.frame.m_button12.GetLabel()==u‘确定‘:
frame = event.GetEventObject()
frame.Destroy()
else:
wx.MessageBox(u‘程序进在运行,不能关闭窗口‘, u‘提示‘)
frame = event.GetEventObject()
frame.Destroy()
event.Skip()

# 浏览excel文件事件
def openf(self, event):
openFileDialog = wx.FileDialog(self.frame, "请选择要打开的Excel文件", "", "",
"Excel格式 (*.xlsx)|*.xlsx",
wx.FD_OPEN | wx.FD_FILE_MUST_EXIST)

if openFileDialog.ShowModal() == wx.ID_OK:
filePath = openFileDialog.GetPath()
self.frame.m_textCtrl25.Clear()
self.frame.m_textCtrl25.WriteText(filePath)
openFileDialog.Destroy()

event.Skip()

def radio5(self, event):
self.readcon()
event.Skip()
def radio6(self, event):
self.readcon()
event.Skip()

def mymain(self, event):
#self.frame.m_button12.Enable(False)
self.frame.m_button12.SetLabel(‘正在运行...‘)
filePath = self.frame.m_textCtrl25.GetValue()
row1 = self.frame.m_spinCtrl1.GetValue()
erow1=self.frame.m_spinCtrl2.GetValue()
bcol1=self.frame.m_spinCtrl3.GetValue()
obj1=self.frame.m_staticText11
obj1.SetLabel(‘正在读取网址...‘)
mgz=self.frame.m_textCtrl32.GetValue()
mgz =mgz.replace(",","|")
if self.frame.m_radioBtn15.GetValue():
emp1 =Getlike(filePath,row1,erow1,bcol1,obj1)
emp1.main1()
else:
emp2 = Mgzfind(filePath, row1, erow1, bcol1, obj1,mgz)
emp2.main2()
self.savecon()
obj1.SetLabel(‘完成‘)
#self.frame.m_button12.Enable(True)
wx.MessageBox(u‘完成‘, u‘提示‘)
self.frame.m_button12.SetLabel(‘确定‘)
event.Skip()
注意:很多人学Python过程中会遇到各种烦恼问题解决不了。为此小编建了个Python全栈免费答疑交流.裙 :留而思思思零期思无(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步!
本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

原文地址:https://www.cnblogs.com/shabge/p/12395330.html

时间: 2024-10-14 09:02:39

网络爬虫实例代码优化 面试重点的相关文章

crawler4j:轻量级多线程网络爬虫实例

crawler4j是Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫. 下面实例结合jsoup(中文版API),javacvs 爬取自如租房网(http://sh.ziroom.com/z/nl/)租房信息. 1.maven导入相关包 1 <dependency> 2 <groupId>edu.uci.ics</groupId> 3 <artifactId>crawler4j</artifactId> 4 &

SHELL网络爬虫实例剖析

前天简单分享了用 shell 写网络爬虫的一些见解,今天特地把代码发出来与51博友分享,还是那句话,爱技术.爱开源.爱linux. 针对脚本的注解和整体构思,我会放到脚本之后为大家详解. #!/bin/bash # # This script is used to grab the data on the specified industry websites # Written by sunsky # Mail : [email protected] # Date : 2014-09-14 3

Python ===if while for语句 以及一个小小网络爬虫实例

if分支语句 >>> count=89 >>> if count==89: print count 89                          #单分支 >>> #coding:utf-8 count=int(raw_input('请输入一个数字')) print count if count>80: print '比80大' else: if count<80: print ‘比80小’   #多分支 =======自定义函数

[定向爬虫] 网络爬虫实例2-淘宝定向爬虫

import requests import re import time #获取html页面 def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = "utf-8" #可以节约时间 return r.text except: return "" #对获取的每一个页面进行解析,ilt是结果的列表类型 def parsePage(il

基于java的网络爬虫框架(实现京东数据的爬取,并将插入数据库)

原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平台. 目录 网络爬虫框架 网络爬虫的逻辑顺序 网络爬虫实例教学 model main util parse db 再看main方法 爬虫效果展示 网络爬虫框架 写网络爬虫,一个要有一个逻辑顺序.本文主要讲解我自己经常使用的一个顺序,并且本人经常使用这个框架来写一些简单的爬虫,复杂的爬虫,也是在这个基

如何用SHELL写好网络爬虫

上周,老大压下来任务,让写一个网络爬虫,负责爬某一个行业网站的数据信息.由于本人只会 shell 编程语言,其它编程语言从未涉猎,因此就只能硬着头皮用 shell 去写了. 转眼之前已经过去一周了,一切从无到有,经历的坎坷无数,这里我就不一一吐槽. 这里呢,我就简单和大家分享下,我个人对,如何用 shell 去写好网络爬虫的几点拙见,希望有想法的朋友联系我一起交流交流想法,没有想法的就看看有精华就吸收走,有糟粕的果断弃之. 1.你肯定要简单了解下网络爬虫是什么!这个定义在谷歌一搜一大堆,这里我就

Python面试重点(爬虫篇)

Python面试重点(爬虫篇) 注意:只有必答题部分计算分值,补充题不计算分值. 第一部分 必答题 注意:第31题1分,其他题均每题3分. 了解哪些基于爬虫相关的模块? requests.urllib.lxml.bs4.selenium 常见的数据解析方式? re.lxml.bs4 列举在爬虫过程中遇到的哪些比较难的反爬机制? 参数加密.数据加密 简述如何抓取动态加载数据? 获取动态ip地址 向动态id发送请求 移动端数据如何抓取? 抓取过哪些类型的数据,量级多少? 了解哪些爬虫框架? scra

[Python]网络爬虫(四):Opener与Handler的介绍和实例应用(转)

在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl() 1.geturl(): 这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向.获取的URL或许跟请求URL不同. 以人人中的一个超级链接为例, 我们建一个urllib2_test10.py来比较一下原始URL和重定向的链接: [p

网络爬虫研发重点介绍

一.网络爬虫的一般作法 1.1 基于Socket通信编写爬虫1.2 基于HttpURLConnection类编写爬虫1.3 基于apache的HttpClient包编写爬虫1.4 基于phantomjs之类的无头(无界面)浏览器1.5 基于Selenium之类的有头(有界面)浏览器 二.系统设计 2.1 模块划分:任务管理的UI交互层.任务调度层.网络爬取层.数据解析层.数据持久化层 2.2 项目划分数据采集/下载项目(download)数据解析项目(parser)数据持久化(persisten