Python——网络爬虫，一个简单的通用代码框架

一、代码"""通用代码框架：可使网页爬取变得更稳定更有效

下面是一个爬取百度网页的例子，正常情况下是返回"""import requests

def get_HTML_Text():    try:        r = requests.get(url, timeout=30)        r.raise_for_status()        # 若状态不是200，引发HTTPError异常        r.encoding = r.apparent_encoding        return r.text    except:        return ‘产生异常！‘

if __name__ == ‘__main__‘:    url = "http://www.baidu.com"    print(get_HTML_Text(）

二、结果分析正常情况：其实去掉三个www中的一个也会正常

异常情况1：

异常情况2：

异常情况3：

三、总结异常情况的原因多样，通用代码框架并不能包含全部异常，代码写正确才是王道

原文地址：https://www.cnblogs.com/kekefu/p/12388338.html

时间： 2024-10-22 01:50:33

Python——网络爬虫，一个简单的通用代码框架的相关文章

Python网络爬虫 - 一个简单的爬虫例子

下面我们创建一个真正的爬虫例子爬取我的博客园个人主页首页的推荐文章列表和地址 scrape_home_articles.py from urllib.request import urlopen from bs4 import BeautifulSoup import re html = urlopen("http://www.cnblogs.com/davidgu") bsObj = BeautifulSoup(html, "html.parser") for

大数据之网络爬虫-一个简单的多线程爬虫

本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续. 爬虫实现的步骤基本如下: 分析网页结构,选取自己感兴趣的部分; 建立两个Buffer,一个用于保存已经访问的URL,一个用户保存带访问的URL; 从待访问的Buffer中取出一个URL来爬取,保存这个URL中感兴趣的信息:并将这个URL加入已经访问的Buffer中,然后将这个URL中的所有外链URL

python网络爬虫实战-Scrapy,深入理解scrapy框架，解决数据抓取过程

一前言二网络爬虫简介审查元素简单实例 1 requests安装 2 简单实例三爬虫实战小说下载 1 实战背景 2 小试牛刀 3Beautiful Soup 3整合代码优美壁纸下载 1实战背景 2实战进阶 3整合代码爱奇艺VIP视频下载 1实战背景 2实战升级 3编写代码四总结一前言强烈建议:请在电脑的陪同下,阅读本文.本文以实战为主,阅读过程如稍有不适,还望多加练习. 本文的实战内容有: 网络小说下载(静态网站) 优美壁纸下载(动态网站) 爱奇艺VIP视频下载二

2017.07.22 Python网络爬虫之简单的Python脚本

1.九九乘法表: # !usr/bin/env python# -*- coding:utf-8 -*- class PrintTable(object): """打印九九乘法表""" def __init__(self): print(u"开始打印9x9乘法表格") self.print99() def print99(self): for i in xrange(1,10): for j in xrange(1,i+1):

Java网络爬虫 - 一个简单的爬虫例子

WikiScraper.java package master.haku.scrape; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.net.*; import java.io.*; public class WikiScraper { public static void main(String[] args) { scrapeTopic("/wiki/Python"); } public

python网络爬虫入门（二）——用python简单实现调用谷歌翻译

最近在看国外的文档,有些生词不认识.就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码.发现可以用python简单的实现下谷歌翻译的页面功能.于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下: import re import urllib,urllib2 #----------模拟浏览器的行为,向谷歌翻译发送数据,然后抓取翻译结果,这就是大概的思路------- def Gtranslate(text): #t

python网络爬虫入门（一）——简单的博客爬虫

最近,为了微信公众号的图文,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去.但感觉一篇一篇的看实在是麻烦死了.想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选.不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的. 先把完整的代码贴上来,如果朋友们需要试验下,请先安装python相关环境,然后在复制粘贴保存,再按F5运行. #导入urllib库,python访问网页必须

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）

前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py文件.我们需要获取的数据是朋友圈和发布日期,因此在这里定义好日期和动态两个属性,如下图所示. 2.修改实现爬虫逻辑的主文件moment.py,首先要导入模块,尤其是要主要将items.py中的WeixinMomentItem类导入进来,这点要特别小心别被遗漏了.之后修改start_requests方

python编写的一个简单那的WSGI PDF server 的代码

将开发过程比较常用的内容段备份一次,下边内容是关于python编写的一个简单那的WSGI PDF server 的内容. # basic_wsgi_pdf_server.py # Basic WSGI PDF server in Python. # Adapted from: from PDFWriter import PDFWriter from wsgiref.simple_server import make_server host = 'localhost' port = 8888 de