第一次写爬虫 , 程序一直运行不终止

 之所以陷入不终止状态        是由于正则表达式出错  正则表达式引擎一直处于回溯状态  (回溯结束,程序可能终止,没去尝试)

 当一个正则表达式占用浏览器上秒,上分钟或者更长时间时,问题原因很可能是回溯失控。

这个例子告诉我们,在写爬虫时,如果数据过多,   正则表达式一定要不能出错。

原文地址:https://www.cnblogs.com/xiaohaodeboke/p/11781225.html

时间: 2024-11-09 03:52:59

第一次写爬虫 , 程序一直运行不终止的相关文章

写爬虫程序应该注意的问题

我们知道,网络爬虫是一种按照一定的规则,自动地抓取网站信息的程序或者脚本.那么,我们怎么通过网络爬虫获取所需要的网站信息呢?不同的网站有不同的规则,爬虫工程师根据这些规则设计不同的网络爬虫,以此来顺利获取所需要的信息.一.开放API的网站一个网如果开放了API,那么就可以直接GET到它的json数据.有三种方法可以判断一个网站是否开放了API.1.在站内寻找API入口:2.用搜索引擎搜索"某网站API":3.抓包,有的网站虽然用到了ajax,但是通过抓包还是能够获取XHR里的json数

【爬虫笔记】第一次写爬虫,爬取新浪新闻网标题

昨晚在网易云课堂上看到了这个爬虫教程,是个基础入门教程,看了几节课,按照示例也去爬了一下新闻标题 课程一些截图:

第一次写的程序

score<-read.csv("D:/季度积分排名.csv") standc<-function(x){ standc<-NULL for (i in 1:length(x)) { standc<-c(standc,(x[i]-min(x))/(max(x)-min(x))) } return(standc) } standd<- function(x){ k<-NULL for (i in 1:length(x)){ if (x[i]>0.

[Python]新手写爬虫全过程

今天早上起来,第一件事情就是理一理今天该做的事情,瞬间get到任务,写一个只用python字符串内建函数的爬虫,定义为v1.0,开发中的版本号定义为v0.x.数据存放?这个是一个练手的玩具,就写在txt文本里吧.其实主要的不是学习爬虫,而是依照这个需求锻炼下自己的编程能力,最重要的是要有一个清晰的思路(我在以这个目标努力着).ok,主旨已经订好了,开始‘撸串’了. 目标网站:http://bohaishibei.com/post/category/main/(一个很有趣的网站,一段话配一个图,老

[Python]新手写爬虫全过程(转)

今天早上起来,第一件事情就是理一理今天该做的事情,瞬间get到任务,写一个只用python字符串内建函数的爬虫,定义为v1.0,开发中的版本号定义为v0.x.数据存放?这个是一个练手的玩具,就写在txt文本里吧.其实主要的不是学习爬虫,而是依照这个需求锻炼下自己的编程能力,最重要的是要有一个清晰的思路(我在以这个目标努力着).ok,主旨已经订好了,开始‘撸串’了. 目标网站:http://bohaishibei.com/post/category/main/(一个很有趣的网站,一段话配一个图,老

Python写爬虫-爬甘农大学校新闻

Python写网络爬虫(一) 关于Python: 学过C. 学过C++. 最后还是学Java来吃饭. 一直在Java的小世界里混迹. 有句话说: "Life is short, you need Python!"  翻译过来就是: 人生苦短, 我用Python 究竟它有多么强大,  多么简洁? 抱着这个好奇心, 趁不忙的几天. 还是忍不住的小学了一下.(- - 其实学了还不到两天) 随便用一个"HelloWorld"的例子 //Java class Main{ pu

Ubuntu下QT控制台程序无法运行的解决方案以及XTerm的配置方法

Ubuntu下QT控制台程序无法运行的解决方案以及XTerm的配置方法 最近由于老师要求要在Ubuntu下QT上进程多线程服务器的开发,虽然只是单纯的调用qt的network模块,但是为了避免麻烦,我还是很操蛋的在QT下写控制台程序了,但是写完程序后运行时出现了如下情况. 程序运行了,但是控制台中居然只有一个光标在那儿跳啊跳.由于百度的姿势不对,废了好多时间,终于明白是因为qt creator不支持Gnome默认的终端gnome-terminal. 所以要换成XTerm的控制台. 具体的解决方式

第一次写,python爬虫图片,操作excel。

第一次写博客,其实老早就注册博客园了,有写博客的想法,就是没有行动,总是学了忘,忘了丢,最后啥都没有,电脑里零零散散,东找找,西看看,今天认识到写博客的重要性. 最近闲着看了潭州教育的在线直播课程,颇受老师讲课实用有感.只作为自己笔记学习,我们都知道学习一门编程都是先照抄,在创作.这里完全按照老师讲解,照抄作为学习. 一.Python抓取豆瓣妹子图. 工具:python3.6.0;bs4.6.0;xlwt(1.2.0)需要版本对应,之前就安装了bs4但是运行的时候提示版本不对应.可以在线升级:p

Python写的网络爬虫程序(很简单)

Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现. python程序如下: import re,urllib strTxt="" x=1 ff=open("wangzhi.txt","r") for line in ff.readlines(): f=open(str(x)+".txt&