写爬虫程序应该注意的问题

我们知道，网络爬虫是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。那么，我们怎么通过网络爬虫获取所需要的网站信息呢？
不同的网站有不同的规则，爬虫工程师根据这些规则设计不同的网络爬虫，以此来顺利获取所需要的信息。
一、开放API的网站
一个网如果开放了API，那么就可以直接GET到它的json数据。有三种方法可以判断一个网站是否开放了API。
1、在站内寻找API入口；
2、用搜索引擎搜索“某网站API”；
3、抓包，有的网站虽然用到了ajax，但是通过抓包还是能够获取XHR里的json数据的（可用抓包工具抓包，也可以通过浏览器按F12抓包：F12-Network-F5刷新）。
二、不开放API的网站
1、如果网站是静态页面，那么可以用requests库发送请求，再通过HTML解析库（lxml、parsel等）来解析响应的text；解析库强烈推荐parsel，不仅语法和css选择器类似，而且速度也挺快，Scrapy用的就是它。
2、如果网站是动态页面，可以先用selenium来渲染JS，再用HTML解析库来解析driver的page_source。
三、反爬虫网站
很多网站都具有反爬虫策略，常见的有：验证码、登陆、限制IP等。
1、验证码。可以利用打码平台破解（如果硬上的话用opencv或keras训练图）；
2、登陆。利用requests的post或者selenium模拟用户进行模拟登陆；
3、限制IP。购买亿牛云代理IP（免费IP效果非常差，不建议使用）。

原文地址：https://blog.51cto.com/14400115/2419038

时间： 2024-10-04 07:28:25

写爬虫程序应该注意的问题的相关文章

用Java写的爬虫程序

这是一个web查找的根本程序,从命令行输入查找条件(开端的URL.处置url的最大数.要查找的字符串), 它就会逐一对Internet上的URL进行实时查找,查找并输出匹配查找条件的页面. 这个程序的原型来自<java编程艺术>, 为了非常好的剖析,站长去掉了其间的GUI有些,并稍作修改以适用jdk1.5.以这个程序为基础,可以写出在互联网上查找比如图像.邮件.页面下载之类的"爬虫". 先请看程序运转的进程: D:\java>javac SearchCrawler

Python写的网络爬虫程序（很简单）

Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现. python程序如下: import re,urllib strTxt="" x=1 ff=open("wangzhi.txt","r") for line in ff.readlines(): f=open(str(x)+".txt&

网络爬虫作业代码代写代实现、代做爬虫程序

网络爬虫作业代码代写代实现.代做爬虫程序任务二.网络爬虫实现一.任务描述编写大学排名爬虫程序,从"最好大学网"获取"软科中国最好大学排名"2016.2017.2018年的国内大学排名数据,并将它们输出出来.2016年中国最好大学排名网址目的1.学习运用requests库编写基本URL访问过程2.学习运用beautifulsoup4库解析和处理HTML3.掌握编写网络爬虫的基本方法二.任务分析(必须有,主要分析任务需求,完成任务的思路与方法,采用的技术等,如爬虫的任

第一次写爬虫，程序一直运行不终止

之所以陷入不终止状态是由于正则表达式出错正则表达式引擎一直处于回溯状态 (回溯结束,程序可能终止,没去尝试) 当一个正则表达式占用浏览器上秒,上分钟或者更长时间时,问题原因很可能是回溯失控. 这个例子告诉我们,在写爬虫时,如果数据过多, 正则表达式一定要不能出错. 原文地址:https://www.cnblogs.com/xiaohaodeboke/p/11781225.html

我的第一个python爬虫程序(从百度贴吧自动下载图片)

这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成

自娱自乐写爬虫世纪佳缘篇

最近一段时间不知怎得像是中了什么魔怔,特别的想用python写一个网络爬虫,也许是看了知乎上的某位大牛的分享,深感能自己写一个程序在浩瀚的互联网数据海洋中发现有意思的数据的酷炫,抑或就是想单纯的体验一把程序猿的人生价值.在当我信誓旦旦的决定用一到两周准备实现这个宏伟的理想的时候,我马上就遇到了瓶颈,而且是必须快速解决的要给难题:我应该在互联网上爬点什么数据呢? 经过一番深入的考察,我发现婚恋网站是一个理想的目标,因为在博客园里面还从来没有看到过相关的帖子(其实博客园里面大部分帖子感觉挺水的),而

使用PHP创建基本的爬虫程序【转】

Web Crawler, 也时也称scrapers,即网络爬虫,用于自动搜索internet并从中提取想要的内容.互联网的发展离不开它们.爬虫是搜索引擎的核心,通过智能算法发现符合你输入的关键字的网页. Google网络爬虫会进入你的域名,然后扫描你网站的所有网页,从中析取网页标题,描述, 关键字和链接 - 然后把这些的评价返回给Google HQ,把内容存放至海量的数据库中. 今天,我很高兴告诉你怎么做自己的爬虫 -- 它并不对整个互联网进行搜索,只是对指定的一个网址获取所有链接和信息[

医学教育网爬虫程序（直播）

12-18 今晚接到老姐的电话,说她已在"医学教育网"订购了不少视频,要我帮她将所有的视频都下载下来.我看了一下,里面有24门科目,每门科目有40多节.要我手动一个一个下,还不如让我去死.这种重复的事情还是让程序来做吧!这里开一篇博客直播编写的过程. 被爬网址:http://www.med66.com/ 前几天我刚做完一个Qihuiwang的爬虫软件.这次我评估了一下,这次要做的视频下载爬虫程序比上次又有新的挑战: (1)要处理登陆的过程,上一个不需要登陆就可以直接爬.这次必须要登陆才

python网络爬虫 - 如何伪装逃过反爬虫程序

有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了. 报错信息如下: Http 800 Internal internet error 这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝. 之前正常的爬虫代码如下: from urllib.request import urlopen ... html = urlopen(scrapeUrl) bsObj = BeautifulSoup(html.read(), "html.parser") 这

猜你喜欢

Shell实现远程MySQL自动查询

#!/bin/sh HOST=192.168.5.40 USER=abc PASS=123456 QUERY=`mysql -h$HOST -u$USER -p$PASS << EOF u ...

Netty学习之服务器端创建

一.服务器端开发时序图图片来源:Netty权威指南(第2版) 二.Netty服务器端开发步骤使用Netty进行服务器端开发主要有以下几个步骤: 1.创建ServerBootstrap实例 Serv ...

Python自习室——001 认识

Python 只是一种编程语言,能运行在众多的平台之上,接下来的内容均在CentOS6上进行练习. 国际惯例: >>> print "Hello World!" ...

关于python2.7交互模式"退格键乱码"

在RHEL上装好了python2.7.6, 进入到交互模式后(就是输入python之后进入的screen), 发现退格键和方向键都使用不了,(变成^H^H^H之类的乱码) 一个命令输入错误了只能从头开 ...

SQL 基础之创建其他方案对象（十五）

视图概述: – 从视图中创建.修改和检索数据 – 在视图上的数据操纵语言(DML)操作 – 删除视图数据库对象 Object 对象 Description 描述 Table 表基本的数据存储集合, ...

2010.2.1 制作安装程序步骤

制作安装程序的步骤vs2005-20091222 1.在同一解决方案下,添加项目,选择安装和部署-安装项目,设定名称,此名称就是exe程序的名称,确定 2.在"应用程序文件夹"中右 ...

centos6.7 安装gitlab

其实整个步骤都很简单,但是由于程序比较臃肿,对系统有一定要求,内存最好2G以上,我的服务器因因为内存不够,直接报错 unicorn反复启动,直接导致gitlab sock 链接错误,现在直接给出搭建 ...

Alwasyon环境下增加数据文件需要注意的几点

半夜收到报警短信,服务器磁盘空间不足,爬起来检查一番,发现由于索引重建导致,而且该磁盘下仍有自动增长的数据文件,由于该服务器上其他盘符有剩余空间,于是打算将该磁盘下的数据文件限制增长,并新增几个数据文 ...

Linux Shell之三高级变量及字符串

高级变量包含三个部分1.变量扩展2.命令替换3.算术扩展在Bash Shell中,$算符会触发到上述三种扩展,基本形式如下: 基本型扩展种类例子 ...

【编程规范整理】

1.常用变量声明必须从以下当中选择: i,j,k,m,n,p,q (1)for 循环嵌套声明顺序: -两重嵌套:(i,j)->(m,n)->(p,q) -多重嵌套:i->j-> ...

UItableView 加手势冲突问题的解决

- (BOOL)gestureRecognizer:(UIGestureRecognizer *)gestureRecognizer shouldReceiveTouch:(UITouch *)tou ...

Jquery 延迟对象

延迟对象,在jQuery的1.5引入,是通过调用jQuery.Deferred()方法创建一个可链式调用的工具对象. 它可以注册多个回调到回调队列, 调用回调队列,准备代替任何同步或异步函数的成功或失 ...

课后题--------求分子量-----Molar mass------

简单的化学式求分子量问题下面附上代码和解析. 1 #include<stdio.h> 2 #include<algorithm> 3 #include<stri ...

文本分类实战

文本分类实战分类任务算法流程数据标注特征抽取特征选择分类器训练与评估坑分词特征重要度有偏训练集模型大小优化 One More Thing… term 扩展 Distribute ...

必须掌握的软件基础课程

大学必须掌握的软件基础课程转自:http://blog.java1234.com/blog/articles/40.html 大学软件专业有很多课程,有些学生搞不清哪些是重点,以下是笔者根据多年经 ...

springMVC配置文件spring-servlet.xml中<mvc:annotation-driven />的意义

<mvc:annotation-driven/>标签,对应的实现类是org.springframework.web.servlet.config.AnnotationDrivenBeanD ...

2016.12.12 点亮第一个LED灯

一.keil编译程标准流程注意事项: 1.建立的工程和 .c文件文件名一样. 二.LED模块图三.点亮第一个LED灯代码:

如何有效地报告 Bug

如何有效地报告 Bug 引言为公众写过软件的人,大概都收到过很拙劣的bug(计算机程序代码中的错误或程序运行时的瑕疵--译者注)报告,例如: 在报告中说"不好用": 所报告内容毫 ...

制作通用framework的几点注意

一.创建framework,调成静态的framework . 二.匹配bitcode 三.增加-ObjC 在BuildSettting ->Linking->Other Linker Fl ...

Android中Actionbar背景处理的几点问题

今天有朋友做Android4.0的ActionBar时,它这么使用, <style name="AppTheme" parent="android:Theme.Ho ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.