防止网站被抓

网站可能被同行朋友来抓站，或者ddos攻击所以必须做出相应的策略

1. 使用 fail2ban

fail2ban是通过扫描log来异步判断是否用iptable封禁的，所以对原系统影响比较小，而且不需要重新配置nginx。不过不知道访问量太大是否撑得住。

首先在/etc/fail2ban/jail.conf里加入

[http-get-dos]
enabled = true
port = http,https
filter = nginx-bansniffer
logpath = /usr/local/nginx/logs/segmentfault.log
maxretry = 120
findtime = 120
bantime = 3600
action = iptables[name=HTTP, port=http, protocol=tcp]

然后新建/etc/fail2ban/filter.d/nginx-bansniffer.conf，原来一个nginx的配置文件和这个类似

[Definition]

failregex = <HOST> -.*- .*HTTP/1.* .* .*$
ignoreregex =

最后重启fail2ban服务即可，在上面的配置中，我们对每120秒有超过120次访问的ip，封禁1小时。

2. ngx-lu-waf脚本 https://github.com/loveshell/ngx_lua_waf

nginx需要重新安装使之支持ngx-lua模块

部署地址 http://www.ttlsa.com/nginx/nginx-modules-ngx_lua/

http://blog.slogra.com/post-497.html

时间： 2024-11-17 05:37:18

防止网站被抓的相关文章

C# 从需要登录的网站上抓取数据

[转] C# 从需要登录的网站上抓取数据背景:昨天一个学金融的同学让我帮她从一个网站上抓取数据,然后导出到excel,粗略看了下有1000+条记录,人工统计的话确实不可能.虽说不会,但作为一个学计算机的,我还是厚着脸皮答应了. . 刚开始想的是直接发送GET请求,然后再解析返回的html不就可以获取需要的信息吗?的确,如果是不需要登录的网站,这样可行,但对于这个网站就行不通.所以首先我们需要做的就是抓包,即分析用户登录时浏览器向服务器发送的POST请求.许多浏览器都自带抓包工具,但我还是更喜欢

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots).最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息. 本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 JavaScript 在浏览器如何运行的机制.想更多了解网络数据采集基础知识,可以参考文后的资料. 在采集网站的时会遇到一些比

网站手机号码抓取软件哪个好？自己使用的经历推荐

相信看这篇文章的人都是做网络营销方面的人,不管是擅长SEO 也好,还是擅长sem也好,或者钟爱开发技术也吧.做网络营销,无非三步取, 1 导流2 转化3 成交网络营销老手都知道,网络营销领域竞争最激烈的两个行业1.医疗(百度医疗竞价收入占竞价总收入超过30%) 2.电商金融教育. 多年的混迹医疗网络营销经常会有朋友问过我,有没有好的网络推广方式.网络推广软件推荐? 导入流量.不管是免费的SEO导入流量也好,还是sem竞价导入的流量也把,或者其他锚文本,平台链接,问答 ,论坛文章等等一切.

利用html标签限制搜索引擎对网站的抓取收录

有时有这样的需求,在网页未制作完成,或涉及隐私不能公布,而这时又不能阻止搜索引擎来抓取网页! 第一种方法:限制网页快照限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive"> 限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive"> 第二种方法:禁止搜索引擎抓取本页面和搜索引擎

利用powershell script每个月定期从microsoft download网站上抓补丁

This artical will be published in English also: http://www.cnblogs.com/LarryAtCNBlog/p/4026695.html 本人所在的公司对于安全性要求较高,除了平时各种内网加密外网firewall之外,对于server所使用的OS也要求更新到最新的security级别的补丁. 但是样本数量一多就总有些是打不上补丁的,这可能由于各种各样如update配置错误,SCCM/WSUS抽风,加上第3方扫描补丁软件的2X机制和se

使用Python实现网站图片抓取

1,Python环境 2,下面直接编写代码 import urllibimport reimport time def getHtml(url):page = urllib.urlopen(url)html = page.read()html = html.decode('utf-8')return html def getImgUrl(html):str_re = r'<img[^>]src[=\"\']+([^\"\'])[\"\'][^>]*>'

被惩罚的网站抓取不会减少BGP

被惩罚的网站抓取不会减少BGP, 网站被惩罚是一个非常令人苦恼的事情,得易搜信息网因为网站被惩罚往往伴随着索引量减少,关键词排名下降,流量减少等,自己的成果付之东流,没人愿意看到.很多人认为被搜索引擎惩罚就相当于被贴上了"垃圾"的标签,被牢牢的抓住了,再也翻不了身,搜索引擎也不会再很好的抓取这个网站,事实如此吗? 被惩罚的网站,抓取不会减慢是否谷歌抓取被惩罚的站点频率会更少或更慢?谷歌回应,通常对被惩罚的网站,抓取不会减慢.因为网站被某个算法惩罚后,需要等待谷歌抓取这个网站,提取网站

盘点网站优化过程中影响蜘蛛抓取的因素

一个网站的优化效果好不好,最直接了当最明显的因素就是看网站的收录情况.通常情况下网站收录的内容越多,网站的排名和权重就会越高,其网站的运营就越成功,优化效果就好.要想让网站更多页面被收录,就要想方设法的吸引搜索引擎蜘蛛来抓取页面,那么哪些因素影响蜘蛛抓取页面呢?根据最近的学习,为大家总结了以下几点常见因素.首先.网站和页面权重.站长们都知道,一般网站质量高.时间久的网站,权重都比较高,搜索引擎蜘蛛过来抓取的次数就比较频繁.这种网站上的页面被爬行的深度也会比较高,收录也会很多. 第二.网站的更新频

抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定

首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章都会被其他网站给抓取去了,不信你们看看就知道了.还有人抓取别人网站上的邮箱.电话号码.QQ等等有用信息,这些信息抓取下来肯定可以卖钱或者干其他事情,我们每天都会时不时接到垃圾短信或邮件,可能就这么回事了,有同感吧,O(∩_∩)O哈哈~. 本人前段时间了写了两个程序,一个程序是抓取某彩票网站的数据(双