php 防止爬虫设置

php代码如图所示：

<?php

//获取UA信息

$ua = $_SERVER[‘HTTP_USER_AGENT‘];

//将恶意USER_AGENT存入数组

$now_ua = array(‘FeedDemon ‘,‘BOT/0.1 (BOT for JCE)‘,‘CrawlDaddy ‘,‘Java‘,‘Feedly‘,‘UniversalFeedParser‘,‘ApacheBench‘,‘Swiftbot‘,‘ZmEu‘,‘Indy Library‘,‘oBot‘,‘jaunty‘,‘YandexBot‘,‘AhrefsBot‘,‘MJ12bot‘,‘WinHttp‘,‘EasouSpider‘,‘HttpClient‘,‘Microsoft URL Control‘,‘YYSpider‘,‘jaunty‘,‘Python-urllib‘,‘lightDeckReports Bot‘);

//禁止空USER_AGENT，dedecms等主流采集程序都是空USER_AGENT，部分sql注入工具也是空USER_AGENT

if(!$ua) {

header("Content-type: text/html; charset=utf-8");

die(‘李世龙原创采集者木有小JJ！‘);

}else{

foreach($now_ua as $value )

//判断是否是数组中存在的UA

if(eregi($value,$ua)) {

header("Content-type: text/html; charset=utf-8");

die(‘请勿采集本站，采集的木有小JJ！‘);

}

如果是vps，那非常简单，使用curl -A 模拟抓取即可，比如：模拟宜搜蜘蛛抓取：

时间： 2024-11-13 07:58:40

php 防止爬虫设置的相关文章

爬虫-设置代理ip

1.为什么要设置代理ip 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败.高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,所以通过设置代理IP来避免被封,从而顺利爬取. 2.从那里获取免费的IP 西刺免费代理快代理免费代理 from bs4 import BeautifulSoup import requests import random def get_ip_list(url, headers)

nodejs爬虫设置动态userAgent

动态 userAgent 这是我收集到的常用的浏览器头部信息,每次爬取的时候从中随机选取一个,并使用 superAgent 设置请求头部的 User-Agent 字段就好了. userAgent.js const userAgents = [ 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12', 'Mozilla/4.0 (com

【Alpha版本发布】爬虫队长正在待命！

一.基础功能简介本团队的爬虫能够从网上搜索相关内容, 并归类,把所爬到的网页或各种类型的文档下载到本地上. 上届团队Beta版本爬虫的主要功能如下: a)可爬取网页,问答页并进行问答文件分类. b)设计了一个较为完善的UI界面,可显示爬取的进度: c) 声称能够专门爬取pdf,ppt,doc等文档. d) 能够对爬取的结果进行分析. 二.更新内容 1.新增功能 1.1 新添了用户自定义关键词的分类功能: 其中腾讯.百度等分类关键词皆由用户自定义设置. 1.2 真正实现了pdf,ppt,doc等

Python爬虫Scrapy框架入门（2）

本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写xpath表达式,获取信息.自动爬取策略是,找到翻页网页元素,获取新链接地址,执行翻页.网页分析部分不再赘述,原博讲的很好很清楚,很涨姿势基于拿来主义,我们只需要知道怎么更改Scrapy框架就行了~ items.py: import scrapy class TestprojItem(scrapy

如何使用爬虫一键批量采集新浪微博内容

信息时代如何真正做到,秀才不出门,能知天下事.不知道你们用的是啥,反正小喵我用的是微博.现在微博上新闻是多的不得了,国家大事,社会日常,娱乐新闻.微博热搜上随便一个话题都可以引起网民们的激烈讨论.那么,该如何对这些庞大的数据进行采集和统计呢? 今天小编就来教教你们,利用神箭手云爬虫对新浪微博的信息进行完美的采集,包括文本内容.转发数.评论数.点赞数.热门等详细信息,只有你想不到,没有采不到的! 第一步:进入神箭手官网(http://www.shenjianshou.cn)进行注册或登录. 第二步

一个简单的多线程爬虫

本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续. 爬虫实现的步骤基本如下: 分析网页结构,选取自己感兴趣的部分; 建立两个Buffer,一个用于保存已经访问的URL,一个用户保存带访问的URL; 从待访问的Buffer中取出一个URL来爬取,保存这个URL中感兴趣的信息:并将这个URL加入已经访问的Buffer中,然后将这个URL中的所有外链URL

大数据之网络爬虫-一个简单的多线程爬虫

Scrapy框架爬虫

一.sprapy爬虫框架 pip install pypiwin32 1) 创建爬虫框架 scrapy startproject Project # 创建爬虫项目 You can start your first spider with: cd Project scrapy genspider example example.com cd Project # 进入项目 scrapy genspider chouti chouti.com # 创建爬虫创建爬虫框架 2)执行爬虫 class Ch

Python爬虫？今天教大家玩更厉害的，反爬虫操作！零基础都能写！

主要针对以下四种反爬技术:Useragent过滤:模糊的Javascript重定向:验证码:请求头一致性检查.高级网络爬虫技术:绕过 "403 Forbidden",验证码等爬虫的完整代码可以在 github 上对应的仓库里找到. 我从不把爬取网页当做是我的一个爱好或者其他什么东西,但是我确实用网络爬虫做过很多事情.因为我所处理的许多工作都要求我得到无法以其他方式获得的数据.我需要为 Intoli 做关于游戏数据的静态分析,所以我爬取了Google应用商店的数据来寻找最新被下载的AP