百度蜘蛛、Google蜘蛛、360蜘蛛如何辨别?

/**
 * 蜘蛛控制
 */
function spiderControl() {
    $user_agent = strtolower ( $_SERVER [‘HTTP_USER_AGENT‘] );
    $allow_spiders = array (‘Baiduspider‘, ‘Googlebot‘ );
    foreach ( $allow_spiders as $spider ) {
        $spider = strtolower ( $spider );
        if (strpos ( $user_agent, $spider ) !== false) {
            return true;
        }
    }
    return false;
}

百度蜘蛛(Baiduspider):

http://help.baidu.com/question?prod_en=master&class=498

百度蜘蛛(Baiduspider)常见问题解答:

http://help.baidu.com/question?prod_en=master&class=498&id=1000550

360蜘蛛

http://lusongsong.com/blog/post/458.html

各大搜索引擎蜘蛛名称(http://www.boshan.com.cn/blog/3211.aspx):

1、百度蜘蛛:Baiduspider
网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,都洗洗睡吧,那是旧黄历了。

百度蜘蛛最新名称为Baiduspider(第一个字母大写)。日志中还发现了Baiduspider-image这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以了……),是抓取图片的蜘蛛。
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。
注:以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。

2、谷歌蜘蛛:Googlebot
这个争议较少,但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile,看名字是抓取wap内容的。

3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。

4、SOSO蜘蛛:Sosospider,也可为它颁一个“勤奋抓爬”奖的蜘蛛。

5、雅虎蜘蛛:Yahoo! Slurp China 或者 Yahoo!

名称中带 Slurp 和空格,名称有空格robots里名称可以使用 Slurp 或者 Yahoo 单词描述,不知道有效无效。

6、有道蜘蛛:YoudaoBot,YodaoBot(两个名字都有,中文拼音少了个U字母读音差别很大嘎,这都会少?)

7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,
(参考一些网站的robots文件,搜狗蜘蛛名称可以用Sogou概括,无法验证不知道有没有效)
看看最权威的百度的robots.txt,http://www.baidu.com/robots.txt 就为Sogou搜狗蜘蛛费了不少字节,占了一大块领地。
“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6个,名称都带空格。
线上常见"Sogou web spider/4.0" ;"Sogou News Spider/4.0" ;"Sogou inst spider/4.0" 可以为它颁个“占名为王”奖。

8、MSN蜘蛛:msnbot,msnbot-media(只见到msnbot-media在狂爬……)

9、必应蜘蛛:bingbot
线上(compatible; bingbot/2.0;)

10、一搜蜘蛛:YisouSpider

11、Alexa蜘蛛:ia_archiver

12、宜sou蜘蛛:EasouSpider

13、即刻蜘蛛:JikeSpider

14、一淘网蜘蛛:EtaoSpider
"Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"
根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。至于那些蜘蛛抓取对网站能带来有利用的价值,网站的管理者眼睛是雪亮的。

另外还发现了如 YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些蜘蛛国外噶,对中文网站用处很小。那不如就节省下资源。

时间: 2024-11-13 06:43:08

百度蜘蛛、Google蜘蛛、360蜘蛛如何辨别?的相关文章

除百度、Google外其他蜘蛛IP封锁脚本

#! /bin/bash # Aliyunbot/sbin/iptables -I INPUT -m iprange --src-range 110.75.160.0-110.75.191.255 -p tcp --dport 80 -j REJECT #Qihoo/sbin/iptables -I INPUT -m iprange --src-range 65.48.172.0-65.48.172.255 -p tcp --dport 80 -j REJECT #Sougo/sbin/ipta

百度和 Google 的搜索技术是一个量级吗?

著作权归作者所有. 商业转载请联系作者获得授权,非商业转载请注明出处. 作者:Kenny Chao 链接:http://www.zhihu.com/question/22447908/answer/21435705 来源:知乎 很多答案是从使用上讲的,我加两个技术方面的. 搜索引擎需要对抓取到的结果进行管理.当索引结果越来越多时,保证存储和查询速度,保证数万台服务器内容一致的难度越来越高.Google于03至06年左右公布了三篇论文,描述了GFS.BigTable.MapReduce三种技术以解

浅谈asp.net通过本机cookie仿百度(google)实现搜索input框自动弹出搜索提示

对于通过用户输入关键词实现自动弹出相关搜索结果,这里本人给两种解决方案,用于两种不同的情形. 常见方法是在数据库里建一个用户搜索关系表,然后通过用户搜索框输入的关键字异步调用数据表中的相关数据,显示在一个隐藏div中. 第二种方式也就是我现在着重讨论的方式,适用于单个用户,基于此用户以往的搜索数据来实现搜索提示功能.技术关键是记录下用户的以往搜索数据,写入cookie,然后页面从用户本机cookie调用数据. ok,下面进入正题.本文主要讲实现步骤,代码可根据自己实际需要更改. 一,如何写入co

如何使用robots不让百度和google收录

如何使用robots不让百度和google收录 有没有想过,如果我们某个站点不让百度和google收录,那怎么办? 搜索引擎已经和我们达成一个约定,如果我们按约定那样做了,它们就不要收录. 这个写约定的的文件命名为:robots.txt. robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录. 关于robots.txt一般站长需要注意以下几点: 如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行. 必须命名为:robots

网站被百度和google封了,怎么办?

很多站长总是抱着侥幸的心里,通过作弊的方式在搜索引擎上获得一定排名,以致于网站被百度和google封了,也就是所谓的被K站. 那么,要是网站被百度和Google封了,怎么办? 首先要确定你的网站已经被百度或google 封了.(如何判断网站是否被K站?) 谷歌从来都不会人工来检查或删除某一个网站,整个建立索引和排名的过程都用自动化的程序进行. 如果被百度封掉了,目前的办法是把任何可能涉及作弊的地方调整过来,然后再次提交网址, 接下来就是等待. 而谷歌提供了一个功能,你可以通过该功能把你的网址重新

Hexo提交百度和Google收录站点

本文源链接地址:https://www.93bok.com 网站的SEO对一个网站非常重要,SEO指的是搜索引擎优化.通过搜索引擎优化,可以提高网站的网站关键词排名以及博客文章的曝光度.一般来说,我们针对百度和Google这两个搜索引擎进行优化,提高对网站资源的索引量,使我们的文章更容易被发现. 一.站点地图 站点地图即sitemap,是一个页面,上面放置了网站上需要搜索引擎抓取的所有页面的链接.站点地图可以告诉搜索引擎网站上有哪些可供抓取的网页,以便搜索引擎可以更加智能地抓取网站. 生成站点地

今天算是体验了一把百度杀毒和360冲突的问题

2014.11.12 今天来一客户这里巡查云桌面的运行情况,客户说有一台机器的EXCEL向外传播的时候总是提示如下报错:然后就死命的开始解决.最后发现我们搞系统集成的真的玩不过EXCEL呀,甘拜下风!! 但是在这个时候突发时间来了,客户之前在系统里面安装过百度杀毒卫士.而我为了查一下是不是因为EXCEL的宏导致的上面的问题,安装了一个360杀毒卫士.这一装可不要紧呀..... 我的电脑属性然后这个地方少了一个"计算机名的"选项卡.还有一些云桌面必用的服务被禁用掉了....我的那个泪呀.

高德,百度,Google地图定位偏移以及坐标系转换

一.在进行地图开发过程中,我们一般能接触到以下三种类型的地图坐标系: 1.WGS-84原始坐标系,一般用国际GPS纪录仪记录下来的经纬度,通过GPS定位拿到的原始经纬度,Google和高德地图定位的的经纬度(国外)都是基于WGS-84坐标系的:但是在国内是不允许直接用WGS84坐标系标注的,必须经过加密后才能使用: 2.GCJ-02坐标系,又名"火星坐标系",是我国国测局独创的坐标体系,由WGS-84加密而成,在国内,必须至少使用GCJ-02坐标系,或者使用在GCJ-02加密后再进行加

2月全球搜索引擎市场份额之争:百度战胜Google夺冠

IDC评述网(idcps.com)02月19日报道:根据市场研究公司Net Applications最新数据显示,在2月全球搜索引擎市场份额大战中,Google-Global以58.44%的份额稳坐冠军宝座,环比上月,份额下降了4.30%.而亚军百度则持续稳步上升,份额涨至26.70%,环比增加8.02%,涨幅明显.下面,请看详细数据分析. (图1)2月全球搜索引擎市场份额分布图 如图1所示,2月份全球搜索引擎市场份额从大到小依次是Google-Global(58.44%).百度(26.70%)