ecshop判断搜索引擎是否为蜘蛛

<?php
/**
 * 判断是否为搜索引擎蜘蛛
 *
 * @access  public
 * @return  string
 */
function is_spider($record = true)
{
    static $spider = NULL;

    if ($spider !== NULL)
    {
        return $spider;
    }

    if (empty($_SERVER[‘HTTP_USER_AGENT‘]))
    {
        $spider = ‘‘;

        return ‘‘;
    }

    $searchengine_bot = array(
        ‘googlebot‘,
        ‘mediapartners-google‘,
        ‘baiduspider+‘,
        ‘msnbot‘,
        ‘yodaobot‘,
        ‘yahoo! slurp;‘,
        ‘yahoo! slurp china;‘,
        ‘iaskspider‘,
        ‘sogou web spider‘,
        ‘sogou push spider‘
    );

    $searchengine_name = array(
        ‘GOOGLE‘,
        ‘GOOGLE ADSENSE‘,
        ‘BAIDU‘,
        ‘MSN‘,
        ‘YODAO‘,
        ‘YAHOO‘,
        ‘Yahoo China‘,
        ‘IASK‘,
        ‘SOGOU‘,
        ‘SOGOU‘
    );

    $spider = strtolower($_SERVER[‘HTTP_USER_AGENT‘]);

    foreach ($searchengine_bot AS $key => $value)
    {
        if (strpos($spider, $value) !== false)
        {
            $spider = $searchengine_name[$key];

            if ($record === true)
            {
                $GLOBALS[‘db‘]->autoReplace($GLOBALS[‘ecs‘]->table(‘searchengine‘), array(‘date‘ => local_date(‘Y-m-d‘), ‘searchengine‘ => $spider, ‘count‘ => 1), array(‘count‘ => 1));
            }

            return $spider;
        }
    }

    $spider = ‘‘;

    return ‘‘;
}
?>
时间: 2024-07-31 06:42:22

ecshop判断搜索引擎是否为蜘蛛的相关文章

如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求?

网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent. 所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断. 要获得ip的host,在windows下可以通过nslookup

浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路

网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况. 比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页.因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重,这肯定是我们不想看到的结果. 以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路.注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛). 1.通过 rob

搜索引擎判断跳转

.JS代码判断搜索引擎来路进行跳转————————————————- <script language=”javascript”> var regexp=/\.(baidu|soso|sogou|google|youdao|yahoo)(\.[a-z0-9\-]+){1,2}\//ig; var where =document.referrer; if(regexp.test(where)) { window.location.href=”http://www.jz96.com/” } <

搜索引擎优化(SEO)解决方案

  搜索引擎优化(SEO)解决方案 在此之前,希望大家能重新审视搜索引擎,通俗来讲就是我们日常所用的百度.谷歌.搜狗.雅虎等.磨刀不误砍柴工,知己知彼,百战不殆! 一.搜索引擎是什么? 搜索引擎(Search Engine)是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.搜索引擎包括全文索引.目录索引.元搜索引擎.垂直搜索引擎.集合式搜索引擎.门户搜索引擎与免费链接列表等. 二.搜索引擎如何工作? 第

搜索引擎关键词劫持之php篇(源码与分析)

摘要:其实原理很简单: 搜索引擎关键词劫持的过程实际上就是,修改肉鸡站点(webshell站点)A的首页(希望被搜索引擎收录的页面,一般情况下是首页),使之做出如下判断: if(来访者是蜘蛛){ 输出指定内容 } if(用户是从搜索引擎点击进入网站的){ 跳转我们希... 其实原理很简单:搜索引擎关键词劫持的过程实际上就是,修改肉鸡站点(webshell站点)A的首页(希望被搜索引擎收录的页面,一般情况下是首页),使之做出如下判断: if(来访者是蜘蛛){输出指定内容}if(用户是从搜索引擎点击

网络蜘蛛

网络蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止.如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来. 对于搜索引 擎来说,要抓取互联网上所有的网页几乎是不可

搜索引擎的技术架构

文章转自:http://blog.csdn.net/hguisu/article/details/7955985 1. 搜索引擎的分类 搜索引擎按其工作方式主要可分为三种: 分别是全文搜索引擎(Full Text Search Engine) 目录索引类搜索引擎(Search Index/Directory) 元搜索引擎(Meta Search Engine). ■ 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google.Fast/AllTheWeb.AltaVista.I

搜索引擎综述(来自网络,图片连接…

互联网在近10年的得到飞速发展,互联网正在逐渐深入人们的生活,改变人们的生活.互联网经济也经历了风风雨雨,从缓慢起步到急速膨胀,从泡沫破灭到逐步回暖:从"网络广告"到"拇指经济",从"网络游戏"到"搜索力经济".目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇篮.越来越多的公司都希望在搜索引擎这座金矿中挖到筐金子,其中许多人会选择拥有自己的搜索引擎.国内著名搜索引擎公司百度(http://www.baidu.c

搜索引擎基本工作原理

搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现.搜集网页信息:同时对信息进行提取和组织建立索引库:再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户. 工作原理编辑 1.抓取网页.每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider).爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页.被抓取的网页被称之为网页快照.由于互联网中超链接的应用很普遍,