如果某些二级域名不愿意被收入,如果这些二级域名可以不访问的,那就直接对特定域名做301重定向到主域名上,或者把这几个二级域名单独绑定到新的目录或者子目录里面,然后用robots做目录限制抓取。
如果二级域名还需要用,那就牺牲一段时间,把域名单独做解析到新目录或新服务器下,然后做404,再向百度站长平台提交死链
还有一种思路,那就用php来判断是否是蜘蛛访问,如果是蜘蛛访问就做301、404、或者跳转都是可以的
下面是用robots 的方式来禁止搜索引擎抓取的方式,以及robots.txt 的命名规范
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
这里做一个例子:Disallow: /test.baidu.com
一种是用php方式来屏蔽掉搜索引擎
if(getrobot())//如果蜘蛛 { header(‘HTTP/1.1 301 Moved Permanently‘);//发出301头部 header(‘Location:http://www.baidu.com‘);//需要跳转的地址 }else{ echo ‘不是蜘蛛访问‘; } /** * 判断是否为搜索引擎蜘蛛 * * @return bool */ function getrobot() { $isrobot = FALSE; $kw_spiders = ‘Bot|Crawl|Spider|slurp|sohu-search|lycos|robozilla‘; $kw_browsers = ‘MSIE|Netscape|Opera|Konqueror|Mozilla‘; if(!strexists($_SERVER[‘HTTP_USER_AGENT‘], ‘http://‘) && preg_match("/($kw_browsers)/i", $_SERVER[‘HTTP_USER_AGENT‘])) { } elseif(preg_match("/($kw_spiders)/i", $_SERVER[‘HTTP_USER_AGENT‘])) { $isrobot = TRUE; } else { $isrobot = FALSE; } return $isrobot; } function strexists($string, $find) { return !(strpos($string, $find) === FALSE); }