最新最准确各大搜索引擎蜘蛛名称2014-4-15 10:02:52

最新最准确各大搜索引擎蜘蛛名称2014-4-15 10:02:52

1、百度蜘蛛:Baiduspider
网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,都洗洗睡吧,那是旧黄历了。百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-image这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以了……),是抓取图片的蜘蛛。
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。
注:以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。
2、谷歌蜘蛛:Googlebot
这个争议较少,但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile,看名字是抓取wap内容的。
3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。
4、SOSO蜘蛛:Sosospider,也可为它颁一个“勤奋抓爬”奖的蜘蛛。
5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo! 
名称中带“Slurp”和空格,名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述,不知道有效无效。
6、有道蜘蛛:YoudaoBot,YodaoBot(两个名字都有,中文拼音少了个U字母读音差别很大嘎,这都会少?)
7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,
(参考一些网站的robots文件,搜狗蜘蛛名称可以用Sogou概括,无法验证不知道有没有效)
看看最权威的百度的robots.txt ,http://www.baidu.com/robots.txt 就为Sogou搜狗蜘蛛费了不少字节,占了一大块领地。
“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6个,名称都带空格。
线上常见"Sogou web spider/4.0" ;"Sogou News Spider/4.0" ;"Sogou inst spider/4.0" 可以为它颁个“占名为王”奖。
8、MSN蜘蛛:msnbot,msnbot-media(只见到msnbot-media在狂爬……)
9、必应蜘蛛:bingbot 
线上(compatible; bingbot/2.0;)
10、一搜蜘蛛:YisouSpider
11、Alexa蜘蛛:ia_archiver
12、宜sou蜘蛛:EasouSpider
13、即刻蜘蛛:JikeSpider
14、一淘网蜘蛛:EtaoSpider
"Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"
根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。至于那些蜘蛛抓取对网站能带来有利用的价值,网站的管理者眼睛是雪亮的。
另外还发现了如 YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些蜘蛛国外噶,对中文网站用处很小。那不如就节省下资源。

时间: 2024-10-29 19:07:23

最新最准确各大搜索引擎蜘蛛名称2014-4-15 10:02:52的相关文章

各大搜索引擎Ping服务 php实现方法

各大搜索引擎Ping服务 php实现方法  让网站快速收录[1]手动Ping服务地址: Baidu(百度)地址: http://ping.baidu.com/ping.html Google(谷歌)地址:http://blogsearch.google.com/ping Feedsky(飞递)地址:http://ping.feedsky.com/ping.html Qihoo(奇虎)地址:http://so.blog.qihoo.com/pingblog.html IASK(爱问)地址:http

搜索引擎蜘蛛及网站robots.txt文件详解[转载]

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签. 注意:robots.txt写法是否正确对搜索引擎抓取网站至关重要,我们尽量按照标准的格式写语句,否则出现的错误可能会导致搜

搜索引擎蜘蛛爬虫原理

permike 原文 搜索引擎蜘蛛爬虫原理 关于搜索引擎的大话还是少说些,下面开始正文搜索引擎蜘蛛爬虫原理: 1 聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件.聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入

什么是搜索引擎蜘蛛机器人?是如何工作的

什么是搜索引擎蜘蛛机器人?是如何工作的? 在互联网发展初期,网站相对较少,信息查找比较容易.然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了. 现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie.虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开

一种泛在网大搜索引擎的系统架构

搜索引擎在信息世界的地位是填补人与信息世界的信息断层,而面向泛在网的大搜索服务技术是将人.物.信息有机结合起来,为用户提供智慧的服务和解答.互联网搜索引擎只是针对文本,而今后的市场需求中,肯定存在着在物联网.泛在网中搜各种物体.关系.智慧知识的需求.在互联网中,搜索引擎是互联网的入口,谁掌握了搜索引擎技术,谁就在互联网应用市场中取得了有利地位.同样,在泛在网中,谁掌握了泛在网大搜索引擎技术的核心,谁在泛在网.物联网应用的市场中,就会有巨大的优势. 泛在网大搜索主要包括5个方面的内容,泛网数据获取

Web网站如何查看搜索引擎蜘蛛爬虫的行为

简介 本文给大家介绍Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为,清楚蜘蛛的爬行情况对做SEO优化有很大的帮助.需要的朋友通过本篇文章学习下吧 摘要 做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况. 下面我们针对nginx服务器进行分析,日志文件所在目录  /usr/local/nginx/logs/access.log access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过

2018.2最新-Scrapy+elasticSearch+Django打造搜索引擎(二)

请问您今天要来个引擎吗? 工欲善其事必先利其器 最终项目上线演示地址: http://search.mtianyan.cn 第二节:我们搞搞比利,搞搞环境的搭建.Github地址: https://github.com/mtianyan/ArticleSpider IDE: pycharm 数据库: mysql, redis, elasticsearch 开发环境 virtualenv 这次的数据库只介绍mysql,后面两个会放到要用到的章节. Pycharm的安装和使用 Pycharm在win

新站长必备 各大网站收录入口,各大搜索引擎提交, 搜索引擎提交地址

网站建设完成之后,第一件事情就是向各大搜索引擎提交新网站.已更好的分享自己的文章,获取更多的访客. 搜索引擎提交包括提交给搜索引擎爬虫和提交给分类目录. 提交给搜索引擎爬虫的目的是让搜索引擎将网站收录到索引数据库.检验网站是否被搜索引擎收录的办法是直接在搜索引擎中搜索网址,查看能否找到网站结果,也可以通过输入命令”site:hoar.me”获得具体的页面收录数量. 提交给搜索引擎分类目录有两个目的:一是为了用户通过分类目录检索到网站,二是为网站获得一个高质量的外部链接,有助于增加网站的链接广度.

全球十大搜索引擎排名

[全球十大搜索引擎排名]Google全球市场份额为68%,高居榜首.雅虎第二,市场份额为7%,百度第三,市场份额为6.5%,微软第四,市场份额为3%,其它依次为eBay.NHN.Yandex.Facebook.Ask和阿里巴巴.另:中国是全球第二大搜索市场,所占份额达到了10%. 看来,在国内做搜索引擎优化还是要靠google和百度啊. 很多搜索引擎网站会从国际网站自动跳转成国内网址,如google自动跳转成cn comScore 12月全球搜索引擎排名: 1 Google 62% http:/