【网站抓取】如何正确识别Baiduspider移动ua

  百度站长平台发布公告宣布新版Baiduspider移动ua上线,同时公布了PC版Baiduspider ua,那么该如何正确识别移动ua呢?我们百度站长平台技术专家孙权老师给出了答案:

  新版移动ua:

  Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  PC ua:

  Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  之前通过“+http://www.baidu.com/search/spider.html”进行识别的网站 上海性病医院请注意!您需要修改识别方式,新的正确的识别Baiduspider移动ua的方法如下:

  1. 通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。

  2. 通过关键词“Baiduspider/2.0”,判断为百度爬虫。

  另外需要强调的是,对于robots封禁,如果封禁的agent是Baiduspider,会对PC和移动同时生效。即 上海人乳头瘤病毒医院,无论是PC还是移动Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个url,PC ua打开的时候是PC页,移动ua打开的时候是移动页),想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的,但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。

时间: 2024-11-07 20:47:01

【网站抓取】如何正确识别Baiduspider移动ua的相关文章

被惩罚的网站抓取不会减少BGP

被惩罚的网站抓取不会减少BGP, 网站被惩罚是一个非常令人苦恼的事情,得易搜信息网因为网站被惩罚往往伴随着索引量减少,关键词排名下降,流量减少等,自己的成果付之东流,没人愿意看到.很多人认为被搜索引擎惩罚就相当于被贴上了"垃圾"的标签,被牢牢的抓住了,再也翻不了身,搜索引擎也不会再很好的抓取这个网站,事实如此吗? 被惩罚的网站,抓取不会减慢 是否谷歌抓取被惩罚的站点频率会更少或更慢?谷歌回应,通常对被惩罚的网站,抓取不会减慢.因为网站被某个算法惩罚后,需要等待谷歌抓取这个网站,提取网站

c#实现从其他网站抓取imei码信息,手工输入验证码

阅读全文:http://www.yzswyl.cn/blread-1603.html 功能:从其他网站手工输入验证码并抓取手机IMEI信息 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.For

wget整站抓取、网站抓取功能

wget -r   -p -np -k -E  http://www.xxx.com 抓取整站 wget -l 1 -p -np -k       http://www.xxx.com 抓取第一级 -r 递归抓取-k 抓取之后修正链接,适合本地浏览 http://blog.sina.com.cn/s/blog_669fb0c3010137bq.html wget -m -e robots=off -k -E "http://www.abc.net/"可以将全站下载以本地的当前工作目录,

C#(ASP.net)从其他网站抓取内容并截取有用信息

1. 需要引用的类库 1 2 3 4 using System.Net; using System.IO; using System.Text; using System.Text.RegularExpressions; 2. 获取其他网站网页内容的关键代码 1 2 3 4 5 WebRequest request = WebRequest.Create("http://目标网址.com/"); WebResponse response = request.GetResponse();

新站帮助 Google 查找、抓取网站和创建索引的最佳做法

遵循这些指南有助于 Google 查找您的网站.将其编入索引和进行排名.即使您选择不采纳这些建议,我们也强烈建议您对"质量指南"多加留意,其中简要说明了可能导致网站从 Google 索引中被彻底删除或者被系统或手动标识为垃圾网站的一些违规行为.如果一个网站被标识为垃圾网站,那么它可能不会再出现在 Google.com 或任何 Google 合作伙伴网站的搜索结果中. 设计和内容指南 技术指南 质量指南 在您的网站创建完成后: 访问 http://www.google.com/submi

如何打造符合搜索引擎抓取的网站?

正如我上篇文章<如何提升企业网络的曝光率>,曾说过一个解决企业网络曝光率的方法:拥有一个适合搜索引擎的网站,那么,如何打造符合搜索引擎抓取的网站?我个人的理解应该从以下四个方面去考虑: 1.从网站的栏目而论,首页内容如何,是一个对于搜索引擎抓取十分重要的步骤.部分企业的网站为了追求美观.大气采用全Flash的首页.搜索引擎的技术无论如何的先进,毕竟也是由机器去实施.因此,它的抓取根本无法识别Flash,而我推荐大家使用博客中的轮展样式,通过轮展图可以使网站达到高端大气上档次的效果同时也具备利于

nutch2.1抓取中文网站

对nutch添加中文网站抓取功能. 1.中文网页抓取 A.调整mysql配置,避免存入mysql的中文出现乱码.修改 ${APACHE_NUTCH_HOME} /runtime/local/conf/gora.properties ############################### # MySQL properties            # ############################### gora.sqlstore.jdbc.driver=com.mysql.jd

python写的多线程 代理服务器 抓取,保存,验证程序【转】

于是决定用python重新写,python支持多线程啊. 已经有一年多没有用过 python了,很多语法,语言特性都快忘记得差不多了. 经过三天业余时间的 摸索,今天我写的这个程序终于可以和大家交流了. 下面放出源代码: 希望有高手能帮我共同完善,  这个程序是我学python语言以来写的第二个程序,应该有很多写得不够简洁的地方,希望行家多多指点 程序现有功能:    1. 能自动从12个网站抓取代理列表,并保存到数据库里面    2. 自动验证每个代理是否可用,并保存验证时的响应时间做为判断代

数据从业者必读:抓取了一千亿个网页后我才明白,爬虫一点都不简单

编者按:互联网上有浩瀚的数据资源,要想抓取这些数据就离不开爬虫.鉴于网上免费开源的爬虫框架多如牛毛,很多人认为爬虫定是非常简单的事情.但是如果你要定期上规模地准确抓取各种大型网站的数据却是一项艰巨的挑战,其中包括网站的格式经常会变.架构必须能灵活伸缩应对规模变化同时要保持性能,与此同时还要挫败网站反机器人的手段以及维护数据质量.流行的Python爬虫框架Scrapy开发者Scrapinghub分享了他们抓取一千亿个网页后的经验之谈. 现在爬虫技术似乎是很容易的事情,但这种看法是很有迷惑性的.开源