站点流量异常追查文档

一,运维篇

  1、CDN

  2、robots

  3、UA/IP

  4、安全问题/管理不善

    A、域名泛解析

    B、网站被黑

    C、网页被挂马

    D、UGC站点被SPAMMER群发

二,特征页分析

  1、分析流程图

  2、查找特征页面

  3、分析异常特征

    A、排名无,流量无

    B、部分排名无,流量损失较大

三,相关因素——外链爆增

  1、首页、频道页、重要页面被恶意投票

  2、用户创建页面、垃圾个人页、内容页被恶意投票

  3、拼接搜索结果页漏洞

  4、如何预防产生拼接搜索结果页

什么是流量异常

来自百度搜索的流量突然间降了50%以上,且是持续性的,即已经连续四至五天流量没有明显涨幅变化。如下图所示:

如果出现上述现象,建议大家从运维角度、页面特征,以及相关因素来判断原因。

站点流量异常原因之运维篇

1、CDN

  一些网站会使用CDN加速服务,最近每周站长平台都会接到一两个跟CDN加速问题有关的案例。CDN这里存在一个问题:不同的CDN服务商在全国分布的节点数不同,站点在使用CDN服务时,同一地区CDN给蜘蛛返回的IP地址要和给用户的一致。那么现实情况是,部分CDN服务商出于成本考虑与资源使用率的问题,会在不告知用户的情况下变更IP地址以节约成本,这样就导致蜘蛛在去抓的时候,会遇到新IP和老IP的问题,在站点没有告知更换IP的情况下,蜘蛛会认为站点目前存在问题,首先是减少抓取量,其次会判断是否把不可访问的页面下掉,这时候就出现了用户访问IP与蜘蛛抓取IP不一致的情况。所以建议站点在选择CDN服务时要选择稳定的CDN服务商,其次如果IP更换最好通过站长平台抓取诊断工具抓取测试,如果IP不正确可以点击下图红框“报错”提示给站长平台

2、Robots

  站长应该对robots都不陌生,但为什么还要提呢?有这样一种情况:站点需要更新robots文件,对站内部分内容禁止或放开抓取。但由于操作后没有检查是否生效,站长会默认为已经生效。同时还有一个生效周期的问题,那么站点需要在百度站长平台提供的robots检测工具中做一个抓取测试来验证是否生效。

如果看到robots内容和你更改后的内容不一致,有几种可能:第一种可能是网站没有全面布局,因为有的站点服务器可能在很多地方,你需要确认robots是否已全部推送;第二种可能是百度没有及时做更新,可以通过robots检测工具下方的更新按钮来告诉百度Robots有变化。

3、UA/IP

  UA封禁一般不会是站点主观错误操作,往往是意外情况,站点在程序中过滤误操作UA封禁,而通常却不知道自己封禁了蜘蛛。只有在逐步的排查才会发现这种概率很小的问题。所以在流量异常中我们在运维篇中把这项列进去,让站点注意这些个细节。

  那么当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,useragent相关的设置中是否有Baiduspider UA,并及时修改。禁止所有来自百度的抓取: User-agent: Baiduspider Disallow: /

  IP封禁往往是遇到CC攻击的时候不知道哪些是真百度蜘蛛和仿冒百度蜘蛛而封禁了蜘蛛IP,这里我们建议通过DNS反查方式让站点了解哪些是真实蜘蛛,根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

  A、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

  B、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

  C、在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

更多内容请访问:http://zhanzhang.baidu.com/college/articleinfo?id=34

4、安全/管理不善

  安全问题在站长平台能观察到的绝大多数属于管理问题,站点被黑客钻了漏洞而受到了惩罚等,且惩罚力度与站点漏洞的存在时间成正比。

  A、域名泛解析

  近几个月域名泛解析是一个非常经典的案例,很多网站由于安全意识薄弱、密码简单被黑客钻了空子,解析出了大量非本站内容的低质页面,导致百度搜索引擎对整站采取了临时措施,使得站点流量掉了很多甚至清零。

  B、网站被黑

  网站被黑跟泛解析也有相似之处,网站内有大量的垃圾页面都是黑客创造出来的,导致受到惩罚,给站点带来致命的打击。

  C、网页被挂马

  其实这也是被黑的一种,但比被黑释放垃圾页面更为隐蔽,这类案例主要出现在企业网站或者是一些比较小的网站上,黑客直接在页面上放置展现广告代码,而且会判断来访者是普通用户还是蜘蛛,然后区别对待;或者是仅给某一个地区的用户访问挂马页面,给蜘蛛和其他大部分所在地展现正常页面等,这些其实都是非常隐蔽的行为,没有用户举报站点也很难发现,但百度搜索引擎无法容忍这样的页面出现在搜索结果里,自然这些站点会受到惩罚。

  D、UGC站点被SPAMMER群发

  最后说UGC站点,所有以用户贡献内容的站点在审核机制上一定要加强防范,目前平台能够接到的不少案例都是UGC站点存在监管不利,导致有大量的垃圾内容在线上,当垃圾内容与正常内容的比例达到一定阈值,就有可能整站被百度搜索引擎惩罚。

站点流量异常原因之特征页分析

1、分析流程图

  流程图会按照三步来让站点确认到底是正常下跌还是异常下跌,在此站长第一步首先要找到特征页面

2、查找特征页面

  首先说什么叫特征页面,即流量下滑比较多的页面,这类页面又是结构化页面,内容不同页面所抢的关键词不同,但页面框架结构是统一的。比如关键词“北京旅游、上海旅游、天津旅游”对应A类页面,那么在此类关键词消失后,这个A类页面也没有流量,于是A类页面就是我们说的特征页面,要看看A类页面发生过哪些变化。首先找出昔日的流量对比,过去一段时间与现状的差距。其次回忆一下近期此类页面有怎样的改动,这些改动是否存在运维篇的问题,那么观察几日后给出流量损失范围。

3、分析异常特征

  从流量损失范围大体可以判定两种情况:

  A、排名无,流量无

  上面所讲的关键词排名无,网站流量无——很有可能是受到了惩罚,可能是局部惩罚也可能是站点整体被惩罚。具体原因可以参见之前推出的石榴算法及绿萝2.0算法,当然大量算法我们没有公布出来,各位可以参考《百度网页搜索质量白皮书》,观察站点是否存在此类问题。

  B、部分排名无,流量损失较大

  例如,特征页面A本对应多个关键词,有些关键词下已找不到A,而有些仍然可以找到,基本可以说明该页面并不在惩罚范围内,可能是百度算法在做调整。而如果所有关键词下都难以找到A页面,那极有可能是被惩罚了。

站点流量异常原因之相关因素:外链爆增

  站长平台在接到很多案例中,有很大一部分是因为外链异常而流量受到较大影响的,在此先给大家说一下外链工具显示数据来源及规则:外链工具是统计站点在一段时间内,链接到您网站的URL、被链接网页URL、锚文本等内容,站长可以通过这些数据识别和判断哪些是符合预期的外链投票、哪些是不符合预期的。那么如果发生外链爆增时绝大部分站点是不符合预期的增长,这里我们从三种情况出发来剖析和解决此类问题。

1、首页、频道页、重点页面被恶意投票

  A、此类事件主要是在被链接URL被莫名的站点大量投票,如果遇到此种现象一定要注意,很有可能是恶意投票行为,目的是通过大量垃圾站点对站点的投票,降低站点在百度搜索引擎中的评价。

  B、此类问题的措施只能是站点加大拒绝力度,从而屏蔽掉无意义的投票链接

2、用户创建页面,垃圾个人页,内容页

  A、UGC站点尤其要关注这点,之前谈过要加大审核及处理力度,杜绝让用户创建垃圾内容、个人页面。不良分子为了排名的效果更好,会再对这些垃圾页进行投票。这里特别要提醒的是,如果站点审核力度及时就不会发生此类事情,只有站点内容长期处于无人管理的状态时才会出现如此问题。

  B、此类问题的措施只能是站点加大审核力度,关闭垃圾页面,同时拒绝这些垃圾投票的域名及站点

3、拼接搜索结果页漏洞

  拼接搜索结果页是通过地址栏参数变化而动态创建出的页面,例如下图这些页面,TITLE中往往包含了过多的垃圾词,提交给搜索引擎后,为了排名效果再对这些页面进行投票而产生了过量的外链投票。

  

  此类页面不良分子就是钻了拼接搜索结果页的title、description可以显示拼接代码中的垃圾内容。理论上百度搜索引擎会拒绝收录这样的页面,但毕竟站点数量巨大还会出现遗漏。所以如果想解决此类问题,可以在百度站长平台反馈中心反馈下述内容:

  1)举例已收录被链接页面

  2)给出搜索此类页面关键词的链接

  3)描述页面收录量及外链量(给出外链分析中的数据)

4、如何预防产生拼接搜索结果页

  上面也说了,拼接搜索结果页是不良分子钻了可以控制页面的title、description内容而制造了大量的页面,从而进行投票的行为。那么如果在拼接搜索结果页中禁止这些无效参数展示在Title和Description中自然就没有这个漏洞,下图以携程为例,拼接页面中的title和description都是固定内容,无论页面参数怎么变化这些都不会改变。

时间: 2024-08-27 08:38:22

站点流量异常追查文档的相关文章

程序错误、异常写入文档中示例

import traceback try: raise Exception('这是一个错误信息') except: errFile=open('err.txt','w') errFile.write(traceback.format_exc()) errFile.close() print('错误信息已经写入err.txt文件中') 原文地址:https://www.cnblogs.com/chenxi188/p/10523957.html

Django 1.10文档中文版Part1

目录 第一章.Django1.10文档组成结构1.1 获取帮助1.2 文档的组织形式1.3 第一步1.4 模型层1.5 视图层1.6 模板层1.7 表单1.8 开发流程1.9 admin站点1.10 安全性1.11 国际化和本地化1.12 性能和优化1.13 Python兼容性1.14 地理框架1.15 常用WEB应用工具1.16 其它核心功能1.17 Django开源项目 第二章.起步2.1 Django速览 2.1.1 设计你的模型model 2.1.2 安装model 2.1.3 使用AP

Core Web API上使用Swagger提供API文档

在ASP.NET Core Web API上使用Swagger提供API文档 我在开发自己的博客系统(http://daxnet.me)时,给自己的RESTful服务增加了基于Swagger的API文档功能.当设置IISExpress的默认启动路由到Swagger的API文档页面后,在IISExpress启动Web API站点后,会自动重定向到API文档页面,非常方便.这不仅让我能够快速省查API设计的合理性,同时从API的使用角度也为我自己提供了便捷.下图就是我的博客系统RESTful API

[sharepoint]rest api文档库文件上传,下载,拷贝,剪切,删除文件,创建文件夹,修改文件夹属性,删除文件夹,获取文档列表

写在前面 最近对文档库的知识点进行了整理,也就有了这篇文章,当时查找这些接口,并用在实践中,确实废了一些功夫,也为了让更多的人走更少的弯路. 系列文章 sharepoint环境安装过程中几点需要注意的地方 Rest API的简单应用 rest api方式实现对文档库的管理 通过WebClient模拟post上传文件到服务器 WebHttpRequest在sharepoint文档库中的使用 [sharepoint]Rest api相关知识(转) [sharepoint]根据用户名获取该用户的权限

[HTML5_WebWorkers]HTML5 web通信(跨文档通信/通道通信)简介

一.简单概要 web通信(洋名:web messaging)是一种文档中独立的浏览上下文间的DOM不会被恶意的跨域脚本暴露数据分享方式. 得得得,术语啊什么的,比看到凤姐还头疼.有必要把上面一句话拆开讲: web通信是一种数据分享方式(有屁话之嫌): 通信的主体是“浏览上下文”(这是纳尼?): 哦,“浏览上下文”呢是“一个将 Document对象呈现给用户的环境”,你可以近似理解为平常我们看到的某个页面所处的环境: web通信不会有DOM被恶意暴露的危险: 目前应用比较多的就是iframe之间的

Beautiful Soup 4.2.0 文档

Beautiful Soup 4.2.0 文档 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况. 文档中出现的例子在Python2.7和Python3.2中的执行结果相

Sandcastle生成帮助文档

http://www.cnblogs.com/net515/p/3311584.html Sandcastle帮助文档生成器使用介绍 一.软件介绍 Sandcastle是一个管理类库的文档编译器,是用于编译发布组件(Assembly)信息的一个工具,这个工具通过反射和 Xslt技术,可以从dll文件及其xml注释(命令行编译时加/doc参数或vs2005设置项目属性得到)得到一个完整的帮助文档,格式可以是 Html或CHM甚至是任何自定义的格式. Sandcastle与.NET Framewor

drf 生成接口文档

REST framework可以自动帮助我们生成接口文档.接口文档以网页的方式呈现. 自动接口文档能生成的是继承自APIView及其子类的视图. 一.安装依赖 REST framewrok生成接口文档需要coreapi库的支持. pip install coreapi 二设置接口文档访问路径 在总路由中添加接口文档路径. 文档路由对应的视图配置为rest_framework.documentation.include_docs_urls, 参数title为接口文档网站的标题. from rest

maven 学习---生成基于Maven的项目文档站点

在Maven中,可以使用“mvn site”,为您的项目信息生成文档站点. mvn site 生成的网站是在项目的“target/site”文件夹中. mvn site 示例 请参见通过“mvn site”命令生成的文件列表. 文档页面的样本如下. 想知道自己开发的项目的信息可以试试. 标签:Maven    项目    文档    站点 本站文章除注明转载外,均为本站原创或编译欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创优秀实例教程转载请注明:文章转载自:http://www.yii