站点流量异常追查文档 / 憋错料

一，运维篇

　　1、CDN

　　2、robots

　　3、UA/IP

　　4、安全问题/管理不善

　　　　A、域名泛解析

　　　　B、网站被黑

　　　　C、网页被挂马

　　　　D、UGC站点被SPAMMER群发

二，特征页分析

　　1、分析流程图

　　2、查找特征页面

　　3、分析异常特征

　　　　A、排名无，流量无

　　　　B、部分排名无，流量损失较大

三，相关因素——外链爆增

　　1、首页、频道页、重要页面被恶意投票

　　2、用户创建页面、垃圾个人页、内容页被恶意投票

　　3、拼接搜索结果页漏洞

　　4、如何预防产生拼接搜索结果页

什么是流量异常

来自百度搜索的流量突然间降了50%以上，且是持续性的，即已经连续四至五天流量没有明显涨幅变化。如下图所示：

如果出现上述现象，建议大家从运维角度、页面特征，以及相关因素来判断原因。

站点流量异常原因之运维篇

1、CDN

　　一些网站会使用CDN加速服务，最近每周站长平台都会接到一两个跟CDN加速问题有关的案例。CDN这里存在一个问题：不同的CDN服务商在全国分布的节点数不同，站点在使用CDN服务时，同一地区CDN给蜘蛛返回的IP地址要和给用户的一致。那么现实情况是，部分CDN服务商出于成本考虑与资源使用率的问题，会在不告知用户的情况下变更IP地址以节约成本，这样就导致蜘蛛在去抓的时候，会遇到新IP和老IP的问题，在站点没有告知更换IP的情况下，蜘蛛会认为站点目前存在问题，首先是减少抓取量，其次会判断是否把不可访问的页面下掉，这时候就出现了用户访问IP与蜘蛛抓取IP不一致的情况。所以建议站点在选择CDN服务时要选择稳定的CDN服务商，其次如果IP更换最好通过站长平台抓取诊断工具抓取测试，如果IP不正确可以点击下图红框“报错”提示给站长平台

2、Robots

　　站长应该对robots都不陌生，但为什么还要提呢？有这样一种情况：站点需要更新robots文件，对站内部分内容禁止或放开抓取。但由于操作后没有检查是否生效，站长会默认为已经生效。同时还有一个生效周期的问题，那么站点需要在百度站长平台提供的robots检测工具中做一个抓取测试来验证是否生效。

如果看到robots内容和你更改后的内容不一致，有几种可能：第一种可能是网站没有全面布局，因为有的站点服务器可能在很多地方，你需要确认robots是否已全部推送；第二种可能是百度没有及时做更新，可以通过robots检测工具下方的更新按钮来告诉百度Robots有变化。

3、UA/IP

　　UA封禁一般不会是站点主观错误操作，往往是意外情况，站点在程序中过滤误操作UA封禁，而通常却不知道自己封禁了蜘蛛。只有在逐步的排查才会发现这种概率很小的问题。所以在流量异常中我们在运维篇中把这项列进去，让站点注意这些个细节。

　　那么当您的网站不希望Baiduspider访问时，才需要该设置，如果您希望Baiduspider访问您的网站，useragent相关的设置中是否有Baiduspider UA，并及时修改。禁止所有来自百度的抓取： User-agent: Baiduspider Disallow: /

　　IP封禁往往是遇到CC攻击的时候不知道哪些是真百度蜘蛛和仿冒百度蜘蛛而封禁了蜘蛛IP，这里我们建议通过DNS反查方式让站点了解哪些是真实蜘蛛，根据平台不同验证方法不同，如linux/windows/os三种平台下的验证方法分别如下：

　　A、在linux平台下，您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

　　B、在windows平台或者IBM OS/2平台下，您可以使用nslookup ip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookup xxx.xxx.xxx.xxx（IP地址）就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

　　C、在mac os平台下，您可以使用dig 命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx（IP地址）就能解析ip，来判断是否来自Baiduspider的抓取，Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

更多内容请访问：http://zhanzhang.baidu.com/college/articleinfo?id=34

4、安全/管理不善

　　安全问题在站长平台能观察到的绝大多数属于管理问题，站点被黑客钻了漏洞而受到了惩罚等，且惩罚力度与站点漏洞的存在时间成正比。

　　A、域名泛解析

　　近几个月域名泛解析是一个非常经典的案例，很多网站由于安全意识薄弱、密码简单被黑客钻了空子，解析出了大量非本站内容的低质页面，导致百度搜索引擎对整站采取了临时措施，使得站点流量掉了很多甚至清零。

　　B、网站被黑

　　网站被黑跟泛解析也有相似之处，网站内有大量的垃圾页面都是黑客创造出来的，导致受到惩罚，给站点带来致命的打击。

　　C、网页被挂马

　　其实这也是被黑的一种，但比被黑释放垃圾页面更为隐蔽，这类案例主要出现在企业网站或者是一些比较小的网站上，黑客直接在页面上放置展现广告代码，而且会判断来访者是普通用户还是蜘蛛，然后区别对待；或者是仅给某一个地区的用户访问挂马页面，给蜘蛛和其他大部分所在地展现正常页面等，这些其实都是非常隐蔽的行为，没有用户举报站点也很难发现，但百度搜索引擎无法容忍这样的页面出现在搜索结果里，自然这些站点会受到惩罚。

　　D、UGC站点被SPAMMER群发

　　最后说UGC站点，所有以用户贡献内容的站点在审核机制上一定要加强防范，目前平台能够接到的不少案例都是UGC站点存在监管不利，导致有大量的垃圾内容在线上，当垃圾内容与正常内容的比例达到一定阈值，就有可能整站被百度搜索引擎惩罚。

站点流量异常原因之特征页分析

1、分析流程图

　　流程图会按照三步来让站点确认到底是正常下跌还是异常下跌，在此站长第一步首先要找到特征页面

2、查找特征页面

　　首先说什么叫特征页面，即流量下滑比较多的页面，这类页面又是结构化页面，内容不同页面所抢的关键词不同，但页面框架结构是统一的。比如关键词“北京旅游、上海旅游、天津旅游”对应A类页面，那么在此类关键词消失后，这个A类页面也没有流量，于是A类页面就是我们说的特征页面，要看看A类页面发生过哪些变化。首先找出昔日的流量对比，过去一段时间与现状的差距。其次回忆一下近期此类页面有怎样的改动，这些改动是否存在运维篇的问题，那么观察几日后给出流量损失范围。

3、分析异常特征

　　从流量损失范围大体可以判定两种情况：

　　A、排名无，流量无

　　上面所讲的关键词排名无，网站流量无——很有可能是受到了惩罚，可能是局部惩罚也可能是站点整体被惩罚。具体原因可以参见之前推出的石榴算法及绿萝2.0算法，当然大量算法我们没有公布出来，各位可以参考《百度网页搜索质量白皮书》，观察站点是否存在此类问题。

　　B、部分排名无，流量损失较大

　　例如，特征页面A本对应多个关键词，有些关键词下已找不到A，而有些仍然可以找到，基本可以说明该页面并不在惩罚范围内，可能是百度算法在做调整。而如果所有关键词下都难以找到A页面，那极有可能是被惩罚了。

站点流量异常原因之相关因素：外链爆增

　　站长平台在接到很多案例中，有很大一部分是因为外链异常而流量受到较大影响的，在此先给大家说一下外链工具显示数据来源及规则：外链工具是统计站点在一段时间内，链接到您网站的URL、被链接网页URL、锚文本等内容，站长可以通过这些数据识别和判断哪些是符合预期的外链投票、哪些是不符合预期的。那么如果发生外链爆增时绝大部分站点是不符合预期的增长，这里我们从三种情况出发来剖析和解决此类问题。

1、首页、频道页、重点页面被恶意投票

　　A、此类事件主要是在被链接URL被莫名的站点大量投票，如果遇到此种现象一定要注意，很有可能是恶意投票行为，目的是通过大量垃圾站点对站点的投票，降低站点在百度搜索引擎中的评价。

　　B、此类问题的措施只能是站点加大拒绝力度，从而屏蔽掉无意义的投票链接

2、用户创建页面，垃圾个人页，内容页

　　A、UGC站点尤其要关注这点，之前谈过要加大审核及处理力度，杜绝让用户创建垃圾内容、个人页面。不良分子为了排名的效果更好，会再对这些垃圾页进行投票。这里特别要提醒的是，如果站点审核力度及时就不会发生此类事情，只有站点内容长期处于无人管理的状态时才会出现如此问题。

　　B、此类问题的措施只能是站点加大审核力度，关闭垃圾页面，同时拒绝这些垃圾投票的域名及站点

3、拼接搜索结果页漏洞

　　拼接搜索结果页是通过地址栏参数变化而动态创建出的页面，例如下图这些页面，TITLE中往往包含了过多的垃圾词，提交给搜索引擎后，为了排名效果再对这些页面进行投票而产生了过量的外链投票。

　　此类页面不良分子就是钻了拼接搜索结果页的title、description可以显示拼接代码中的垃圾内容。理论上百度搜索引擎会拒绝收录这样的页面，但毕竟站点数量巨大还会出现遗漏。所以如果想解决此类问题，可以在百度站长平台反馈中心反馈下述内容：

　　1）举例已收录被链接页面

　　2）给出搜索此类页面关键词的链接

　　3）描述页面收录量及外链量（给出外链分析中的数据）

4、如何预防产生拼接搜索结果页

　　上面也说了，拼接搜索结果页是不良分子钻了可以控制页面的title、description内容而制造了大量的页面，从而进行投票的行为。那么如果在拼接搜索结果页中禁止这些无效参数展示在Title和Description中自然就没有这个漏洞，下图以携程为例，拼接页面中的title和description都是固定内容，无论页面参数怎么变化这些都不会改变。

时间： 2025-01-18 00:47:11

站点流量异常追查文档

站点流量异常追查文档的相关文章

程序错误、异常写入文档中示例

Django 1.10文档中文版Part1

Core Web API上使用Swagger提供API文档

[sharepoint]rest api文档库文件上传，下载，拷贝，剪切，删除文件，创建文件夹，修改文件夹属性，删除文件夹，获取文档列表

[HTML5_WebWorkers]HTML5 web通信（跨文档通信/通道通信）简介

Beautiful Soup 4.2.0 文档

Sandcastle生成帮助文档

drf 生成接口文档

maven 学习---生成基于Maven的项目文档站点