猫宁!!!
参考链接:http://help.sogou.com/guide.html?v=1
虽然是与搜狗搜索相关的,但是在搜索引擎间可是通用的,而且总结的比较到位与全面。
第一、网站设计指南
每个网页都需要有合适的标题,网站首页标题建议使用站点名称或者站点代表的公司、机构名称;其余的内容页面,标题建议做成与正文内容的提炼和概括,建议格式“页面标题_站点名称”,这可以让您的潜在用户通过搜索引擎结果中的标题快速访问到您的页面。
充分利用网站首页或者频道首页的 description 标签,提供此网页内容的概括说明,形式为<meta name="description" content="此网页内容的概括说明" />,这将帮助用户和搜索引擎加强对你的网站和网页的理解。
网站应该有明晰的导航和层次结构,网站上重要的网页,应该能从网站比较浅层的位置找到,确保每个页面都可以通过至少一个文本链接到达。
为用户提供包含指向网站重要部分的链接的站点地图。如果站点地图中包含的链接数量过多,您应将该站点地图分成多个网页。
考虑用户可能使用什么字词来查找您的网页,并在网站中包含这些文字。
检查连接是否损坏,确保HTML格式正确,保证用户能够到达每一个网站中的页面。
尽量使用文字而不是图片、flash、Javascript等来显示重要的内容或链接,如果必须对文字性内容使用图片,请考虑使用“ALT”属性来加入一些描述性的文字。
尽量少使用frame和iframe框架结构,通过iframe显示的内容可能会被丢弃
如果网站采用动态网页,减少参数的数量和控制参数的长度将有利于收录。
网站改版或者网站内重要页面链接发生变动时,应该将改版前的页面301永久重定向到改版后的页面。
网站更换域名,应该将旧域名的所有页面301永久重定向到新域名上对应的页面。域名变换后您可以通过站长平台提交域名变换规则告知搜狗搜索您的站点已经更换域名。
第二、网站质量指南
请提供独特且相关的内容,使用户有理由首先访问您的网站。搜狗更喜欢独特的原创内容,如果您的站点内容只是从各处采集复制而成,很可能不会被收录。
谨慎设置您的友情链接,如果您网站上的友情链接,多是指向一些低质量的、甚至是垃圾或者涉及作弊的站点,那么您的站点可能会受到一些负面影响。
谨慎加入频道共建、内容联盟等不能产生或很少产生原创内容的计划,除非您能为内容联盟创造原创的内容。
搜狗会尽量收录提供不同信息的网页,如果您网站上相同的内容可以通过不同形式展现(如论坛的简版页面、打印页),可以使用robots.txt禁止spider抓取您不想向用户展现的形式,这也有助于节省您的带宽。
请不要针对搜索引擎而采用作弊行为,否则会受到处罚。
第三、关于搜狗spider
1. sogou spider User-Agent字段是什么?
Sogou web spider 和 Sogou inst spider。
请注意,根据标准,ua区分大小写。
2. sogou spider 访问我的网站过快怎么办?
sogou spider 对于同一个 IP 地址的服务器主机,只建立一个连接,抓取间隔速度控制在几秒一次。一个网页被收录后,最快也要过几天以后才会去更新。如果持续不断地抓取您的网站,请注意您的网站上的网页是否每次访问都产生新的链接。
如果您认为 sogou spider 对于您的网站抓取过快,请与我们联系,最好能提供访问日志中sogou spider 访问的部分。点此投诉spider抓取过快。
3. sogou spider 喜欢收录什么样的页面?
内容优良而独特的页面,如果您的页面内容和互联网上已存在的其他页面有高度的相似性,可能不会被 sogou spider 收录。
链接层次较浅的页面,过深的链接层次,尤其是动态网页的链接,会被丢弃而不收录。
如果是动态网页,请控制一下参数的数量和URL的长度。搜狗更偏好收录静态网页。
重定向次数越多的页面,越有可能被 sogou spider 丢弃。
4. sogou spider 如何反应我网站上页面的更新?
sogou spider 会根据网页的重要性和历史变化情况来动态调整更新时间,更新已经抓取过的页面。
5. 如何让 sogou spider 不抓我的网站?
sogou spider 支持 robots 协议,您可以在网站的根目录放置 robots.txt。
robots.txt 的规则请参阅 http://www.robotstxt.org/。需要注意的是,最新更新的 robots.txt 可能需要几个星期才能体现出效果来,另外,被您禁止 sogou spider 收录的网页将不能在搜狗搜索引擎上检索到。
6. 为什么我的网站已经加了robots.txt,还能在搜狗搜索出来?
因为搜索引擎索引数据库的更新需要时间。虽然sogou spider已经停止访问您网站上的网页,但搜狗搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。
如果您的拒绝被收录需求非常急迫,也可以通过删除快照反馈请求处理。
7. 我希望我的网站内容被搜狗索引但不被保存快照,我该怎么做?
sogou spider遵守互联网meta robots协议。您可以利用网页meta的设置,使搜狗显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。
和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,虽然您已经在网页中通过meta禁止了搜狗在搜索结果中显示该网页的快照,但搜狗搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。
8. sogou spider 会封锁那些网站?
作弊网站
内容低劣的网站
违反国家政策和法律的网站
9. 如何让 sogou spider 解除对我网站的封锁?
在您的网站的问题改正之后,点此提交申请解封。
第四、收录常见问题
1. 如何让我的网站(独立网站或者blog)被搜狗收录?
搜狗会收录符合用户搜索体验的网站和网页。
为促使搜狗Spider更快发现您的站点,您也可以通过网站收录提交单个页面申请收录,也可以通过使用搜狗站长平台pc站长工具中的sitemap提交申请批量收录。
搜狗会尽量收录提供不同信息的网页,如果您网站上相同的内容可以通过不同形式展现(如论坛的简版页面、打印页),可以使用robots.txt禁止spider抓取您不想向用户展现的形式,这也有助于节省您的带宽。
搜狗的网页收录机制,只和网页价值有关,与搜狗推广等商业因素没有任何关联。
提交前提示:
请给每个网页加上与正文相关的标题。如果是网站首页,则标题建议使用站点名称或者站点代表的公司/机构名称;其余的内容页面,标题建议做成正文内容的提炼和概括。这可以让您的潜在用户通过搜索引擎结果中的标题快速访问到您的页面。
请不要在标题中堆积与正文无关的关键词。
请确保每个页面都可以通过至少一个文本链接到达。搜狗无法识别Flash中的链接,这些链接所指向的网页,搜狗无法收录。
页面间的链接,尽量使用平实的超链,而不是重定向跳转。使用自动跳转的页面,可能会被搜狗弄丢。
尽量少使用frame和iframe框架结构,搜狗有可能会丢弃掉frame的内容页面。
如果是动态网页,请控制一下参数的数量和URL的长度。搜狗更偏好收录静态网页。
在同一个页面上,不要有过多链接。
2. 如何查看我的网站是否被搜狗收录?site语法看到的结果数是不是收录的真实数量?
站长常常会告知我们搜索结果不显示他们的网站,但其实这些网站仍然收录在搜索结果当中。要判断搜狗是否已经收录您的网站,可以通过执行site语法查看,直接在搜狗搜索框中输入site:您的域名,如site:www.sogou.com,如果可以查询到结果,那您的网站就已经被搜狗收录。 site语法得到的搜索结果数,只是一个估算的数值,仅供参考。
如果您的网站曾经被收录,但现在site语句仍然无法查找到,则可能是您的网站因作弊而遭到删除,请查看有关内容,修复所有问题后可以申请解除处罚。
3. 如何让我的网页不被搜狗收录?
搜狗严格遵循搜索引擎Robots协议,详细内容,参见http://www.robotstxt.org/
您可以设置一个Robots文件以限制您的网站全部网页或者部分目录下网页不被搜狗收录。
如果您的网站在被搜狗收录之后才设置robots文件禁止抓取,那么新的robots文件通常会在48小时内生效,生效以后的新网页,将不再建入索引。需要注意的是,robots.txt禁止收录以前搜狗已收录的内容,从搜索结果中去除可能需要数月。需要马上删除您可以通过删除快照提交您所需要从搜狗中删除的内容。
4. 为什么我的网站内一些不设链接的私密性网页,甚至是需要访问权限的网页,也会被搜狗收录?
sogou spider对网页的抓取,是通过网页与网页之间的链接实现的。
网页之间的链接类型,除了站点内部的页面链接之外,还有不同网站之间的互相链接。因此,某些网页即便通过您的网站内部链接无法访问到,但是,如果别人的网站上有指向这些页面的链接,那么这些页面还是会被搜索引擎所收录。
搜狗Spider的访问权限,和普通用户是一样的。因此,普通用户没有权限访问的内容,Spider也没有权限访问。之所以看上去某些访问权限限制内容被搜狗收录,原因有两点:
A. 该内容在Spider访问时是没有权限限制的,但抓取之后,内容的权限发生了变化。
B. 该内容有权限限制,但是由于网站安全漏洞问题,导致用户可以通过某些特殊路径直接访问。而一旦这样的路径被公布在互联网上,则Spider就会循着这条路径抓出受限内容。
如果您不希望这些私密性内容被搜狗收录,一方面可以通过robots协议加以限制;另一方面,也可以通过删除快照反馈给我们进行解决或者通过站长平台使用死链提交告知我们对其进行删除。
5. 为什么我的网站收录数量越来越少?
您的网站所在的服务器不稳定,sogou spider在检查更新时抓取不到网页而被暂时去除。
您的网站不符合用户的搜索体验。
6. 我的网页为什么会从搜狗搜索结果中消失?
搜狗并不允诺所有网页都可从搜狗搜索到。
如果您的网页长时间无法从搜狗搜索到,或者突然从搜狗的搜索结果中消失,可能的原因有:
A. 您的网页不符合用户的搜索体验
B. 您的网站所在服务器不稳定,被搜狗暂时性去除,稳定之后,问题会得到解决
C. 您的网页内容有不符合国家法律和法规规定的地方
D. 其他技术性问题
以下的说法是错误的和毫无根据的:
A. 参与了搜狗推广但未续费,会从搜狗搜索结果中消失
B. 参与了其他搜索引擎的广告项目,会从搜狗搜索结果中消失
C. 与搜狗旗下网站产生了竞争,会从搜狗搜索结果中消失
D. 从搜狗获得的流量太大,会从搜狗搜索结果中消失
7. 什么样的站点会受到搜狗欢迎?
站点应该是面向用户的,而不是面向搜索引擎的。一个受到用户欢迎的站点,最终也会受到搜索引擎欢迎;反过来,如果你的站点做了很多针对搜狗的优化,但却给用户带来大量负面体验,那么,你的站点最终肯定会受到搜狗的处罚。
搜狗更喜欢有原创内容的网页,而不是简单抄袭和采集互联网上已有内容的网页。对于已经被重复了千百遍的内容,搜狗可能会不予收录。
请谨慎使用你的站点链接。与一些垃圾站点做友情链接,很可能会使你的网站受到负面影响。因此,当有人很热情的要求你为他的站点提供友情链接时,请审视以下两点:
A.对方的站点在他那个领域是否是高质量的?站长间所谓的流量以及排名,很多都是用欺骗手段获取的,无法保持长久。
B.对方要求的链接名称是否和对方网站地位相称?用一个涵盖范围广泛的关键词来做一个内容非常局限的网站的链接名称,很可能会使你的网站受到负面影响。
经常保持内容更新。经常有新内容产生的站点,搜狗会注意到,并且大力欢迎,而且会频繁造访。
8. 我的网站更新了,可是搜狗收录的内容还没更新怎么办?
搜狗会定期更新所有网页(包括去除死链无效链接,更新域名变化,更新内容变化)。因此请耐心等一段时间,您的网站上的变化就会被搜狗察觉并修正。如果您急切需要删除或者更新您的网页信息,可以通过快照更新反馈给我们。
9. 为什么我的网站在搜狗收录的数量和其他搜索引擎相比相差很多?
通常情况下,这是正常的现象,不同的搜索引擎判断网页价值的算法不同。
第五、排序常见问题
搜狗的目标是为每个查询词返回最匹配的结果。搜索索引会随着互联网内容的增添或者修改不断发生变化,而且我们的排名算法也在实时更新,因此,搜索结果中网址的排名可能会发生变化。
如果您的网站已经和网络上其他网站建立起可靠的链接,那么,我们在下次抓取时便会再次添加您的网站,但是我们无法保证某一网页总是获得特定的良好的排名。
如果您网站在搜索结果中的排名与之前相比落差很大,请参考以下指南以确定问题:
A.查看您的robots.txt文件,检查您有没有拦截sogou spider访问自己网站上的任何网址或目录。
B.查看您的网站结构并确保其易于访问,大多数搜索引擎是基于文本的。如果您使用 JavaScript、DHTML、图片或富媒体(例如 Silver light)来创建导航和链接,那么,sogou spider在抓取您的网站时可能会遇到问题。请确保您的内容是可以读取的文本内容,以便用户和sogou spider能够更加容易地对您的网站进行访问。
C.如果您最近调整了您的网站结构,或将网站移到了新的域中,那么,以前排名较高的网页现在可能会排名不佳。为避免出现这种情况,请在您的 .htaccess 文件中使用 301 重定向(“永久重定向”)来灵活地重定向用户、sogou spider 和其他信息采集软件。(在 Apache 中,您可在 .htaccess 文件中进行以上操作;而在 IIS 中,您可通过管理控制台来进行以上操作)有关 301 HTTP 重定向的详细信息,请参阅http://www.ietf.org/rfc/rfc2616.txt。
D.确保您的内容具有实用性。我们建议您仔细考虑如何尽可能为用户带来最佳的体验。
1. 我的网站首页被收录了,但搜索网站名称却排不到第一位,怎么办?
排序算法非常复杂。我们的目标在于通过算法改进,让用户以最小的成本搜索到所需要的信息。过程中不免会有各种各样不尽如人意的地方。我们会非常欢迎您把您遇到的困惑和问题,反馈给我们。我们的工程师会对每一个问题都会有细致的跟踪和分析,以期将之最终解决。请将您的问题通过意见反馈提交给我们,以协助我们改进。
2. 搜索某关键词,我的网页在搜狗搜索结果的排序短期内变化剧烈,这正常吗?
通常情况下,这是正常的变化。一般来说,有三类原因导致排序发生变化:
A. 特定关键词所涉及的您的网页发生了变化
B. 特定关键词所涉及的其他网页发生了变化
C. 搜狗的排序算法发生了变化
3. 搜索某关键词,我的网页在搜狗的排序位置,和在其他搜索引擎的差异非常大,这正常吗?
通常情况下,这是正常的现象。因为不同搜索引擎的算法,都是不同的。
4. 我请一些“SEO”来为我的网站或者网页做优化,会有什么后果?
请合理的搜索引擎优化,参见搜狗的网站设计指南、网站质量指南以及作弊的定义与处罚。
A. 特定关键词所涉及的您的网页发生了变化
B. 特定关键词所涉及的其他网页发生了变化
C. 搜狗的排序算法发生了变化
5. 竞争对手是否能够对我的网站排名照成负面影响?
您的竞争对手基本上无法破坏您网站的排名,也不可能阻止您的网站被搜狗收录。如果您认为是链接到您网站的其他网站存在问题,我们建议您与相关网站的站长联系。
6. sogou Rank是什么?
网页评级(sogou Rank)是搜狗衡量网页重要性的指标,不仅考察了网页之间链接关系,同时考察了链接质量、链接之间的相关性等特性,是机器根据sogou Rank算法自动计算出来的,值从0至10级不等。网页评级越高,该网页在搜索中越容易被检索到。
www.sohu.com和sohu.com网页评级不一样: www.sohu.com 和 sohu.com 是两个不同的URL,虽然他们可能指向同一个页面(也就是通常所说的重定向),但是他们本身可能具有不同的内涵,因此,www.sohu.com和sohu.com被作为不同的网页来评级的,以便给您推荐更核心更优质的页面。同时,这也提示您,在对外推广的时候,尽量使用一致的URL写法,以获得更高的网页评级。
如何查询: 直接在搜索框中输入页面的URL,点击搜索或直接回车,即可查询到相应页面的评级。搜索结果第一条会显示该URL的评级、标题、摘要、链接、大小、更新时间等信息,并在下面列举出链向该页面的网页。这些结果,是您优化网页,提升网页评级的重要参考。
如何提升网页评级: 为了提高您的页面的评级,您需要努力提升页面品质,让更多同领域的高评级站点来链接您的页面。同时您需要慎用您的对外链接,尤其是对低质量站点的链接(如果链接到垃圾站点,将极有可能降低您的网页评级)。
如何提升网页评级: 为了提高您的页面的评级,您需要努力提升页面品质,让更多同领域的高评级站点来链接您的页面。同时您需要慎用您的对外链接,尤其是对低质量站点的链接(如果链接到垃圾站点,将极有可能降低您的网页评级)。
更新频率: 网页评级和链接数据每周自动更新一次。
第六、作弊的定义和处罚
1. 搜狗对作弊网站的定义
作弊网站是指在网页设计中,为了提升网页在搜索引擎中的排序,设计者采用的一系列欺骗搜索引擎的做法,主要表现是普通用户看到的页面与搜索引擎抓取到的内容不一致。
A.隐藏文本或链接。在网页中插入了搜索引擎可识别但用户看不见的文本内容或链接。包括使用与背景色相同或十分接近的文本或链接文字、超小号文字、文字隐藏层、页面底部下出现的多余内容、滥用图片 ALT 等;
B.滥用关键词。在网页源代码中大量堆积、重复某些关键词,甚至加入与网站内容毫不相关的热门关键词。
C.恶意互换链接。在网页中互相建立大量指向对方网站的链接。
D.欺骗性重定向、欺骗性更换网页内容。故意制造大量链接指向某一网址或者使用跳转域名欺骗用户进入与搜狗描述不相符的网站。
E.建立大量镜像网站。复制网站或网页的内容并分配以不同域名和服务器,欺骗搜索引擎对同一页面内容进行多次索引。
F.页面包含恶意广告、恶意代码或恶意插件。
G.页面有链接指向作弊网站的,可能会被视为作弊网站。
2. 搜狗对作弊网站的处罚
搜狗反作弊系统会实时监控作弊网站,并根据作弊等级对作弊网站进行相应的处罚。
常见处罚:降低网站在搜狗的整体排名;
一般处罚:仅索引正常网页比如首页,其他网页不予收录;
严厉处罚:包含非法内容及恶意程序、用户集中投诉的网站,搜狗将拒绝收录整个网站。
3. 如何举报作弊网站
除了搜狗反作弊系统,我们也非常欢迎广大用户积极举报作弊网站或网页。如果您发现有以上作弊行为或者包含非法内容的网站,请及时与我们联系。
打击作弊网站,提升搜索品质,搜狗感谢您的参与!
4. 如何申请解除处罚
被搜狗视为有作弊行为的网站,在清除作弊内容后,点此申请解除作弊处罚。经过搜狗工作人员的审查,如果确认网站已经不存在作弊行为,搜狗将恢复对该网站的正常收录。
解除处罚的网站一旦被发现再次作弊,将会受到更为严厉的处罚。
需要说明的是,搜狗技术和产品部门只对用户搜索体验负责。以下的说法都是错误的和毫无根据的:
A.我成为搜狗的广告客户或者联盟网站,就可以重新被收录
B.我给搜狗若干钱,就可以重新被收录
C.我认识搜狗的某某人,就可以重新被收录
第七、“网站被黑”如何处理
1. 什么是网站“被黑”?
网站被黑,是指黑客利用网站的程序、设置等方面的安全漏洞或管理员安全疏忽(如密码复杂度低),未经管理员授权,对网站进行了篡改(例如添加垃圾内容或者添加其他网页)或者向网站注入恶意代码等。
2. 如何知道是否“被黑”?
A.分析系统日志、服务器日志,检查自己站点的页面数量、流量等是否有异常波动,是否存在异常访问或操作日志
B.检查网站文件是否有不正常的修改,尤其是首页等重点页面
C.网站页面是否引用了未知站点的资源(图片、JS等),是否被放置了外站的异常链接
D.检查网站是否有不正常增加的文件或目录
E.检查网站目录中是否有非管理员打包的网站源码、未知txt文件等
3. 如何处理“被黑”?
如果您的网站被黑或者感染了恶意软件,则应该迅速采取措施进行修复,搜狗建议您进行以下步骤:
避免问题扩大:
A.立即关停自己的网站以避免感染其他网站(如果您有权访问自己的服务器则最好将其配置为返回503状态代码);
B.与自己的网络托管商联系了解是否已经采取措施解决问题;
C.更改所有用户和所有账户的密码(例如,FTP 访问密码、管理员帐户密码、内容管理系统授权帐户密码);
B.删除所有被串改或被恶意增加的页面,并通过搜狗站长平台通过死链提交告知我们删除搜狗搜索结果中的被黑数据。
评估损失:
A.使用最新的扫描程序扫描您的计算机,找出任何可能由黑客添加的恶意代码。请务必扫描所有内容,而不是仅扫描基于文本的文件,因为恶意内容往往会嵌入图片中。
B.删除被黑的网页或网址。这样可防止系统向用户提供被黑的网页。
C.向我们报告网上诱骗网页。
查看 antiphishing.org中针对被黑的网站。
如果您还有其他网站,请检查它们是否也已被黑。
如果有权访问自己的服务器,请继续执行以下步骤:
检查自己的网站中是否有已遭到攻击的开放重定向网址。
根据所用的网站平台,检查 .htaccess 文件 (Apache) 或其他访问控制机制,以找出恶意更改。
检查服务器日志,以查看文件被黑的时间(记住,黑客能更改日志)。查找是否有可疑的活动,例如失败的登录尝试、命令(尤其是以根用户身份发出的命令)历史记录或未知的用户帐户。
清理自己的网站:
清理自己的内容,根据病毒扫描程序识别结果删除黑客添加的所有网页、垃圾内容和可疑代码。如果您备份了内容,则可考虑彻底删除自己的内容,然后替换为已知的最新完好备份(已核实既无漏洞又不含被黑内容的一次备份),可以通过站长平台sitemap提交告知我们更新数据。
如果有权访问自己的服务器,请继续执行以下步骤:
将所有软件包都更新到最新版本。我们建议您使用可靠的来源彻底重新安装操作系统,以确保删除黑客篡改的所有内容。另外,如果安装了博客平台、内容管理系统或任何其他类型的第三方软件,请务必将其重新安装或进行相应更新。。
确信自己的网站不含漏洞后再改一次密码。
将系统设置为可公开访问。更改服务器配置,使其不再返回 503 状态代码,并且采取所有其他必要措施向公众开放自己的网站。
申请解除屏蔽:
当您按照以上提示仔细排除异常后,可以告知我们解除对您网站的屏蔽,在未完全排除全部异常的状态下提交申请将无法通过我们的检查,进而无法解除屏蔽。
4. 如何防止“被黑”?
A.定期检查服务器日志等方式发现问题,检查是否有可疑的针对非前台页面的访问;
B.经常检查网站文件是否有不正常的修改或者增加;
C.关注操作系统,以及所使用程序的官方网站。及时下载补丁,修补安全漏洞;必要时建议直接更新至最新版本;
D.修改开源程序关键文件的默认文件名,作弊者通常通过程序自动扫描某些特定的文件是否存在来判断是否使用了某套程序;
E.修改默认管理员用户名,提高管理后台的密码强度,使用字母、数字以及特殊符号多种组合的密码;
F.关闭不必要的服务以及端口;
G.关闭或者限制不必要的上传功能;
H.设置防火墙等安全措施;
I.若问题反复出现,建议重新安装服务器操作系统,并重新上传备份的网站文件;
J.缺乏专业维护人员的网站,建议向专业安全公司咨询;
第八、从搜狗中删除内容
要从搜索结果中删除内容(包括网页摘要、标题、网页内容,或者整个网址或网站),网站拥有者可以选择使用多种方法。比如,从网页中删除相关信息、将网页从网络中彻底删除,以及通过标记告诉搜狗不要抓取相应网页。以下将列举删除内容常见的几种情况。
网站已经更改,删除过时信息:
如果网页内容(无论是内容还是网页标题或者其他信息)已经更改,则在我们下次抓取网站并刷新索引前,网页快照仍然会包含原有的内容,因而这些内容仍然会出现在搜索结果中,您可以申请更新快照来更新快照信息,或者通过站长平台sitemap提交来告知我们更新内容。
我想从搜索结果中彻底删除某个网页:
为确保永久删除您的内容,请进行以下某项操作。如果您没有进行相应操作,那么您的网站稍后可能会重新显示在搜索结果中。
A.如果网页已不存在,请确保服务器返回 404(未找到)或 410(不存在)。这样可让搜狗知道该网页已不存在,无需再在搜索结果中显示。
B.如果网页仍存在,但您不想让其显示在搜索结果中,请使用 robots.txt 阻止 sogou spider 进行抓取。请注意,在通常情况下,即使您已通过 robots.txt 禁止抓取某个网址,但如果我们在其他网站中发现该网址,仍会将相应网页编入索引。
此外,如果要从搜索结果中删除非 HTML 格式的文件(例如可下载的 PDF),则您或网站站长应确保从服务器中删除该文件。
我想从搜索结果中删除整个网站或某个目录的内容:
如果您是网站拥有者,则需要在验证网站所有权后申请删除整个网站或目录。
为确保永久删除您的目录或网站,请使用 robots.txt 阻止抓取工具访问该目录(如果要删除的是网站,则应阻止抓取工具访问您的整个网站)。我们建议您在请求删除目录前或请求删除后不久执行该操作。否则,您的内容稍后可能会重新显示在搜索结果中。仅返回 404 HTTP 状态代码还不够,因为可能出现这样一种情况:即某个目录返回了 404 状态代码,却仍然分发其中的文件。通过使用 robots.txt 禁止抓取目录,可确保将目录的所有子项也一并排除。
完成上述某步操作后,您就可以发出删除请求,从搜索结果中删除相应目录及其所有内容。
删除 https://www.example.com 的同时还会删除 http://www.example.com,以及http://example.com 和 https://example.com。
如果您不是网站拥有者,请通过网站联系网站管理员,要求他通过以上步骤进行删除。搜狗没有权利控制互联网中的内容。
请求删除网站时,请务必谨慎。只有在您想从搜狗的索引中永久删除网站的所有内容时,才应该请求删除网站。
原文地址:https://www.cnblogs.com/landesk/p/10984452.html