新站帮助 Google 查找、抓取网站和创建索引的最佳做法

遵循这些指南有助于 Google
查找您的网站、将其编入索引和进行排名。即使您选择不采纳这些建议,我们也强烈建议您对“质量指南”多加留意,其中简要说明了可能导致网站从 Google
索引中被彻底删除或者被系统或手动标识为垃圾网站的一些违规行为。如果一个网站被标识为垃圾网站,那么它可能不会再出现在 Google.com 或任何 Google
合作伙伴网站的搜索结果中。

  • 设计和内容指南

  • 技术指南

  • 质量指南

在您的网站创建完成后

    • 对于应知道您网页情况的所有网站,请务必通知它们您的网站已处于在线状态。

设计和内容指南


    • 网站应具有清晰的层次结构和明确的文本链接。每个网页应至少可以通过一个静态文本链接打开。

    • 为用户提供站点地图,地图中应包含有指向网站重要部分的链接。如果站点地图中包含的链接数量过多,您应将该站点地图分成多个网页。

    • 将特定网页上的链接限制在合理的数量内。

    • 网站应实用且信息丰富,网页文字应清晰、准确地表述要传达的内容。

    • 要考虑到用户会使用哪些字词来查找您的网页,确保网站上确实包含了这些文字。

    • 尽量使用文字而不是图片来显示重要的名称、内容或链接。Google
      抓取工具无法识别图片中所含的文字。如果您必须使用图片代替文字性内容,请考虑使用“ALT”属性添加一些描述性文字。

    • 确保 <title> 元素和 ALT 属性具有描述性且准确无误。

    • 检查链接是否损坏,以及 HTML 格式是否正确。

    • 如果要使用动态网页(即网址中包含“?”字符),请注意并非每一个搜索引擎信息采集软件都能抓取动态和静态网页。这有助于缩短参数的长度并减少参数的数量。

技术指南


    • 使用诸如 Lynx 的文本浏览器来检查您的网站,因为大多数搜索引擎“蜘蛛”程序查看您网站的方式与 Lynx 几乎一样。如果诸如
      Javascript、Cookie、会话 ID、框架、DHTML 或 Flash
      等复杂功能造成您无法在文本浏览器中看到整个网站,则搜索引擎信息采集软件在抓取您的网站时可能会遇到问题。

    • 允许搜索漫游器在不使用可跟踪其网站访问路径的会话 ID
      或参数的情况下抓取您的网站。这些技术对跟踪单个用户的行为非常有用,但漫游器的访问模式却完全不同。如果采用这些技术,可能会导致对网站的索引编制不完整,因为漫游器可能无法排除那些看上去不同、但实际却指向同一个网页的网址。

    • 确保您的网络服务器支持 If-Modified-Since HTTP 标头。通过该功能,您的网络服务器可以告诉 Google
      自上次抓取您的网站以来,内容是否已发生变化。支持该功能可以节省您的带宽和开销。

    • 利用网络服务器上的 robots.txt
      文件。该文件会告诉抓取工具哪些目录可以抓取,哪些目录不可抓取。确保该文件是适合您网站的最新版本,以免意外阻止 Googlebot 抓取工具。访问http://code.google.com/web/controlcrawlindex/docs/faq.html,了解如何在漫游器访问您的网站时对其提供指示。您可以利用
      Google 网站站长工具中提供的 robots.txt
      分析工具
      对 robots.txt 文件进行测试,确保正确使用该文件。

    • 尽可能确保广告不会影响搜索引擎排名。例如,robots.txt
      文件
      会阻止抓取 Google AdSense 广告和 DoubleClick 链接。

    • 如果您的公司购买了内容管理系统,请确保搜索引擎可以抓取该系统创建的网页和链接。

    • 使用 robots.txt 可避免抓取搜索结果页或其他自动生成的网页,这些网页不会为搜索引擎用户带来太多额外价值。

  • 监控网站的性能并优化加载时间。Google
    的目标是为用户提供相关度最高的搜索结果以及最佳用户体验。飞快的网站速度可以提高用户满意度,还可改善网页的整体质量(尤其对于互联网连接速度慢的用户),我们也希望网页的总体速度会随着网站站长对各自网站的改善而提高。

    Google 强烈建议所有网站站长定期使用 Page
    Speed
    YSlowWebPagetest 或其他工具来监控网站性能。如需更多信息、工具和资源,请参见让网络变得更快。此外,网站站长工具中的网站性能工具会向您显示全球用户浏览您网站时所体验到的速度。


质量指南

这些质量指南涵盖了最常见的作弊形式或操纵行为,对于此处未列出的其他误导行为,Google
也会进行查处。切勿抱有侥幸心理,认为某种欺骗手段未在本页中列出,Google
就会认可该手段。作为网站站长,与其花费大量时间寻找可以钻的漏洞,不如尽其所能维护基本原则,以便为用户带来更好的体验,从而提高的排名。

如果您认为有其他网站正在滥用 Google 的质量指南,请提交垃圾内容报告告知我们。Google
希望能开发出灵活的自动解决方案来解决上述问题,因而尝试尽量避免手动处理违规行为。我们可能不会针对所有举报都一一做出手动操作回应,而且垃圾信息举报会根据对用户的影响排定优先顺序,有时,这可能会导致从
Google
的搜索结果中完全删除含有垃圾内容的网站。然而,并不是所有手动操作都会执行删除操作。即使我们对被举报的网站采取了相应措施,这些操作的影响也可能不会很明显。

质量指南 - 基本原则

    • 您在设计网页时主要考虑的应该是用户,而不是搜索引擎。

    • 请不要欺骗用户。

    • 请不要为了提高搜索引擎排名而弄虚作假。一条很好的经验法则是,您在向竞争对手网站或 Google
      员工解释自己的作为时是否感到坦然。另一个有用的测试手段是扪心自问:“这能否给我的用户带来帮助?如果没有搜索引擎,我会这样做吗?”

    • 考虑什么可让您的网站独一无二、有价值或吸引浏览者。让您的网站在相应领域中出类拔萃。

质量指南 - 具体指南

避免使用以下方法:

    • 创建带有恶意行为(如网上诱骗、安装病毒、木马或其他有害软件)的网页

建议养成以下良好习惯:

    • 监控网站是否受到黑客攻击,一旦出现被黑内容立即将其删除

如果您的网站违反以上一条或多条指南的要求,则 Google 可能会通过对该网站执行手动操作来加以防范。当您解决相关问题后,便可以提交网站的重新审核请求

时间: 2024-11-11 14:01:13

新站帮助 Google 查找、抓取网站和创建索引的最佳做法的相关文章

Google去抓取同一文件的流量就超过了700Mbps。DDOS爬虫攻击

只需要使用一台笔记本,打开几个web标签页,仅仅拷贝一些指向10MB文件的链接,Google去抓取同一文件的流量就超过了700Mbps. Google的FeedFetcher爬虫会将spreadsheet的=image("link")中的任意链接缓存. 如果我们将=image("http://example.com/image.jpg")输入到任意一个Google spreadsheet中,Google就会"派出"FeedFetcher爬虫去抓取

PHP curl模拟浏览器抓取网站信息

curl是一个利用URL语法在命令行方式下工作的文件传输工具. 官方解释 curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP.curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies,

剑走偏锋,robots.txt快速抓取网站的小窍门

在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的robots.txt文件,有时会给你打开另一扇抓取之门. 写爬虫有很多苦恼的事情,比如: 1.访问频次太高被限制: 2.如何大量发现该网站的URL: 3.如何抓取一个网站新产生的URL,等等: 这些问题都困扰着爬虫选手,如果有大量离散IP和账号,这些都不是问题,但是绝大部分公司都不具备这个条件的. 我们在工作中写的爬虫大多是一次性和临时性的任务,需要你快速完成工作就好,当遇到上面情况,试着看下robots.txt文件. 举个栗子:

抓取网站数据不再是难事了,Fizzler(So Easy)全能搞定

首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章都会被其他网站给抓取去了,不信你们看看就知道了.还有人抓取别人网站上的邮箱.电话号码.QQ等等有用信息,这些信息抓取下来肯定可以卖钱或者干其他事情,我们每天都会时不时接到垃圾短信或邮件,可能就这么回事了,有同感吧,O(∩_∩)O哈哈~. 本人前段时间了写了两个程序,一个程序是抓取某彩票网站的数据(双

Fizzler(So Easy)关于抓取网站数据,不再困难

首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章都会被其他网站给抓取去了,不信你们看看就知道了.还有人抓取别人网站上的邮箱.电话号码.QQ等等有用信息,这些信息抓取下来肯定可以卖钱或者干其他事情,我们每天都会时不时接到垃圾短信或邮件,可能就这么回事了,有同感吧,O(∩_∩)O哈哈~. 本人前段时间了写了两个程序,一个程序是抓取某彩票网站的数据(双

爬虫,可用于增加访问量和抓取网站全页内容

爬虫,可用于增加访问量和抓取网站全页内容 爬虫道德规范: 1.不让爬的咱不爬 2.让爬的咱不能一直爬 使用爬虫提高文章访客说明: 1.本爬虫使用代理IP 2.伪装浏览器 3.粘贴地址即可使用 4.原文件 github 地址:https://github.com/xpwi/py/blob/master/py%E7%88%AC%E8%99%AB/eyes.py 5.下载原文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/eyes.py # codin

用curl抓取网站数据,仿造IP、防屏蔽终极强悍解决方式

最近在做一些抓取其它网站数据的工作,当然别人不会乖乖免费给你抓数据的,有各种防抓取的方法.不过道高一尺,魔高一丈,通过研究都是有漏洞可以钻的.下面的例子都是用PHP写的,不会用PHP来curl的孩纸先学习一下这块再往下看,可以参考这篇文章:http://blog.csdn.net/linglongwunv/article/details/8020845 下面言归正传,先说一种常见的方式,伪造来源IP,这也是好多刷票朋友常用的方法: 1.简单一点的可以在header伪造X-FORWARDED-FO

python抓取网站URL小工具

1.安装Python requests模块(通过pip): 环境搭建好了! 2.测试一下抓取URL的过程: 抓取出来的URL有JavaScript代码,正则上还有待更加完善,有兴趣的可以研究下~! 工具源代码: #coding:utf-8 import sys import re import requests #获取输入URL,并获取网页text input = raw_input("please input URL format like this(http://www.baidu.com)

蜘蛛抓取网站的时候,抓取了不存在的页面

SEOer需要经常查看网站的服务器日志,从而掌握蜘蛛爬取了我们网站的什么地方,哪个页面.但是有时候却发现蜘蛛爬取了一些我们网站并不存在的页面,今天SEO教程就讲解下为什么百度蜘蛛会爬取我们网站没有的页面. 1.蜘蛛是怎么发现我们网站的链接的? 我们都知道,蜘蛛是沿着链接爬来爬去的,他会自动提取网站中所有的链接,保存入库,然后进行爬取,这也就是为什么我们觉得网站的收录少了或者刚发布的文章没 有被收录,我们就会说"引蜘蛛"了,其实引蜘蛛就是发外链了,当这条链接呗蜘蛛发现之后,他就会进行爬取