url 网址规范化指的是当出现了有大于一个的链接指向含有相同内容的网页时,通过各种方法让搜索引擎只挑选其中一个最喜欢的的网址,同时告诉搜索引擎不收录和索引其他网址的过程,从搜索引擎的角度上说,url 规范化减少了对一个网站的重复页面的索引。网站重复页面问题也是搜索引擎优化(SEO)中很多人关注的一部分。url网址规范化是一个将url进行标准化的过程,Google中文官方博客建议我们指定url范式。
不规范的url网址
下面我们看看存在 url 网址规范化问题的例子:威尼斯人赌场
- www开头和不带www的域名不分,如顶级域名www.a.com 和a.com;子域名www.a.b.com和a.b.com;
- 动态页面网址和静态页面网址:如http://www.nowamagic.net/archives/137.html 和http://www.nowamagic.net/?p=137;
- 网址含有多余的部分:如含默认端口号:80;含有多余的默认文件名default.php, index.html等;含有多余的"/";
- 数据库空查询;无效的查询变量;
- 使用IP地址代替域名网址;
- 大小写不分:http://www.abc.cn/ABOUT.php 和 http://www.abc.cn/about.php;
随着Google 搜索引擎智能化的提高,它自动分析多个不同的网址指向相同重复页面情况,通过自然的网址规范化,慢慢选择其中一个google 认为是最好的url进行索引。但是这个过程明显提高了搜索引擎爬行索引页面的难度和时间周期。同时个人采取的内部和外部链接策略也将影响到google 进行智能 url 规范化的行为。多个不同网址指向同一内容页面,虽然非恶意的重复页面不会被搜索引擎惩罚,但至少会分散该页面的权重。因此采取一定的网址规范化方法是必要的。
网址URL规范化方法
- 顶级域名网址url, 指定www和不带www 中的一个
优化网站的内部链接结构,包括在网站架构中统一使用指定的url 格式,在文章中加入超级链接地址时一直使用同一个,搜索引擎看到哪个绝对地址用的最多,自然会对其另外相待。
针对 Google搜索引擎,我们可以通过google 网站管理员工具设置首选域来指定以哪个域名为准。(具体步骤:登陆google账号->添加网站->验证所有权 ->通过验证->点击网站网址进行管理->网站配置->设置->首选域),(注在验证网站所有权的过程中,要将www.domain.com和domain.com都进行验证,验证的方法有两种:在首页添加元标记,下载它提供的html文件上传到根目录元;)。
以WordPress博客为例,比如远方博客选择的首选域是nowamagic.net,则同时要在控制板后台将博客地址和安装地址也设置一下,这样首页所有调用显示的地址都是nowamagic.net了:控制板-设置-常规-博客地址和博客安装地址改为nowamagic.net。注:改了WordPress博客地址之后会出现无法登陆后台的情况,这时要到数据库管理中做相应的修改,如果你用的是虚拟主机,一般都可以通过虚拟主机管理后台安装好的phpmyadmin 工具管理数据库。在数据表中找到wp_options,修改博客安装地址siteurl和博客地址home为nowamagic.net。
- 给重复页面指定url范式
使用 rel="canonical" 标签属性来解决重复页面问题,也是google 引入的引以为豪的功能之一,指定url范式。
- 设置robots.txt文件,阻止那些不希望被搜索引擎检索的网址目录,url格式。
- 301 重定向
301重定向是将某一页面永久重定向至另外一页面。301转向也是SEO 广泛使用的一种对搜索引擎最为友好的转向方法之一。搜索引擎将收录永久重定向到的那个页面,自然也解决了 url 网址规范化问题。
典型的比如在linux系统apache服务器下, 可以通过修改.htaccess文件来实现301重定向。在.htaccess 文件中加入以下代码,该代码要写在url rewrite重写规则的前面。
redirect 301 /old.htm http://www.domain.com/new.htm 或 redirect permanent /old.htm http://www.domain.com/new.htm
如果是所有的domain.com 都要301永久重定向到 www.domain.com 则还要进行mod_rewrite。
RewriteEngine on RewriteCond %{http_host} ^www.dom.com [NC] RewriteRule ^(.*)$ http://dom.com/$1 [L,R=301]
其他windows主机等 可以通过php,asp,jsp 动态脚本实现。