探讨webapp的SEO难题(上)

前言

网络蜘蛛无法解析javascript,至少百度是不能的,神马搜索差的更远,而我们的webapp的渲染展示完全由javascript驱动

所以蜘蛛访问webapp页面会得到一个白页面,比如,我们期待SEO看到的是这个样子的网页

其实他看到的是这个样子的代码:

那么这个问题应该如何处理呢?比较早的处理方案是提供两套代码,一套用于webapp一套用于SEO,比如:

webapp/blade/demo/debug.html是用于webapp的

而html5/blade/demo/debug.html就是用于SEO访问的

这样做确实是解决了SEO的问题,业务团队却需要写两套代码,这个情况是开发也不是不可接受的,举个例子来说

webapp一般是纯粹的前端开发,而且逻辑会相对复杂,而seo开发一定是会服务器端语言的

也就是说要完成此等开发需要预期1.3-1.5倍的工作量(SEO页面往往比较简单只做纯粹展示),而开发需要掌握前后端,而这个后端可能是php,java,.net

这个样子除了有点耗费人力之外没有什么问题,因为从重构角度来说,不相关的模块就是应该分离,显然这里的webapp与seo就是两个东西

这里是典型的业务关联,而非功能关联,写在一起总会遇到适配问题,但抱着一套代码解决两个问题的信念,我们今天来探索如何使用一套代码完成webapp与seo两个功能

PS:此文只是个人粗浅的理解,若是有误请您指正

.net解决思路

这里要webapp与SEO使用同一套代码完成不同的渲染的话,其实基本前提是必须的:

① 数据为先,而且是所有需要的数据必须事先定义,是否允许异步我们不予理睬,但是必须是实现准备好数据接口定义!

由于数据接口事先定义好了,webapp的数据请求就有两种方式,同步、异步

② 数据可以与html一起返回,写入到页面,不然就是先吐出html,然后前端解析后Ajax请求数据,渲染模板

这里处理的一个重点大家都发现了,他就是首屏渲染!所谓SEO其实就是要做到首屏渲染

PS:这里可能会发生数据交错依赖的需求,我们这里暂时不予理睬

而对于SEO,浏览器访问后需要直接返回完好无损的HTML,这里便必须同步处理,所以我们首屏的webapp的数据也采用一并返回的方法

这里服务器只会提供统一的restful接口,webapp使用underscore渲染页面,需要产生相同的数据就需要一个前提:

服务器需要解析前端webapp underscore模板的能力!这里便提供了初步的方案,简单模拟如下index.html:

<script type="text/blade_config">
  {
    url: ‘restful/index‘,
    template: ‘indexTmpt‘
  }
</script>
<script id="indexTmpt" type="text/blade_template">
  <ul>
    <% for(var i = 0, len = data.length; i < len; i++) { %>
      <li><%=data[i].name %></li>
    <% } %>
  </ul>
</script>
//模拟数据返回
data = [
  {id: 0, name: ‘item_0‘},
  {id: 1, name: ‘item_1‘},
  {id: 2, name: ‘item_2‘}
]

这里期待的webapp处理逻辑:

① 服务器解析config中的data,请求url后封装为数据

② 服务器处理模板与data,生成html,返回返回

当然这里可以将data返回页面由前端渲染,但是这样意义不大,不然直接渲染算了

期待的seo处理逻辑:

① 解析config,请求url生成data

② 根据前端模板,生成最终html

其实SEO的逻辑与前端一致了,没有什么不同,只不过生成静态html后的处理逻辑差距便大了

为什么不直接服务器吐出完整html?

到这里其实很多朋友就会开始质疑了,既然如此,我们何必要定义config中的url,或者template,这里直接使用服务器端渲染给给前端不好么?

这里还省了很多看似莫名其妙的配置,其实这样做还是有道理的

本来SEO需要会服务器端语言的,而一旦我们给出config中的约定与模板后,事实上整个便与服务器端没有任何联系了

虽说他与服务器端吐出差距不大,但是我业务开发人员事实上只需要掌握前端技能,这个设计的原因便是如此

整个程序对前端来说依旧只需要restful与模板,我可以单个前端同时完成webapp与seo,这就是其意义所在

这个方案的代价是:

① blade中的静态html需要变成动态脚本,这样服务器才能解析内容(比如index.html->index.aspx)

② 之前形成的编写方式需要改变,这里只是需要onShow、onHide事件点

③ 需要按套路出牌,必须定义url与template等东西

凡是有优点就有缺点,这样做的优点是:

① 一套代码解决webapp seo难题

② 可以使用.net解析模板,整个服务器来说比较稳定

缺点是:

① 对前端规范约束太多,碰到复杂业务逻辑会比较头疼,比如模板嵌套,数据依赖,这里的配置就麻烦了

② 不太“webapp”,诚然,此种做法不太webapp

③ 脆弱,问题同样来源于模板,一次模板语法解析错误,会造成服务器端抛错,整个程序便死掉了

这个问题的提出其实有点吹毛求疵,因为模板就前端解析也会经常出错,但是这里的不同点是前端稍微好调试点,如果抛给服务器端的话其调试成本会增加

.net解析javascript

扯了这么多,小钗这里为了证明自己原来是搞.net的这里做一个简单实现,这里便出现了第一个难点:

因为我们模板是underscore的语法(模板暂时不考虑嵌套),那么.net如何解析javascript代码呢??

.net解析javascript需要引入第三方库,借助一些javascript引擎,就如node之于V8;.net的话我们这里暂时使用IronJS做处理

https://github.com/fholm/IronJS

这里小钗不得不汗颜,一件事情,就是C#已经变成这个样子了,我却根本不知道......

PS:尼玛这个狗东西,我看得懂个毛线啊!!!所以本着不丢脸的原则,我们这里省略一万字

我们这里直接提供一个思路即可,因为该方案不是今日的重点,我的重心依旧是放在nodeJS上的,这里的思路是:

① 解析页面的config信息,取出url以及template

② 根据url发出请求返回数据,这里由于是局域网应该很快

③ 解析template,根据data生成静态html

④ 其它处理,返回客户端

模拟处理逻辑

我们这里略去url请求一步,假设数据已经返回,否则这里又要写.net程序

var data = [
  {id: 0, name: ‘item_0‘},
  {id: 1, name: ‘item_1‘},
  {id: 2, name: ‘item_2‘}
];

这里的模板字符串为:

var template = [
  ‘<ul>‘,
    ‘<% for(var i = 0, len = data.length; i < len; i++) { %>‘,
      ‘<li><%=data[i].name %></li>‘,
    ‘<% } %>‘,
  ‘</ul>‘
].join(‘‘);

然后我们要做的就是解析这个模板,生成对应的模板解析函数,这里是调试代码:

var data = [
  { id: 0, name: ‘item_0‘ },
  { id: 1, name: ‘item_1‘ },
  { id: 2, name: ‘item_2‘ }
];

var template = [
  ‘<ul>‘,
    ‘<% for(var i = 0, len = data.length; i < len; i++) { %>‘,
      ‘<li><%=data[i].name %></li>‘,
    ‘<% } %>‘,
  ‘</ul>‘
].join(‘‘);

var templateHandler = function (text, data) {

  var noMatch = /(.)^/;

  var escapes = {
    "‘": "‘",
    ‘\\‘: ‘\\‘,
    ‘\r‘: ‘r‘,
    ‘\n‘: ‘n‘,
    ‘\t‘: ‘t‘,
    ‘\u2028‘: ‘u2028‘,
    ‘\u2029‘: ‘u2029‘
  };

  var escaper = /\\|‘|\r|\n|\t|\u2028|\u2029/g;

  var templateSettings = {
    evaluate: /<%([\s\S]+?)%>/g,
    interpolate: /<%=([\s\S]+?)%>/g,
    escape: /<%-([\s\S]+?)%>/g
  };

  var render;
  settings = templateSettings;
  var matcher = new RegExp([
      (settings.escape || noMatch).source,
      (settings.interpolate || noMatch).source,
      (settings.evaluate || noMatch).source
    ].join(‘|‘) + ‘|$‘, ‘g‘);

  var index = 0;
  var source = "__p+=‘";
  text.replace(matcher, function (match, escape, interpolate, evaluate, offset) {
    source += text.slice(index, offset)
        .replace(escaper, function (match) { return ‘\\‘ + escapes[match]; });

    if (escape) {
      source += "‘+\n((__t=(" + escape + "))==null?‘‘:escape(__t))+\n‘";
    }
    if (interpolate) {
      source += "‘+\n((__t=(" + interpolate + "))==null?‘‘:__t)+\n‘";
    }
    if (evaluate) {
      source += "‘;\n" + evaluate + "\n__p+=‘";
    }
    index = offset + match.length;
    return match;
  });
  source += "‘;\n";

  if (!settings.variable) source = ‘with(obj||{}){\n‘ + source + ‘}\n‘;

  source = "var __t,__p=‘‘,__j=Array.prototype.join," +
      "print=function(){__p+=__j.call(arguments,‘‘);};\n" +
      source + "return __p;\n";

  return source;

  try {
    render = new Function(settings.variable || ‘obj‘, source);
  } catch (e) {
    e.source = source;
    throw e;
  }

  if (data) return render(data);
  var template = function (data) {
    return render.call(this, data);
  };

  template.source = ‘function(‘ + (settings.variable || ‘obj‘) + ‘){\n‘ + source + ‘}‘;

  return template;
}

templateHandler(template, data)

首次调试爆了很多错误,而且服务器端的调试比较费力,错了只能靠经验去猜测

这里返回的是需要构造成函数的字符串,但是我们看到我们的“ul”等标签被吃掉了!!!

var __t,__p=‘‘,__j=Array.prototype.join,print=function(){__p+=__j.call(arguments,‘‘);};
with(obj||{}){
__p+=‘‘;
 for(var i = 0, len = data.length; i < len; i++) {
__p+=‘‘+
((__t=(data[i].name ))==null?‘‘:__t)+
‘‘;
 }
__p+=‘‘;
}
return __p;

我们这里一旦调用就抛了一个错误,这个时候一般是模板或者传入数据出错了,可惜的是他是对其中一段语法不可解析!这里从侧面反映出一个问题:

该方法若是模板出错会导致程序无法运行,如果是node的话很可能就crash了!

PS:这里由于CLR4解析javascript的时候字符串的replace遇到正则时有问题,在此逗留3小时,这里把我搞惨了,定位就很久最后还得重写模板解析!!!

  1 var data = [
  2   { id: 0, name: ‘item_0‘ },
  3   { id: 1, name: ‘item_1‘ },
  4   { id: 2, name: ‘item_2‘ }
  5 ];
  6
  7 var template = [
  8   ‘<ul>‘,
  9     ‘<% for(var i = 0, len = data.length; i < len; i++) { %>‘,
 10       ‘<li><%=data[i].name %></li>‘,
 11     ‘<% } %>‘,
 12   ‘</ul>‘
 13 ].join(‘‘);
 14
 15 var templateHandler = function (text, data) {
 16
 17   var noMatch = /(.)^/;
 18
 19   var escapes = {
 20     "‘": "‘",
 21     ‘\\‘: ‘\\‘,
 22     ‘\r‘: ‘r‘,
 23     ‘\n‘: ‘n‘,
 24     ‘\t‘: ‘t‘,
 25     ‘\u2028‘: ‘u2028‘,
 26     ‘\u2029‘: ‘u2029‘
 27   };
 28
 29   var escaper = /\\|‘|\r|\n|\t|\u2028|\u2029/g;
 30
 31   var templateSettings = {
 32     evaluate: /<%([\s\S]+?)%>/g,
 33     interpolate: /<%=([\s\S]+?)%>/g
 34   };
 35
 36   var render;
 37   var settings = templateSettings;
 38
 39   var matcher = new RegExp([
 40       (settings.interpolate || noMatch).source,
 41       (settings.evaluate || noMatch).source
 42     ].join(‘|‘) + ‘|$‘, ‘g‘);
 43
 44   var index = 0;
 45   var source = "__p+=‘";
 46   var _text = text;
 47
 48   var _treg;
 49
 50   while (1) {
 51
 52     var matcher = new RegExp([
 53       (settings.interpolate || noMatch).source,
 54       (settings.evaluate || noMatch).source
 55     ].join(‘|‘) + ‘|$‘, ‘g‘);
 56
 57     (function () {
 58       _treg = matcher.exec(_text)
 59     })();
 60
 61     var t_str = _treg[0];
 62     var t_len = t_str.length;
 63     var t_index = _treg.index;
 64
 65     source += _text.slice(index, t_index).replace(escaper, function (match) { return ‘\\‘ + escapes[match]; });
 66     _text = _text.slice(t_index + t_len);
 67
 68     if (_treg[2]) {
 69       source += "‘;\n" + _treg[2] + "\n__p+=‘";
 70     }
 71     if (_treg[1]) {
 72       source += "‘+\n" + _treg[1] + "\n‘";
 73     }
 74     if (_text.length == 0) break;
 75
 76   }
 77   source += "‘;\n";
 78
 79   if (!settings.variable) source = ‘with(obj||{}){\n‘ + source + ‘}\n‘;
 80
 81   source = "var __t,__p=‘‘,__j=Array.prototype.join," +
 82       "print=function(){__p+=__j.call(arguments,‘‘);};\n" +
 83       source + "return __p;\n";
 84
 85   try {
 86     render = new Function(settings.variable || ‘obj‘, source);
 87   } catch (e) {
 88     e.source = source;
 89     throw e;
 90   }
 91
 92   //return source;
 93
 94   if (data) return render(data);
 95   var template = function (data) {
 96     return render.call(this, data);
 97   };
 98
 99   template.source = ‘function(‘ + (settings.variable || ‘obj‘) + ‘){\n‘ + source + ‘}‘;
100
101   return template;
102 }
103
104 templateHandler(template, { data: data })

正确的代码

我这里使用生命在调试啊!!!因为服务器解析javascript时候,很多东西都不支持,感觉有点回到了c++!!!

小结

这里字符串解析成功,我们这部分也就告一段落了,本身.net方案也不是这次的重点,这里提供基本思路各位自己去看看吧,总之调试很坑

下期预告

对javascript来说,nodeJS自然是亲爹,我们这次的主要方案其实是基于nodeJS的,这里的期望:

① 用户请求过来时候首先判断是否为网络爬虫

② 网络爬虫访问seo/index.html,用户访问webapp/index.html

当然,我们做demo时候不会这么麻烦,我们直接为其添加一个seo=true的标志位在url即可

nodeJS实现SEO的方案重点依旧在首屏渲染,我们这里首先基于blade做两个页面,然后以此扩展seo的方案

当然此块内容有点小复杂,加之,小钗对nodeJS停留在学习阶段,这块需要学习,而且最近有些其它事情扰心,暂时便搁置了

这块的内容可能与RapidJS(clouda前身)有关,有兴趣的同学可以先去看看

文中有误请您指出,若您对webapp的seo有什么好的想法请留言

探讨webapp的SEO难题(上)

时间: 2024-07-31 17:59:32

探讨webapp的SEO难题(上)的相关文章

站长探讨之说说SEO在网站编辑工作中的运用

关于SEO知识在网站编辑工作当中的运用的这类知识,我百度了一下,几乎很少,因此我决定对这方面的知识点在我的SEO博客中做一个整理,希望大家能够给予宝贵的意见. 一.Html常用标签 对于网站编辑所需要涉及到的标签有:Title.Description.Keywords.H标签.Alt标签,现在这里简单的介绍一下,后面会有更加具体的使用方法. 1.TDK标签 Title,也就是文章标题 Description,即网站描述 Keywords,即网站关键词 TDK标签.jpg 不用多说,TDK三个标签

#翻译# 深入JavaScript的Unicode难题(上)

position:static(静态定位) 当position属性定义为static时,可以将元素定义为静态位置,所谓静态位置就是各个元素在HTML文档流中应有的位置 podisition定位问题.所以当没有定义position属性时,并不说明该元素没有自己的位置,它会遵循默认显示为静态位置,在静态定位状态下无法通过坐标值(top,left,right,bottom)来改变它的位置. position:absolute(绝对定位) 当position属性定义为absolute时,元素会脱离文档流

无助于于SEO优化上网站页面的设想准则

www.mypm.net/expert/show_question_content.asp?questionId=285573www.mypm.net/expert/show_question_content.asp?questionId=285609www.mypm.net/expert/show_question_content.asp?questionId=285650www.mypm.net/expert/show_question_content.asp?questionId=2856

【大前端之前后分离】JS前端渲染VS服务器端渲染

前言 之前看了一篇文章:@Charlie.Zheng Web系统开发构架再思考-前后端的完全分离,文中论述了为何要前后分离,站在前端的角度来看,是很有必要的:但是如何说服团队使用前端渲染方案却是一个现实问题,因为如果我是一个服务器端,我便会觉得不是很有必要,为什么要前后分离,前后分离后遗留了什么问题,如何解决,都得说清楚,这样才能说服团队使用前端渲染的方案,而最近我刚好遇到了框架选型的抉择. 来到新公司开始新项目了,需要做前端框架选型,因为之前内部同事采用的fis框架,而这边又是使用的php,这

SEO基础知识_绝密教程

<p align="center"> </p> <p>   </p> <p align="center"> 第一次接触SEO,请阅读本基础指南入门,也可以注册论坛:<a  1-1.html" target="_blank"><span style="color:black;">从一句话入门</span><span s

细说SEO人必备的九心 你缺了那个心

自学SEO这么长时间了,感觉自己知道的越多,不知道的也越来越多,忽然发觉这学习就像是不断的将自己的所在的那一个圆不断的扩大.扩大,于是这个圆和外界的接触也就越来越多,伴随着的就是不知道的越来越多,那么作为一名合格的SEO人,不得不说的是心态很重要,而且更要兼备多种心,以下的九心你是否都已经具备了呢? 一.耐心 在我牙牙学语到现在,也随着学习SEO的路程越来越长,有这样的一个心是一直伴随着我的学习生涯的始终,陪伴着我不断学习成长的,这个心就是耐心.我们都知道,学习SEO是一个艰难的过程,很多时候要

新域名和老域名对网站SEO的影响

很多搞SEO的朋友都喜欢用老域名建站做优化,也很多朋友喜欢用短域名,越短越好的那种,无论上面两种域名哪种都不是太现实的,老域名也许淘宝一搜一堆,也很便宜,但是和你有关的几乎很难找吧?喜欢用短域名的朋友,你可以尝试着搜一下你能联想到的任意四五个字母或者数字等任意组合形式去尝试着注册一下,看看有没有未注册的?域名是全球共用的,在加上N多专门抢注域名赚钱的公司,短域名对于你来说已经很不合适了,当然你要是像新浪那么有钱的话你也可以花几百万买一个类似于weibo.com的域名! 这两天和朋友们一直在探讨新

WebApp 设计要素

从去年开始就负责公司WebApp的产品跟设计工作,最近整体大改了两个版本,也算累积了一些实际的经验.在不断学习的过程中,发现对于WebApp可以直接用于项目上的资料比较零碎,在这里总结一下,供初做 WebApp的设计师在实际项目中参考. 设计尺寸:基于宽度320px 一般大家看到的移动端设计尺寸参考都是基于ios或者Android,是绝对不能直接用于WebApp的设计中.而且常用的PS Play也不适用查看WebApp的效果. WebApp本质上还是一个网页,它的尺寸(特别是宽度)是依赖于每个手

SEO简之道

SEO杂乱吗?为什么学了那么久的SEO仍是操作起来适当困难?终究是什么在阻止SEOer的生长之路?为什么成不了搜索引擎优化er高手? 这个问题恐怕答复起来也是众说非云,答案纷歧,在这是我只说一个简略的SEO见地,仅供参考,期望可以对有需求的朋友有所帮助. 学之简: SEO是一个涉及面适当广的技能职业,关于一个刚触摸搜索引擎优化职业的小白,恐怕一时难以彻底运筹帷幄,要学的东西也是十分之多,在一些培训组织里学习也是快速的承受大量的技能知识,往后没多久也会忘得差不多了. 那么怎么学? 简略的学 我说的