ArrayBuffer简析

关键技术: JavaScript,ArrayBuffer,Type Array,DataView,Web Worker,性能对比
ArrayBuffer

在文章开头列出了这些关键字,主要就是让大家了解本文的主要内容,如果你不感兴趣转发了就可以走;如果对这一块非常了解,欢迎多提意见多交流;如果想这方面的技术一见钟情,那不妨坐下了可以享受阅读的乐趣。

首先,为什么Web开发者需要不断优化数据的传输?因为数据是应用的核心,因这一块直接决定了用户体验的好与坏,而用户的本性是贪婪的。用户的需求随着自身满意度的不断膨胀,往往会导致这种丧心病狂的需求:“C/S下有这个效果(功能),B/S下为什么不可以?”。以前你可以笑一下,然后一副没事请挂机的表情,但随着HTML5标准的普及,妈的技术上真的可行了。HTML5提供了Canvas,WebGL,WebSocket,音视频等诸多功能,完全就是一套基于浏览器的操作系统API。这是一个很大的成就,所带来的冲击是巨大的,连Adobe也都全面拥抱HTML5了,每一个Web开发者也要跟上时代的脚步。

不管你用了HTML5的哪个功能,数据都是核心的问题,特别是大数据时代,更要我们用一个新的眼光来看待数据,而随着硬件的成熟,特别是HTML5功能的丰富,很多以前做不到的体验现在都可以了,这也直接导致了数据的需求变得原来越大。比如音视频,还是三维模型,上万条数据的传输,如果还用传统的json,xml这种形式,数据量稍大一些就难堪重任了,这问题无法回避。因此,怎么解决这种大数据的传输性能?答案很简单,向CS取经!

1. 创建和读写

传统CS下文件基本都是二进制格式,再加上zip压缩,短小精干,系统IO处理能力强,所以在数据量很大的情况下也可以胜任。最初在WebGL中也有类似的需求,JS和显卡之间大量实时的数据交换,而数据通信又必须是二进制的,JavaScript也需要这样一种有效访问二进制的方式,便产生的类型化数组。

ArrayBuffer本身就是一块内存,可供用户读写,使用方式也一样简单:

// 创建16个字节的内存
var buffer = new ArrayBuffer(16);
// 用32位的类型来绑定该内存区域,32位,每个变量是4个字节
var int32View = new Int32Array(buffer);
// 此时长度为4:4个int32类型,则4*4 = 16字节
for (var i=0; i<int32View.length; i++) {
     int32View[i] = i; // 对每一个int32的变量赋值
}

可以看到用法都差不多,但可以让用户实现字节级别的处理能力。当然,new不是我们的重点,重点是如何在XMLHttpRequest请求中使用ArrayBuffer方式,和服务器进行二进制的传输方式。

var loadArrayBuffer = function(url, headers) {        return loadWithXhr({
        url : url,        // 告诉服务器,返回类型采用arraybuffer
        responseType : ‘arraybuffer‘,
        headers : headers
    });
};

OK,可想而知,相同信息下二进制则更为紧凑。下面是相同数据下大小对比,可以粗略的认为两者之间的大小比为四倍。

2. 数据解析

下面问题来了,二进制文件,看上去很压力?确实这是一个问题。《Unix编程艺术》里面会有这样一句话:“如果你想要创建一个新的二进制格式,那你应该睡一觉,第二天起来再好好想清楚是否有必要这样做。”这也是Web开发者不得不面对的问题,如果JSON已经无法满足你的需要,就要像C/S开发者一样对二进制了然于心,谁也没说二进制是C/S开发者的专属,走的路多了一点而已。当然,JS中也提供了读写ArrayBuffer的方式。

有下面两个方式,一个是DateView,一个是Type Array。

DateView API截图

Type Array具体类型

如图是两者风格上的不同,严格说,完全使用一种也能实现解析,不同处在于前者主要是提供了函数的形式,而后者主要是以变量的形式。个人经验是搭配使用效果更佳,一个是小家碧玉,一个是大家闺秀,各有各的好啊。一片连续的数据,比如VBO之类的就用TypeArray直接对应float类型,而对于多个属性变量组成的结构体,可以通过DataView有序解析。好吧,完全靠感觉,下面的代码,自己来找找感觉吧。

var pos = 0;var view = new DataView(buffer);
var minimumHeight = view.getFloat32(pos, true);
pos += Float32Array.BYTES_PER_ELEMENT;
var vertexCount = view.getUint32(pos, true);
pos += Uint32Array.BYTES_PER_ELEMENT;
var encodedVertexBuffer = new Uint16Array(buffer, pos, vertexCount * 3);

如上是一段实际应用中的代码,DataView封装buffer,然后提供了基本的函数getFloat32、getUint32来实现对其中变量的逐次读取。同时对于VertexBuffer这样的大块类型则用了Uint16Array直接获取。

可见,二进制的解析关键是对二进制格式的清晰,而觉得解析二进制复杂,主要还是得克服心理的作用。

这里有两处需要强调,第一就是提倡大家使用BYTES_PER_ELEMENT,每一个Type Array都会有这个属性来记录长度,万一以后该变量长度变化,而你代码写死了(可能性为0),你哭都来不及。可能强迫症吧,觉得这样好。另外就是要注意Uint16Array构造函数中的参数,其中pos是字节单位,而VertexCount的单位则是Uint16,两个字节,两者的单位是不同的,自己到底要移动多少自己,一定要谨慎处理。

不同数组类型操作运算符的性能对比

IE下读写操作对比

Chrome下读写操作对比

上面是在我笔记本下的性能对比图(create,read&wirte),ArrayBuffer的创建速度几乎是Array的四倍以上;读操作快了一倍;但Array的写操作简直是神速;另外不同的类型下Byte,INT的差别并不大;另外IE相比Chrome简直慢成鬼了。看来不同配置,不同浏览器差别还是非常大的。看来有能力还是看看JS引擎的实现,又有很多可以涨知识的地方了。

再说一下不太常用,但也是非常好的一种使用方式。IMG标签的形式,有些时候因为各种原因,会把二进制信息作为图片的像素存储,这样通过img标签来传输,方便快捷,而且有一定的加密性,对应的是Canvas的ImageData。但在客户端就需要一个IMG转为Type Array的一个过程,思路也不麻烦,通过ImageData来做中间过度:

//假设是服务端发送过来的img图片
var imgInfo = new Image;
// 将该图片绘制到canvas上context.drawImage(imgInfo,0,0,width,height);
// 获取该Canvas里面的像素
var imgData = context.getImageData(0,0,width,height);
// 其为uint8clampedArray
var typeArray = imgData.data

另外,二进制的问题其实还没有这么简单,还有字节大小端和字节对齐的问题。字节大小端的概念大家可以google查一下,不在此多言,DataView中提供了参数,默认是低字节排序。而字节对齐呢,则是Uint16Array中你所声明的长度必须是该类型字节长度的整数倍,比如Uint16是两个字节,则该长度要被2整除,否则浏览器会alert。

3. 数据处理:Web Worker

很有意思的一个地方是,JavaScript支持异步,但本质是单线程环境,以往我们都采用setTimeout的方法来模拟实时性。而对于CS的开发者而言,多线程是处理大数据的有效手段。举个例子,当数据量很大的时候,如何在数据处理的同时避免UI响应停滞,通常我们都是开辟一个工作者线程来处理数据,处理后的数据都放在共享池中,这时UI主线程直接使用数据,保证界面响应的顺畅,而JavaScript对此无能无力,即使采用Ajax也只能局部更新,只是“看上去有了响应,但总体时间还是不变,甚至会变慢”,HTML5中提供了Web Worker的多线程机制,则可以很好的解决这个问题。

为什么要提到Web Worker呢,因为往往数据解析后,则会进入数据处理的过程,比如解析后的数据构建三角网,或者对数据进行解压缩,解码等操作,如果放在主线程上处理总是不太完美的方案,这样自然就会想到使用工作者线程Web Worker来处理。而且目前Google Earth的WebGL版本也在用Worker来处理数据,而Baidu的3D地图还没有,深入研究会发现很多技术上有意思的区别。这块以后会有详细介绍,因为也和数据有关系,这里只是开个头涉及一下。

下面例子比较简单,但个人感觉真要实现功能还是有很多限制,设计上也有很多技巧,所以也不多说了,多线程还是得多做才能积累经验,给出下面这个简单的例子,让大家有一个简单的了解。

主脚本:

var worker = new Worker(‘doWork.js‘);

worker.addEventListener(‘message‘, function(e) {
   console.log(‘Worker said: ‘, e.data);
}, false);

worker.postMessage(‘Hello World‘); // 把数据传给工作者线程.

doWork.js (Worker):

self.addEventListener(‘message‘, function(e) {
    self.postMessage(e.data);
}, false);
4. 数据渲染

本来这个跟本节内容无关,但为了说明一个数据自始至终的过程,所以加进来吧。WebGL硬件加速,直接使用显卡批次渲染,是我知道的唯一的大数据渲染的一种方式,因为对其他大数据下高性能渲染还没研究,这里只提供WebGL一种思路。

5. 其他

1.异步

JS中数据一般都在服务器上,数据的传输也为异步,不同于CS多数情况下都在本地直接加载,这样在调度上的复杂性会加大,而浏览器TCP连接数也有限制,所以同时请求的数目应该有所控制,服务器网卡带宽也是一个瓶颈,通过跨域,多个IP来增大同时下载的数据量;这样,可能你还会采用zip压缩,提高浏览器缓存的复用度,要考虑的点很多,实践性也很强。所以在设计时也应有所考虑。封装一个合理的Primise模式会增加代码的可阅读性。

2.数据安全

JS代码虽然可以混淆,但是在客户端还是可以调试。换句话说,通过阅读你的JS源码还是能够获取你的数据格式的。而数据往往都是核心的,二进制的数据很多情况下并不想让用户知道里面的结构,但很遗憾,这在JS技术本身无法对数据保密,所以只能另辟蹊径。个人觉得有两个可能,一个是服务端的授权,Token的方式。另一个是在数据里面增加一些冗余信息,作为自己数据的一个特有标志,如果其他人盗用数据时,这些就是版权证据。比如地图厂商往往会在地图上加一些特有的不存在的位置点,如果其他厂商使用了,说明他们没有考察真实性而直接盗用数据,这就是一个证据。

.总结

HTML5有很多很好的特性,对Web开发也是一个极大的挑战,但单纯从技术上来说是充满诱惑的,而在大数据时代,其实这些都是很好的B/S上大数据的解决思路和基本技术。我对大数据并没有什么研究,以我现有的肤浅了解,我认为一个Web应用如果没有上面这些二进制,硬件加速方面的技术应用,都不能称为大数据技术,充其量最多不过一些策略上的优化,时间和空间,服务器和客户端之间的平衡,而不是在质的角度解决问题。


       这让我想到了上面这个图(盗用同学公司)。不要轻易的否定自己认为不可能的事。技术的革新总会填补某种不存在。

如下是最高自由落体跳伞世界纪录保持者(对,就是那位穿着宇航服跳伞,速度超过音速的Google高管)面对女儿提的一个问题,三次不同的答复:

It is impossible.

Even it is not impossible, it is very very hard.

Well, maybe it is not hard, it is just I do not know.

时间: 2024-11-07 08:32:13

ArrayBuffer简析的相关文章

web应用构架LAMT及tomcat负载简析

Httpd    (mod_jk.so) workers.properties文件 uriworkermap.properties文件 <--AJP1.3--> Tomcat  --> jdk 大致流程:apache服务器通过mod_jk.so 模块处理jsp文件的动态请求.通过tomcat worker等待执行servlet/JSP的tomcat实例.使用 AJP1.3协议与tomcat通信.tomcat有借助jdk解析. 负载就是 多台tomcat.共同解析apache发送的jsp请

CentOS的网络配置简析

我们在进行对CentOS的网络配置时,一般会从IP地址(IPADDR).子网掩码(NETMASK).网关(Gateway).主机名(HOSTNAME).DNS服务器等方面入手.而在CentOS中,又有着不同的命令或配置文件可以完成这些配置操作,接下来,我们将从ifcfg系命令,iproute2系命令以及配置文件3个方面来简析网络配置的方法. 一.ifcfg系命令 ifcfg系命令包括ifconfig,route,netstat和hostname. 1.ifconfig命令 用来配置一个网络接口.

JDK源码简析--java.lang包中的基础类库

题记 JDK,Java Development Kit. 我们必须先认识到,JDK只是,仅仅是一套Java基础类库而已,是Sun公司开发的基础类库,仅此而已,JDK本身和我们自行书写总结的类库,从技术含量来说,还是在一个层级上,它们都是需要被编译成字节码,在JRE中运行的,JDK编译后的结果就是jre/lib下得rt.jar,我们学习使用它的目的是加深对Java的理解,提高我们的Java编码水平. 本系列所有文章基于的JDK版本都是1.7.16. 本节内容 在本节中,简析java.lang包所包

经验模态分解法简析 (转)

http://blog.sina.com.cn/s/blog_55954cfb0102e9y2.html 美国工程院士黄锷博士于1998年提出的一种信号分析方法:重点是黄博士的具有创新性的经验模态分解(Empirical Mode Decomposition)即EMD法,它是一种自适应的数据处理或挖掘方法,非常适合非线性,非平稳时间序列的处理,本质上是对数据序列或信号的平稳化处理. 1:关于时间序列平稳性的一般理解: 所谓时间序列的平稳性,一般指宽平稳,即时间序列的均值和方差为与时间无关的常数,

Java Annotation 及几个常用开源项目注解原理简析

PDF 版: Java Annotation.pdf, PPT 版:Java Annotation.pptx, Keynote 版:Java Annotation.key 一.Annotation 示例 Override Annotation Java 1 2 3 @Override public void onCreate(Bundle savedInstanceState); Retrofit Annotation Java 1 2 3 @GET("/users/{username}&quo

Linux网络性能优化方法简析

Linux网络性能优化方法简析 2010-12-20 10:56 赵军 IBMDW 字号:T | T 性能问题永远是永恒的主题之一,而Linux在网络性能方面的优势则显而易见,这篇文章是对于Linux内核中提升网络性能的一些优化方法的简析,以让我们去后台看看魔术师表演用的盒子,同时也看看内核极客们是怎样灵活的,渐进的去解决这些实际的问题. AD:2014WOT全球软件技术峰会北京站 课程视频发布 对于网络的行为,可以简单划分为 3 条路径:1) 发送路径,2) 转发路径,3) 接收路径,而网络性

.NET设计模式简析

首先,是设计模式的分类,我们知道,常用的设计模式共23种.但总体来说,设计模式氛围三大类: 创建型模式,共五种:工厂方法模式.抽象工厂模式.单列模式.建造者模式.原型模式. 结构型模式,共七种:适配器模式.装饰器模式.代理模式.外观模式.桥接模式.组合模式.享元模式. 行为型模式,共十一种:策略模式.模版方法模式.观察者模式.迭代子模式.责任链模式.命令模式.备忘录模式.转改模式.访问者模式.终结者模式.解释器模式. 另外还有并发型模式和线程池模式等. 介绍了分类,下面简单说下设计模式的六大原则

SpringMVC学习——概念、流程图、源码简析(一)

学习资料:开涛的<跟我学SpringMVC.pdf> 众所周知,springMVC是比较常用的web框架,通常整合spring使用.这里抛开spring,单纯的对springMVC做一下总结. 概念 HandlerMapping:处理器映射,对请求的URL进行映射为具体的处理器(如果有拦截器也包含拦截器,会将Handler和多个HandlerInterceptor封装为HandlerExecutionChain对象) HandlerAdapter:处理器适配器,适配不同类型的处理器,如Cont

Android WebView远程代码执行漏洞简析

0x00 本文参考Android WebView 远程代码执行漏洞简析.代码地址为,https://github.com/jltxgcy/AppVulnerability/tree/master/WebViewFileDemo.下面我们分析代码. 0x01 首先列出项目工程目录: MainActivity.java的代码如下: public class MainActivity extends Activity { private WebView webView; private Uri mUr