先把以前自己写过的几篇老文章贴上来,Squid缓存视频是个很能节约企业、机构出口流量的方案。不过由于视频网站的技术更新很快,这篇写于2011年的文章如今是否还能不加修改的应用。我相信懂了原理之后稍加修改即可。
====================================================
开篇先来批评一下国内网站的技术文章,90%都是转载的,转的格式乱七八糟,再加上广告,浮躁啊!
Squid的中文文章真是不多,能深入点讲点原理的就更少了,很多是把编译选项和conf文件一贴了事。新手们全盘copy回去赌一把,成不成也不知道为什么。
咱这篇就从原理讲起。Squid版本众多,主流是Squid 2.7,功能全,性能好,稳定。3.X用C++重写,性能我没测试过,就不人云亦云了,关键是有些2.X的功能没有跟上来,比如缓存视频非常重要的storeurl_rewrite功能。参见Squid3的功能需求。 在一般情况下,一个URL是对应唯一一个cache object的,但是在CDN泛滥的今天,会存在不同服务器的多个URL对应同一个文件,这样在Squid中,这个文件会被反复cache多份,达不到cache的效果,比如各个地图网站的地图文件,各个视频网站的视频文件。Squid 2.7里面的storeurl_rewrite功能,就是专门解决这个问题的。
Storeurl_rewrite能将对应同一文件的一组URL通过正则表达式,转换成相同的URL,这个URL做为Storeurl这个属性和cache一起保存。等到做cache lookup的时候,也是根据storeurl去查找。在squid.conf中,需要有下面几项配置:
acl store_rewrite_list url_regex/dstdomain/… 匹配串 storeurl_access allow store_rewrite_list storeurl_access deny all storeurl_rewrite_program /rewrite程序的路径
关键就在于这个rewrite程序。Squid主进程启动的时候,同时启动多个这个rewrite进程(conf里面可以配置个数),然后不断的将匹配storeurl_rewrite_list的url以及很多参数通过stdin管道发给rewrite程序,rewrite程序本身是个死循环来不断通过stdin进来的url,然后输出到stdout,由squid程序接收。(这种helper方式在squid 2的框架中常见,也许也是个性能改进点)
具体的原理可以查一下squid.conf(2.7版的)里面的说明,以及这个功能的官方说明网页。
说到具体的例子,大家可以自己拿国内的搜狗地图,优酷视频试试看,抓一下浏览器发的URL,然后自己编写这个正则表达式,就不细说了,以免又是copy&paste。至于对于no-cache,private,max-age等http header的改写,在本人的试验中,完全没用到,大家别被别的网站误导了。
靠谱的Squid缓存视频网站方法