【工作】Proxy Server的优化 - 检测目标网站URL变化

  在工作中,我在组里负责一个Proxy(代理)的Module,这个Module是针对微软的Office 365的邮件门户OWA实现,工作起来后,用户访问Office 365 OWA,无需再输入Office 365的网址,只需输入我们Proxy的地址,然后我们会将请求转送到Office 365 OWA,达到用户访问的目的,并使用户的体验如同实际访问Office 365 OWA一样。

  其实我们Proxy的原理是,使用Node.js构建一个http Server,拿到client端(实际是Browser)的请求后,再将请求转给Office 365,将Office 365的返回内容Response再送给Client端,这样实现Proxy的功能

  当然实际实现过程中还有很多细节的事情,包括cookie的处理,URL的转换等,这里不细讲。

  

  但在工作中开发并维护此Module时,我发现一个问题,那就是虽然我们是将请求转发,但还是有很多请求我们需要特殊处理,而且有很多复杂的请求需要研究去支持,因此做为Proxy我必须知道Office 365,即目标网站都有哪些请求的类型,其实就是哪些不同的URL,不同的URL其实Path不同。

  

  因此我做了一个优化,因为Proxy本质是一个Http Server,因此我将客户端发来的所有请求URL打印在Log中,这样我可以在Log中收集到所有的URL,同时将该URL发送出去后收到的结果(Response Status Code)也打印在一起,这样就能知道这个URL是否处理有问题,如果返回值200,则说明OK。

  

  于是打印在Log中后,得到如下的Log,

 1 /___/outlook.office365.com/, 302
 2 /owa/, 302
 3 /__/login/login.srf, 200
 4 /owa/prefetch.aspx, 200
 5 /___/r1.res.office365.com/owa/prem/16.801.12.1741001/scripts/preboot.js, 200
 6 /___/r1.res.office365.com/owa/prem/16.801.12.1741001/scripts/boot.worldwide.0.mouse.js, 200
 7 /___/outlook.office365.com/GetUserRealm.srf, 200
 8 /___/r1.res.office365.com/owa/prem/16.801.12.1741001/scripts/boot.worldwide.1.mouse.js, 200
 9 /owa/ev.owa2, 200
10 /owa/ev.owa2, 200
11 /___/outlook.office365.com/, 302
12 /owa/ev.owa2, 200
13 /owa/, 302
14 /__/login/login.srf, 200
15 /owa/ev.owa2, 200
16 /owa/service.svc, 200
17 /owa/prefetch.aspx, 200
18 /___/r1.res.office365.com/owa/prem/16.807.12.1742334/scripts/preboot.js, 200
19 /owa/service.svc, 200
20 /___/r1.res.office365.com/owa/prem/16.807.12.1742334/scripts/boot.worldwide.0.mouse.js, 200
21 /owa/ev.owa2, 200
22 /owa/ev.owa2, 200
23 /owa/service.svc, 200
24 /owa/service.svc, 200
25 /___/outlook.office365.com/GetUserRealm.srf, 200
26 /___/r1.res.office365.com/owa/prem/16.807.12.1742334/scripts/boot.worldwide.1.mouse.js, 200
27 /__/login/ppsecure/post.srf, 200
28 /owa/, 302

  每一行数据,前面是URL,后面是该请求收到的Response Status Code。

  

  同时我自己写了一个脚本来解析Log里的数据,因为数据是重复的,需要去重以及排序。

  脚本如下:

  1 var lineReader = require(‘line-reader‘);
  2 var fs         = require(‘fs‘);
  3
  4 var fileReadData  = "URLs.log";
  5 var fileWriteData = "result.txt";
  6
  7 var ignoreNormalStatusCode = false;
  8 if (process.argv && process.argv[2]) {
  9     ignoreNormalStatusCode = process.argv[2];                  // development to be passed as param
 10 }
 11
 12 console.log("ignoreNormalStatusCode: " + ignoreNormalStatusCode);
 13
 14 // create data object
 15 var createDataObjectFromLine = function (str) {
 16     var data = str.split(",");
 17
 18     var obj = {
 19         url: data[0].trim(),
 20         statusCode: data[1].trim(),
 21         number: 1
 22     };
 23
 24     return obj;
 25 };
 26
 27 // get the index in the array
 28 var indexOfObjInArray = function (array, obj) {
 29     var pos = -1;
 30
 31     for (var i=0; i<array.length; i++) {
 32         var e = array[i];
 33
 34         if (e.url === obj.url && e.statusCode === obj.statusCode) {
 35             pos = i;
 36             break;
 37         }
 38     }
 39
 40     return pos;
 41 };
 42
 43 // compare number to sort
 44 var compare_number = function (a, b) {
 45     return b.number - a.number;
 46 };
 47
 48 // write the array‘s data to file
 49 var writeResultToFile = function (result, number) {
 50     var string = "";
 51     string += "Here is this URL scan result blow, \n";
 52     string += "Orignial URL number: " + number + "\n";
 53     string += "Unrepeat URL number: " + result.length + "\n";
 54     string += "------------------------------------------\n\n";
 55     string += "req url, this url‘s response status code (200 is ok), number statics\n";
 56     fs.appendFileSync(fileWriteData, string);
 57
 58     for (var i=0; i<result.length; i++) {
 59         fs.appendFileSync(fileWriteData, result[i].url + ", " + result[i].statusCode + ", " + result[i].number + "\n");
 60     }
 61 };
 62
 63 // create an array to save the urls
 64 var result = [];
 65
 66 // count the orignial url number
 67 var number = 0;
 68
 69 // main function
 70 lineReader.eachLine(fileReadData, function (line, last) {
 71     number++;
 72
 73     // parse the data from every line
 74     var obj = createDataObjectFromLine(line);
 75     //console.log(obj);
 76
 77     var pos = indexOfObjInArray(result, obj);
 78     if (pos != -1) {
 79         // this object already exists in result array
 80         result[pos].number++;
 81     }
 82     else {
 83         if (ignoreNormalStatusCode && obj.statusCode === ‘200‘) {
 84             // ...
 85         }
 86         else {
 87             // add this obj to result
 88             result.push(obj);
 89         }
 90     }
 91
 92     if (last) {
 93         // sort the array by number
 94         result.sort(compare_number);
 95
 96         // write the result to file
 97         writeResultToFile(result, number);
 98
 99         // stop reading lines from the file
100         return false;
101     }
102 });

  这里使用了一个Node.js Module Line-reader,来从文件中一行行的读取数据。

  这样运行之后就可以得到解析后的结果,

 1 Here is this URL scan result blow,
 2 Orignial URL number: 142
 3 Unrepeat URL number: 6
 4 ------------------------------------------
 5
 6 req url, this url‘s response status code (200 is ok), number statics
 7 /owa/, 302, 10
 8 /___/outlook.office365.com/, 302, 5
 9 /owa/auth/15.1.225/themes/resources/segoeui-regular.ttf, 404, 3
10 /owa/auth/15.1.225/themes/resources/segoeui-semilight.ttf, 404, 1
11 /___/outlook.office365.com/favicon.ico, 302, 1
12 /owa/auth/15.1.219/themes/resources/segoeui-semilight.ttf, 404, 1

  当然以上结果是没有显示Status Code为200的URL,原因是这是Proxy处理正常的URL,暂时没必要统计与分析。

  得到结果后,显而易见,有很多404的URL,我们的Proxy并没有正确的处理,需要进一步的分析,在代码中支持。由此完成此次对产品Module的优化。

  

  个人小感慨,工作中很多小事情,如果自己认为正确,就应坚持去做。小的优化,只要有意义,都会有大用处:-)

                                                      Kevin Song

                                                        2015-7-22

时间: 2024-12-25 23:35:14

【工作】Proxy Server的优化 - 检测目标网站URL变化的相关文章

java gc的工作原理、如何优化GC的性能、如何和GC进行有效的交互

java gc的工作原理.如何优化GC的性能.如何和GC进行有效的交互 一个优秀的Java 程序员必须了解GC 的工作原理.如何优化GC的性能.如何和GC进行有效的交互,因为有一些应用程序对性能要求较高,例如嵌入式系统.实时系统等.只有全面提升内存的管理效 率,才能提高整个应用程序的性能. 本篇文章首先简单介绍GC的工作原理,然后再对GC的几个关键问题进行深入探讨,最后提出一些Java程序设计建议,从GC角度提高Java程序的性能. GC的基本原理     Java 的内存管理实际上就是对象的管

role of proxy server

代理(Proxy),也称"网络代理",是一种特殊的网络服务, 允许一个网络终端(一般为客户端)通过这个服务与另一个网络终端(一般为服务器)进行非直接的连接.一些网关.路由器等网络设备具备网络代理功能.一般认为代理服务器有利于保障网络终端的隐私或安全,防止攻击. 提供代理服务的电脑系统或者其他类型的网络终端成为代理服务器(proxy server). 作用:防火墙 功能:代理网络用户去获得网络信息 一个完整的代理请求过程为: 客户端首先与代理服务器创建连接,接着根据代理服务器所使用的代理

不修改代码就能优化ASP.NET网站性能的一些方法

阅读目录 开始 配置OutputCache 启用内容过期 解决资源文件升级问题 启用压缩 删除无用的HttpModule 其它优化选项 本文将介绍一些方法用于优化ASP.NET网站性能,这些方法都是不需要修改程序代码的.它们主要分为二个方面:1. 利用ASP.NET自身的扩展性进行优化.2. 优化IIS设置. 回到顶部 配置OutputCache 用缓存来优化网站性能的方法,估计是无人不知的. ASP.NET提供了HttpRuntime.Cache对象来缓存数据,也提供了OutputCache指

设置Proxy Server和SQL Server实现互联网上的数据库安全

◆首先,我们需要了解一下SQL Server在WinSock上定义协议的步骤: 1. 在"启动"菜单上,指向"程序/Microsoft Proxy Server",然后点击"Microsoft Management Console". 2. 展开"Internet Information Service",再展开运行Proxy Server的服务器. 3. 右击WinSock Proxy service, 再点击属性. 4.

SQL SERVER全面优化-------索引有多重要?

想了好久索引的重要性应该怎么写?讲原理结构?我估计大部分人不愿意看,也不愿意花那么多时间仔细研究.光写应用?感觉不明白原理一样不会用.举例说明?情况太多也写不全....到底该怎么写呢? 随便写吧,想到哪写到哪!  前面很多篇不管CPU.内存.磁盘.语句等等等都提到了索引的重要,我想刚刚开始学数据库的在校学生都知道索引对语句性能的重要性.但他们可能不知道,对语句的重要性就是对系统的重要性! 抛出一个问题 :你相信一条语句就能让你的大系统挂掉么? 带着问题,首先还是贴出我的座驾 最近不太喜欢红色换了

SQL Server 性能优化(一)——简介

原文:SQL Server 性能优化(一)--简介 一.性能优化的理由: 听起来有点多余,但是还是详细说一下: 1.节省成本:这里的成本不一定是钱,但是基本上可以变相认为是节省钱.性能上去了,本来要投入的硬件就可以减缓投入,从另外一个角度看来它就是节省了钱. 2.增加效率:对于客户来说,性能上去了,他们的工作效率也高了. 3.降低挫折感:性能底下,客户抱怨,无疑是对自己心灵上的打击. 二.性能误区: 性能误区 误区 现实 如果处理器使用率很高,那么需要添加更快的处理器 某一部分导致了性能问题 8

VMWare ESX Server性能优化

VMWare ESX Server性能优化 vmware ESX server 是当前服务器市场上基于intel平台的最流行的虚拟软件产品.对比其他虚拟软件产品,如 GSX server 和ms virtual server,ESX的最大优点就是可以大大减少host系统所占用资源的.ESX server内核直接运行在硬件之上,而且系统稳定性和性能都有很大的提高. ESX server也很适合企业级应用,因为它支持重要的冗余功能,比如多路经,以及链路绑定.由于有诸如p2v vmotion 和vir

动易多屏优化怎么实现网站自动识别用户访问设备

原文转载自http://www.pangshayu.com/html/8634.html 动易多屏优化技术是指在保持同一域名.同一后台.同一数据库.同一套系统的基础上,不同设备(PC/手机/PAD)来访问网站前台时,网站都会针对此类设备显示与之最相适应和专为此类设备的用户使用习惯优化的前台界面,从而在不同设备访问时都能提供最佳用户体验. 那么问题来了,动易多屏优化怎么实现网站会自动识别用户访问设备呢?其实很简单,按照本文的操作就可以快捷高效的实现动易多屏优化实现网站自动识别用户访问设备的功能.

【SQL Server性能优化】运用SQL Server的全文检索来提高模糊匹配的效率

原文:[SQL Server性能优化]运用SQL Server的全文检索来提高模糊匹配的效率 今天去面试,这个公司的业务需要模糊查询数据,之前他们通过mongodb来存储数据,但他们说会有丢数据的问题,我从业务上了解到,显然对他们公司而言,丢数是绝对不能允许的. 另外,他们说之前也用过SQL Server的全文检索,但速度不够快,不如用mongodb快,当然我不太清楚他们所谓快的具体定义,比如查询只需要1秒,还是1分钟.他们的系统现在采用的是SQL Server,通过复制来实现高可用性,因为他们