Android与webserver数据交互编程---3网络爬虫项目实现虚拟浏览器的jsp后台执行

背景：原先的b/s设计中在一个jsp界面中实现多个复杂的工作流。。。

为实现移动接口的调用保证工作流的正常webproject特别给提供了该虚拟浏览器的方案

原理：通过该方案实现虚拟浏览器后台运行jsp脚本，以达到我们要求

要求：

1、session保持。不然总会跳转到login界面

2、jsp脚本必须被运行，不能仅仅是单纯的发起一个请求

先上

private String submitHandler(HttpServletRequest request,String msg,String sessionid,String pathjsp) throws IOException{
		 //虚拟浏览器 模拟提交jsp
		URL url = null;
		 //添加浏览器版本号 去掉try catch
        WebClient client = new WebClient(BrowserVersion.INTERNET_EXPLORER_10);

		client.getOptions().setJavaScriptEnabled(true);
        client.getOptions().setCssEnabled(false);

        client.getOptions().setThrowExceptionOnFailingStatusCode(false);
        client.getOptions().setThrowExceptionOnScriptError(false);
        client.getOptions().setRedirectEnabled(true);

		url = new URL("http://localhost:"+ request.getServerPort()+pathjsp);

		System.out.println("sfq--url====" + url);
		//跳转登录查看cookie
		//HtmlPage page = client.getPage(url);
		WebRequest webRequest2 = new WebRequest(url, HttpMethod.POST);

	    List<NameValuePair> reqParam2 = new ArrayList<NameValuePair>();

		reqParam2.add(new NameValuePair("paramters", msg));
		System.out.println("sfq--url====msg:" + msg); 

		webRequest2.setAdditionalHeader("Cookie", "JSESSIONID="+sessionid);

		webRequest2.setRequestParameters(reqParam2);
		//client.getOptions().setThrowExceptionOnScriptError(true);
		HtmlPage page2 = (HtmlPage) client.getPage(webRequest2);

		System.out.println("sfq--pageasText====" + page2.asText());
		WebResponse webResponse = page2.getWebResponse();
	    int status21 = webResponse.getStatusCode();
	    System.out.println("sfq--status21====" + status21);
	    if(status21==200){
	    	return "1";
	    }else{
	    	return status21+"";
	    }

	}

几点说明：

1、由于项目中的jsp原来仅仅是为web服务的。改装成移动端交互使用难免各种报错，仅仅要不影响流程。我选择忽略他们。

所以去掉了当中的try catch异常捕获。（捕获真的非常碍事。

。）、

2、session保持问题纠结了非常久，尝试网上的方法时大概人品出现了严重的问题，不好使（下面方法真的不好使。。。。

）

private void setCookies(WebClient webClient,String domain, Map<String, String> cookies) {
	if (cookies != null && cookies.size() > 0) {
		webClient.getCookieManager().setCookiesEnabled(true);// enable
																// cookies
		for (Entry<String, String> c : cookies.entrySet()) {
			Cookie cookie = new Cookie(domain, c.getKey(), c.getValue());
			webClient.getCookieManager().addCookie(cookie);
		}
	}
}

3、在我们领导的指点下使用requet的方法成功

webRequest2.setAdditionalHeader("Cookie", "JSESSIONID="+sessionid);

当然，你也能够在请求你要的目的jsp之前先做一步模拟登录。从而获得了cookie......当然这就影响运行效率了

4、还不easy在本地測试通过了，搬移到外网server以后直接连接超时，终于通过更换url的ip地址为locslhost，问题解决

补充下：

localhoost 、 127.0.0.1 和本地ip的差别（网络基础太差了。。。

。。

。。）

no1:

localhost也叫local ，正确的解释是:本地server

127.0.0.1在windows等系统的正确解释是:本机地址(本机server)

他们的解析通过本机的host文件，windows自己主动将localhost解析为127.0.0.1

no2:

localhot(local)是不经网卡传输。这点非常重要，它不受网络防火墙和网卡相关的的限制。

127.0.0.1是通过网卡传输，依赖网卡。并受到网络防火墙和网卡相关的限制。

本机IP 也是通过网卡传输的。依赖网卡，并受到网络防火墙和网卡相关的限制。

可是本机IP与127.0.0.1的差别是：

127.0.0.1 仅仅能通过本机訪问

本机IP 通过本机訪问也能通过外部訪问

一般设置程序时本地服务用localhost是最好的，localhost不会解析成ip，也不会占用网卡、网络资源。

有时候用localhost能够，但用127.0.0.1就不能够的情况就是在于此。

猜想localhost訪问时，系统带的本机当前用户的权限去訪问，而用ip的时候。等于本机是通过网络再去訪问本机。用的到网络用户的权限。

总结下：

1、訪问本地server不管从效率还是有用上来讲直接使用localhost肯定是上上之选，不受其它问题的干扰

2、在公司法人项目中无知的选择了本机ip，效率最低的选择。訪问要经过外网、防火墙、不啦不啦在找到自己。。。

很多其它參考资料；

1、hmlunit http://shenbai.iteye.com/blog/1985844

2、http://blog.csdn.net/lu8000/article/details/10693091

3、http://shihlei.iteye.com/blog/2067707

4、localho相关

时间： 2024-08-12 18:39:54

Android与webserver数据交互编程---3网络爬虫项目实现虚拟浏览器的jsp后台执行的相关文章

网络爬虫项目实现虚拟浏览器的jsp后台运行

背景:原先的b/s设计中在一个jsp界面中实现多个复杂的工作流...为实现移动接口的调用保证工作流的正常web工程特别给提供了该虚拟浏览器的方案原理:通过该方案实现虚拟浏览器后台执行jsp脚本,以达到我们要求要求: 1.session保持,不然总会跳转到login界面 2.jsp脚本必须被执行,不能只是单纯的发起一个请求先上 private String submitHandler(HttpServletRequest request,String msg,String sessionid

Android与服务器端数据交互（基于SOAP协议整合android+webservice）

此文出自:http://www.cnblogs.com/zhangdongzi/archive/2011/04/19/2020688.html 上一节中我们通过http协议,采用HttpClient向服务器端action请求数据.当然调用服务器端方法获取数据并不止这一种.WebService也可以为我们提供所需数据, 那么什么是webService呢?,它是一种基于SAOP协议的远程调用标准,通过webservice可以将不同操作系统平台,不同语言,不同技术整合到一起. 我们在PC机器java客

python核心编程中网络爬虫的例子

1 #!/usr/bin/env python 2 3 import cStringIO # 4 import formatter # 5 from htmllib import HTMLParser # We use various classes in these modules for parsing HTML. 6 import httplib # We only need an exception from this module 7 import os # This provides

Python即时网络爬虫项目启动说明

作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本很多东西,不得不花费很多时间和精力去移植和升级,至今还有一些隐藏在某处的代码埋着雷.我估计Python也避免不了这个问题(其实这种声音已经不少,比如Python 3 正在毁灭 Python). 但是,我还是启动了这个Python即时网络爬虫项目.我用C++.Java和Javascript编写爬虫相关

Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)

1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中. 这个项目推出以后受到很大关注,因为开放源码,大家可以在现成源码基础上进一步开发.然而,Python3和Python2是有区别的,<Python即时网络爬虫项目: 内容提取器的定义> 一文的源码无法在Python2.7下使用,本文将发布一个Python2.7的内容提取器. 2.

Python即时网络爬虫项目: 内容提取器的定义

1. 项目背景在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中. 2. 解决方案为了解决这个问题,我们把影响通用性和工作效率的提取器隔离出来,描述了如下的数据处理流程图: 图中"可插拔提取器"必须很强的模块化,那么关键的接口有: 标准化的输入:以标准的HTML DOM对象为输入标准化的内容提取:使用标准的xslt模板提取网页内容标准化的输出:以标

困扰几周了，请教啊，android与websevice数据交互很诡异的问题

============问题描述============ 传输数据(title,imgurl,account)当传输title或title+account时数据正常传输,但是无法传输Imgurl项,即使imgurl+title都一样,没有任何数据显示请教 1.httpcon.java复制内容到剪贴板代码: //数据交互,输入输出流与读取流 import java.io.IOException; import java.io.InputStream; import java.io.OutputS

C语言Linix服务器网络爬虫项目（一）项目初衷和网络爬虫概述

一.项目初衷和爬虫概述 1.项目初衷本人的大学毕设就是linux上用c写的一个爬虫,现在我想把它完善起来,让他像一个企业级别的项目.为了重复发明轮子来学习轮子的原理,我们不使用第三方框架(这里是说的是指通常的linux系统编程教材以外的库和接口-0-,当初我也是在虚拟机上跑的ubuntu+putty+vim来开发)来实现. 然而我们造轮子不能闭门造车,苦心孤诣,而是要站在巨人的肩膀上,这样我们才能够更好更快地把握轮子的原理,进而造出更快更结实的轮子.下面是两位前辈的博客,本项目是在这两个博客来

Android与服务器端数据交互（http协议整合struts2+android）

在android中有时候我们不需要用到本机的SQLite数据库提供数据,更多的时候是从网络上获取数据,那么Android怎么从服务器端获取数据呢?有很多种,归纳起来有一:基于Http协议获取数据方法.二:基于SAOP协议获取数据方法,三:忘了------- 那么我们的这篇文章主要是将关于使用Http协议获取服务器端数据,这里我们采取的服务器端技术为java,框架为Struts2,或者可以有Servlet,又或者可直接从JSP页面中获取数据. 那么,接下来我们便开始这一路程: 首先:编写服务器端