httpclient的一些学习心得

最近忙于一个项目,了解下httpclient,在这里总结出来,和大家一起学习分享,希望各位朋友提出宝贵的意见。

首先介绍一下项目的背景: 
  目标:把国内一家保险公司的“WEB一账通”改成“WAP一账通”。 
  资源:客户不提供任何的webservice接口。 
  
本项目中用到的第三方组件是apache的httpclient,一个非常强大的网页抓取工具(抓这个字用得可能不太好), 这里和大家 
一起讨论下httpclient的一些常用用法和要注意的地方。

本文引用的资源列表:

httpclient入门:  http://www.ibm.com/developerworks/cn/opensource/os-httpclient/ 
  httpclient证书导入:http://www.blogjava.net/happytian/archive/2006/12/22/89447.html 
  httpclient高级认识:http://laohuang.iteye.com/blog/55613 
  httpclient官方文档:http://hc.apache.org/httpcomponents-client/index.html 
  httpclient资源关闭:http://www.iteye.com/topic/234759 
  
  
上面的文章写得很好,看完之后也就知道怎么用httpclient这个很好的工具了,但是在这里还是补充一些比较重要的东西,也是项目中经 
常碰到的问题。

首先要注意的有以下几点: 
1、httpclient连接后资源释放问题很重要,就跟我们用database connection要释放资源一样。 
2、https网站采用ssl加密传输,证书导入要注意。 
3、做这样的项目最好先了解下http协义,比如302,301,200,404返回代码的含义(这是最基本的),cookie,session的机制。 
4、httpclient的redirect状态默认是自动的,这在很大程度上给开发者很大的方便(如一些授权获得cookie),但是有时要手动管理下,比如 
  有时会遇到CircularRedirectException异常,出现这样的情况是因为返回的头文件中location值指向之前重复(端口号可以不同)地址,导致可能会出现死 
  循环递归重定向,这时可以手动关闭:method.setFollowRedirects(false) 
5、有的网站会先判别用户的请求是否是来自浏览器,如不是,则返回不正确的文本,所以用httpclient抓取信息时在头部加入如下信息: 
  header.put("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 1.7; .NET CLR 1.1.4322; CIBA; .NET CLR 2.0.50727)"); 
6、当post请求提交数据时要改变默认编码,不然的话提交上去的数据会出现乱码。重写postMethod的setContentCharSet()方法就可以了:

下面写一个通用类来处理request请求返回的文本:

Java代码  

/*
 * HttpRequestProxy.java
 *
 * Created on November 3, 2008, 9:53 AM
 */  

package cn.com.mozat.net;  

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;  

import org.apache.commons.httpclient.Header;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.HttpMethod;
import org.apache.commons.httpclient.NameValuePair;
import org.apache.commons.httpclient.SimpleHttpConnectionManager;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod;  

import cn.com.mozat.exception.CustomException;  

/**
 *
 * @author bird  email:[email protected]
 *
 * 2008-11-4  09:49:48
 */
public class HttpRequestProxy{
    //超时间隔
    private static int connectTimeOut = 60000;
 //让connectionmanager管理httpclientconnection时是否关闭连接
    private static boolean alwaysClose = false;
 //返回数据编码格式
    private String encoding = "UTF-8";  

    private final HttpClient client = new HttpClient(new SimpleHttpConnectionManager(alwaysClose));  

    public HttpClient getHttpClient(){
        return client;
    }  

    /**
     * 用法:
     * HttpRequestProxy hrp = new HttpRequestProxy();
     * hrp.doRequest("http://www.163.com",null,null,"gbk");
     *
     * @param url  请求的资源URL
     * @param postData  POST请求时form表单封装的数据 没有时传null
     * @param header   request请求时附带的头信息(header) 没有时传null
     * @param encoding response返回的信息编码格式 没有时传null
     * @return  response返回的文本数据
     * @throws CustomException
     */
    public String doRequest(String url,Map postData,Map header,String encoding) throws CustomException{
     String responseString = null;
     //头部请求信息
     Header[] headers = null;
     if(header != null){
      Set entrySet = header.entrySet();
         int dataLength = entrySet.size();
          headers= new Header[dataLength];
         int i = 0;
         for(Iterator itor = entrySet.iterator();itor.hasNext();){
          Map.Entry entry = (Map.Entry)itor.next();
          headers[i++] = new Header(entry.getKey().toString(),entry.getValue().toString());
         }
     }
     //post方式
        if(postData!=null){
         PostMethod postRequest = new PostMethod(url.trim());
         if(headers != null){
          for(int i = 0;i < headers.length;i++){
           postRequest.setRequestHeader(headers[i]);
          }
         }
         Set entrySet = postData.entrySet();
         int dataLength = entrySet.size();
         NameValuePair[] params = new NameValuePair[dataLength];
         int i = 0;
         for(Iterator itor = entrySet.iterator();itor.hasNext();){
          Map.Entry entry = (Map.Entry)itor.next();
          params[i++] = new NameValuePair(entry.getKey().toString(),entry.getValue().toString());
         }
         postRequest.setRequestBody(params);
         try {
    responseString = this.executeMethod(postRequest,encoding);
   } catch (CustomException e) {
    throw e;
   } finally{
    postRequest.releaseConnection();
   }
        }
      //get方式
        if(postData == null){
         GetMethod getRequest = new GetMethod(url.trim());
         if(headers != null){
          for(int i = 0;i < headers.length;i++){
           getRequest.setRequestHeader(headers[i]);
          }
         }
         try {
    responseString = this.executeMethod(getRequest,encoding);
   } catch (CustomException e) {
                e.printStackTrace();
    throw e;
   }finally{
    getRequest.releaseConnection();
   }
        }  

        return responseString;
    }  

 private String executeMethod(HttpMethod request, String encoding) throws CustomException{
  String responseContent = null;
  InputStream responseStream = null;
  BufferedReader rd = null;
  try {
   this.getHttpClient().executeMethod(request);
   if(encoding != null){
    responseStream = request.getResponseBodyAsStream();
     rd = new BufferedReader(new InputStreamReader(responseStream,
                      encoding));
              String tempLine = rd.readLine();
              StringBuffer tempStr = new StringBuffer();
              String crlf=System.getProperty("line.separator");
              while (tempLine != null)
              {
                  tempStr.append(tempLine);
                  tempStr.append(crlf);
                  tempLine = rd.readLine();
              }
              responseContent = tempStr.toString();
   }else
    responseContent = request.getResponseBodyAsString();  

   Header locationHeader = request.getResponseHeader("location");
   //返回代码为302,301时,表示页面己经重定向,则重新请求location的url,这在
   //一些登录授权取cookie时很重要
   if (locationHeader != null) {
             String redirectUrl = locationHeader.getValue();
             this.doRequest(redirectUrl, null, null,null);
         }
  } catch (HttpException e) {
   throw new CustomException(e.getMessage());
  } catch (IOException e) {
   throw new CustomException(e.getMessage());  

  } finally{
   if(rd != null)
    try {
     rd.close();
    } catch (IOException e) {
     throw new CustomException(e.getMessage());
    }
    if(responseStream != null)
     try {
      responseStream.close();
     } catch (IOException e) {
      throw new CustomException(e.getMessage());  

     }
  }
  return responseContent;
 }  

 /**
  * 特殊请求数据,这样的请求往往会出现redirect本身而出现递归死循环重定向
  * 所以单独写成一个请求方法
  * 比如现在请求的url为:http://localhost:8080/demo/index.jsp
  * 返回代码为302 头部信息中location值为:http://localhost:8083/demo/index.jsp
  * 这时httpclient认为进入递归死循环重定向,抛出CircularRedirectException异常
  * @param url
  * @return
  * @throws CustomException
  */
 public String doSpecialRequest(String url,int count,String encoding) throws CustomException{
  String str = null;
  InputStream responseStream = null;
  BufferedReader rd = null;
  GetMethod getRequest = new GetMethod(url);
  //关闭httpclient自动重定向动能
  getRequest.setFollowRedirects(false);
  try {  

   this.client.executeMethod(getRequest);
   Header header = getRequest.getResponseHeader("location");
   if(header!= null){
    //请求重定向后的URL,count同时加1
    this.doSpecialRequest(header.getValue(),count+1, encoding);
   }
   //这里用count作为标志位,当count为0时才返回请求的URL文本,
   //这样就可以忽略所有的递归重定向时返回文本流操作,提高性能
   if(count == 0){
    getRequest = new GetMethod(url);
    getRequest.setFollowRedirects(false);
    this.client.executeMethod(getRequest);
    responseStream = getRequest.getResponseBodyAsStream();
    rd = new BufferedReader(new InputStreamReader(responseStream,
                      encoding));
             String tempLine = rd.readLine();
             StringBuffer tempStr = new StringBuffer();
             String crlf=System.getProperty("line.separator");
             while (tempLine != null)
             {
                 tempStr.append(tempLine);
                 tempStr.append(crlf);
                 tempLine = rd.readLine();
             }
             str = tempStr.toString();
   }  

  } catch (HttpException e) {
   throw new CustomException(e.getMessage());
  } catch (IOException e) {
   throw new CustomException(e.getMessage());
  } finally{
   getRequest.releaseConnection();
   if(rd !=null)
    try {
     rd.close();
    } catch (IOException e) {
     throw new CustomException(e.getMessage());
    }
    if(responseStream !=null)
     try {
      responseStream.close();
     } catch (IOException e) {
      throw new CustomException(e.getMessage());
     }
  }
  return str;
 }  

 public static void main(String[] args) throws Exception{
  HttpRequestProxy hrp = new HttpRequestProxy();
   Map header = new HashMap();
         header.put("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 1.7; .NET CLR 1.1.4322; CIBA; .NET CLR 2.0.50727)");
  String str = hrp.doRequest(
    "http://www.cma-cgm.com/en/eBusiness/Tracking/Default.aspx?BolNumber=GZ2108827",
     null, header,null);
  System.out.println(str.contains("row_CRXU1587647"));
//  System.out.println(str);
 }  

}

  

时间: 2024-10-02 04:07:09

httpclient的一些学习心得的相关文章

Java学习心得之 HttpClient的GET和POST请求

作者:枫雪庭 出处:http://www.cnblogs.com/FengXueTing-px/ 欢迎转载 Java学习心得之 HttpClient的GET和POST请求 1. 前言2. GET请求3. POST请求 一.前言 本篇博文记录了HttpClient的GET和POST请求 本文内容基于以下文章: http://huangqiqing123.iteye.com/blog/2054436        (HttpClient之 addHeader与setHeader)http://zyw

Linux系统理解以及Linux系统学习心得

原创作品转载请注明出处  <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 作者:严哲璟 说一下我对Linux系统的理解 1.加载Linux内核准备:在加载基本输入输出模块(BIOS)之后,从磁盘的引导扇区读入操作系统的代码文件块到内存中,之后开始整个系统的初始化. 2.main.c的start_kernel函数是整个操作系统的入口,这也与Linux是基于C语言的特性相符,start_kernel具体做的动作很多

我的MYSQL学习心得(八)

我的MYSQL学习心得(八) 我的MYSQL学习心得(一) 我的MYSQL学习心得(二) 我的MYSQL学习心得(三) 我的MYSQL学习心得(四) 我的MYSQL学习心得(五) 我的MYSQL学习心得(六) 我的MYSQL学习心得(七) 这一篇<我的MYSQL学习心得(七)>将会讲解MYSQL的插入.更新和删除语句 同样的,只会讲解跟SQLSERVER不同的地方 插入 将多行查询结果插入到表中 语法 INSERT INTO table_name1(column_list1) SELECT (

我的MYSQL学习心得(一)

我的MYSQL学习心得(一) 使用MYSQL有一段时间了,由于公司使用SQLSERVER和MYSQL,而且服务器数量和数据库数量都比较多 管理起来比较吃力,在学习MYSQL期间我一直跟SQLSERVER进行对比 第一期主要是学习MYSQL的基本语法,陆续还有第二.第三.第四期,大家敬请期待o(∩_∩)o 语法的差异 我这里主要说语法的不同 1.默认约束 区别:mysql里面DEFAULT关键字后面是不用加括号的 --sqlserver CREATE TABLE emp ( id INT DEFA

在马哥linux运维学院学习心得

题目:在马哥linux运维学院学习心得 姓名:谭龙 班级:M18 学号:26 时间:2016-02-29--2016-06-02(正常毕业时间预计在7月中上旬)   正文: 个人基本情况: 我是一名在校的即将毕业的大四学生,毕业时间为2016.7.专业为矿物加工工程专业,纯正的四川-广安人(邓小平故居就在那).因找不到工作,加上自己也不知道干什么,在堂弟的推荐下,来参加了马哥linux运维学院的学习:怀揣着一颗对计算机懵懂的心,开始涉足从未接触过了linux. 个人收获与心理变化: 在一开始接触

第一篇大数据学习心得

之前未习惯发布学习心德博文,后续会采用这种方式发布学习心得,希望能够很好的督促自己. 计划会按scala,Hadoop,Spark的顺序去学习. 刚学scala的时候,眼前一亮,这语法跟python,java很像啊,刚好两者很熟悉,偷笑,后面果然学的得心应手.今天就不发表具体的技术内容.反正王学林老师的视屏讲解很好,声音非常富有感染力,想开小差都比较难,呵呵,话语精炼,个人较喜欢的风格,这里说下这段时间学习scala的小心得?,视频学完一章紧接着进行敲代码,调试,最后记笔记,对,记笔记,不一定是

spring核心知识(学习心得)

直接进入主题,主要分为两大部分:框架学习心得和spring框架的核心知识. 学习心得 1.学习框架的时候,一定要弄清楚的几个问题: a. 这是一个什么框架 轻量级还是重量级, 侵入式还是非侵入式,是解决单个问题还是整体的解决方案. b. 框架的设计理念是什么(为了解决什么问题而出现) c. 框架的优缺点 d. 框架的架构是怎样的 e. 框架的核心是什么 f. 框架能实现哪些功能 在学习一个框架的时候如果都不知道它能够提供哪些功能,就更加不用谈功能实现和充分利用框架了 2. 在学习多个框架以后,如

C++用法的学习心得

c++这门课,在我刚进入大学的就已经开始接触了.因为自己的专业就是计算机科学,因此c++嘛,对于我来说还是比较重要的.不同于其他专业,一开始我接触就是c++了,跳过了c语言一类的课.就我自己认为,c++这课学起来还是很有难度的.大一上课的时候,老师就说过这课在生活中的应用很广泛.处于初学者的我,开始给我的感觉就是很是乏味枯燥,提不起兴趣.不过仔细想想自己的专业就是和它有关,就算将来自己不从事这个行业,还是很有学习它的必要.因为多一门技术总归是不会吃亏的. 作为男生嘛,自己没有少玩游戏.很多人玩游

Android学习心得(16) --- Dex文件结构实例解析(2)

我在博客上发表一些我的Android学习心得,希望对大家能有帮助. 这一篇我们讲述一下通过一个实例来分析dex文件结构和组成. 参考Leb128数据类型 Android学习心得(5) --- dex数据类型LEB128 参考实例分析学习理解dex文件结构Android学习心得(15) --- Dex文件结构解析(1) 参考baksmali工具使用Android学习心得(4) --- MAC下smali文件编写与运行 1.编译 我们通过一个例子来分析dex文件的构成 创建一个Hello.java文