URL和URLConnection类
网络中的URL(Uniform Resource Locator)是统一资源定位符的简称。它表示Internet上某一资源的地址。通过URL我们可以访问Internet上的各种网络资源,比如最常见的WWW,FTP站点。 URL可以被认为是指向互联网资源的“指针”,通过URL可以获得互联网资源相关信息,包括获得URL的InputStream对象获取资源的信息,以及一个到URL所引用远程对象的连接URLConnection。 URLConnection对象可以向所代表的URL发送请求和读取URL的资源。通常,创建一个和URL的连接,需要如下几个步骤:
- 创建URL对象,并通过调用openConnection方法获得URLConnection对象;
- 设置URLConnection参数和普通请求属性;
- 向远程资源发送请求;
- 远程资源变为可用,程序可以访问远程资源的头字段和通过输入流来读取远程资源返回的信息。
这里需要重点讨论一下第三步:如果只是发送GET方式请求,使用connect方法建立和远程资源的连接即可;如果是需要发送POST方式的请求,则需要获取URLConnection对象所对应的输出流来发送请求。这里需要注意的是,由于GET方法的参数传递方式是将参数显式追加在地址后面,那么在构造URL对象时的参数就应当是包含了参数的完整URL地址,而在获得了URLConnection对象之后,就直接调用connect方法即可发送请求。而POST方法传递参数时仅仅需要页面URL,而参数通过需要通过输出流来传递。另外还需要设置头字段。
URLConnection是一个协议处理器中的一个类,它是表示指向URL所指定的资源的活动连接。主要用于两个方面,一个是与服务器(特别是HTTP服务器)的交互,可以用来查看服务器发送的首部,设置连接的属性,设置客户端的请求的首部等。利用它也可以实现POST和PUT方法来发送数据。另一个方面是Java的协议处理器机制的一部分。所谓的协议处理器就是将处理协议的细节从处理特定数据类型中分离出,会涉及到客户端与服务器端的交互,如生成正确的请求格式,解释与数据一起返回的首部等。
获取URLConnection
根据一个已经创建的URL来通过openConnection来打开生成一个URLConnection,虽然利用url来获取,其实内部调用的是URLStreamHandler的openConnection,该方法是一个抽象方法,它返回的URLConnection会根据协议的类型返回,倘若是一个http url则就会返回一个HTTPURLConnection。
URL url=new URL("http://www.baidu.com");
URLConnection uc=url.openConnection();
此时该uc并没有连接,本地与远程主机是无法进行收发数据的,需要调用uc.connect()方法来建立连接。不过在使用getInputStream(),getHeaderField()等其它要求的时候会首先自动调用这个方法。
利用此URLConnection可以很容易读取来自服务器端的数据,只要其getInputStream。
URL和URLConnectin的区别
URLConnection提供了对于HTTP首部的访问
URLConnection可以配置客户端向服务器端发送的请求参数即首部
URLConnection可以利用POST,PUT等请求方法与服务器进行交互
读取服务器响应的首部
对于服务器响应的首部,当然这里都是以HTTP服务器响应为准,可以来获取响应中的首部字段。
Content-type,Content-length,Content-encoding,Date,Last-modified,Expires
可以利用getContentType()来获取数据的MIME类型,判断字符编码,并且以正常的格式显示出,如
String encoding="ISO-8859-1";//HTTP默认的编码方式 URL u=new URL(url); URLConnection uc=u.openConnection(); String type=uc.getContentType(); //获取字符编码方式 int star=type.indexOf("charset="); if(star!=-1) encoding=type.substring(star+8); System.out.println("CharSet:"+encoding); InputStream raw=uc.getInputStream(); Reader r=new InputStreamReader(new BufferedInputStream(raw),encoding);
利用getContentLength来获取二进制文件大小,从而来下载文件
URLConnection uc=url.openConnection(); String contentType=uc.getContentType(); int contentLength=uc.getContentLength(); if(contentType.startsWith("text/")||contentLength==-1) { throw new IOException("This is not a binary file"); } InputStream raw=new BufferedInputStream(uc.getInputStream()); byte[] data=new byte[contentLength]; int bytesRead=0; int offset=0; while(offset<contentLength) { bytesRead=raw.read(data, offset, contentLength); if(bytesRead==-1)break; offset+=bytesRead; } raw.close(); if(offset!=contentLength) { throw new IOException("Only read "+offset+ "bytes;Expected "+contentLength+" bytes"); } //根据URL中获取文件路径的名,将获取的流写入到本地 String file=url.getFile(); int start=file.lastIndexOf("/"); String filename=file.substring(start+1); FileOutputStream fout=new FileOutputStream(filename); fout.write(data); fout.flush(); fout.close();
getHeaderField(String name);可以根据指定首部名来不区分大小写获取该名对应的值
getHeaderFieldKey(int n)和getHeaderField(int n)依此返回首部中的名和值,很有用
URL u=new URL(url); URLConnection uc=u.openConnection(); for(int j=1;;j++) { String header=uc.getHeaderField(j); if(header==null)break;//skip the loop System.out.println(uc.getHeaderFieldKey(j)+":"+header); }
配置连接
所谓的配置主要就是定义了客户端如何向服务器做出请求。
一般客户端在默认情况下doInput为true,表示可以接受来自服务器端发送的数据,这些必须在URLConnection连接之前设置。如果想要利用POST和PUT进行交互就必须要设置doOutpu为true,默认是false
配置客户端发送的HTPP首部
客户端进行服务器访问的时候,有些协议需要加上首部,配置一些名值对,可以通过setRequestProperty(name,value)设置,多个值之间利用逗号隔开。
客户端利用POST来发送数据
package com.urlconnection; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.io.Writer; import java.net.URL; import java.net.URLConnection; //模拟表单提交处理 public class FormPoster { private URL url; private QueryString query=new QueryString(); //必须要保证是http协议 public FormPoster(URL url) { if(!url.getProtocol().toUpperCase().startsWith("HTTP")) { throw new IllegalArgumentException("Posting only works for http urls"); } this.url=url; } public void add(String name,String value) { query.add(name, value); } public URL getURL() { return this.url; } public InputStream post()throws IOException { URLConnection uc=url.openConnection(); uc.setDoOutput(true); Writer out=new OutputStreamWriter(uc.getOutputStream(),"ASCII"); //POST行,Content-type和Content-length是由URLConnection发送的 //只需要发送数据即可 out.write(query.toString()); out.write("\r\n\r\n"); out.flush(); out.close(); return uc.getInputStream(); } public static void main(String[] args) { // TODO Auto-generated method stub String u="http://www.baidu.com"; URL url=null; try{ url=new URL(u); }catch(IOException e) { } FormPoster poster=new FormPoster(url); poster.add("hawk", "fdafda"); poster.add("good morning", "fdafa"); try{ InputStream in=poster.post(); //读取响应 InputStreamReader r=new InputStreamReader(in); int c; while((c=r.read())!=-1) { System.out.print((char)c); } in.close(); }catch(IOException ex) { System.err.println(ex); } } }
HTTPURLConnection
这个是一个专门操作http URL的类,继承子URLConnection,主要有7个请求的方法,
利用setRequestMethod(String method)设置不同的请求方法,默认是get,区分大小写
GET,从服务器端获取数据
POST,向服务器端提交表单
PUT,上传文件至服务器
HEAD,获取服务器端响应的头部
OPTIONS,查询服务器支持哪些请求方法
DELETE,删除服务器中的文件
TRACE,服务器返回客户端发送的HTTP首部,用于检测代理服务器对HTTP首部进行怎样修改
服务器响应的格式如下:
HTTP/1.1 200 OK
...
这个类添加了两个方法
getResponseMessage()获取响应码对应的消息,如OK
getResponseCode()获取响应码,如200
协议处理器
协议处理器主要就是根据URL中的协议来找到合适的协议处理器来进行客户端与服务器端的交互。主要涉及四个类,具体类URL,抽象类URLConnection和URLStreamHandler,以及接口URLStreamHandlerFactory。协议处理器的流处理器总是根据指定的协议找到最适合的URLConnection
要想自己建立协议处理器,需要编写两个URLConnection和URLStreamHandler的子类,然后创建一个URLStreamHandlerFactory。
URLConnection子类主要处理与服务器交互,将服务器发送的数据转换为InputStream,将客户端发送的所有数据转换为OutputStream。URLStreamHandler子类主要将URL的字符串表示解析为各个部分,用这些部分来设置URL对象的各个部分,并且创建一个理解次URL协议的URLConnection。
协议处理器的基本流程如下:
1 程序先利用字符串构建某一个协议的URL对象,在创建URL模式中,只会验证是否识别URL模式,而不会对其格式的正确性进行检查
2 构造函数利用所传递的参数来确定URL的协议部分,如http
3 URL()构造函数以如下方式尝试进行找到给定的URLStreamHandler
a 如果以前使用过此协议,从缓存中获取URLStreamHandler
b 否则,若设置了URLStreamHandlerFactory,将此字符串传递给工厂 www.it165.net
c 若两个都没有,则尝试实例化一个位于java.protocol.handler.pkgs属性列出的 protocol.Handler的URLStreamHandler
d 如果实例化失败,就尝试实例化一个位于sun.net.www.protocol中的protocol.Handler 的URLStreamHandler
e 如果其中一个成功了,则设置属性字段handler字段。如果都不成功,则抛 出MalformedURLException异常
4 程序调用URL对象的openConnection方法
5 URL会根据协议让URLStreamHandler返回一个适合于此URL的URLConnection
6 使用URLConnection进行与远程资源的交互
URLStreamHandler解析URL中字段的过程
URL(String)-->URL(URL,String)-->URL(URL,String,String)-->URLStreamHandler.parseURL()
-->URLStreamHandler.setURL()-->URL.set();
要新建立一个URLStreamHandler一般只需要修改openConnection方法即可,根据需要来修改parseURL
为每一个URLConnection子类重写一个connect方法,该方法包含了Socket的具体建立步骤。
再利用URLStreamHandlerFactory来注册这些流处理器