用java打造属于自己的爬虫
网络上的图片太多 一个一个的保存实在太浪费时间
基于此 就使用了java做了一个小工具
功能是文件的复制 以及 网络上图片的下载
首先是IOUtlis类的创建
package hh; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.io.Reader; import java.io.Writer; import java.net.*; public class IOUtils { // buff缓冲区 public static void closeQuietly(FileOutputStream outpustream) { if(outpustream!=null) { try { outpustream.close(); } catch (IOException e) { // TODO 自动生成的 catch 块 //e.printStackTrace(); } } } public static void closeQuietly(FileInputStream inStream) { if(inStream!=null) { try { inStream.close(); } catch (IOException e) { // TODO 自动生成的 catch 块 //e.printStackTrace(); } } } public static void closeQuietly(Reader reader) { if(reader!=null) { try { reader.close(); } catch(IOException e ) { // } } } public static void copy(InputStream instream,OutputStream outputstream,int buff) throws IOException { byte[] buffer=new byte[buff]; int len;//计算读入的数据 if(instream==null) { throw new IllegalArgumentException("INPUTSTREAM不能为空"); } if(outputstream==null) { throw new IllegalArgumentException("outputstream不能为空"); } if(buff<=0) { throw new IllegalArgumentException("outputstream不能为空"); } while((len=instream.read(buffer))>0) { //不知道怎么处理异常就让调用者处理 outputstream.write(buffer,0,len); } } public static void copy(InputStream instream,OutputStream outputstream) throws IOException { copy(instream,outputstream,1024); }
copy这个方法实现了文件的复制功能,closequietly将文件流安静的关闭
方案一
文件的复制,目的是将E盘的1.txt文件复制到W盘的2.txt文件里 最后不要忘了关闭文件的输入输出流
不然可能导致复制失败
package hh; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; public class test { public static void main(String[] args) { long startMS=System.currentTimeMillis(); FileInputStream fis=null; FileOutputStream fos=null; try { fis=new FileInputStream("E:\\1.txt"); fos=new FileOutputStream("W:\\2.txt"); IOUtils.copy(fis,fos,1024); long endMS=System.currentTimeMillis(); System.out.println("拷贝完成 耗时"+(endMS-startMS)); } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } finally { try { fos.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } try { fis.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
方案二
调用了java.net.*;这个包 使用url类将图片地址比如下图画圈部分当做一个文件的输入流来使用,再使用copy方法将图片复制到本地。最后我发现该网站所有的图片都有一个特定的图片递增规则(可以考虑使用正则表达式)这样就可以通过变量来完成网站里所有的图片的复制
package hh; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.*; public class abc { public static void main(String []args) { InputStream inpustream=null; FileOutputStream outputstream=null; try { long start=System.currentTimeMillis(); int i=0; for(i=1;i<550;i++) { URL url=new URL("http://www.bokee.com//topic/images/%E6%9C%AA%E6%A0%87%E9%A2%98-2("+i+").jpg"); inpustream=url.openStream(); // http://www.bokee.com//topic/images/%E6%9C%AA%E6%A0%87%E9%A2%98-1(530).jpg // <img src="/_upload/article/images/66/b6/810dfe294d62aa81fba5ca1baef9/57c958b6-72e8-4331-a431-24b06039b649.jpg"> // <img src="/_upload/article/images/99/a1/416529614b32ba6a2f824bbbafae/04b85865-f1b9-4128-b33f-04eff1e81c5a.jpg"> outputstream=new FileOutputStream("W://main//"+i+".png"); IOUtils.copy(inpustream, outputstream); } long end=System.currentTimeMillis(); System.out.println("下载成功,耗时"+(start-end)+"毫秒"); } catch (MalformedURLException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } }
成果如下,最终满足了自己的需求,节省了时间。
时间: 2024-10-03 23:14:37