BufferedInputStream实现原理分析(转)

http://www.software8.co/wzjs/java/1770.html

BufferedInputStream是一个带有缓冲区的输入流,通常使用它可以提高我们的读取效率,现在我们看下BufferedInputStream的实现原理: 
BufferedInputStream
内部有一个缓冲区,默认大小为8M,每次调用read方法的时候,它首先尝试从缓冲区里读取数据,若读取失败(缓冲区无可读数据),则选择从物理数据源
(譬如文件)读取新数据(这里会尝试尽可能读取多的字节)放入到缓冲区中,最后再将缓冲区中的内容部分或全部返回给用户.由于从缓冲区里读取数据远比直接
从物理数据源(譬如文件)读取速度快,所以BufferedInputStream的效率很高!

在具体看源码之前,我们还需要了解BufferedInputStream的mark操作:void mark(int markLimit) 

你调用mark方法时,内部会保存一个markPos标志,它的值为目前读取字节流的pos位置,倘若你调用reset方法,这时候会把pos重置为
markPos的值,这样你就可以重读已经读过的字节.好像说的不是很清楚,那我们打个比方:有一段字节流是abcdefg,
当你读取完字母a调用mark方法(此时markPos指向字母b),接着你继续读取字母b,字母c,字母d,然后此时你调用reset方法(内部把
pos重置为markPos),当你再读取下一个字节的时候,你会发现你读取到的是b而不是字母e,这样通过mark方法我们就是实现了重复读(re-
read the same bytes)

mark
方法中还有个参数markLimit,它的值表示在调用mark方法后reset方法前最多允许读取的字节数(根据我的测试,以及查看源代码发现,这个最
大字节数,其实是由markLimit和buffer.size中较大的那个决定的),如果超过这个限制,则在调用reset方法时会
报:Reseting to invalid mark 异常 
说完了这么多,让我们来赶紧看看源码吧:

  1. // BufferedInputStream主要有这两个构造方法
  2. public BufferedInputStream(InputStream in) {
  3. this(in, defaultBufferSize);   // 默认缓冲区为8M
  4. }
  5. public BufferedInputStream(InputStream in, int size) {
  6. super(in);
  7. if (size <= 0) {
  8. throw new IllegalArgumentException("Buffer size <= 0");
  9. }
  10. buf = new byte[size];
  11. }

你需要指定InputStream(装饰模式的体现)以及bufferSize(可选) 
当我们调用read()方法时,它在内部做了一下事情:

  1. public synchronized int read() throws IOException {
  2. if (pos >= count) {         // 检查是否有可读缓冲数据
  3. fill();                 // 没有缓冲数据可读,则从物理数据源读取数据并填充缓冲区
  4. if (pos >= count)       // 若物理数据源也没有多于可读数据,则返回-1,标示EOF
  5. return -1;
  6. }
  7. // 从缓冲区读取buffer[pos]并返回(由于这里读取的是一个字节,而返回的是整型,所以需要把高位置0)
  8. return getBufIfOpen()[pos++] & 0xff;
  9. }
  10. private byte[] getBufIfOpen() throws IOException {
  11. byte[] buffer = buf;      // buf为内部缓冲区
  12. if (buffer == null)
  13. throw new IOException("Stream closed");
  14. return buffer;
  15. }

其中pos为缓冲区buffer下一个可读的数组下标,我们可以一直从缓冲区里读取数据,直到pos变为count(此时只能从物理数据源读取数据),下面我们就分析下,当缓冲区里没有数据可读时,BufferInputStream是如何处理的:

1.
若用户没有开启re-read功能(即未调用mark方法),当pos ==
count时,我们只需要将pos重新置为0,然后从物理源读取数据(假设读到了n个字节),最后把count设置成 n + pos 即可
(其实就是n,因为pos之前被设置成了0), 当下次你在调用read方法时,就直接从缓冲读取,非常快速(如下图); 

2.若用户调用了mark方法,情况就变得很复杂了,为什么呢? 这意味着我们需要保存从markPos到pos这段数据(以供用户re-read),现在我们分情况讨论: 
a.此时pos < buffer.length,这意味着缓冲区还有多余空间,所以我们可以继续从物理数据源读取数据放入到缓冲区中(如下图); 

b.pos == buffer.length,这意味着缓冲区已经没有多余空间,所以只能清空缓冲区内容,但是不要忘了,我们还必须保留原来 
markPos到pos那段数据,以供用户re-read,所以我需要这样做:

  1. // 计算需要保留多少字节的数据
  2. int sz = pos - markPos;
  3. // 然后拷贝到缓冲头部
  4. System.arraycopy(buffer, markpos, buffer, 0, sz);
  5. // 重置pos以及markPos
  6. pos=sz;
  7. markPos=0;

接着从缓冲区的sz 到 buffer.length又变成可用区间,用来存放从物理数据源读到的数据(如下图) 


这里似乎问题完美的解决了,其实不然,我们忘记考虑markPos失效问题,以及若pos - markPos ==
buffer.length,那么移了等于白移动,还是没有挪出多余空间,所以实我们应该这样做(后面讨论都是建立在pos ==
buffer.length的基础上):

2.1 若markPos > 0, 那么 pos - makrPos一定小于缓冲区大小,这样意味着我们按照刚才的算法挪动后,缓冲区就有了空余空间 

2.2 若makrPos == 0,  这意味着需要保存的数据满满的充斥着缓冲区,所以这时候我们是无法通过挪动位置来使缓冲区有多余空间的,所以我们只可以清空或扩展缓冲区 
2.2.1 当buffer.length >= marklimit时 ,此时意味着markPos已经失效,用户不可以在进行re-read,所以此时我们就可以简单释放整个缓冲区了:pos=0, markPos=-1; 
2.2.2 其余情况,意味着markPos还有效,所以我们只能通过扩展缓冲区的方式来使缓冲区有多余空间 

说了这么多,我们还是看下相关代码吧:

  1. private void fill() throws IOException {
  2. byte[] buffer = getBufIfOpen();        // 得到当前缓冲区
  3. if (markpos < 0)                          // 对应情况1
  4. pos = 0;
  5. else if (pos >= buffer.length)            // 对应情况2
  6. if (markpos > 0) {                    // 对应情况2.1
  7. int sz = pos - markpos;
  8. System.arraycopy(buffer, markpos, buffer, 0, sz);
  9. pos = sz;
  10. markpos = 0;
  11. } else if (buffer.length >= marklimit) {  // 对应情况2.2.1
  12. markpos = -1;
  13. pos = 0;
  14. } else {                                  // 对应情况2.2.2
  15. int nsz = pos * 2;
  16. if (nsz > marklimit)
  17. nsz = marklimit;
  18. byte nbuf[] = new byte[nsz];
  19. System.arraycopy(buffer, 0, nbuf, 0, pos);
  20. ...
  21. }
  22. count = pos;
  23. int n = getInIfOpen().read(buffer, pos, buffer.length - pos);
  24. if (n > 0)
  25. count = n + pos;
  26. }


了关于BufferedInputStream就说道这里,它的 read(byte b[], int off, int
len)其实内部实现也大概如此:先从缓冲区读,如果读不到则从物理数据源读取并刷新到缓冲区(可能需要对缓冲区原来内容作必要的挪动或者对缓冲区大小进
行扩展)

BufferedInputStream实现原理分析(转)

时间: 2024-11-07 07:27:39

BufferedInputStream实现原理分析(转)的相关文章

BufferedInputStream实现原理分析

原文地址:http://blog.sina.com.cn/s/blog_67f995260101huxz.html BufferedInputStream是一个带有缓冲区的输入流,通常使用它可以提高我们的读取效率,现在我们看下BufferedInputStream的实现原理: BufferedInputStream内部有一个缓冲区,默认大小为8M,每次调用read方法的时候,它首先尝试从缓冲区里读取数据,若读取失败(缓 冲区无可读数据),则选择从物理数据源(譬如文件)读取新数据(这里会尝试尽可能

kafka producer实例及原理分析

1.前言 首先,描述下应用场景: 假设,公司有一款游戏,需要做行为统计分析,数据的源头来自日志,由于用户行为非常多,导致日志量非常大.将日志数据插入数据库然后再进行分析,已经满足不了.最好的办法是存日志,然后通过对日志的分析,计算出有用的数据.我们采用kafka这种分布式日志系统来实现这一过程. 步骤如下: 搭建KAFKA系统运行环境 如果你还没有搭建起来,可以参考我的博客: http://zhangfengzhe.blog.51cto.com/8855103/1556650 设计数据存储格式

android脱壳之DexExtractor原理分析[zhuan]

http://www.cnblogs.com/jiaoxiake/p/6818786.html内容如下 导语: 上一篇我们分析android脱壳使用对dvmDexFileOpenPartial下断点的原理,使用这种方法脱壳的有2个缺点: 1.  需要动态调试 2.  对抗反调试方案 为了提高工作效率, 我们不希望把宝贵的时间浪费去和加固的安全工程师去做对抗.作为一个高效率的逆向分析师, 笔者是忍不了的,所以我今天给大家带来一种的新的脱壳方法——DexExtractor脱壳法. 资源地址: Dex

android脱壳之DexExtractor原理分析

导语: 上一篇我们分析android脱壳使用对dvmDexFileOpenPartial下断点的原理,使用这种方法脱壳的有2个缺点: 1.  需要动态调试 2.  对抗反调试方案 为了提高工作效率, 我们不希望把宝贵的时间浪费去和加固的安全工程师去做对抗.作为一个高效率的逆向分析师, 笔者是忍不了的,所以我今天给大家带来一种的新的脱壳方法--DexExtractor脱壳法. 资源地址: DexExtractor源码:https://github.com/bunnyblue/DexExtracto

Adaboost算法原理分析和实例+代码(简明易懂)

Adaboost算法原理分析和实例+代码(简明易懂) [尊重原创,转载请注明出处] http://blog.csdn.net/guyuealian/article/details/70995333     本人最初了解AdaBoost算法着实是花了几天时间,才明白他的基本原理.也许是自己能力有限吧,很多资料也是看得懵懵懂懂.网上找了一下关于Adaboost算法原理分析,大都是你复制我,我摘抄你,反正我也搞不清谁是原创.有些资料给出的Adaboost实例,要么是没有代码,要么省略很多步骤,让初学者

Android视图SurfaceView的实现原理分析

附:Android控件TextView的实现原理分析 来源:http://blog.csdn.net/luoshengyang/article/details/8661317 在Android系统中,有一种特殊的视图,称为SurfaceView,它拥有独立的绘图表面,即它不与其宿主窗口共享同一个绘图表面.由于拥有独立的绘图表面,因此SurfaceView的UI就可以在一个独立的线程中进行绘制.又由于不会占用主线程资源,SurfaceView一方面可以实现复杂而高效的UI,另一方面又不会导致用户输

AbstractQueuedSynchronizer的介绍和原理分析(转)

简介 提供了一个基于FIFO队列,可以用于构建锁或者其他相关同步装置的基础框架.该同步器(以下简称同步器)利用了一个int来表示状态,期望它能够成为实现大部分同步需求的基础.使用的方法是继承,子类通过继承同步器并需要实现它的方法来管理其状态,管理的方式就是通过类似acquire和release的方式来操纵状态.然而多线程环境中对状态的操纵必须确保原子性,因此子类对于状态的把握,需要使用这个同步器提供的以下三个方法对状态进行操作: java.util.concurrent.locks.Abstra

linux中mmap系统调用原理分析与实现

参考文章:http://blog.csdn.net/shaoguangleo/article/details/5822110 linux中mmap系统调用原理分析与实现 1.mmap系统调用(功能)      void* mmap ( void * addr , size_t len , int prot , int flags ,int fd , off_t offset )      内存映射函数mmap, 负责把文件内容映射到进程的虚拟内存空间, 通过对这段内存的读取和修改,来实现对文件的

Android 4.4 KitKat NotificationManagerService使用详解与原理分析(一)__使用详解

概况 Android在4.3的版本中(即API 18)加入了NotificationListenerService,根据SDK的描述(AndroidDeveloper)可以知道,当系统收到新的通知或者通知被删除时,会触发NotificationListenerService的回调方法.同时在Android 4.4 中新增了Notification.extras 字段,也就是说可以使用NotificationListenerService获取系统通知具体信息,这在以前是需要用反射来实现的. 转载请