深入分析Java I/O 工作机制

前言 :  I/O 问题是Web 应用中所面临的主要问题之一。而且是任何编程语言都无法回避的问题,是整个人机交互的核心。

java 的I/O类操作在java.io 包下,将近80个子类, 大概可以分成四个部分,

  1. 基于字节操作的I/O接口 :InputStream  和OutputStream
  2. 基于字符操作的I/O接口:Writer 和 Reader
  3. 基于磁盘操作的I/O接口:File
  4. 基于网络操作的I/O接口:Socket

1和2 主要是传输数据的格式,后面两个则是传输数据的方式。  要么数据格式影响I/O操作,要么传输方式影响I/O操作,核心问题大致可以归为这两个 。

  • 基于字节的I/O操作接口

InputStream类层次结构

OutputStream类层次结构

操作数据的方式是可以组合使用的 例如

OutputStream out = new BufferedOutputStream (new ObjectOutputStream (new FileOutputStream ("filename")));

必须要指定数据流最终写入的地方,要么写入到磁盘,要么写到网络中,

  • 基于字符的I/O操作接口

不论是磁盘还是网络传输,最小的存储单元都是字节,而不是字符,所以,I/O操作的都是字节而不是字符,但是为什么会有操作字符的I/O 接口?

我们在程序中通常操作的数据都是字符形式(Java中char占用2字节,C/C++中 char占用1字节),为了操作方便当然会提供一个字符接口,字符到字节必须要经过编码的转换,编码转换又十分耗时,还会出现乱码问题

Writer 类层次结构

Writer 类提供了一个抽象方法write(char cbuf[ ],int off,in len)

Reader 类层次结构

读字符的操作接口是 int  read (char cbuf[ ],int off,in len),返回读到的n个字节数,不管是读还是写,他们都只定义了读取或写入的数据字符的方式,即怎么写,怎么读,并没有规定数据要读或写到哪里

  • 字节与字符的转换接口

有时数据持久化和网络传输是以字节进行的,所有需要字节和字符之间的相互转换

InputStreamReader 类是从字节到字符的转化桥梁,从InputStream 到Reader 的过程要指定编码字符集,否则会采用操作系统默认的字符集,就会出现乱码的问题,StreamDecoder就是完成从字节到字符的编码的实现类

 try{        StringBuffer str = new StringBuffer();        char [] buf = new char[1024]        FileReader f = new FileReader("filename")        while(f.read(buf)>0){        str.append(buf);   }   str.tostring(); }catch (IOException e){ }

FileReader 就是按照上面的工作方式来读取文件的,FileReader 类继承了InputStreamReader类,实际上是读取文件流,然后通过StreamDecoder 解码成char,这里的解码字符集是默认字符集。

磁盘I/O工作机制

1, 标准访问文件的方式

当应用程序调用read() 接口时候,操作系统检查在内核的高速缓存中有没有需要的数据,如果已经缓存了那么就直接从缓存中取出返回,如果没有,则从磁盘中读取,然后缓存在操作系统的缓存中。

写入的方式是,用户的应用程序调用write() 接口将数据从用户地址空间复制到内核地址空间的缓存中,这时对用户程序来说,写操作就已经完成了,至于什么时候写入到磁盘中去,由操作系统决定,除非显示的调用了sync同步命令。

标准文件访问方式

2, 直接I/O的方式

即应用程序直接访问磁盘数据而不经过操作系统内核数据缓冲区,这样减少了一次从内核缓冲区到用户程序缓存的复制, 这种访问方式通常在对数据的缓存管理由应用程序实现的数据库管理系统中,在数据库管理系统中,系统明确的知道应该缓存哪些数据,应该失效哪些数据,还可以对一些热点数据做预加载,提前将数据加载到内存,可以加速数据访问效率,在这些情况下,如果由操作系统进行缓存就很难做到,操作系统不知道哪些是热点数据,哪些数据只会访问一次就不会再访问,操作系统只是简单的缓存最近一次从磁盘读取的数据,

但是直接I/O的话也会有负面影响: 如果访问的数据不在应用程序缓存中,那么每次数据都要直接从磁盘进行预加载,这种直接加载会十分缓慢,通常直接I/O 与异步I/O结合使用会有比较好的性能。

直接I/O 的方式

3, 同步访问文件的方式

同步访问文件的方式比较容易理解,就是数据读取和写入都是同步操作的,与标准文件访问方式不同的是,只有当数据被成功写到磁盘时才返回给应用程序成功的标志, 这种访问方式的性能比较差,只有在对数据安全性较高的场景中才会使用,而且通常这种操作方式的硬件都是定制的。

同步访问文件的方式

4, 异步访问文件的方式

异步访问文件的方式是当访问数据的线程发出请求之后,线程会接着去处理其他事,而不是阻塞等待,当请求的数据返回之后,继续处理下面的操作, 这种访问文件的方式可以明显的提高应用程序的效率,但是不会改变访问文件的效率

异步访问文件的方式

5, 内存映射的方式

内存映射是指操作系统将内存中的某一块区域与磁盘中的文件关联起来,当要访问内存中的一段数据的时候,转换为访问文件的某一段数据,这种方式的目的同样是减少数据从内核空间缓存到用户空间缓存的数据复制操作,因为这两个数据空间的数据是共享的。

内存映射方式