概念介绍

在介绍零拷贝技术之前，我们需要了解几个相关的概念：

用户空间与内核空间

操作系统的地址空间分为用户空间和内核空间。用户空间是普通应用程序运行的地方，而内核空间是操作系统内核代码运行的地方。

系统调用

系统调用是应用程序请求内核提供服务的一种机制。例如，当应用程序需要从磁盘读取数据时，它会发起一个系统调用，如 read()，这个调用会导致CPU从用户模式切换到内核模式，以便内核代码可以执行磁盘I/O操作。

直接内存访问（DMA）

直接内存访问是一种硬件机制，允许外设（如硬盘、网络适配器）直接与内存进行数据传输，而无需CPU的介入。

内存映射

内存映射（Memory Mapping）是一种内存管理技术，它可以将文件的内容直接映射到内存空间中，这样应用程序可以直接访问内存中的数据，而不需要通过系统调用进行读取。

传统数据传输过程

在传统的数据传输中，数据需要经历多次拷贝。

当一个应用程序从磁盘读取数据并通过网络发送时，数据首先从磁盘读取到内核缓冲区，然后从内核缓冲区拷贝到用户空间的缓冲区，最后从用户空间缓冲区再拷贝到内核网络栈套接字的缓冲区，并最终传输到网络上。

这个过程中涉及多次上下文切换和数据拷贝，效率较低。

了解了这些概念后，零拷贝技术的目标就很明确了：减少或消除在数据传输过程中不必要的内存拷贝，从而减少CPU的使用，提高数据传输的速率。

零拷贝技术

sendfile系统调用

sendfile系统调用是一个高效的数据传送方法，用于在文件和套接字之间直接传输数据，旨在减少数据拷贝次数和上下文切换，从而提高数据传输性能。该调用特别适用于网络服务中的文件传输操作，如Web服务器发送静态资源到客户端。

sendfile系统调用的基本工作原理是将数据直接从文件传送到套接字，而不需要经过用户空间的缓冲区。这一过程避免了数据在内核空间和用户空间之间的多次拷贝，同时也减少了上下文切换的开销。

sendfile主要在内核级别操作，将数据从一个文件描述符直接传输到另一个文件描述符，比如从文件到套接字。

函数原型

#include <sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

参数说明

out_fd：目标文件的文件描述符，通常是一个套接字的文件描述符。
in_fd：源文件的文件描述符，通常是一个文件的文件描述符。
offset：指定从源文件开始的偏移量。如果设置为 NULL，则从文件的当前偏移量开始传输。
count：要传输的字节数。

执行过程

结合 DMA（直接内存访问），我们可以更详细地描述 sendfile() 系统调用的执行过程。以下是 sendfile() 在一个支持 DMA 的系统中的典型执行步骤：

步骤 1: 系统调用发起

用户空间请求：应用程序通过 sendfile() 系统调用请求将数据从文件传输到套接字。
系统调用陷入：CPU 接收到系统调用请求，将控制权转交给操作系统的内核。

步骤 2: 内核准备

参数检查：内核检查 sendfile() 调用的参数，包括输出文件描述符（通常是套接字）、输入文件描述符（文件）、偏移量和传输大小。
DMA 传输准备：内核设置 DMA 控制器，指定源（文件）和目标（套接字的缓冲区）内存地址，以及传输的数据量。

步骤 3: 数据传输

DMA 读取：DMA 控制器从磁盘直接读取文件数据到内核缓冲区。这一步不需要 CPU 的参与，DMA 控制器会自动处理数据传输。
缓冲区映射：如果系统支持零拷贝（zero-copy）机制，内核可能会将文件内容映射到套接字缓冲区，而不是实际复制数据。这通常通过内存映射（memory mapping）技术实现。
DMA 写入：DMA 控制器将内核缓冲区中的数据传输到网络适配器的发送缓冲区。同样，这一步也不需要 CPU 的直接参与。

步骤 4: 传输完成

通知 CPU：DMA 传输完成后，DMA 控制器会向 CPU 发送一个中断信号。
更新偏移量：CPU 处理中断，更新文件描述符的偏移量（如果提供了 offset 参数），以反映已传输的数据量。
返回状态：CPU 将 sendfile() 系统调用的结果返回给用户空间的应用程序，通常是通过系统调用的返回值和更新后的 offset。

步骤 5: 应用程序响应

检查结果：应用程序检查 sendfile() 的返回值，以确定数据是否成功传输。
后续处理：如果需要，应用程序可以继续发送剩余的数据或执行其他任务。

splice系统调用

#include <fcntl.h>
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);

参数说明

fd_in：输入文件描述符，即数据源。
off_in：指向 fd_in 的偏移量的指针。如果设置为 NULL，则从文件的当前偏移量开始传输。
fd_out：输出文件描述符，即数据目的地。
off_out：指向 fd_out 的偏移量的指针。与 off_in 类似，这个参数通常用于文件描述符，对于套接字描述符则没有效果。
len：要传输的数据长度。
flags：控制 splice() 行为的标志位。

执行过程

splice() 系统调用检查 fd_in 和 fd_out 是否至少有一个是管道（pipe）的文件描述符。如果两个都不是管道，那么 fd_in 必须是可寻址的（seekable）文件描述符（例如普通文件），而 fd_out 可以是任何类型的文件描述符。
splice() 从 fd_in指定的文件描述符读取数据，并将其写入 fd_out 指定的文件描述符。
如果 flags 参数中包含了 SPLICE_F_MOVE，splice() 尝试执行数据的“移动”操作，这通常意味着数据在内核空间中的缓冲区不会被复制，而是直接移动到目标缓冲区。
如果 off_in 或 off_out 不为 NULL，splice() 会更新相应的文件偏移量。
splice() 返回传输的字节数，或者在出错时返回 -1。

sendfile() 和 splice() 的区别

splice() 和 sendfile() 都是Linux系统中的系统调用，用于实现零拷贝数据传输，但它们在设计和用途上有所不同。

主要区别

数据传输的源和目标：
- sendfile() 用于将数据从一个文件描述符（通常是文件）传输到另一个文件描述符（通常是套接字）。它专门用于文件到套接字的传输。
- splice() 可以在任意两个文件描述符之间传输数据，包括文件、管道和套接字。这意味着 splice() 可以用于文件到文件、文件到套接字、套接字到文件等多种场景。
内核中的数据传输方式：
- sendfile() 在内核中直接将数据从文件缓冲区传输到套接字缓冲区，通常只涉及一次数据拷贝。
- splice() 在内核中使用“管道缓冲区”作为中介，将数据从源文件描述符的缓冲区复制到管道缓冲区，然后再从管道缓冲区复制到目标文件描述符的缓冲区。在某些情况下，如果硬件支持，splice() 可以实现真正的零拷贝，即数据在内核空间中的移动而无需复制。
对文件偏移量的处理：
- sendfile() 在传输数据时会更新文件的偏移量，因此它需要知道文件的当前偏移量，并能够在传输后更新它。
- splice() 不会自动更新文件的偏移量。如果需要更新偏移量，应用程序需要自己处理。
系统调用的复杂性：
- sendfile() 是一个相对简单的系统调用，用于特定的文件到套接字的传输场景。
- splice() 提供了更多的灵活性和复杂性，因为它支持更多的传输场景，并且可以通过不同的标志参数来控制其行为。
用途：
- sendfile() 通常用于Web服务器等应用，它们需要将静态文件内容发送到客户端。
- splice() 更通用，可以用于任何需要高效数据传输的场景，包括日志处理、数据备份、管道通信等。

`mmap()` 系统调用

mmap() 是一种内存映射文件的方法，它在 POSIX 兼容的操作系统中广泛存在，包括 Linux。mmap() 系统调用允许应用程序将文件或者设备的内容映射到内存中，这样就可以像访问普通内存一样访问文件内容，而不需要使用传统的读写操作。

基本使用

在 C 语言中，mmap() 的原型如下：

void *mmap(void *addr, size_t length, int prot, int flags,
           int fd, off_t offset);

参数说明：

addr：指定映射的起始地址，通常设置为 NULL，让内核自动选择地址。
length：要映射的文件区域的长度。
prot：映射区域的保护方式，可以是 PROT_READ、PROT_WRITE、PROT_EXEC 或 PROT_NONE 的组合。
flags：映射标志，如 MAP_PRIVATE（写时复制）或 MAP_SHARED（写操作对文件可见）。
fd：要映射的文件的文件描述符。
offset：文件内的偏移量，从该位置开始映射。成功时，mmap() 返回映射区域的地址；失败时，返回 MAP_FAILED。

减少数据拷贝

传统的文件读写操作需要经过以下步骤：

读取：从文件到内核缓冲区。
拷贝：从内核缓冲区到用户空间缓冲区。
写入：从用户空间缓冲区到内核缓冲区。
发送：从内核缓冲区到目标位置（如网络套接字）。

使用 mmap() 可以减少这些步骤中的某些拷贝操作：

映射：mmap() 将文件内容映射到进程的地址空间中，此时没有数据拷贝发生。映射后的内存区域可以直接通过指针访问。
访问：应用程序可以直接访问映射的内存区域，就像访问普通内存一样。这意味着，当应用程序读取或写入映射区域时，它实际上是在读取或写入文件内容，而无需显式地读取或写入文件。
减少拷贝：
- 当读取文件内容时，由于内容已经映射到内存中，所以不需要从内核缓冲区到用户空间的拷贝。
- 当写入文件内容时，如果使用了 MAP_SHARED 标志，写操作会直接反映到文件中，而不需要将数据从用户空间拷贝到内核缓冲区。
脏页回写：当映射区域被修改时，操作系统会在适当的时机（如内存不足或进程退出时）将修改写回到磁盘上，这通常是通过页缓存机制完成的。

通过 mmap()，数据可以直接在用户空间和文件之间传输，大大减少了数据在用户空间和内核空间之间不必要的拷贝，从而提高了I/O操作的效率。这对于大文件操作和网络数据传输尤其有用。然而，使用 mmap() 也需要谨慎，因为不当的使用可能导致内存泄漏、文件损坏或难以调试的问题。

页缓存机制

页缓存机制是操作系统用于提高文件系统性能的一种技术。它利用主存（RAM）作为磁盘数据的缓存，减少磁盘I/O操作，加快数据的读写速度。

基本概念

页（Page）：操作系统管理内存的基本单位，通常大小为4KB（在x86架构中）。磁盘上的数据也是以页为单位进行读取和写入的。
页缓存（Page Cache）：操作系统在内存中分配的一块区域，用于缓存从磁盘读取的文件页或者即将写入磁盘的数据页。

工作原理

读取操作

当应用程序请求读取文件数据时，页缓存机制的工作流程如下：

检查缓存：操作系统首先检查请求的数据是否已经在页缓存中。
- 如果数据已在缓存中（缓存命中），操作系统直接从内存中读取数据，避免了磁盘I/O操作。
- 如果数据不在缓存中（缓存未命中），操作系统将磁盘上的相应页读取到页缓存中，然后从缓存中读取数据传送给应用程序。
缓存策略：操作系统通常使用一些缓存算法（如最少使用（LRU）、最近最少使用（LFU）等）来决定哪些页应该保留在缓存中，哪些页可以被替换。

写入操作

当应用程序写入数据时，页缓存机制的工作流程如下：

写入缓存：数据首先被写入页缓存中，而不是直接写入磁盘。这时，应用程序会收到写入成功的通知，但实际上数据还没有写入磁盘。
延迟写入：操作系统会定期或在特定条件下（如缓存满了、系统空闲、关机等）将页缓存中的脏页（被修改过的页）写入磁盘。
写回策略：脏页的写回策略可以是同步的（写入操作完成后立即写回磁盘）或异步的（在之后的某个时间点写回磁盘）。

实现和配置

不同的操作系统有不同的页缓存实现。在Linux系统中，可以通过以下命令来查看和配置页缓存：

cat /proc/meminfo：查看内存使用情况，包括缓存大小。
sysctl：配置内核参数，包括缓存相关的参数。

Java中的零拷贝

在Java中，零拷贝技术主要涉及到Java NIO（New Input/Output）库，特别是在使用FileChannel和SocketChannel进行文件和网络数据传输时。Java NIO提供了几种方式来实现零拷贝，如下所述：

`FileChannel.transferTo()` 和 `FileChannel.transferFrom()`

FileChannel.transferTo(long position, long count, WritableByteChannel target) 方法允许将文件数据直接传输到目标通道，通常是一个SocketChannel，而无需通过Java堆内存。
FileChannel.transferFrom(ReadableByteChannel src, long position, long count) 方法执行相反的操作，它从源通道读取数据并直接写入文件通道。
这两个方法在底层使用了操作系统的零拷贝机制，如Linux的sendfile()系统调用。

`SocketChannel` 和 `DatagramChannel`

Java NIO中的SocketChannel和DatagramChannel支持内存映射文件（Memory-Mapped Files），这允许Java程序直接从内存访问文件内容，而无需通过Java堆内存。
这种方式结合FileChannel.map()方法，可以将文件内容映射到内存，然后使用SocketChannel直接发送映射的内存区域，实现零拷贝。

`java.nio.channels.Pipe`

Java NIO中的Pipe是一个通道，它允许在一个线程中写入数据，并在另一个线程中读取数据，而无需通过中间缓冲区。
这种方式可以在同一个JVM内部实现零拷贝的数据传输。

`java.nio.file.spi.FileSystem`

Java NIO.2（JSR 203）引入了新的文件API，其中包括对文件操作的零拷贝支持。例如，Files.copy()方法可以使用StandardCopyOption.ATOMIC_MOVE选项来实现文件的原子性移动，这可能在某些操作系统上实现零拷贝。

在Java中实现零拷贝的关键是尽可能避免将数据拷贝到Java堆内存，而是直接在操作系统级别的缓冲区之间传输数据。

参考链接：
https://zhuanlan.zhihu.com/p/362499466

概念介绍 ​

用户空间与内核空间 ​

系统调用 ​

直接内存访问（DMA） ​

内存映射 ​

传统数据传输过程 ​

零拷贝技术 ​

sendfile系统调用 ​

函数原型 ​

参数说明 ​

执行过程 ​

步骤 1: 系统调用发起 ​

步骤 2: 内核准备 ​

步骤 3: 数据传输 ​

步骤 4: 传输完成 ​

步骤 5: 应用程序响应 ​

splice系统调用 ​

参数说明 ​

执行过程 ​

sendfile() 和 splice() 的区别 ​

主要区别 ​

mmap() 系统调用 ​

基本使用 ​

减少数据拷贝 ​

页缓存机制 ​

基本概念 ​

工作原理 ​

读取操作 ​

写入操作 ​

实现和配置 ​

Java中的零拷贝 ​

FileChannel.transferTo() 和 FileChannel.transferFrom() ​

SocketChannel 和 DatagramChannel ​

java.nio.channels.Pipe ​

java.nio.file.spi.FileSystem ​

概念介绍

用户空间与内核空间

系统调用

直接内存访问（DMA）

内存映射

传统数据传输过程

零拷贝技术

sendfile系统调用

函数原型

参数说明

执行过程

步骤 1: 系统调用发起

步骤 2: 内核准备

步骤 3: 数据传输

步骤 4: 传输完成

步骤 5: 应用程序响应

splice系统调用

参数说明

执行过程

sendfile() 和 splice() 的区别

主要区别

`mmap()` 系统调用

基本使用

减少数据拷贝

页缓存机制

基本概念

工作原理

读取操作

写入操作

实现和配置

Java中的零拷贝

`FileChannel.transferTo()` 和 `FileChannel.transferFrom()`

`SocketChannel` 和 `DatagramChannel`

`java.nio.channels.Pipe`

`java.nio.file.spi.FileSystem`