现在的位置: 首页 > 综合 > 正文

关于文件读写–Linux的内存映射解决大文件读写

2019年01月02日 ⁄ 综合 ⁄ 共 1293字 ⁄ 字号 评论关闭

第一组:ifstream与CFile的效率

From:http://www.cppblog.com/zhangyq/archive/2009/05/19/56034.html

ifstream是标准C++中的文件输入流,在实际应用中,用它的read方法,是必须缓冲的,效率很低。
在一次测试中,用它将一个800k的文件一次读入字符串中,和
MFC中的CFile类的read方法,效率竟然相差七倍,我用的是VC8,WM5.0的平台,用CFile,不到一秒,用ifstream要快七秒。究其原因,还是两者的机制不同所致。
ifstream的read、write方法,都是要缓冲的,所谓的缓冲区其实是一段中介内存(临时存储区),如果用户不设定的话,一般是512字节,读或写时先要将数据输送到缓冲区,等到缓冲区满或被刷新时,才将数据传输到设备或文件中。要直接读到内存中(即所谓的内核格式化),要用istringstream类。CFile显然是直接读内存不需要缓冲,所以速度快。
如果不考虑效率,可以用标准C++的文件输出流,二者的区别文件越大越明显,所以要根据实际运用的需要来选择。C++的灵活性在于它的概念是在实际中体会的,理论也是在实际应用中深化的。

第二组:Linux内存映射:mmap

Linux提供了内存映射函数mmap, 它把文件内容映射到一段内存上(准确说是虚拟内存上), 通过对这段内存的读取和修改,实现对文件的读取和修改, 先来看一下mmap的函数声明:

  • 头文件:

    • <unistd.h>
    • <sys/mman.h>
  • 原型: void *mmap(void *addr, size_t length, int prot, int flags,int fd, off_t offsize);
  • 返回值: 成功则返回映射区起始地址, 失败则返回MAP_FAILED(-1).
  • 参数:
    • addr: 指定映射的起始地址, 通常设为NULL, 由系统指定.
    • length: 将文件的多大长度映射到内存.
    • prot: 映射区的保护方式, 可以是:
      • PROT_EXEC: 映射区可被执行.
      • PROT_READ: 映射区可被读取.
      • PROT_WRITE: 映射区可被写入.
      • PROT_NONE: 映射区不能存取.
    • flags: 映射区的特性, 可以是:
      • MAP_SHARED: 对映射区域的写入数据会复制回文件, 且允许其他映射该文件的进程共享.
      • MAP_PRIVATE: 对映射区域的写入操作会产生一个映射的复制(copy-on-write),对此区域所做的修改不会写回原文件.
      • 此外还有其他几个flags不很常用, 具体查看linux C函数说明.
    • fd: 由open返回的文件描述符, 代表要映射的文件.
    • offset: 以文件开始处的偏移量, 必须是分页大小的整数倍, 通常为0, 表示从文件头开始映射.

   下面说一下内存映射的步骤:

  • 用open系统调用打开文件, 并返回描述符fd.
  • 用mmap建立内存映射, 并返回映射首地址指针start.
  • 对映射(文件)进行各种操作, 显示(printf), 修改(sprintf).
  • 用munmap(void *start, size_t lenght)关闭内存映射.
  • 用close系统调用关闭文件fd.
【上篇】
【下篇】

抱歉!评论已关闭.