利用系统缓存优化程序的运行效率

准备知识

Buffer 和Cache 的设计目的,是为了提升系统的 I/O 性能。它们利用内存,充当起慢速磁盘与快速
CPU 之间的桥梁,可以加速 I/O 的访问速度

buffers是内核缓存区用到的内存,对应的是/pro/meminfo中的buffers值
cache是内核页缓存和Slab用到的内存,对应的是/proc/meminfo中的cached和SReclaimable的和

Buffer 和 Cache 分别缓存的是对磁盘和文件系统的读写数据。

缓存命中率

直接通过缓存获取数据的请求次数,占所有数据请求次数的百分比 ,命中率越高,表示使用缓存带来的收益越高,应用程序的性能也就越好。

工具

cachestat 提供了整个操作系统缓存的读写命中情况。
cachetop 提供了每个进程的缓存命中情况

这两个工具都是 bcc 软件包的一部分,它们基于 Linux 内核的 eBPF(extended Berkeley Packet Filters)机制,来跟踪内核中管理的缓存,并输出缓存的使用和命中情况

ubuntu 安装bcc-tools

sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 4052245BD4284CDD
echo "deb https://repo.iovisor.org/apt/xenial xenial main" | sudo tee /etc/apt/sources.list
sudo apt-get update
sudo apt-get install -y bcc-tools libbcc-examples linux-headers-$(uname -r)

手动配置bcc软件包到PATH

$ export PATH=$PATH:/usr/share/bcc/tools

查看缓存命中率

cachestat

[email protected]:apt# cachestat 1 3
    HITS   MISSES  DIRTIES HITRATIO   BUFFERS_MB  CACHED_MB
       0        0        0    0.00%          108        818
       0        0        0    0.00%          108        818
       0        0        0    0.00%          108        818
[email protected]:apt# 

我得这个版本没有显示总的io数

TOTAL ,表示总的 I/O 次数;
MISSES ,表示缓存未命中的次数;
HITS ,表示缓存命中的次数;
DIRTIES, 表示新增到缓存中的脏页数;
BUFFERS_MB 表示 Buffers 的大小,以 MB 为单位;
CACHED_MB 表示 Cache 的大小,以 MB 为单位。

cachetop

输出跟 top 类似,默认按照缓存的命中次数(HITS)排序,展示了每个进程的缓存命中情况。具体到每一个指标,这里的 HITS、MISSES 和 DIRTIES ,跟 cachestat 里的含义一样,分别代表间隔时间内的缓存命中次数、未命中次数以及新增到缓存中的脏页数。而 READ_HIT 和 WRITE_HIT ,分别表示读和写的缓存命中率

指定文件的缓存大小

需要使用 pcstat 这个工具,来查看文件在内存中的缓存大小以及缓存比例 ,pcstat 是一个基于 Go 语言开发的工具,所以安装它之前,应该安装 Go 语言 :

sudo apt-get install golang

安装完 Go 语言,再运行下面的命令安装 pcstat:

$ export GOPATH=~/go
$ export PATH=~/go/bin:$PATH
#最好环境变量的配置写进 .bashrc中,不然重启后失效
$ go get golang.org/x/sys/unix
$ go get github.com/tobert/pcstat/pcstat

多数情况下会被墙,采用以下方法安装

[email protected]:src# mkdir -p golang.org/x
[email protected]:src# cd golang.org/x
[email protected]:x# git clone https://github.com/golang/sys.git
Cloning into 'sys'...
remote: Enumerating objects: 155, done.
remote: Counting objects: 100% (155/155), done.
remote: Compressing objects: 100% (101/101), done.
remote: Total 8244 (delta 101), reused 85 (delta 54), pack-reused 8089
Receiving objects: 100% (8244/8244), 6.64 MiB | 148.00 KiB/s, done.
Resolving deltas: 100% (7057/7057), done.
[email protected]:x# go get github.com/tobert/pcstat/pcstat

安装后可查看文件的缓存情况:

[email protected]:x# pcstat /bin/ls
+---------+----------------+------------+-----------+---------+
| Name    | Size (bytes)   | Pages      | Cached    | Percent |
|---------+----------------+------------+-----------+---------|
| /bin/ls | 133792         | 33         | 33        | 100.000 |
+---------+----------------+------------+-----------+---------+

这个输出中,Cached 就是 /bin/ls 在缓存中的大小,而 Percent 则是缓存的百分比。看到它们都是 33,这说明 /bin/ls 占用缓存的33%

案例

机器配置:2 CPU,8GB 内存。
预先按照上面的步骤安装 bcc 和 pcstat 软件包,并把这些工具的安装路径添加到到PATH 环境变量中。
预先安装 Docker 软件包,比如 apt-get install docker.io

案例1

1,使用 dd 命令生成一个临时文件,用于后面的文件读取测试:

# 生成一个 512MB 的临时文件
$ dd if=/dev/sda1 of=file bs=1M count=512
# 清理缓存
$ echo 3 > /proc/sys/vm/drop_caches

使用pcstat查看file的缓存

[email protected]:cache_test# pcstat file
+-------+----------------+------------+-----------+---------+
| Name  | Size (bytes)   | Pages      | Cached    | Percent |
|-------+----------------+------------+-----------+---------|
| file  | 536870912      | 131072     | 0         | 000.000 |
+-------+----------------+------------+-----------+---------+
[email protected]:cache_test# 

运行 cachetop 命令: cachetop 5

然后读这个文件,写道/dev/null中

[email protected]:cache_test# dd if=file of=/dev/null bs=1M
512+0 records in
512+0 records out
536870912 bytes (537 MB, 512 MiB) copied, 0.405824 s, 1.3 GB/s

查看该进程的缓存命中率

查看结果并不是所有的读都落到了磁盘上,事实上读请求的缓存命中率只有 50% 。

dd命令前清理了缓存,为什么缓存命中率是百分之49.8呢?(都已经没有缓存了,按理说是0)
因为预读
对于文件请求,Linux内核提供了预读策略,比要求长度多读一些,存储在page cache里,后续读是顺序的,马上可以利用page cache的数据返回,不必再次读硬盘。对于硬盘这种慢速设备而言,利用缓存数据大大提升I/O效率。

再次执行刚才的 dd 命令:

[email protected]:cache_test# dd if=file of=/dev/null bs=1M
512+0 records in
512+0 records out
536870912 bytes (537 MB, 512 MiB) copied, 0.0814252 s, 6.6 GB/s
[email protected]:cache_test# 

这次的读的缓存命中率是 100.0%,也就是说这次的 dd 命令全部命中了缓存,所以才会看到那么高的性能。

再次执行 pcstat 查看文件 file 的缓存情况:

[email protected]:cache_test# pcstat file
+-------+----------------+------------+-----------+---------+
| Name  | Size (bytes)   | Pages      | Cached    | Percent |
|-------+----------------+------------+-----------+---------|
| file  | 536870912      | 131072     | 131072    | 100.000 |
+-------+----------------+------------+-----------+---------+

从 pcstat 的结果你可以发现,测试文件 file 已经被全部缓存了起来

$\color{red}{注意:dd 当成测试文件系统性能的工具,由于缓存的存在,就会导致测试结果严重失真 }$

案例2

文件读写的案例

每秒从磁盘分区 /dev/sda1 中读取 32MB 的数据,并打印出读取数据花费的时间。

此案例被打包为一个docker镜像,提供了下面两个选项,你可以根据系统配置,自行调整磁盘分区的路径以及 I/O 的大小 :

-d 选项,设置要读取的磁盘或分区路径,默认是查找前缀为 /dev/sd 或者 /dev/xvd 的磁盘。
-s 选项,设置每次读取的数据量大小,单位为字节,默认为 33554432(也就是32MB)

1,开启一个终端执行cachetop 命令:

# 每隔 5 秒刷新一次数据
$ cachetop 5

2,开启一个终端,运行docker

docker run --privileged --name=app02 -itd feisky/app:io-direct /app -d /dev/sdb -s 33554432

3,查看日志输出

$ docker logs app
Reading data from disk /dev/sdb1 with buffer size 33554432
Time used: 0.929935 s to read 33554432 bytes
Time used: 0.949625 s to read 33554432 bytes

从这里你可以看到,每读取 32 MB 的数据,就需要花 0.9 秒。 查看cachetop输出,app的缓存命中率是100%

16:39:18 Buffers MB: 73 / Cached MB: 281 / Sort: HITS / Order: ascending
PID UID CMD HITS MISSES DIRTIES READ_HIT% WRITE_HIT%
21881 root app 1024 0 0 100.0% 0.0%

HITS 代表缓存的命中次数 ,内存以页为单位进行管理,而每个页的大小是 4KB。所以,在 5 秒的时间间隔里,命中的缓存为 1024*4K/1024 = 4MB,再除以 5 秒,可以得到每秒读的缓存是0.8MB,显然跟案例应用的 32 MB/s 相差太多

从结果可以看出,没有充分利用系统缓存。系统调用设置直接 I/O 的标志,可以绕过系统缓存

使用strace 分析

# strace -p $(pgrep app)
strace: Process 4988 attached
restart_syscall(<\.\.\. resuming interrupted nanosleep \.\.\.>) = 0
openat(AT_FDCWD, "/dev/sdb1", O_RDONLY|O_DIRECT) = 4
mmap(NULL, 33558528, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f448d2
read(4, "8vq\213\314\264u\373\4\336K\224\[email protected]\371\1\252\2\262\252q\221\n0\30\225bD\252\26
write(1, "Time used: 0.948897 s to read 33"\.\.\., 45) = 45
close(4) = 0

从 strace 的结果可以看到,案例应用调用了 openat 来打开磁盘分区 /dev/sdb1,并且传入的参数为 O_RDONLY|O_DIRECT(中间的竖线表示或)。O_RDONLY 表示以只读方式打开,而 O_DIRECT 则表示以直接读取的方式打开,这会绕过系统的缓存,查看源代码,过真如此

总结

Buffers 和 Cache 可以极大提升系统的 I/O 性能。通常,我们用缓存命中率,来衡量缓存的使用效率。命中率越高,表示缓存被利用得越充分,应用程序的性能也就越好。
可以用achestat 和 cachetop 这两个工具,观察系统和进程的缓存命中情况。其中

cachestat 提供了整个系统缓存的读写命中情况。
cachetop 提供了每个进程的缓存命中情况

Buffers 和 Cache 都是操作系统来管理的,应用程序并不能直接控制这些缓存的内容和生命周期。所以,在应用程序开发中,一般要用专门的缓存组件,来进一步提升性能。

原文地址:https://www.cnblogs.com/mrwuzs/p/11514268.html

时间: 2024-10-30 19:46:09

利用系统缓存优化程序的运行效率的相关文章

Linux性能优化实战:如何利用系统缓存优化程序的运行效率?(17)

一.缓存命中率 1.引子 1.我们想利用缓存来提升程序的运行效率,应该怎么评估这个效果呢? 用衡量缓存好坏的指标 2.有没有哪个指标可以衡量缓存使用的好坏呢? 缓存命中率 3.什么是缓存命中率? 所谓缓存命中率,是指直接通过缓存获取数据的请求次数,占所有数据请求次数的百分比.命中率越高,表示使用缓存带来的收益越高,应用程序的性能也就越好 2.查看系统命中情况的工具 1.缓存在高并发系统的应用 实际上.缓存是现在所有高并发系统必须的核心模块,主要作用就是把经常访问的数据(也就是热点数据),提取读入

ecshop二次开发系统缓存优化之扩展数据缓存的必要性与方法

1.扩展数据缓存的必要性 大家都知道ecshop系统使用的是静态模板缓存,在后台可以设置静态模板的缓存时间,只要缓存不过期,用户访问页面就相当于访问静态页面,速度可想而知,看似非常完美,但是ecshop 有一个方法被滥用了,那就是 clear_cache_files() ,该方法会把整个系统的静态模板都清除掉,商家或者系统后台管理员只要在后台修改一下商品,或者修改个其他的东西,就会调用该方法将所有静态缓存都清掉,所以如果有商家频繁的修改商品,那么静态模板缓存其实是形同虚设,系统每次都会重新执行动

[.net 面向对象程序设计进阶] (15) 缓存(Cache)(二) 利用缓存提升程序性能

[.net 面向对象程序设计进阶] (15) 缓存(Cache)(二) 利用缓存提升程序性能 本节导读: 上节说了缓存是以空间来换取时间的技术,介绍了客户端缓存和两种常用服务器缓布,本节主要介绍一种.NET中特别重要的缓布技术Cache.利用Cache提升程序性能. 1. 缓存Cache的命名空间 .NET中对缓存有两个命名空间 命名空间1:System.Web.Caching 命名空间2:System.Runtime.Caching 引用范围:这两个命名空间,都可以在Web和非WEB应用程序中

Android异步加载学习笔记之四:利用缓存优化网络加载图片及ListView加载优化

如果不做任何处理,直接用网络加载图片在网速快的情况下可能没什么不好的感觉,但是如果使用移动流量或是网络不好的时候,问题就来了,要么用户会抱怨流量使用太多,要么抱怨图片加载太慢,如论从哪个角度出发,都不是好的体验!要提高用户体验,我们就要使用缓存.Android中数据缓存的方式有很多,相关介绍的文章也比较多,比如http://blog.csdn.net/dahuaishu2010_/article/details/17093139和http://www.jb51.net/article/38162

Android异步载入学习笔记之四:利用缓存优化网络载入图片及ListView载入优化

假设不做不论什么处理.直接用网络载入图片在网速快的情况下可能没什么不好的感觉.可是假设使用移动流量或是网络不好的时候.问题就来了,要么用户会抱怨流量使用太多.要么抱怨图片载入太慢.如论从哪个角度出发,都不是好的体验! 要提高用户体验,我们就要使用缓存.Android中数据缓存的方式有非常多,相关介绍的文章也比較多.比方http://blog.csdn.net/dahuaishu2010_/article/details/17093139和http://www.jb51.net/article/3

【58沈剑架构系列】秒杀系统架构优化思路

一.秒杀业务为什么难做 1)im系统,例如qq或者微博,每个人都读自己的数据(好友列表.群列表.个人信息): 2)微博系统,每个人读你关注的人的数据,一个人读多个人的数据: 3)秒杀系统,库存只有一份,所有人会在集中的时间读和写这些数据,多个人读一个数据. 例如:小米手机每周二的秒杀,可能手机只有1万部,但瞬时进入的流量可能是几百几千万. 又例如:12306抢票,票是有限的,库存一份,瞬时流量非常多,都读相同的库存.读写冲突,锁非常严重,这是秒杀业务难的地方.那我们怎么优化秒杀业务的架构呢? 二

秒杀系统架构优化思路

[总结] 上文应该描述的非常清楚了,没什么总结了,对于秒杀系统,再次重复下我个人经验的两个架构优化思路: (1)尽量将请求拦截在系统上游(越上游越好): (2)读多写少的常用多使用缓存(缓存抗读压力): 浏览器和APP:做限速 站点层:按照uid做限速,做页面缓存 服务层:按照业务做写请求队列控制流量,做数据缓存 数据层:闲庭信步 并且:结合业务做优化 一.秒杀业务为什么难做 1)im系统,例如qq或者微博,每个人都读自己的数据(好友列表.群列表.个人信息): 2)微博系统,每个人读你关注的人的

深入理解计算机系统(5.1)------优化程序性能

你能获得的对程序最大的加速比就是当你第一次让它工作起来的时候. 在讲解如何优化程序性能之前,我们首先要明确写程序最主要的目标就是使它在所有可能的情况下都能正常工作,一个运行的很快的程序但是却是错误的结果是没有任何用处的,所以我们在进行程序性能优化之前,首先要保证程序能正常运行,且结果是我们需要的. 而且在很多情况下,让程序跑的更快是我们必须要解决的问题.比如一个程序要实时处理视频帧或者网络包,那么一个运行的很慢的程序就不能解决此问题.再比如一个计算任务计算量非常大,需要数日或者数周,如果我们哪怕

阿里秒杀系统架构优化思路

秒杀业务为什么难做 im系统,例如qq或者微博,每个人都读自己的数据(好友列表.群列表.个人信息) 微博系统,每个人读你关注的人的数据,一个人读多个人的数据 秒杀系统,库存只有一份,所有人会在集中的时间读和写这些数据,多个人读一个数据例如:小米手机每周二的秒杀,可能手机只有1万部,但瞬时进入的流量可能是几百几千万. 又例如:12306抢票,票是有限的,库存一份,瞬时流量非常多,都读相同的库存.读写冲突,锁非常严重,这是秒杀业务难的地方.那我们怎么优化秒杀业务的架构呢? 优化方向 优化方向有两个(