linux IO 内核参数调优

来源:互联网 发布:大富豪棋牌源码3.4.1 编辑:程序博客网 时间:2024/06/05 12:00

http://blog.sina.com.cn/s/blog_54adf6c50102wdlp.html


http://www.cnblogs.com/zengkefu/p/5634853.html



1. pdflush刷新脏数据条件
linux IO 内核参数调优 之 原理和参数介绍 )上一章节讲述了IO内核调优介个重要参数参数。
总结可知cached中的脏数据满足如下几个条件中一个或者多个的时候就会被pdflush刷新到磁盘:
(1)数据存在的时间超过了dirty_expire_centisecs(默认30s)时间
(2)脏数据所占内存 /MemFree + Cached - Mapped) > dirty_background_ratio。也就是说当脏数据所占用的内存占MemFree + Cached - Mapped)内存的内存的比例超过dirty_background_ratio的时候会触发pdflush刷新脏数据。
    可以看出这两个参数是有联系的。比如把dirty_expire_centisecss设置较小,那么pdflush就会刷新脏数据的频率就会增加,这样就会使得脏数据所占总内存的比例不会达到dirty_background_ratio,从而使得dirty_background_ratio参数没有什么作用。相反,如果dirty_background_ratio参数设置很小同时dirty_expire_centisecs设置较大,可能在达到过期时间之前脏数据就被pdflush刷新到磁盘中。

2.  参数调优
如果系统的cached中脏数据量很大,会产生两个问题:
a. 缓存的数据越多,丢数据的风险越大。
b. 会定期出现IO峰值,这个峰值时间会较长,在这期间所有新的写IO性能会很差(极端情况直接被hang住)。
后一个问题对写负载很高的应用会产生很大影响。

如何调节内核IO参数来优化IO写性能?
(1)首先调优dirty_background_ratio
    把这个参数适当调小,这样可以使得cached主的脏数据减少,把原来一个大的IO刷新操作变为多个小的IO刷新操作,从而把IO写峰值削平。对于cached很大或者磁盘很慢的场景,应该把这个值设置的小一点。调节方法:echo 5 >> /proc/sys/vm/dirty_background_ratio 把这个百分比更新为5% (注意这里所占的百分比是针对于:MemFree + Cached - Mapped而言的,并不是相对于MemTotal)

(2)第二步调节dirty_ratio参数
    把这个参数适当调小,原理通(1)类似。如果cached的脏数据所占比例(这里是占MemTotal的比例)超过这个设置,系统会停止所有的应用层的IO写操作,等待刷完数据后恢复IO。所以万一触发了系统的这个操作,对于用户来说影响非常大的。

(3)第三步调节dirty_expire_centisecs参数(这个参数表示page cache中的数据多久标记为脏)
    这个参数调节可能意义不大。调小这个参数并不保证可以很快的把脏数据刷新下去,因为这里会有个IO拥塞问题。如果在一个dirty_expire_centisecs周期内没有刷完脏数据就会导致这个参数失效了。理想情况我们希望一个dirty_expire_centisecs刷完脏数据,但如果cached的脏数据较多或者磁盘较慢的时候就会导致IO拥塞问题。一般使用默认值就好。

(4)第四步调节dirty_writeback_centisecs参数(这个参数调节pdflush被唤醒的频率)
理论上调小这个参数,可以提高pdflush工作频率,从而尽快把脏数据刷新到磁盘上。但是这一样会遇到第三步IO拥塞问题。所以这个参数效果也不尽如人意。一般使用默认值就好。

3. Swapping调优
    swap空间是一块磁盘空间,操作系统使用这块空间保存从内存中换出的操作系统不常用page数据,这样可以分配出更多的内存做page cache。这样通常会提升系统的吞吐量和IO性能,但同样会产生很多问题。页面频繁换入换出会产生IO读写、操作系统中断,这些都很影响系统的性能。这个值越大操作系统就会更加积极的使用swap空间。
调节swappniess方法如下:
cat /proc/sys/vm/swappniess查看这个参数的配置(默认值是60)
echo 0 >> /proc/sys/vm/swappniess 禁止操作系统使用任何的swap空间
echo 100 >> /proc/sys/vm/swappniess 操作系统会尽量使用swap空间
swappniess设置一个适当值对于系统性能也会有明显的影响。
swappniess很小时,系统能并发的进程或者线程就会减少,但每个进程或者线程运行的速度较快,cpu利用率较好。
swappniess很大时,系统并发好,但每个进程或者线程速度较慢。较多IO读写和系统中断会消耗很多cpu资源,此时系统效率较低。
所以如果希望提高服务器的并发量,对服务的相应时间要求不很高的场景可以适当的把swappniess调节的高些。对于并发量不大但希望相应时间小的应用场景可以适当的调小这个参数,比如个人电脑可以直接禁掉swap。



1.  page cache
linux操作系统默认情况下写都是有写缓存的,可以使用direct IO方式绕过操作系统的写缓存。当你写一串数据时,系统会开辟一块内存区域缓存这些数据,这块区域就是我们常说的page cache(操作系统的页缓存)。查看系统内存常用的命令有:vmstat、free、top等。
可以使用 cat /proc/meminfo 查看详细的内存使用情况
 
其中的Cached为140M左右(page cache)。注意其中有一个Dirty: 24KB,表示当前有24KB的数据缓存在page cache,这些数据等待后台线程刷入磁盘。随着写入数据增加,这个值也会增加。
 
2. writeback
有了page cache就有了writeback写方式。一个写IO会先写入page cache,然后等待后台pdflush把page cache中脏数据刷入磁盘。如果在刷入磁盘之前系统断电,则page cache的数据丢失。所以对一些可靠性要求高的场景都会把这个写缓存禁掉。writeback写方式是linux操作系统提供的一种非常通用写模式。writeback提供了较好的吞吐量,有了缓存也缩短了IO响应时间。但它也有缺点:(1)断电可能丢数据(数据安全性)(2)对于像数据库这样自缓存的系统来说,多了一层IO缓存开销。因为数据库已经在应用层做了一层缓存。所以对于这样的应用可以用direct io方式,减少用户空间和page cache之间数据复制开销。(3)如果page cache过大,那么就会缓存太多的数据,当需要统一刷入磁盘的时候就会出现一个IO峰值和瓶颈,在这其间对用户的IO访问出现明显影响。如果想削平这个峰值可以把page cache容量设置小一点,让pdflush一段时间内较为平均的刷新dirty数据。
 
3. pdflush
pdflush是linux系统后台运行的一个线程,这个进程负责把page cahce中的dirty状态的数据定期的输入磁盘。一个系统中会运行很多这个pdflush。cat /proc/sys/vm/nr_pdflush_threads查看当前系统运行pdflush数量。当一段时间(一般是1s)没有任何的pdflush处于工作状态,系统会remove一个pdflush线程。pdflush最大和最小的数量是有配置的,但这些配置一般很少修改。
 
4. 几个重要的IO写相关参数
4.1 dirty_writeback_centisecs
cat /proc/sys/vm/dirty_writeback_centisecs查看这个值,默认一般是500(单位是1/100秒)。这个参数表示5s的时间pdflush就会被唤起去刷新脏数据。没有官方文档说明减少这个值就会有更多的pdflush参与刷数据。比如2.6或者更早的内核,linux中mm/page-writeback.c的源码中有这样一段描述“如果pdflush刷新脏数据的时间超过了这个配置时间,则完成刷新后pdflush会sleep 1s“。这种拥塞的保护机制描述只是写在源码里,并没有写入官方文档或者形成规范,所以也就意味着这种机制在不同的版本可能有不同的表现。
所以修改dirty_writeback_centisecs并不一定能给你带来多少性能的提升,相反有可能出现你意想不到的问题。一般建议用户使用默认值。
 
4.2 dirty_expire_centisecs
cat /proc/sys/vm/dirty_expire_centicecs查看这个值,默认是3000(单位是1/100秒)。这个值表示page cache中的数据多久之后被标记为脏数据。只有标记为脏的数据在下一个周期到来时pdflush才会刷入到磁盘,这样就意味着用户写的数据在30秒之后才有可能被刷入磁盘,在这期间断电都是会丢数据的。如果想pdfflush刷新频率大写可以减小这个值,比如:echo 1000 >> /proc/sys/vm/dirty_expire_centicecs 设置为10s一个刷新周期。
 
4.3 dirty_backgroud_ratio
cat /proc/sys/vm/dirty_backgroud_ratio查看这个值,默认是10(单位是百分比,不同的内核版本可能有不同的默认值)。很多的描述文档中描述这个值表示最多缓存脏数据的空间占总内存的百分比。其实不然,查看源码的描述,它的真实意义是占(MemFree + Cached - Mapped)的百分比。达到这个上限后会唤醒pdflush把这些脏数据刷新到磁盘,在把脏数据输入磁盘之前所有写IO会被阻塞。所以如果这个值设的过大,则会周期的出现一个写IO峰值,而且这个峰值持续比较长时间,在这段时间内用户的写IO会被阻塞。对于一些业务场景需要把这个值设置的小写,把峰值写IO平分为多次小的写IO。例如:echo 5 >> cat /proc/sys/vm/dirty_backgroud_ratio 把百分比降低到5%。

4.4  dirty_ratio
cat /proc/sys/vm/dirty_ratio查看这个值,默认是20(单位是百分比,不同的内核版本可能有不同的默认值)。表示当脏数据占用总内存的百分比超过20%的时候,内核会把所有的写操作阻塞掉,等待pdflush把这些脏数据刷入到磁盘后才能恢复正常的IO写。要注意的是当这个事件发生时,会阻塞掉所有写操作。这样会产生一个很大的问题,一个长时间大IO会抢占更多的IO写资源,可能把其它的小IO饿死。因为大IO产生的脏数据较多,很快达到这个阀值,此时就会系统会阻塞掉所有的写IO,从而小写IO无法进行写操作。



原创粉丝点击