Redis作者谈Redis比较适合的应用场景

来源:互联网 发布:知乎 清华法学院体验 编辑:程序博客网 时间:2024/06/05 16:29

文章来源:http://blog.nosqlfan.com/html/2235.html

毫无疑问,Redis开创了一种新的数据存储思路,使用Redis,我们不用在面对功能单调的数据库时,把精力放在如何把大象放进冰箱这样的问题上,而是利用Redis灵活多变的数据结构和数据操作,为不同的大象构建不同的冰箱。希望你喜欢这个比喻。

下面是一篇新鲜出炉的文章,其作者是Redis作者@antirez,他描述了Redis比较适合的一些应用场景,NoSQLFan简单列举在这里,供大家一览:

1.取最新N个数据的操作
比如典型的取你网站的最新文章,通过下面方式,我们可以将最新的5000条评论的ID放在Redis的List集合中,并将超出集合部分从数据库获取

•使用LPUSH latest.comments<ID>命令,向list集合中插入数据 
•插入完成后再用LTRIM latest.comments 0 5000命令使其永远只保存最近5000个ID 
•然后我们在客户端获取某一页评论时可以用下面的逻辑(伪代码) 
FUNCTION get_latest_comments(start,num_items):
    id_list = redis.lrange("latest.comments",start,start+num_items-1)
    IF id_list.length < num_items
        id_list = SQL_DB("SELECT ... ORDER BY time LIMIT ...")
    END
    RETURN id_list
END如果你还有不同的筛选维度,比如某个分类的最新N条,那么你可以再建一个按此分类的List,只存ID的话,Redis是非常高效的。

2.排行榜应用,取TOP N操作
这个需求与上面需求的不同之处在于,前面操作以时间为权重,这个是以某个条件为权重,比如按顶的次数排序,这时候就需要我们的sorted set出马了,将你要排序的值设置成sorted set的score,将具体的数据设置成相应的value,每次只需要执行一条ZADD命令即可。

3.需要精准设定过期时间的应用
比如你可以把上面说到的sorted set的score值设置成过期时间的时间戳,那么就可以简单地通过过期时间排序,定时清除过期数据了,不仅是清除Redis中的过期数据,你完全可以把Redis里这个过期时间当成是对数据库中数据的索引,用Redis来找出哪些数据需要过期删除,然后再精准地从数据库中删除相应的记录。

4.计数器应用
Redis的命令都是原子性的,你可以轻松地利用INCR,DECR命令来构建计数器系统。

5.Uniq操作,获取某段时间所有数据排重值
这个使用Redis的set数据结构最合适了,只需要不断地将数据往set中扔就行了,set意为集合,所以会自动排重。

6.实时系统,反垃圾系统
通过上面说到的set功能,你可以知道一个终端用户是否进行了某个操作,可以找到其操作的集合并进行分析统计对比等。没有做不到,只有想不到。

7.Pub/Sub构建实时消息系统
Redis的Pub/Sub系统可以构建实时的消息系统,比如很多用Pub/Sub构建的实时聊天系统的例子。

8.构建队列系统
使用list可以构建队列系统,使用sorted set甚至可以构建有优先级的队列系统。

9.缓存
这个不必说了,性能优于Memcached,数据结构更多样化。



一些实际的例子:


   丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样,DEV和DBA需要深度沟通,review每行sql语句,也不像memcached那样,不需要DBA的参与。redis的DBA需要熟悉数据结构,并能了解使用场景。

    下面举一些常见适合kv数据库的例子来谈谈键值的设计,并与关系型数据库做一个对比,发现关系型的不足之处。

用户登录系统

    记录用户登录信息的一个系统, 我们简化业务后只留下一张表。

关系型数据库的设计

mysql> select * from login;+---------+----------------+-------------+---------------------+| user_id | name           | login_times | last_login_time     |+---------+----------------+-------------+---------------------+|       1 | ken thompson   |           5 | 2011-01-01 00:00:00 ||       2 | dennis ritchie |           1 | 2011-02-01 00:00:00 ||       3 | Joe Armstrong  |           2 | 2011-03-01 00:00:00 |+---------+----------------+-------------+---------------------+

    user_id表的主键,name表示用户名,login_times表示该用户的登录次数,每次用户登录后,login_times会自增,而last_login_time更新为当前时间。

redis的设计

    关系型数据转化为KV数据库,我的方法如下:

    key 表名:主键值:列名

    value 列值

    一般使用冒号做分割符,这是不成文的规矩。比如在php-admin for redis系统里,就是默认以冒号分割,于是user:1 user:2等key会分成一组。于是以上的关系数据转化成kv数据后记录如下:

Set login:1:login_times 5Set login:2:login_times 1Set login:3:login_times 2Set login:1:last_login_time 2011-1-1Set login:2:last_login_time 2011-2-1Set login:3:last_login_time 2011-3-1set login:1:name ”ken thompson“set login:2:name “dennis ritchie”set login:3:name ”Joe Armstrong“

    这样在已知主键的情况下,通过get、set就可以获得或者修改用户的登录次数和最后登录时间和姓名。

    一般用户是无法知道自己的id的,只知道自己的用户名,所以还必须有一个从name到id的映射关系,这里的设计与上面的有所不同。

set "login:ken thompson:id"      1set "login:dennis ritchie:id"    2set "login: Joe Armstrong:id"    3

    这样每次用户登录的时候业务逻辑如下(python版),r是redis对象,name是已经获知的用户名。

#获得用户的iduid = r.get("login:%s:id" % name)#自增用户的登录次数ret = r.incr("login:%s:login_times" % uid)#更新该用户的最后登录时间ret = r.set("login:%s:last_login_time" % uid, datetime.datetime.now())

    如果需求仅仅是已知id,更新或者获取某个用户的最后登录时间,登录次数,关系型和kv数据库无啥区别。一个通过btree pk,一个通过hash,效果都很好。

    假设有如下需求,查找最近登录的N个用户。开发人员看看,还是比较简单的,一个sql搞定。

select * from login order by last_login_time desc limit N

    DBA了解需求后,考虑到以后表如果比较大,所以在last_login_time上建个索引。执行计划从索引leafblock 的最右边开始访问N条记录,再回表N次,效果很好。

    过了两天,又来一个需求,需要知道登录次数最多的人是谁。同样的关系型如何处理?DEV说简单

select * from login order by login_times desc limit N

    DBA一看,又要在login_time上建立一个索引。有没有觉得有点问题呢,表上每个字段上都有素引。

    关系型数据库的数据存储的的不灵活是问题的源头,数据仅有一种储存方法,那就是按行排列的堆表。统一的数据结构意味着你必须使用索引来改变sql的访问路径来快速访问某个列的,而访问路径的增加又意味着你必须使用统计信息来辅助,于是一大堆的问题就出现了。

    没有索引,没有统计计划,没有执行计划,这就是kv数据库。

    redis里如何满足以上的需求呢? 对于求最新的N条数据的需求,链表的后进后出的特点非常适合。我们在上面的登录代码之后添加一段代码,维护一个登录的链表,控制他的长度,使得里面永远保存的是最近的N个登录用户。

#把当前登录人添加到链表里ret = r.lpush("login:last_login_times", uid)#保持链表只有N位ret = redis.ltrim("login:last_login_times", 0, N-1)

    这样需要获得最新登录人的id,如下的代码即可

last_login_list = r.lrange("login:last_login_times", 0, N-1)

    另外,求登录次数最多的人,对于排序,积分榜这类需求,sorted set非常的适合,我们把用户和登录次数统一存储在一个sorted set里。

zadd login:login_times 5 1zadd login:login_times 1 2zadd login:login_times 2 3

    这样假如某个用户登录,额外维护一个sorted set,代码如此

#对该用户的登录次数自增1ret = r.zincrby("login:login_times", 1, uid)

    那么如何获得登录次数最多的用户呢,逆序排列取的排名第N的用户即可

ret = r.zrevrange("login:login_times", 0, N-1)

    可以看出,DEV需要添加2行代码,而DBA不需要考虑索引什么的。

TAG系统

    tag在互联网应用里尤其多见,如果以传统的关系型数据库来设计有点不伦不类。我们以查找书的例子来看看redis在这方面的优势。

关系型数据库的设计

    两张表,一张book的明细,一张tag表,表示每本的tag,一本书存在多个tag。

mysql> select * from book;+------+-------------------------------+----------------+| id   | name                          | author         |+------+-------------------------------+----------------+|    1 | The Ruby Programming Language | Mark Pilgrim   ||    1 | Ruby on rail                  | David Flanagan ||    1 | Programming Erlang            | Joe Armstrong  |+------+-------------------------------+----------------+mysql> select * from tag;+---------+---------+| tagname | book_id |+---------+---------+| ruby    |       1 || ruby    |       2 || web     |       2 || erlang  |       3 |+---------+---------+假如有如此需求,查找即是ruby又是web方面的书籍,如果以关系型数据库会怎么处理?
select b.name, b.author  from tag t1, tag t2, book bwhere t1.tagname = \'web\' and t2.tagname = \'ruby\' and t1.book_id = t2.book_id and b.id = t1.book_id

    tag表自关联2次再与book关联,这个sql还是比较复杂的,如果要求即ruby,但不是web方面的书籍呢?

    关系型数据其实并不太适合这些集合操作。

redis的设计

    首先book的数据肯定要存储的,和上面一样。

set book:1:name    ”The Ruby Programming Language”Set book:2:name     ”Ruby on rail”Set book:3:name     ”Programming Erlang”set book:1:author    ”Mark Pilgrim”Set book:2:author     ”David Flanagan”Set book:3:author     ”Joe Armstrong”

    tag表我们使用集合来存储数据,因为集合擅长求交集、并集

sadd tag:ruby 1sadd tag:ruby 2sadd tag:web 2sadd tag:erlang 3

    那么,即属于ruby又属于web的书?

inter_list = redis.sinter("tag.web", "tag:ruby")

    即属于ruby,但不属于web的书?

inter_list = redis.sdiff("tag.ruby", "tag:web")

    属于ruby和属于web的书的合集?

inter_list = redis.sunion("tag.ruby", "tag:web")

    简单到不行阿。

    从以上2个例子可以看出在某些场景里,关系型数据库是不太适合的,你可能能够设计出满足需求的系统,但总是感觉的怪怪的,有种生搬硬套的感觉。

    尤其登录系统这个例子,频繁的为业务建立索引。放在一个复杂的系统里,ddl(创建索引)有可能改变执行计划。导致其它的sql采用不同的执行计划,业务复杂的老系统,这个问题是很难预估的,sql千奇百怪。要求DBA对这个系统里所有的sql都了解,这点太难了。这个问题在oracle里尤其严重,每个DBA估计都碰到过。对于MySQL这类系统,ddl又不方便(虽然现在有online ddl的方法)。碰到大表,DBA凌晨爬起来在业务低峰期操作,这事我没少干过。而这种需求放到redis里就很好处理,DBA仅仅对容量进行预估即可。

    未来的OLTP系统应该是kv和关系型的紧密结合。

第二部分转自:http://blogread.cn/it/article/4298?f=sa


0 0
原创粉丝点击