IN+子查询(Mysql)

来源:互联网 发布:mst软件与sap2000 编辑:程序博客网 时间:2024/05/17 12:51

1.Mysql中的In+子查询
在写select语句的时候可能会遇见需要通过类似下面的select子查询来完成的功能:
select * from table1 where id in (select id from table2 where …)
我们在审视这个select语句的时候很容易认为数据库会先执行sleect子查询然后在执行主查询。虽然这样做的话,性能会很好,但是事实并非这样,在mysql中优化器会把这个语句优化成另一个select语句:
1.在早期的版本中(未实测):
select * from table1 where exists (
select * from table2
where table1.id=table2.id and …);
这个语句我们就可以很清楚的看到内部的执行,由于子查询里面涉及到了外表中的记录,那么这个语句就会在检测外表每条记录的时候进行一次子查询来判断是否需要保留当前这条记录。那么这个子查询就会进行很多次:先对外面进行全表扫描,然后逐个进行子查询。这样的性能在表很大的时候是很糟糕的。
2.在Mysql5.7中,从哪个版本开始的不清楚,经过实测:
select * from table1 inner join table2 using(id)
where …
很显然这个查询相对于之前有一定的优化,mysql优化器对于这个查询生成的执行计划大概这样:先对table1执行where子句选中符合的记录
然后以生成的记录为开始进行嵌套循环的查询。
2.In+子查询的改写
我们可以对in+子查询进行改写。
2.1应用
如果在应用级别上,我们完全可以先对子查询进行查询然后存储结果在进行二次查询,在以前的网络速度代价大的情况下可能会有局限性,但是如今的网络代价完全可以承受。特别是如果第一次查询出来的结果是从一个特大表中找出几条记录,那么性能会提升很多。
2.2改写成连接查询
一般的关联子查询都可以改写成连接查询,而且一般都认为连接查询的效率会更高(但是不绝对)。上面的mysql的优化就是一个很好的例子,但是需要使用哪种需要根据需要进行抉择。
2.3使用特别的库函数
mysql中有一个函数是GROUP_CONCAT(),这个函数可以把一组里面的某个列的数据全部连接起来并且以逗号隔开来做为一个新的列,也就是说自带了distinct效果,而且生成了group中的所有指定列的结果的并集。这个函数可以在一些特别的情况下拥有更高的速率。
特别注意这个函数需要配合group by使用,具体情况可以查看官方文档。
3.比较
我们可能会听到,别使用这个关联子查询了,还是用连接查询吧。一般的结果也是连接查询可能会出现更加高的速度,但是不绝对。子查询拥有自己的有点,比如在sql语义上,可能会比使用连接查询好很多。
比如下面的sql语句:
select distinct film_id from film inner film_actor using(film_id);
这个查询到底是需要查询的什么喃?
但是如果换成的那个等效的:
select film_id from film where
exist(
select * from film_actor
where film.film_id=film_actor.film_id;
)
sql语义就比较明显了:查询film表,对每一条记录查询film_actor表,是否在该表中有该电影的记录(即是否有演员出演),那么总结起来就是查询出所有有演员出演的电影(有的电影可能没有演员出演,比如纪录片)。
而且在这个例子中,第一个语句使用了distinct,会产生中间表,测试结果显示也是下面的语句效率更高一些。
总之,没有最好的写法,只有对于固定场景下,更加好的sql语句写法。

原创粉丝点击