在SQL Server中Count(*)或者Count(1)或者Count([列])或许是最常用的聚合函数很多人其实对这三者之间是区分不清的。本文会阐述这三者的作用关系以及背后的原理。
往常我经常会看到一些所谓的优化建议不使用Count(* )而是使用Count(1)从而可以提升性能,给出的理由是Count( *)会带来全表扫描而实际上如何写Count并没有区别。
Count(1)和Count(*)实际上的意思是评估Count()中的表达式是否为NULL,如果为NULL则不计数而非NULL则会计数。比如我们看代码1所示在Count中指定NULL(优化器不允许显式指定NULL,因此需要赋值给变量財能指定)
图1.显而易见,结果为0
图2.只要在Count中指定非NULL表达式结果没有任何区别
对于Count(列)来说,同样适用于上面规则评估列中每一行嘚值是否为NULL,如果为NULL则不计数不为NULL则计数。因此Count(列)会计算列或这列的组合不为空的计数
那Count(*)具体如何执行?
前面提到Count( )有不为NULL的徝时在SQL Server中只需要找出具体表中不为NULL的行数即可,也就是所有行(如果一行值全为NULL则该行相当于不存在)那么最简单的执行办法是找一列NOT NULL的列,如果该列有索引则使用该索引,当然为了性能,SQL Server会选择最窄的索引以减少IO
因此,如果某个表上Count(*)用的比较多时考虑在一個最短的列建立一个单列索引,会极大的提升性能