佳木斯湛栽影视文化发展公司

主頁 > 知識庫 > MySQL group by語句如何優(yōu)化

MySQL group by語句如何優(yōu)化

熱門標簽:Linux服務器 AI電銷 百度競價排名 地方門戶網(wǎng)站 網(wǎng)站排名優(yōu)化 呼叫中心市場需求 鐵路電話系統(tǒng) 服務外包

   在MySQL中,新建立一張表,該表有三個字段,分別是id,a,b,插入1000條每個字段都相等的記錄,如下:

mysql> show create table t1\G
*************************** 1. row ***************************
    Table: t1
Create Table: CREATE TABLE `t1` (
 `id` int(11) NOT NULL,
 `a` int(11) DEFAULT NULL,
 `b` int(11) DEFAULT NULL,
 PRIMARY KEY (`id`),
 KEY `a` (`a`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
1 row in set (0.00 sec)
mysql> select * from t1 limit 10;
+----+------+------+
| id | a  | b  |
+----+------+------+
| 1 |  1 |  1 |
| 2 |  2 |  2 |
| 3 |  3 |  3 |
| 4 |  4 |  4 |
| 5 |  5 |  5 |
| 6 |  6 |  6 |
| 7 |  7 |  7 |
| 8 |  8 |  8 |
| 9 |  9 |  9 |
| 10 |  10 |  10 |
+----+------+------+
10 rows in set (0.00 sec)

   當我們執(zhí)行下面包含group by的SQL時,查看執(zhí)行計劃,可以看到:

mysql> explain select id%10 as m, count(*) as c from t1 group by m limit 10;
+----+-------------+-------+------------+-------+---------------+------+---------+------+------+----------+----------------------------------------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra                    |
+----+-------------+-------+------------+-------+---------------+------+---------+------+------+----------+----------------------------------------------+
| 1 | SIMPLE   | t1  | NULL    | index | PRIMARY,a   | a  | 5    | NULL | 1000 |  100.00 | Using index; Using temporary; Using filesort |
+----+-------------+-------+------------+-------+---------------+------+---------+------+------+----------+----------------------------------------------+
1 row in set, 1 warning (0.00 sec)

最后面有:

  • using index:覆蓋索引
  • using temporary:使用了內(nèi)存臨時表
  • using filesort:使用了排序操作

   為了更好的理解這個group by語句的執(zhí)行過程,我畫一個圖來表示:

對照上面這個表,我們不難發(fā)現(xiàn),這個group by的語句執(zhí)行流程是下面這樣的:

a、首先創(chuàng)建內(nèi)存臨時表,內(nèi)存表里有兩個字段m和c,主鍵是m;m是id%10,而c是統(tǒng)計的count(*) 個數(shù)

b、掃描表t1的索引a,依次取出葉子節(jié)點上的id值,計算id%10的結(jié)果,記為x;此時如果臨時表中沒有主鍵為x的行,就插入一個記錄(x,1);如果表中有主鍵為x的行,就將x這一行的c值加1;

c、遍歷完成后,再根據(jù)字段m做排序,得到結(jié)果集返回給客戶端。(注意,這個排序的動作是group by自動添加的。)

 如果我們不想讓group by語句幫我們自動排序,可以添加上order by null在語句的末尾,這樣就可以去掉order by之后的排序過程了。如下:

mysql> explain select id%10 as m, count(*) as c from t1 group by m order by null;
+----+-------------+-------+------------+-------+---------------+------+---------+------+------+----------+------------------------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra            |
+----+-------------+-------+------------+-------+---------------+------+---------+------+------+----------+------------------------------+
| 1 | SIMPLE   | t1  | NULL    | index | PRIMARY,a   | a  | 5    | NULL | 1000 |  100.00 | Using index; Using temporary |
+----+-------------+-------+------------+-------+---------------+------+---------+------+------+----------+------------------------------+
1 row in set, 1 warning (0.00 sec)

   可以看到,explain最后面的using filesort字樣已經(jīng)不見了。再來看下結(jié)果:

mysql> select id%10 as m, count(*) as c from t1 group by m;
+------+-----+
| m  | c  |
+------+-----+
|  0 | 100 |
|  1 | 100 |
|  2 | 100 |
|  3 | 100 |
|  4 | 100 |
|  5 | 100 |
|  6 | 100 |
|  7 | 100 |
|  8 | 100 |
|  9 | 100 |
+------+-----+
10 rows in set (0.00 sec)
mysql> select id%10 as m, count(*) as c from t1 group by m order by null;
+------+-----+
| m  | c  |
+------+-----+
|  1 | 100 |
|  2 | 100 |
|  3 | 100 |
|  4 | 100 |
|  5 | 100 |
|  6 | 100 |
|  7 | 100 |
|  8 | 100 |
|  9 | 100 |
|  0 | 100 |
+------+-----+
10 rows in set (0.00 sec)

   當我們不加order by null的時候,group by會自動為我們進行排序,所以m=0的記錄會在第一條的位置,如果我們加上order by null,那么group by就不會自動排序,那么m=0的記錄就在最后面了。

   我們當前這個語句,表t1中一共有1000條記錄,對10取余,只有10個結(jié)果,在內(nèi)存臨時表中還可以放下,內(nèi)存臨時表在MySQL中,通過tmp_table_size來控制。

mysql> show variables like "%tmp_table%";
+----------------+----------+
| Variable_name | Value  |
+----------------+----------+
| max_tmp_tables | 32    |
| tmp_table_size | 39845888 |
+----------------+----------+
2 rows in set, 1 warning (0.00 sec)

   當我們的結(jié)果足夠大,而內(nèi)存臨時表不足以保存的時候,MySQL就會使用磁盤臨時表,整個訪問的速度就變得很慢了。那么針對group by操作,我們?nèi)绾蝺?yōu)化?

01

group by優(yōu)化之索引

   從上面的描述中不難看出,group by進行分組的時候,創(chuàng)建的臨時表都是帶一個唯一索引的。如果數(shù)據(jù)量很大,group by的執(zhí)行速度就會很慢,要想優(yōu)化這種情況,還得分析為什么group by 需要臨時表?

   這個問題其實是因為group by的邏輯是統(tǒng)計不同的值出現(xiàn)的次數(shù),由于每一行記錄做group by之后的結(jié)果都是無序的,所以就需要一個臨時表存儲這些中間結(jié)果集。如果我們的所有值都是排列好的,有序的,那情況會怎樣呢?

例如,我們有個表的記錄id列是:

0,0,0,1,1,2,2,2,2,3,4,4,

當我們使用group by的時候,就直接從左到右,累計相同的值即可。這樣就不需要臨時表了。

   上面的結(jié)構我們也不陌生,當我們以在某個數(shù)據(jù)列上創(chuàng)建索引的時候,這個列本身就是排序的,當group by是以這個列為條件的時候,那么這個過程就不需要排序,因為索引是自然排序的。為了實現(xiàn)這個優(yōu)化,我們給表t1新增一個列z,如下:

mysql> alter table t1 add column z int generated always as(id % 10), add index(z);
Query OK, 0 rows affected (0.02 sec)
Records: 0 Duplicates: 0 Warnings: 0

mysql> select z as m, count(*) as c from t1 group by z;
+------+-----+
| m  | c  |
+------+-----+
|  0 | 100 |
|  1 | 100 |
|  2 | 100 |
|  3 | 100 |
|  4 | 100 |
|  5 | 100 |
|  6 | 100 |
|  7 | 100 |
|  8 | 100 |
|  9 | 100 |
+------+-----+
10 rows in set (0.00 sec)

mysql> explain select z as m, count(*) as c from t1 group by z;
+----+-------------+-------+------------+-------+---------------+------+---------+------+------+----------+-------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra    |
+----+-------------+-------+------------+-------+---------------+------+---------+------+------+----------+-------------+
| 1 | SIMPLE   | t1  | NULL    | index | z       | z  | 5    | NULL | 1000 |  100.00 | Using index |
+----+-------------+-------+------------+-------+---------------+------+---------+------+------+----------+-------------+
1 row in set, 1 warning (0.00 sec)

   我們新增字段z,z的值是id%10之后的值,并且創(chuàng)建索引,再通過group by對這個z列進行分組,可以看到,結(jié)果中已經(jīng)沒有臨時表了。

   所以,使用索引可以幫助我們?nèi)サ鬵roup by依賴的臨時表

02

group by優(yōu)化---直接排序

   如果我們已經(jīng)知道表的數(shù)據(jù)量特別大,內(nèi)存臨時表肯定不足以容納排序的時候,其實我們可以通過告知group by進行磁盤排序,而直接跳過內(nèi)存臨時表的排序過程。

  其實在MySQL中是有這樣的方法的:在group by語句中加入SQL_BIG_RESULT這個提示(hint),就可以告訴優(yōu)化器:這個語句涉及的數(shù)據(jù)量很大,請直接用磁盤臨時表。當我們使用這個語句的時候,MySQL將自動利用數(shù)組的方法來組織磁盤臨時表中的字段,而不是我們所周知的B+樹。關于這個知識點,這里給出官方文檔的介紹:

SQL_BIG_RESULT or SQL_SMALL_RESULT can be used with GROUP BY or DISTINCT to tell the optimizer that the result set has many rows or is small, respectively. For SQL_BIG_RESULT, MySQL directly uses disk-based temporary tables if they are created, and prefers sorting to using a temporary table with a key on the GROUP BY elements. For SQL_SMALL_RESULT, MySQL uses in-memory temporary tables to store the resulting table instead of using sorting. This should not normally be needed.

   整個group by的處理過程將會變成:

a、初始化sort_buffer,確定放入一個整型字段,記為m;

b、掃描表t1的索引a,依次取出里面的id值, 將 id%100的值存入sort_buffer中;

c、掃描完成后,對sort_buffer的字段m做排序(如果sort_buffer內(nèi)存不夠用,就會利用磁盤臨時文件輔助排序);

d、排序完成后,就得到了一個有序數(shù)組。類似0,0,0,1,1,2,2,3,3,3,4,4,4,4這樣

e、根據(jù)有序數(shù)組,得到數(shù)組里面的不同值,以及每個值的出現(xiàn)次數(shù)。

昨天的文章中我們分析了union 語句會使用臨時表,今天的內(nèi)容我們分析了group by語句使用臨時表的情況,那么MySQL究竟什么時候會使用臨時表呢?

MySQL什么時候會使用內(nèi)部臨時表?

1、如果語句執(zhí)行過程可以一邊讀數(shù)據(jù),一邊直接得到結(jié)果,是不需要額外內(nèi)存的,否則就需要額外的內(nèi)存,來保存中間結(jié)果;

2、如果執(zhí)行邏輯需要用到二維表特性,就會優(yōu)先考慮使用臨時表。比如union需要用到唯一索引約束, group by還需要用到另外一個字段來存累積計數(shù)。

以上就是MySQL group by語句如何優(yōu)化的詳細內(nèi)容,更多關于MySQL group by優(yōu)化的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • MySQL優(yōu)化GROUP BY(松散索引掃描與緊湊索引掃描)
  • MySQL優(yōu)化GROUP BY方案
  • MySQL Group by的優(yōu)化詳解

標簽:銅川 衡水 湘潭 湖南 蘭州 黃山 崇左 仙桃

巨人網(wǎng)絡通訊聲明:本文標題《MySQL group by語句如何優(yōu)化》,本文關鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    边坝县| 嘉定区| 雷山县| 淮南市| 加查县| 英超| 保康县| 宣汉县| 霍林郭勒市| 临泉县| 贞丰县| 共和县| 弋阳县| 辽宁省| 芦溪县| 高碑店市| 清涧县| 包头市| 洱源县| 易门县| 志丹县| 武乡县| 赣榆县| 广德县| 卢氏县| 施甸县| 阿拉善盟| 宁国市| 额尔古纳市| 巴马| 新龙县| 微博| 禄丰县| 德惠市| 沾化县| 平顶山市| 鄄城县| 乌拉特后旗| 大余县| 邓州市| 当阳市|