主頁 > 知識庫 > SQL中distinct 和 row_number() over() 的區(qū)別及用法

SQL中distinct 和 row_number() over() 的區(qū)別及用法

1 前言

在咱們編寫 SQL 語句操作數據庫中的數據的時候，有可能會遇到一些不太爽的問題，例如對于同一字段擁有相同名稱的記錄，我們只需要顯示一條，但實際上數據庫中可能含有多條擁有相同名稱的記錄，從而在檢索的時候，顯示多條記錄，這就有違咱們的初衷啦！因此，為了避免這種情況的發(fā)生，咱們就需要進行“去重”處理啦，那么何為“去重”呢？說白了，就是對同一字段讓擁有相同內容的記錄只顯示一條記錄。

那么，如何實現“去重”的功能呢？對此，咱們有兩種方式可以實現該功能。

第一種，在編寫 select 語句的時候，添加 distinct 關鍵詞；

第二種，在編寫 select 語句的時候，調用 row_number() over() 函數。

以上兩種方式都可以實現“去重”功能，那兩者之間有何異同呢？接下來，作者將給出詳細的說明。

2 distinct

在 SQL 中，關鍵字 distinct 用于返回唯一不同的值。其語法格式為：

SELECT DISTINCT 列名稱 FROM 表名稱

假設有一個表“CESHIDEMO”，包含兩個字段，分別 NAME 和 AGE，具體格式如下：

觀察以上的表，咱們會發(fā)現：擁有相同 NAME 的記錄有兩條，擁有相同 AGE 的記錄有三條。如果咱們運行下面這條 SQL 語句，

/**
* 其中 PPPRDER 為 Schema 的名字，即表 CESHIDEMO 在 PPPRDER 中
*/

select name from PPPRDER.CESHIDEMO

將會得到如下結果：

觀察該結果，咱們會發(fā)現在以上的四條記錄中，包含兩條 NAME 值相同的記錄，即第 2 條記錄和第 3 條記錄的值都為“gavin”。那么，如果咱們想讓擁有相同 NAME 的記錄只顯示一條該如何實現呢？這時，就需要用到 distinct 關鍵字啦！接下來，運行如下 SQL 語句，

select distinct name from PPPRDER.CESHIDEMO

將會得到如下結果：

觀察該結果，顯然咱們的要求得到實現啦！但是，咱們不禁會想到，如果將 distinct 關鍵字同時作用在兩個字段上將會產生什么效果呢？既然想到了，咱們就試試唄，運行如下 SQL 語句，

select distinct name, age from PPPRDER.CESHIDEMO

得到的結果如下所示：

觀察該結果，哎呀，貌似沒有作用啊？她將全部的記錄都顯示出來了啊！其中 NAME 值相同的記錄有兩條，AGE 值相同的記錄有三條，完全沒有變化??！但事實上，結果就應該是這樣的。因為當 distinct 作用在多個字段的時候，她只會將所有字段值都相同的記錄“去重”掉，顯然咱們“可憐”的四條記錄并不滿足該條件，因此 distinct 會認為上面四條記錄并不相同?？湛跓o憑，接下來，咱們再向表“CESHIDEMO”中添加一條完全相同的記錄，驗證一下即可。添加一條記錄后的表如下所示：

再運行如下的 SQL 語句，

select distinct name, age from PPPRDER.CESHIDEMO

得到的結果如下所示：

觀察該結果，完美的驗證了咱們上面的結論。

此外，有一點需要大家特別注意，即：關鍵字 distinct 只能放在 SQL 語句中所有字段的最前面才能起作用，如果放錯位置，SQL 不會報錯，但也不會起到任何效果。

3 row_number() over()

在 SQL Server 數據庫中，為咱們提供了一個函數 row_number() 用于給數據庫表中的記錄進行標號，在使用的時候，其后還跟著一個函數 over()，而函數 over() 的作用是將表中的記錄進行分組和排序。兩者使用的語法為：

ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)

意為：將表中的記錄按字段 COLUMN1進行分組，按字段 COLUMN2 進行排序，其中

PARTITION BY：表示分組ORDER BY：表示排序

接下來，咱們還用表“CESHIDEMO”中的數據進行測試。首先，給出沒有使用 row_number() over() 函數時查詢的結果，如下所示：

然后，運行如下 SQL 語句，

select PPPRDER.CESHIDEMO.*, row_number() over(partition by age order by name desc) from PPPRDER.CESHIDEMO

得到的結果如下所示：

從上面的結果可以看出，其在原表的基礎上，多了一列標有數字排序的列。那么反過來分析咱們運行的 SQL 語句，發(fā)現其確實按字段 AGE 的值進行分組了，也按字段 NAME 的值進行排序啦！因此，函數的功能得到了驗證。

接下來，咱們就研究如何用 row_number() over() 函數實現“去重”的功能。通過觀察上面的結果，咱們可以發(fā)現，如果以 NAME 分組，以 AGE 排序，然后再取每組的第一個記錄或許就可以實現“去重”的功能??！那么試試看，運行如下 SQL 語句，

/*
* 其中 rn 表示最后添加的那一列
*/

select * from 
(select PPPRDER.CESHIDEMO.*, row_number() over(partition by name order by age desc) rn from PPPRDER.CESHIDEMO)
where rn = 1

運行后，得到的結果如下所示：

觀察以上的結果，我們發(fā)現，哎呀，數據“去重”的功能一不小心就被咱們實現了?。〔贿^很遺憾，如果咱們細心的話，會發(fā)現一個很不爽的事情，那就是在執(zhí)行以上 SQL 語句進行“去重”的時候，有一條 NAME 值為“gavin”、AGE 值為“18”的記錄被過濾掉了，但是在現實生活會中，同名不同年齡的事情太正常了。

4 總結

通過閱讀及實踐以上內容，咱們已經知道了，無論是用關鍵字 distinct 還是用函數 row_number() over() 都可以實現數據“去重”的功能。但是在實現使用的過程中，咱們要特別注意兩者的用法特點以及區(qū)別。

在使用關鍵字 distinct 的時候，咱們要知道其作用于單個字段和多個字段的時候是有區(qū)別的，作用于單個字段時，其“去重”的是表中所有該字段值重復的數據；作用于多個字段的時候，其“去重”的表中所有字段（即 distinct 具體作用的多個字段）值都相同的數據。

在使用函數 row_number() over() 的時候，其是按先分組排序后，再取出每組的第一條記錄來進行“去重”的（在本篇博文中如此）。當然，在此處咱們還可以通過不同的限制條件來進行“去重”，具體如何實現，就需要大家自己去動腦思考啦！

最后，在本篇博文中，作者詳述了自己對用關鍵字 distinct 和函數 row_number() over() 進行數據“去重”的一些認識，希望以上的內容能夠對大家有所幫助！

感謝閱讀，希望能幫助到大家，謝謝大家對本站的支持！

標簽：湘潭銅川黃山湖南蘭州衡水崇左仙桃

巨人網絡通訊聲明：本文標題《SQL中distinct 和 row_number() over() 的區(qū)別及用法》，本文關鍵詞；如發(fā)現本文內容存在版權問題，煩請?zhí)峁┫嚓P信息告之我們，我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡，涉及言論、版權與本站無關。