說起自連線,想必小夥伴們都聽說過。在進行資料處理時經常會使用到自連線,特別是像一些連續性的問題中使用的比較多。

瘋狂暗示:

SQL如何求解連續性的問題?

自連線是什麼

那我們如何理解自連線呢?

自連線說白了其實就是兩張表結構和資料內容完全一樣的表,在做資料處理的時候,我們通常會給它們分別重新命名來加以區分(言外之意:不重新命名也不行啊,不然資料庫也不認識它們誰是誰),然後進行關聯。

下面我們來看看它們到底是怎麼進行自連線的

示例表內容

有如下一張表Student,表結構及資料如下:

如何理解SQL中的自連線?

當我們進行自連線時,不加任何過濾條件。具體如下:

SELECT

s1。Sname AS Sname1,

s2。Sname AS Sname2

FROM Student s2,Student s1

得到的結果是這樣的:

如何理解SQL中的自連線?

這結果看著好眼熟啊,好像在哪裡見過。沒錯,其實就是我們數學上的排列。

大致的排列方式是醬紫的:

如何理解SQL中的自連線?

先是name1中的張三分別與name2中的張三,李四,王五組合成前面3條記錄然後name1中的李四分別與name2中的張三,李四,王五組合成中間3條記錄最後name1中的王五分別與name2中的張三,李四,王五組合成最後3條記錄

這樣就得到了我們上面的結果了。

但是我們常見的自連線大多數其實是有條件的。不管什麼條件,其實都是在上面的結果上進行過濾的。

比如我們想找到一一對應的資料,可以這樣寫:

SELECT

s1。Sname AS Sname1,

s2。Sname AS Sname2

FROM Student s2,Student s1

WHERE s1。Sname=s2。Sname

得到的結果就是兩個自連線的表一一對應的了:

如何理解SQL中的自連線?

這裡的就是自連線的精髓了,張三自己和自己進行了關聯,所以你說這是什麼連線?

但是我們工作中,使用自連線的目的並不是自己和自己關聯,更多的時候是和表裡的其他進行組合,像這樣:

SELECT

s1。Sname AS Sname1,

s2。Sname AS Sname2

FROM Student s2,Student s1

WHERE s1。Sname<>s2。Sname

結果如下:

如何理解SQL中的自連線?

此外,如果我們想進一步的排除掉重複的資料行,比如張三,李四和李四,張三,我們預設這兩行是重複資料(儘管他們順序不同,但是在數學集合上,這兩行可以看作是相同的結果集),只想保留一種的話,可以這樣:

SELECT

s1。Sname AS Sname1,

s2。Sname AS Sname2

FROM Student s2,Student s1

WHERE s1。Sname>s2。Sname

得到的結果如下:

如何理解SQL中的自連線?

這樣我們就得到了“不重複”的3行資料了,這個與數學上的組合是一樣的。

自連線實戰

上面我們舉了一個自連線來處理連續性問題,下面我們再舉一個用自連線來刪除重複資料的示例:

示例表結構

有如下一張Student表,表結構和資料如下:

如何理解SQL中的自連線?

我們想刪除表中重複的資料行,該如何寫這個SQL?

我們分析一下,發現這個表是沒有主鍵ID的,為了區分它們的話,我需要給它新增一個虛列主鍵,怎麼做?可以這樣寫:

SELECT

IDENTITY(INT) ID,

Sname,

Score

INTO Student_Tmp

FROM Student

這裡我們使用自增長函式IDENTITY()來生成了一個生成一個類似自增主鍵的ID,並且將結果插入到Student_Tmp,其中Student_Tmp中的具體內容如下:

如何理解SQL中的自連線?

然後,我們可以透過保留最大值或最小值的方式來刪除重複項,具體如下:

DELETE FROM Student_Tmp

WHERE Student_Tmp。ID< (

SELECT Max(s2。ID)

FROM Student_Tmp s2

WHERE Student_Tmp。Sname=s2。Sname

AND Student_Tmp。Score=s2。Score

);

這樣我們就可以刪除ID為3和4的列了,查詢一下Student_Tmp裡的內容如下:

如何理解SQL中的自連線?

注意:由於SQL Server的一些限制,我們對源表不能進行上述操作,為了給大家演示自連線的作用,做了一定的調整。如果想在SQL Server中刪除原表中的重複行,可以使用如下方法:

SELECT DISTINCT * INTO Student_Tmp FROM Student

TRUNCATE TABLE Student

INSERT INTO Student SELECT * FROM Student_Tmp

DROP TABLE Student_Tmp

透過上述的辦法,我們使用自連線的方式刪除了Student_Tmp裡面的重複行。

以上就是自連線的一些主要用法,有不明白的地方歡迎給我留言~