[SQL Server] 解決SQL Server進行HA後遠端使用Management Studio登入出現「Cannot generate SSPI context」錯誤之問題

新年快樂,先祝大家伺服器健康(無誤)!剛剛的週末在公司為一台SQL Server安裝Availability Group遇到一些問題,筆記了起來希望對大家有用。

Case:
已安裝Availability group 的SQL Server 無法利用PC Client上的SQL Server Management Studio使用Virtual Host name進行登入(AD帳號),並出現「Cannot generate SSPI context」(無法產生 SSPI 內容) 。

原因:
根據Microsoft的說明
Security Support Provider Interface (SSPI) is a set of Windows APIs that allows for delegation and mutual authentication over any generic data transport layer, such as TCP/IP sockets. Therefore, SSPI allows for a computer that is running a Windows operating system to securely delegate a user security token from one computer to another over any transport layer that can transmit raw bytes of data. 

The "Cannot generate SSPI context" error is generated when SSPI uses Kerberos authentication to delegate over TCP/IP and Kerberos authentication cannot complete the necessary operations to successfully delegate the user security token to the destination computer that is running SQL Server.
總括來說,就是無法把Client端的AD認證送到SQL Server去

問題研究:
這次出現的問題,是由於Service Principal Names (SPN)出了點狀況。
A service principal name (SPN) is the name by which a client uniquely identifies an instance of a service. If you install multiple instances of a service on computers throughout a forest, each instance must have its own SPN. 根據史帝芬大的解釋:「Windows 伺服器所執行的服務如果要以 Kerberos 提供認證功能,該服務必須設定過 SPN(Service principal names),否則用戶端將無法在網路裡找到服務,而且如果沒有正確的設定服務的 SPN,Kerberos 也無法運作。」簡單來說,SPN有問題的話就不能進行Kerberos驗證,因此會出現上面的錯誤。

小弟公司有兩台SQL Server,serverA那一台可以連 serverB那一台不行,所以最好是比較一下這兩台SQL Server的SPN:
  1. 在Client端打開cmd, 輸入setspn -l serverA(正常的那一台),按確定後出現很多記錄

  2. 再輸入setup -l serverB(不能連結的那一台),按確定後出現更多記錄
先不要管內容,明明就是兩台一模一樣的SQL Server,為什麼有問題的記錄多這麼多? 後來跟infra team的同事討論以後就理解了。因為這兩台SQL Server HA的功能是後來加上去的,為了不影響其他應用系統我們設HA時把原本的SQL Server換了hostname,原本的hostname變成HA的Virtual Host,之前屬於這個hostname的Computer Object我們沒有把它刪掉再弄一個新的,所以它的SPN舊記錄還存在,也因此當SQL Server換了個hostname變成HA架構底下其中一個node時,會找不到相對應的服務。

解決方法:

既然原因是因為只是修改Computer Object不行,最直接的方法是把Computer Object刪掉再重新弄個新的就好。不過刪掉之前記得,記得,記得,記得先把Availability group Listener刪掉,不然會發生Primary找不到Secondary,Secondary找不到Primary最後一齊雙雙進入Resolving掛掉的狀態就慘了。

Popular posts from this blog

[SQL SERVER] 找出LOCK方法懶人包

[SQL Server] 解決log檔(ldf file)過度膨脹的實戰經驗

[Windows7] 跨距磁碟區, 等量磁碟區, 鏡像磁碟區之區別