SCCM2012R2跨網段PXE啓動藍屏

最近作了一個SCCM2012R2的項目,讓我真心是身心俱疲啊,遇到了各類的坑,今天就給你們分享下該項目遇到的一些坑與相關解決方案。
數據庫


第一階段:PXE 啓動失敗排查服務器

 

問題描述:網絡

=========ide

跨網段作PXE的時候會有藍屏,同一個網段下PXE正常。測試

wKioL1m-BAeAoq-jAANglavpFeA501.png

問題排查:spa

=========操作系統

  1. 從報錯來看,WDS no response,咱們懷疑是WDS功能異常,咱們嘗試如下步驟去從新啓用WDS,問題依舊:3d

--------------------------------------調試

       登陸WDS服務器,中止Windows deployment     services server服務;日誌

       找到RemoteInstall\Mgmt路徑,將該路徑下的文件都剪切到一個新建文件夾作備份用;

       重啓Windows deployment     services server服務,Mgmt路徑下的文件會從新被生成;

 

  1. 以後咱們在DHCP服務器和SCCM DP上抓了網絡包,能夠看到在讀取BCD文件的時候顯示找不到文件,而找不到BCD文件直接致使了最初的藍屏報錯(boot configuration     data is missing or contains errors)。

--------------------------------------

正常PXE boot執行順序爲:Wdsnbp.com--Pxeboot.com—Bootmgr.exe—BCD文件—Boot.wim

 

故障機器的網絡包中能夠看到:Wdsnbp.com文件讀取成功;

wKioL1m-BGORItPiAAByRBCrjdc076.png

Pxeboot.com文件讀取成功;

wKioL1m-BNLiPrEnAAAwWLS99Nk837.pngBootmgr.exe文件讀取launch成功;

wKioL1m-BPfyGj7VAAAz9BW0Fcs381.png

而後讀取bcd文件的時候,顯示找不到文件。

wKiom1m-BW2Ry81DAAC0lb0HY_s605.png

3.   通過溝通,咱們瞭解到客戶配置了DHCP option     66,67,由於微軟不支持這種情形,因此咱們建議客戶改成配置IP helper。在配置完IP helper以後,咱們遇到如下新的報錯。

      wKioL1m-BczgNLQdAADpP8oxvHg305.png

4.   對於新的報錯咱們作了抓包分析,有如下分析發現;

    wKioL1m-BlGx3xvcAAEexblQZgo426.png

wKiom1m-BszzBLBmAAf1j2VzHNg428.png

wKioL1m-Bt-zc0j1AACNVjwZkuw370.png

5.    咱們拿到客戶的網絡拓撲以後,給出瞭如下抓包方案:

--------------------------------------------

  在客戶端接入S2126G-6交換機的接口上啓用端口鏡像並在對應機器上開啓netmon

  WDS服務器鏈接核心S7806A交換機的接口上啓用端口鏡像並在對應機器上開啓netmon

  在覈心S7806AG1/42G1/45以及匯聚S5750AG0/24接口上啓用端口鏡像並在對應機器上開啓netmon

  WDS以及DHCP服務器上開啓netmon

 

注意:沒有在S5750AG0/17以及接入層交換機上的端口一塊兒抓包是由於咱們考慮到問題出在這一段的可能性不是很大。

wKiom1m-B7CQYVv-AAe_Y9C71Hw519.png


6.   以後等待4個月左右,貴方根據咱們給出的方案作了抓包,並提交了日誌。最新的網絡包中看到問題又有變化,與前兩次不一樣。

----------------------------------------

此次客戶端拿到wdsnbp.com以後,再次發送的DHCP請求返回的文件不是正常的Pxeboot.com,而是abortpxe.com,直接終止了PXE boot行爲。

wKioL1m-B9CBL3KLAAOuIb-WLHY292.png

7.   以後咱們一塊兒作了遠程,有如下檢查發現:

-------------------------------------------------------------

  • 在把 「廣東聯想MT4500T_Win7_X86_SP1」 部署給     」全部未知計算機「時, 發如今這個任務序列都壞掉的, 其中的操做系統鏡像已經不存在。咱們對這個任務序列作了修復,從新添加了Windows 7SP1 的系統景象。 在這以後, 咱們成功的部署了此任務序列到     「全部未知計算機「 集合。

 

  • 以後, 咱們找了兩臺物理筆記本作測試。在經過網絡啓動時,如今的報錯信息和以前的遇到錯誤已經徹底不一樣,已經沒有藍屏(     BCD Error)或者PXE -M0F 錯誤。當前的錯誤信息爲:

wKiom1m-CE-jPumzAAPNJ3hhzj4501.png

  • 由於客戶端須要向SCCM MP去請求policy,咱們檢查MP相關日誌發現:MP 一直沒法正常鏈接到站點數據庫作查尋, 並且MP 的狀態不正常;也發現了mpcontrol.log 中有大量持續的 DB 沒法鏈接的錯誤和Internal 500 的錯誤;咱們在SCCM DP服務器上去鏈接站點數據庫的1433 端口, 發現沒法鏈接,這就是MP工做異常的問題所在。

8.   根據遠程會話中咱們發現的報錯,貴方將445以及1433端口作了開放。以後再次進行測試,發現客戶端依舊在向SCCM MP請求policy。咱們建議按照如下步驟將PXE re-enable,       完成以後測試PXE boot成功。

----------------------

  1. SCCM console --- 管理--- 分發點;

  2. 找到20GD 分發點, 打開基屬性, 取消PXE 相關的設置, 確認應用;

  3. 等15-20分鐘, 重啓服務器;

  4. 刪除原來的RemoteInstall 目錄 (確認各各分區下面都沒有這個目錄, 若是有請刪除或更名);

  5. 在SCCM 控制檯上, 找到20GD 分發點, 再啓用PXE.  系統會重裝PXE (WDS);

  6. 等5-10分鐘後, 確認 WDS服務是否裝好(確認系統服務deployment     service  和 數據分區中 RemoteInstall 目錄 ),安裝完成後測試PXE boot。

 

針對這兩部分的排查,根據個人分析和經驗,以前發生PXE 啓動失敗的緣由有如下:

 

a. PXE/WDS 節點上的啓動鏡像異常---咱們在後續的PXE 重裝中, 專門刪除了以前的老的文件夾,確保了從新裝的PXE 不受以前老的文件影響。

b. 部署異常---以前並無部署給全部未知計算機的任務序列, 這樣也間接形成了PXE 啓動時, 找不到對應的任務。

c.端口異常關閉---形成了在PXE啓動階段,站點服務器沒法正常的完成查詢,任務序列也沒法被檢測到

 

第二階段:任務序列卡死

 

9. 在解決了PXE 啓動問題後, 系統已經能夠成功的從PXE 啓動到WinPE 階段,可是在WinPE 階段卻沒有如預期的看到任務序列, 一直顯示一個空白界面以下:

    wKiom1m-CL_A5lB0AAGdGG--qe8808.png

因爲沒法從現場機器上獲取WinPE 階段的日誌: smsts.log, 咱們嘗試經過虛擬機測試這一問題。在這一過程當中, 咱們在DP 上調整了設置, 使之能夠在WinPE 階段作調試 (經過F8 鍵調出命令控制檯)


10. 在經過虛擬機測試時,咱們收到了以下的錯誤:

    wKioL1m-COzBeGb0AAGhwB36NzA497.png 

    這個錯誤信息是因爲損壞或有問題的WinPE 鏡像形成的, 咱們經過從新創建Boot鏡像, 並調整了任務序列裏的Boot鏡像設置,確保對應任務序列和操做系統匹配後,這個錯誤消失。可是WinPE階段仍是如上圖同樣,不顯示任何任務序列。



11. 在虛擬機收集到的smsts.log日誌中,咱們的發現了以下的信息。顯示在WinPE 階段, 這臺客戶端機器沒法正常的鏈接到對應的MP DP 服務器。

   wKioL1m-CT2xChjfAAGU-Svp-KQ186.png 

   在網絡同事調整DNS 設置後, 這個問題很快的被解決。 也能夠正常的看到任務序列了。

 

至此, 系統能夠正常的部署, 在虛擬機上測試的結果也爲正常。

相關文章
相關標籤/搜索