適用於 Microsoft System Center Virtual Machine Manager 的 Dell Server PRO Management Pack 4.
註、警示與警告 註: 「註」表示可以幫助您更有效地使用電腦的重要資訊。 警示: 「警示」表示有可能會損壞硬體或導致資料遺失,並告訴您如何避免發生此類問題。 警告: 「警告」表示有可能會導致財產損失、人身傷害甚至死亡。 Copyright © 2014 Dell Inc. 著作權所有,並保留一切權利。本產品受美國與國際著作權及智慧財產權法保護。Dell™ 與 Dell 徽標是 Dell Inc. 在美國和/或其他轄區的商標。本文提及的所有其他標誌與名稱皆屬於其個別公司的商標。 2014 - 09 Rev.
目錄 1 簡介.......................................................................................................................... 4 本版本新功能..........................................................................................................................................4 概觀........................................................................................................................................................ 5 相關術語.........................................................................
1 簡介 本文件適用於使用 Dell Server PRO Management Pack (Dell PRO Pack) 來監視 Dell 系統,並在發現系統不 足時採取補救動作的系統管理員。 Dell PRO Pack 4.
概觀 Operations Manager 使用支援 PRO 的管理套件,在 Dell 硬體收集並儲存資訊,並且提供其健全狀況狀態的 說明。Dell PRO Pack 搭配 Operations Manager 與 VMM 2012 來管理 Dell 實體裝置,及其使用此可用健全 狀況資訊的託管虛擬機器 (VM)。Dell PRO Pack 會在監視的物件轉換為不良狀態 (例如,虛擬磁碟故障或預知 的磁碟機錯誤) 時,利用 Operations Manager 的監視和警示功能及 VMM 的補救功能,建議補救動作。 此外請參閱: 特色和功能 瞭解 PRO 提示管理 警示與復原動作 相關術語 • 受管系統是指執行 Dell OpenManage Server Administrator (OMSA) 的 Dell 系統,使用 Operations Manager 和 VMM 監督和管理,而且可以在本機管理或使用支援的工具從遠端管理。 • 管理站或 Management Station 是指已安裝 Operations Manager 和 SCVMM 來管理虛擬工作負載的 Microsoft Window
– 限制和移轉:在此模式中,建議將所有正在執行的虛擬機器,從不良的伺服器移轉到良好的伺服器, 以免服務中斷。如需更多資訊,請參閱執行復原動作。 瞭解 PRO 提示管理 本章節說明一般的 Dell PRO Pack 設定,以及 PRO 提示管理相關事件的順序。 圖 1. 元件互動 在圖中,一組 PowerEdge 系統擔任受管系統,兩套 PowerEdge 系統則擔任代管 Operations Manager 與 VMM 的管理站。OMSA 會在轉換為不良狀態時產生警示,並且提供相應的嚴重程度。Dell PRO Pack 會為 PRO 監視相同的警示。Dell PRO Pack 會為 OMSA 警示對應補救動作。 下表說明 PRO 提示管理發生的事件順序。 表 1.
順序號 事件 10 PRO 作用中警示會從 Operations Manager 中消失。 有關事件類型和關聯補救動作的詳細資訊,請參閱警示與復原動作。 支援的作業系統 Dell PRO Pack 在受管系統與管理站支援的作業系統如下: 受管系統: PRO Pack 的受管系統是 Virtual Machine Manager Server。 如需更多資訊,請參閱 technet.microsoft.com/en-us/library/gg610649.aspx。 管理站: 如需 Operations Manager 與 VMM 支援設定清單,請參閱: • Operations Manager 2012 R2 或 Operations Manager 2012 SP1 或 Operations Manager 2012 technet.microsoft.com/en-us/library/hh205990.
使用 Dell Performance Resource Optimization Pack 2 本章建議使用 PRO Pack 的步驟。 規劃 PRO 環境的提示 您可以規劃與環境相關的 PRO 監視。依據預設,所有 PRO 監視在 Dell PRO Pack 中皆為停用。如需有關警 示與復原動作的清單,請參閱警示與復原動作。選擇您要啟用的警示。使用 OpsMgr 主控台中的 OpsMgr Authoring Console (或) Authoring (製作) 窗格,建立一個管理套件以覆蓋原有的管理套件,以啟用相關的 PRO 監視。 啟用 PRO 監視的步驟如下: 1. 啟動 OpsMgr 主控台。 2. 在 Navigation (瀏覽) 窗格上,按一下 Authoring (製作)。 3. 在 Authoring (製作) 標籤中,選取 Management Pack Objects (管理組件物件) → Monitors (監視)。 4.
或者,如果您在 PRO Tip (PRO 提示) 視窗中選取 Show this window when new PRO Tips are created (建立 新 PRO 提示時顯示此視窗) 選項,產生 PRO 提示時,該視窗會在 VMM 主控台自動開啟。 PRO Tip (PRO 提示) 視窗會採用表格格式顯示來源、提示與 PRO 提示狀態這類資訊。該視窗也會顯示觸發警 示的問題說明、原因,以及建議的復原補救動作。 執行復原動作 PRO Tip (PRO 提示) 視窗提供執行或解除建議動作的選項。如果選擇 Implement (執行),VMM 會根據警示性 質執行以下所述的復原工作之一。 將主機置於限制模式 將主機置於 Restrict (限制) 模式,可防止在問題解決前將工作負載指派給主機。在此模式中,主機仍然會在 Operations Manager 收到警示,在 VMM 收到關聯的 PRO 提示。 虛擬主機上的非嚴重硬體警示,是可能觸發維護的系統健全狀況,例如 Dell PowerEdge 虛擬主機系統的周圍 機箱溫度警告。 虛擬機器移轉 PRO 提示管理套件使用 VMM 演算法,將虛擬機器
如果主機群組或主機叢集中沒有其他可用的狀況良好主機,PRO 提示移動虛擬機器的執行可能會失敗。在此 情況下,PRO Tip (PRO 提示) 視窗顯示的相應 PRO 提示狀態為 Failed (已失敗),原因在 Error (錯誤) 部分有 詳細說明。VMM 主控台 Jobs (作業) 部分中相應項目的狀態也顯示為 Failed (已失敗)。 註: 在 PRO Tip (PRO 提示) 視窗中,故障訊息會動態更新。然而,若要重新整理資料,您必須在 PRO Tip (PRO 提示) 視窗外按一下,然後再按一下讓視窗清晰。 如果選擇 Dismiss (解除),PRO 提示不會執行,而且會發生下列改變: • • PRO 提示從 VMM PRO 提示主控台移除。 Operations Manager 中的警示從 Dell Server PRO Alerts (Dell 伺服器 PRO 警示) 中刪除。 如需更多資訊,請參閱使用健全狀況總管重設警示。 虛擬機器即時移轉 因為您是已連線的使用者,在即時移轉時,您可以將 VM 從 Windows Server 2012 R2、Windows Server 2012 SP
• 狀態檢視 警示檢視 採用表格格式顯示 Dell PRO 特定警示,並且提供嚴重性層級、來源、名稱、解決狀態,以及建立的日期與時 間這類資訊。 若要存取 Alert View (警示檢視): 1. 啟動 Operations Manager 主控台。 2. 選取 Monitoring (監視) 標籤。 3.
若要手動重設警示: 1. 在 Actions (動作) 功能表中,按一下 Health Explorer (健全狀況總管)。 2. 在要關閉的警示上按一下右鍵。 3. 選取 Reset Health (重設健全狀況),警示會從 PRO Tip (PRO 提示) 視窗中消失。 覆寫復原動作 PRO Pack 4.0 支援兩種復原動作。下列旗標值會觸發各別的復原動作: • 1:用於移轉 • 2:用於將伺服器置於限制模式 變更預設復原動作旗標值,就可以覆寫預設復原動作,例如,使用 Operations Manager 主控台中提供的覆寫 選項,將復原旗標值從 2 變更為 1。將預設值覆寫為 1 並執行 PRO 提示之後,復原動作會觸發從主機移轉虛 擬機器。若您輸入 1 和 2 以外的任何其他值,將無法執行 PRO 提示,而且會顯示錯誤訊息。 若要覆寫該復原動作: 1. 在 Operations Manager 中按一下 Authoring (撰寫) 標籤。 2.
圖 2. 覆寫內容 警示與復原動作 下表列出警示及推薦補救動作: 表 2.
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 到無法修復的錯誤。 隨附感應器位置、機 箱位置、先前的狀態 和溫度感應器值資 訊。 1104;5104 風扇感應器偵測到故 障值 錯誤 特定系統中的風扇感 應器偵測到一個或多 個風扇有故障。 限制 1105;5105 風扇感應器偵測到無 法修復的值 錯誤 風扇感應器偵測到無 法修復的錯誤。隨附 感應器位置、機箱位 置、先前的狀態和風 扇感應器值資訊。 限制 1153;5153 電壓感應器偵測到警 告值 警告 指定系統中的電壓感 應器超過其警告閥 值。隨附感應器位 置、機箱位置、先前 的狀態和電壓感應器 值資訊。 限制 1154;5154 電壓感應器偵測到故 障值 錯誤 特定系統中的電壓感 應器超出其故障臨界 值。 限制和移轉 1155;5155 電壓感應器偵測到無 法修復的值 錯誤 特定系統中的電壓感 應器偵測到無法修復 的錯誤。隨附感應器 位置、機箱位置、先 前的狀態和電壓感應 器值資訊。 限
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 1253;5253 機箱入侵進行中 警告 特定系統中的機箱入 侵感應器偵測到某系 統蓋正被打開,且該 系統正運作中。隨附 感應器位置、機箱位 置、先前的狀態和機 箱入侵狀態資訊。 限制 1254;5254 偵測到機箱入侵 嚴重 特定系統中的機箱入 侵感應器偵測到系統 蓋在系統運作時打 開。隨附感應器位 置、機箱位置、先前 的狀態和機箱入侵狀 態資訊。 限制和移轉 1305;5305 冗餘降級 警告 特定系統中的備援感 應器偵測到冗餘裝置 中有元件故障,但是 裝置仍有冗餘。隨附 冗餘裝置位置、機箱 位置、先前冗餘狀態 和完整冗餘所需裝置 數資訊。 限制 1306;5306 冗餘遺失 錯誤 特定系統中的備援感 應器偵測到冗餘裝置 中某元件已被拔除、 已故障或不存在。隨 附冗餘裝置位置、機 箱位置、先前冗餘狀 態和完整冗餘所需裝 置數資訊。 限制 1353;5353 電源供應器偵測到警 告 警告 特定系
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 源供應器狀態和組態 錯誤類型資訊。 1403;5403 記憶裝置狀態警告 警告 記憶裝置修正率超出 可接受的值。 限制 1404;5404 記憶裝置錯誤 錯誤 記憶裝置修正率超出 可接受的值,記憶體 備用記憶單元已啓 用,或發生多位元的 ECC 錯誤。 限制和移轉 1405;5405 記憶體裝置狀態無法 修復 錯誤 記憶體裝置狀態無法 修復。記憶體模組因 為無法修復的錯誤故 障。 限制和移轉 1453;5453 風扇機箱從系統取下 警告 風扇機箱已經從特定 系統取下。隨附感應 器和機箱位置資訊。 限制 1454;5454 系統長時間取下風扇 機箱 錯誤 特定系統中的風扇機 箱已依使用者可定義 的時間長度取下。隨 附感應器和機箱位置 資訊。 限制和移轉 1455;5455 風扇機箱感應器偵測 到無法修復的值 錯誤 特定系統中的風扇機 箱偵測到無法修復的 錯誤。隨附感應器和 機箱位置。 限
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 1603;5603 處理器感應器偵測到 警告值 警告 特定系統的處理器感 應器處於流速控制狀 態。隨附感應器位 置、機箱位置、先前 狀態和處理器感應器 狀態資訊。 限制 1604;5604 處理器感應器偵測到 故障值 錯誤 特定系統的處理器感 應器已停用,有組態 錯誤或發生超出極限 溫度。隨附感應器位 置、機箱位置、先前 狀態和處理器感應器 狀態。 限制和移轉 1605;5605 處理器感應器偵測到 無法修復的值 錯誤 特定系統的處理器感 應器故障。隨附感應 器位置、機箱位置、 先前狀態和處理器感 應器狀態。 限制和移轉 1703;5703 電池感應器偵測到警 告值 警告 特定系統中的電池感 應器偵測到電池處於 可預知故障狀態。 限制 1704;5704 電池感應器偵測到故 障值 錯誤 特定系統的電池感應 器偵測到電池故障。 隨附感應器位置、機 箱位置、先前狀態和 電池感應器狀態資 訊。 限制
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 2057 虛擬磁碟降級警告 警告 重複虛擬磁碟中包含 的實體磁碟發生故障 時會出現此警示訊 息。 限制 2076 虛擬磁碟一致性檢查 故障 嚴重 虛擬磁碟中包含的實 體磁碟發生故障,或 同位檢查資訊有錯 誤。 限制和移轉 2082 虛擬磁碟重建故障 嚴重 虛擬磁碟中包含的實 體磁碟發生故障或損 毀。 限制 2083 實體磁碟重建故障 嚴重 虛擬磁碟中包含的實 體磁碟發生故障或損 毀。 限制 2094 回報預測故障 警告 預測此實體磁碟有故 障。 限制 2100 溫度超出最大警告臨 界值 警告 實體磁碟機箱過熱。 有好幾種因素都可能 導致溫度過高。 限制 2101 溫度低於最小警告臨 界值 警告 實體磁碟外殼太冷。 限制 2102 溫度超出最大故障臨 界值 嚴重 實體磁碟機箱過熱。 有好幾種因素都可能 導致溫度過高。 限制和移轉 2103 溫度低於最小故障臨 界值
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 2129 BGI (背景初始化) 失 敗錯誤 嚴重 虛擬磁碟的 BGI 發生 限制 故障。 2137 通訊逾時警告 警告 控制器無法與某機箱 進行通訊。 限制和移轉 2145 控制器電池電量低 警告 控制器電池電量低。 限制 2169 控制器電池需要更換 嚴重 控制器電池無法充 電。電池的充電次數 可能已經達到上限。 此外,電池充電器可 能無法運作。 限制和移轉 2171 控制器電池溫度高於 正常溫度 警告 室溫可能太熱。系統 風扇可能也退化或故 障了。 限制 2174 控制器電池已被取出 警告 控制器無法與電池通 訊。電池可能已經取 出,或者接觸點可能 已經退化 限制和移轉 2178 控制器電池記憶週期 已逾時 警告 在開始記憶週期前必 須將控制器電池充滿 電。 限制 2187 控制器 DIMM 上的 單位元 ECC 錯誤已 超出限制 警告 控制器記憶體發生故 障。 限制和移轉 2201 通用熱備份發生
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 2213 超過最多充電次數 警告 虛擬磁碟或機箱遺失 了資料冗餘。若是虛 擬磁碟,虛擬磁碟中 有一或多個實體磁碟 故障。 限制 2246 控制器電池已收到影 響 警告 電池溫度高。電池充 電中可能是原因。 限制 2264 有設備遺失 警告 控制器無法與裝置通 訊。裝置可能已經取 出。 限制 2265 一個設備處於未知狀 態 警告 控制器無法與裝置通 訊。無法判斷裝置狀 態。 限制和移轉 2268 儲存管理通訊錯誤 嚴重 儲存管理無法與控制 器通訊。如果控制器 驅動程式或韌體有問 題,就可能發生這個 情況。 限制和移轉 2272 巡查讀取找到一個無 法更正的媒體錯誤 嚴重 巡查讀取工作遇到無 法更正的錯誤。可能 有無法重新對應的壞 磁碟區塊。 限制和移轉 2273 實體磁碟上的一個區 塊被控制器刺穿 嚴重 控制器在試圖讀取實 體磁碟上的區塊時遇 到無法修復的媒體錯 誤,并將該區塊
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 2289 控制器 DIMM 上的 多位元 ECC 錯誤 嚴重 在讀取或寫入作業過 程中,遇到一個涉及 多位元的錯誤。 限制和移轉 2290 控制器 DIMM 上的 單位元 ECC 錯誤 警告 在讀取或寫入作業過 程中,遇到一個涉及 單位元的錯誤。 限制 2292 與機箱失去通訊 嚴重 控制器無法與管理模 組 (EMM) 通訊。纜 線可能鬆脫或故障。 限制和移轉 2293 EMM (機櫃管理模組) 錯誤 故障 故障可能由 EMM 的 功率損耗引起。 限制和移轉 2298 機箱有一個損壞的感 應器 警告 機箱有感應器損壞。 機箱感應器會監視風 扇速度、溫度警報 等。 限制 2299 損壞的 PHY 嚴重 實體連接或 PHY 有 問題。 限制 2300 機箱不穩定故障 嚴重 控制器接收不到機箱 發出的持續回應。 限制和移轉 2301 機箱硬體錯誤 嚴重 機箱或機箱元件處於 失
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 2314 SAS 元件的起始順序 嚴重 在系統啟動時故障, 不可能進行 SAS 管理 和監視。 儲存管理無法監視或 管理 SAS 裝置。 限制和移轉 2318 偵測到電池或電池充 電器有問題。電池效 能狀況不佳。 警告 電池或電池充電器無 法正常運作。 限制 2319 控制器 DIMM 上的 單位元 ECC 錯誤。 DIMM 受損。 警告 雙排記憶體模組 (DIMM) 開始發生故 障。 限制和移轉 2320 單位元 ECC 錯誤。 DIMM 嚴重受損。 嚴重 DIMM 發生故障。資 料即將遺失或資料即 將毀損。 限制和移轉 2321 單位元 ECC 錯誤。 控制器 DIMM 無法 運作,不會有進一步 報告 嚴重 雙排記憶體模組 (DIMM) 發生故障。 資料遺失或資料毀損 嚴重。 限制和移轉 2322 直流電源供應器關閉 嚴重 電源供應器裝置關 閉。電源供應器裝置 不是被使用者關閉, 就是
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 2337 控制器無法從電池備 嚴重 份單元 (BBU) 復原快 取資料 控制器無法從快取復 原資料。 限制 2340 完成背景初始化 (BGI) 時發生無法更 正的錯誤 嚴重 背景初始化任務遇到 無法更正的錯誤。 限制和移轉 2342 檢查一致性發現不一 致的同位檢查資料。 資料冗餘可能已經遺 失 警告 來源磁碟上的資料與 目標磁碟上的冗餘資 料不一致。 限制和移轉 2347 重建失敗,因為來源 實體磁碟發生錯誤 錯誤 無法重建位於故障磁 碟上的資料。 限制和移轉 2348 重建失敗,因為目標 實體磁碟發生錯誤。 錯誤 無法重建位於故障磁 碟上的資料。 限制和移轉 2349 在寫入作業過程中, 無法重新指定壞磁碟 區塊 嚴重 寫入作業無法完成, 因為磁碟包含無法重 新指派的壞磁碟區 塊,可能已經發生資 料遺失。 限制 2350 在重建和復原作業過 程中出現無法修復的 磁碟媒體錯誤
Dell 事件 ID Operations 重要性 Manager 的警示說 明和 VMM 中的 PRO 提示 警示原因 Dell PRO 提示推薦 的補救動作 員實體磁碟上出現無 法修復的損壞區塊。 2396 一致性檢查偵測到多 個無法更正的媒體錯 誤 嚴重 實體磁碟有媒體錯 誤。 限制 2397 一致性檢查完成時發 生無法更正的錯誤 嚴重 實體磁碟有媒體錯 誤。 限制和移轉 2416 偵測到磁碟媒體錯誤 警告 偵測到磁碟媒體錯 誤。 限制 2417 虛擬磁碟上偵測到無 法修復的媒體錯誤 錯誤 虛擬磁碟上偵測到無 法修復的媒體錯誤。 限制和移轉 2,4 驅動程式名 稱:b06bdrv、 ebdrv b57w2k、 b57nd60x、 b57nd60a、 l2nd Dell OMNIC 嚴重 Broadcom 網路介面 連結中斷 網路連結中斷。 限制 13,27,29,70 驅 動程式名稱: e1express、 e1qexpress、 ixgbe、e1000 Dell OMNIC Intel 網 嚴重 路介面連結中斷 連結中斷。 限制 24
3 相關說明文件和資源 本章詳細說明各文件和參考資料,協助您使用 Pro Pack 4.0。 安全性考量 Operations Console 的存取權限是由 Operations Manager 內部處理。您可以使用 Operations Manager 主控 台 Administration Security (管理安全性) 功能下的 User Roles (使用者角色) 選項來進行設定。指派給您的角 色設定檔決定了您可以執行的動作,以及您可以管理的物件。有關安全性考量的詳細資訊,請參閱 Microsoft System Center 2012 R2 Operations Manager、Microsoft System Center 2012 SP1 Operations Manager 或 Microsoft System Center 2012 Operations Manager 線上說明等相關文件,網址是 technet.microsoft.com。 其他您可能需要的文件 除了本指南外,您也可以前往 dell.
與 Dell 公司聯絡 4 註: 如果無法連線網際網路,則可以在購買發票、包裝單、帳單或 Dell 產品目錄中找到聯絡資訊。 Dell 提供多項線上和電話支援與服務選擇。服務的提供因國家/地區和產品而異,某些服務可能在您所在地區 並不提供。若因銷售、技術支援或客戶服務問題要與 Dell 聯絡: 1. 移至 dell.com/support。 2. 選取您的支援類別。 3. 在網頁底部的 Choose A Country/Region (選擇國家/地區) 下拉式選單中確認您所在的國家或地區。 4.
從 Dell Support 網站存取文件 5 您可以用下列方式之一存取所需文件: • • 使用下列連結: – 若為所有企業系統管理文件 — dell.com/softwaresecuritymanuals – 若為企業系統管理文件 — dell.com/openmanagemanuals – 若為遠端企業系統管理文件 — dell.com/esmmanuals – 若為 OpenManage Connections 企業系統管理文件 — dell.com/ OMConnectionsEnterpriseSystemsManagement – 如需服務性工具文件 — dell.com/serviceabilitytools – 若為用戶端系統管理文件 — dell.com/clientsystemsmanagement – 若為 OpenManage Connections 用戶端系統管理文件 — dell.com/ connectionsclientsystemsmanagement 從 Dell Support 網站: a. 造訪 dell.