Nagios Core 適用之 Dell OpenManage 附掛程式 1.
註、警示與警告 註: 「註」表示可以幫助您更有效地使用產品的重要資訊。 警示: 「警示」表示有可能會損壞硬體或導致資料遺失,並告訴您如何避免發生此類問題。 警告: 「警告」表示可能的財產損失、人身傷害或死亡。 © 2015-2021 Dell Inc. 或其子公司。版權所有,翻印必究。Dell、EMC 與其他商標均為 Dell Inc.
目錄 章 1: 適用 Nagios Core 的 Dell OpenManage Plug-in Version 1.0 簡介.................................................... 4 章 2: 支援矩陣................................................................................................................................. 5 章 3: 裝置探索和盤點........................................................................................................................6 關於裝置探索.................................................................................................................
1 適用 Nagios Core 的 Dell OpenManage Plug-in Version 1.0 簡介 本指南就使用 Dell OpenManage Plug-in 1.0 版 for Nagios Core 及其各種功能,例如探索、監視、啟動主控台和故障排除支援的 Dell 裝 置提供相關資訊。本指南也針對支援的 Dell 裝置及客戶常見問題提供詳細資料。 Dell OpenManage Plug-in Version 1.0 for Nagios Core 提供的功能,使用附 Lifecycle Controller (LC) 的 Integrated Dell Remote Access Controller (iDRAC),透過無代理程式頻外方法,可監視資料中心中第 12 代以後的 Dell PowerEdge 伺服器。 這個外掛程式提供的功能如表 1 所述。 表 1.
2 支援矩陣 Nagios Core 適用之 Dell OpenManage Plug-in 支援下表所列的 Dell 裝置。 Dell PowerEdge 伺服器 註: 在 PowerEdge 伺服器名稱格式中;y 表示字母,其中 M 代表模組化、R 代表機架、T 代表直立型,而 x 則代表數字。 yx2x 系統 yx3x 系統 PowerEdge M820 PowerEdge M630 PowerEdge M620 PowerEdge R730XD PowerEdge M520 PowerEdge R730 PowerEdge M420 PowerEdge R630 PowerEdge R920 PowerEdge R530 PowerEdge R820 PowerEdge R430 PowerEdge R720xd PowerEdge T630 PowerEdge R620 PowerEdge T430 PowerEdge R520 PowerEdge FC630 PowerEdge R420 PowerEdge R320 PowerEdge R220 Powe
3 裝置探索和盤點 主題: 關於裝置探索 關於 Dell Device Discovery Utility 關於通訊協定參數 探索 Dell 伺服器 裝置資訊 在 Nagios Core 主控台檢視 Dell 裝置 • • • • • • 關於裝置探索 您可以用無代理程式探索方法的外掛程式,探索第 12 代以後的 Dell PowerEdge 伺服器。您可以選擇 SNMP 或 WS-MAN 通訊協定。 您一次只能用 SNMP 或 WS-MAN 通訊協定探索特定 Dell 裝置,不能兩種同時使用。 您必須使用 Dell Device Discovery Utility 探索 Dell 裝置。如果探索成功,接著便會為探索到的裝置建立主機和服務定義檔案。建議 裝置最好有唯一的主機名稱和 IP 位址。在 Nagios Core 中,確定您要探索的伺服器還沒有主機和服務定義。 您可以用下列任何一個方法探索裝置: ● 裝置的 IP 位址或 FQDN ● 子網路遮罩 ● 包含裝置 IP 位址或 FQDN 清單的檔案 關於 Dell Device Discovery Utility 若要執行 Dell Device D
表 2. Dell Device Discovery Utility 選項 (續) 選項 簡短說明 說明 -c configuration file 用來設定通訊協定參數。預設檔案 為 .dell_device_comm_params.cfg 。如需更多資訊,請參閱關於通訊協定參 數。 -t template 用來以絕對路徑指定服務範本檔案。預設 檔案是 dell_server_services_template. cfg -f force 用來覆寫現有主機組態檔案。 -d all services 用來監視所有服務。如果您執行公用程式 時沒有使用這個選項,便會建立基本三項 服務。如需更多資訊,請參閱表 3. 根據已 選取通訊協定建立的預設服務。 根據您在探索時所選取的選項,會執行下列服務: ● 如果您執行 perl dell_agent_free_server_discovery.
表 3. 根據所選取通訊協定建立的預設服務 (續) 服務 SNMP WS-MAN 通訊協定 Dell 伺服器 SD 卡狀態 X √ 關於通訊協定參數 探索時,取決於您所選取的通訊協定是 SNMP 還是 WS-MAN,可以在 .dell_device_comm_params.cfg 這個參數檔案設定通 訊協定的值。 .dell_device_comm_params.cfg 這個檔案會在下列位置:/dell/scripts。提供的選項包括: 表 4. 參數檔案 通訊協定通訊參數 說明 SNMP snmp.version 用於輸入 SNMP 版本。預設版本是 2。 snmp.community 用於輸入 SNMP 社群字串的使用者巨集。 snmp.retries 用於輸入若發生逾時必須傳送 SNMP 要求的次數。預設的重試 值為 1。 snmp.timeout 用於輸入 SNMP 逾時值 (以秒為單位)。預設的逾時值為 3 秒。 snmp.port 用於輸入 SNMP 連接埠值。預設的 SNMP 連接埠值為 161。 WS-MAN wsman.
3. 以 perl dell_agent_free_server_discovery.pl 或 perl dell_agent_free_server_discovery.pl -h 選項執 行 Dell Server Discovery Utility。 指令碼語法和選項相關資訊隨即顯示。如需更多資訊,請參閱關於 Dell Discovery Utility。 根據您的需求,請執行下列動作: 註: 執行公用程式之前,請確定已更新通訊協定相關資訊,如需更多資訊,請參閱關於通訊協定參數。 若要使用 IP 位址或 FQDN 探索裝置: ● perl dell_agent_free_server_discovery.pl -H –P 若要使用子網路遮罩探索: ● perl dell_agent_free_server_discovery.pl -S –P 子網路遮罩的格式範例:11.98.149.
表 5. 裝置資訊 服務 狀態 說明 使用 SNMP 或 WS-MAN 時會 顯示屬性 ● 作業系統名稱 ● 作業系統版本 ● 主控台 URL 這是 iDRAC Web 主控台的 URL。 ● 節點 Id 如需各種元件的屬性資訊,請參閱關於監視 Dell 裝置的元件健全狀況。 檢視裝置資訊 執行 Dell 伺服器資訊服務後,若要檢視裝置資訊: 在 Nagios Core 主控台目前的狀態下,選取服務。 在 Nagios Core 主控台檢視 Dell 裝置 事前準備作業:Nagios Core 已探索到並清查 Dell 裝置。 您可以在 Nagios Core 的主機或服務檢視中,檢視探索到的 Dell 裝置: 1. 若要在 Nagios Core 檢視主機,在目前的狀態下選取主機。 右窗格隨即顯示主機。 2.
裝置探索和盤點 11
4 監試 Dell 裝置 您可以監視 Dell 裝置的下列幾個層面。 主題: 整體健全狀況 監視 Dell 裝置的元件健全狀況 監視 SNMP 警示 • • • 整體健全狀況 您可以監視 Dell 裝置的整體健全狀況狀態。 關於整體健全狀況 整體健全狀況狀態是 Dell 裝置元件的彙總狀態。 根據設定的間隔時間,系統會定期輪詢裝置的整體健全狀況。依預設,Dell 伺服器的整體健全狀況服務排定為一小時一次。 表 6.
註: 儲存集區狀態屬性代表實體磁碟、虛擬磁碟、控制器等儲存元件的累積健全狀況狀態。 檢視整體健全狀況 監視資料中心環境中所探索到之 Dell 裝置的健全狀況前,請先確定探索到的裝置都可連線。 若要檢視 Dell 裝置的整體健全狀況: 1. 在 Nagios Core 使用者介面目前的狀態下,選取服務。 2. 選取關聯的服務,檢視整體健全狀況狀態。 伺服器的健全狀況輪詢是透過 iDRAC with LC 進行,對應物件會在個別的健全狀況服務中,以適當的嚴重程度健全狀況顏色顯 示。 監視 Dell 裝置的元件健全狀況 您可以監視 Dell 伺服器個別元件的健全狀況。 關於監視 Dell 裝置的元件健全狀況 這是針對 Dell 伺服器元件層級健全狀況狀態的定期輪詢型健全狀況監視。 探索公用程式以相關選項執行時,會建立對應的服務。這些服務定期執行,並更新元件的整體健全狀況。Nagios Core 使用者介面會 顯示元件的狀態與資訊。 「狀態資訊」欄中元件資訊的格式是 =[, =]。 例如:Status=CRITICAL, FQDD=Fan.
表 7.
表 7.
上述服務預設排定每四小時一次。 監視 Dell 裝置的健全狀況 若要監視 Dell 裝置的健全狀況: 1. 在 Nagios Core 使用者介面目前的狀態下,選取服務。 2. 選取關聯的服務,監視 Dell 裝置的健全狀況。 伺服器的健全狀況監視是透過 iDRAC with LC 執行,對應詳細資料會在個別的元件健全狀況服務中,以適當的嚴重程度健全狀況 顏色顯示。 監視 SNMP 警示 關於 SNMP 警示監視 您可以非同步方式從裝置接收轉寄的 SNMP 警示。 一收到 SNMP 警示,Dell 伺服器設陷服務便會在 Nagios Core 主控台顯示警示摘要訊息和警示嚴重程度。 表 8.
5 啟動 iDRAC Web 主控台 若要啟動 iDRAC 裝置主控台: 1. 在 Nagios Core 主控台目前的狀態下,選取下列其中一項: ● 主機 ● 服務 ● 主機群組 > Dell 無代理程式伺服器 2.
6 移除 Dell 裝置 您可以移除您不想監視的 Dell 裝置。 1. 瀏覽至 /dell/config/objects,刪除對應的 .cfg 檔案。 2.
7 故障排除 本節列出使用 Dell OpenManage Plug-in Version 1.0 for Nagios Core 時可能遭遇的問題及其因應措施。 請確定您符合需求,或執行本節列出的步驟。 Dell OpenManage Plug-in for Nagios Core 安裝指令碼失敗 1. 您有的權限足夠執行指令碼。 建議使用:Nagios 管理員。 2. 符合安裝指南所述的事前準備作業。 3. 您在安裝指令碼提供正確的輸入。 Dell OpenManage Plug-in for Nagios Core 解除安裝指令碼失 敗 1. 您有的權限足夠執行指令碼。 建議使用:Nagios 管理員。 2. 解除安裝指令碼從安裝 Dell OpenManage Plug-in 的位置執行。 探索指令碼無法執行 1. 探索指令碼有適當權限。 建議使用:Nagios 管理員。 2. 執行指令碼時提供適當的引數。 所選的通訊協定為 1 (SNMP) 時,探索指令碼並未為 IPv4 或 IPv6 位址或主機建立主機與服務定義檔案 1. 2. 3. 4.
所選的通訊協定為 2 (WS-MAN) 時,探索指令碼並未為 IPv4 或 IPv6 位址或主機建立主機與服務定義檔案 1. OpenWSMAN 及其 Perl 繫結已安裝。 2. IP 位址或主機可連線。 3. 執行探索之前,先在下列檔案正確設定適當的通訊協定憑證: dell_resource.cfg .dell_device_comm_params.cfg 4. 若為 IPv6 位址,請確定安裝 Perl Module Socket6 的位置是在同一個 Perl 程式庫路徑。 5. 至少在下列服務範本啟用其中一個適用的服務: dell_server_services_template.cfg 。 裝置探索後,Dell 裝置的 IP 位址或主機名稱變更 用新的 IP 位址或主機名稱移除舊的組態檔案,然後重新探索 Dell 裝置。 Nagios Core 主控台未顯示用 Dell 探索指令碼探索到的 Dell 裝置 1. /dell/config/objects 資料夾有主機和服務定義檔案。 2. 執行探索後,Nagios 服務已重新啟動。 3.
2. 所提供的 IP 位址或主機可連線。 3. IP 位址或主機已啟用 SNMP。 4. 已在下列檔案正確設定適當的 SNMP 參數: dell_resource.cfg .dell_device_comm_params.cfg Dell OpenManage Plug-in 特定服務顯示「與主機通訊時發生 WSMAN 錯誤」的訊息 1. OpenWSMAN 及其 Perl 繫結和 Net-IP 已安裝。 2. 所提供的 IP 位址或主機可連線。 3. 已在下列檔案正確設定適當的 WS-MAN 參數: dell_resource.cfg .dell_device_comm_params.cfg Dell OpenManage Plug-in 特定服務顯示「元件資訊 = 不 明」的訊息 註: 如果探索到的 Dell 裝置無法使用該元件,就會出現這個訊息。 如果元件可供使用卻還是收到這個訊息,那麼出現這個訊息的原因便在於通訊協定逾時。在 .dell_device_comm_params.
如果您安裝 Perl 版本不是預設的版本,或 Perl 繫結無法使用,那麼請前往 github.
8 常見問題 1. 問題:您可以就 Dell OpenManage Plug-in for Nagios Core 的授權提供相關資訊嗎? 回答:您可以免費安裝和使用這個外掛程式。 2. 問題:這個外掛程式支援哪些 Dell 硬體機型? 回答:如需支援的 Dell 平台清單,請參閱支援矩陣。 3. 問題:我的資料中心有舊版伺服器 (第 9 代 – 第 11 代)。我還是可以用外掛程式監視它們嗎? 回答:不可以,您無法用這個外掛程式監視舊版伺服器 (第 9 代到第 11 代)。您只能透過 iDRAC with LC 監視 Dell 伺服器,支援第 12 代以後的 Dell PowerEdge 伺服器使用此外掛程式。Nagios Exchange 有其他外掛程式可供使用,讓您得以監視舊版伺服器。 4.
A 附錄 從 Web 主控台配置 SNMP 設定 1. 啟動 iDRAC (第 12 代以後的 Dell PowerEdge 伺服器) Web 主控台,然後在主控台瀏覽至網路 > 服務。 2. 設定 SNMP 代理程式的內容: a. 將啟用設為 True,SNMP 通訊協定設為全部 (SNMP v1/v2/v3)。 b. 以社群字串設定 SNMP 社群名稱。 c. 按一下套用提交組態。 註: 外掛程式只用 SNMP V1 或 SNMP V2c 通訊協定與 iDRAC 通訊。 從 RACADM CLI 配置 SNMP 設定 1. 執行下列 ssh 命令,啟動 iDRAC RACADM CLI: ssh root@ 2. 執行下列命令,將命令模式變更為 racadm: racadm 3. 執行下列命令,設定 SNMP 社群字串: racadm set idrac.snmp.agentcommunity 4. 執行下列命令,啟用 SNMP 代理程式: racadm set idrac.snmp.