Dell Server PRO Management Pack Version 4.
注、小心和警告 注: “注”表示可以帮助您更好地使用计算机的重要信息。 小心: “小心”表示可能会损坏硬件或导致数据丢失,并说明如何避免此类问题。 警告: “警告”表示可能会造成财产损失、人身伤害甚至死亡。 版权所有 © 2014 Dell Inc. 保留所有权利。 本产品受美国、国际版权和知识产权法律保护。 Dell™ 和 Dell 徽标是 Dell Inc. 在美国和 / 或其他管辖区域的商标。所有此处提及的其他商标和产品名称可能是其各自所属公司的商标。 2014 - 09 Rev.
目录 1 简介.......................................................................................................................... 4 此版本中的新功能.................................................................................................................................. 4 概述........................................................................................................................................................ 5 有关术语..............................................................................
1 简介 本文档面向的读者为系统管理员,即通常使用 Dell Server PRO Management Pack (Dell PRO Pack) 监测 Dell 系统并在发现低效系统时采取补救操作的管理员。 Dell PRO Pack 版本 4.
概述 Operations Manager 使用已启用 PRO 的 Management Pack 来收集和存储有关 Dell 硬件的信息和相应的运 行状况说明。Dell PRO Pack 协同 Operations Manager 和 VMM 2012 使用,通过此可用的运行状况信息管理 Dell 物理设备及其上托管的虚拟机 (VM)。Dell PRO Pack 会在所监测对象转变为非正常状态时(例如:虚拟 磁盘故障或可预测驱动器错误),通过利用 Operations Manager 的监测和警报功能以及 VMM 的补救功能来 提出相应的补救措施。 另请参阅: 特点和功能 了解 PRO Tip 管理 警报和恢复操作 有关术语 • 管理系统 是运行 Dell OpenManage Server Administrator (OMSA) 的 Dell 系统,该系统通过 Operations Manager 和 VMM 进行监测和管理。可以通过受支持的工具从本地或远程进行管理。 • 管理工作站或管理站 是基于 Microsoft Windows 且安装有 Operations Manager 和 VMM
– 限制和迁移:在此模式中,建议所有运行的 VM 都已从不正常服务器迁移到正常服务器以防止服务中 断。有关更多信息,请参阅实施恢复操作。 了解 PRO Tip 管理 本节说明典型的 Dell PRO Pack 设置和 PRO Tip 管理所涉及的系列事件。 图 1: 组件交互 在此图中,一组 PowerEdge 系统用作管理系统,两个 PowerEdge 系统用作托管 Operations Manager 和 VMM 的管理站。在转变成非正常状态时,OMSA 会生成具有相应严重级别的警报。Dell PRO Pack 监测 PRO 的相同警报。Dell PRO Pack 将 OMSA 警报与其补救操作相匹配。 下表说明在 PRO Tip 管理中出现的事件顺序。 表.
顺序号 事件 10 PRO 当前警报从 Operations Manger 中消失。 有关事件类型和相关补救操作的更多信息,请参阅警报和恢复操作。 支持的操作系统 管理系统和管理站上的 Dell PRO Pack 受支持的操作系统如下: 管理系统: 适用于 PRO Pack 的管理系统是 Virtual Machine Manager Server。有关更多信息,请参阅 technet.microsoft.com/en-us/library/gg610649.aspx。 管理站: 有关 Operations Manager 和 VMM 的所支持配置的列表,请参阅以下内容: • Operations Manager 2012 R2 或 Operations Manager 2012 SP1 或 Operations Manager 2012 technet.microsoft.com/en-us/library/hh205990.
使用 Dell Performance Resource Optimization Pack 2 本章提供使用 PRO Pack 的建议步骤。 为 PRO Tip 计划环境 您可以计划启用与环境相关的 PRO 监测器。默认情况下,所有的 PRO 监测器在 Dell PRO Pack 中已禁用。 有关警报和恢复操作的列表,请参阅警报和恢复操作。选择要启用的警报。使用 OpsMgr 创作控制台(或) OpsMgr 控制台中的创作窗格,为那些启用相关 PRO 监测器的管理包创建覆盖。 启用 PRO 监测器的步骤如下: 1. 启动 OpsMgr 控制台。 2. 在导航窗格中单击创作。 3. 在 Authoring(创作)选项卡中,选择 Management Pack Objects(管理包对象) → Monitors(监测 器)。 4. 在屏幕顶部单击 Change Scope(更改范围)。 随即显示范围管理包对象屏幕。 5. 选择 View all targets(查看所有目标)并在 Look for(寻找)中输入 Dell PRO。 6.
或者,如果在 PRO Tip 窗口中选择创建新 PRO Tip 时显示此窗口选项,此窗口会在 PRO Tip 生成时在 VMM 控制台上自动打开。 PRO Tip 窗口以表格格式显示 PRO Tip 源、提示及状态等信息。此窗口还显示触发警报的问题描述、原因及 建议的恢复补救操作。 实施恢复操作 PRO Tip 窗口提供选项允许实施或解除建议的操作。如果选择 实施,VMM 则会根据警报性质执行以下某个恢 复任务。 将主机置于限制模式 将主机置于限制模式可防止在问题解决前将工作负载分配给主机。在此模式中,主机仍可接收有关 Operations Manager 和 VMM 上相关 PRO Tip 的警报。 可触发维护的系统运行情况属于虚拟主机上的非严重硬件警报,比如 Dell Power Edge 虚拟主机服务器上的机 箱环境温度警告。 虚拟机的迁移 PRO Tip Management Pack 采用 VMM 算法将 VM 从问题系统移到正常系统。有关 VMM 算法的更多信息, 请参阅 Microsoft 说明文件,位于 technet.microsoft.
如果主机组或主机群集中没有正常主机可用,PRO Tip 移动 VM 操作将会失败。在这种情况下,PRO Tip 窗口 会显示相应 PRO Tip 的状态为失败,并在错误部分详细说明原因。VMM 控制台上作业部分相应项的状态也会 显示为失败。 注: 在 PRO Tip 窗口中,失败消息会动态更新。不过要刷新数据,必须单击 PRO Tip 窗口之外,然后再 次单击以使窗口得到焦点。 如果选择解除,则不执行 PRO Tip 并且会发生以下更改: • • PRO Tip 从 SCVMM PRO Tip 控制台中被移除。 Operations Manager 中的警报从 Dell Server PRO 警报中被移除。 有关更多信息,请参阅使用 Health Explorer 重设警报。 VM 实时迁移 作为已连接的用户,在实时迁移期间,用户可以将 VM 从 Windows Server 2012 R2、Windows Server 2012 SP1、Windows Server 2012 和 Windows Server 2008 R2 故障转移群集的一个节点迁移到同一群集中的另一 个节点,不需要停机时间或中断。
• 状态视图 警报视图 以表格格式显示 Dell PRO 特定警报,包括的信息有:严重级别、源、名称、解决状态以及创建日期和时间。 要访问警报视图,请执行以下操作: 1. 启动 Operations Manager 控制台。 2. 选择监测选项卡。 3. 在 Dell Server PRO Pack 中,选择 Dell Server PRO 警报。 警报显示在屏幕右侧,如下图中所示。 状态视图 以表格格式显示找到的 Dell 系统对象。状态视图显示对象的信息,包括:名称、路径、Dell 服务器存储运行 状况等等。可以通过定义想要显示的对象和数据的显示形式,来个性化状态视图。 使用 Health Explorer 重设警报 Health Explorer 使用户能够查看并针对警报采取行动。在 PRO Tip 窗口中选择解除时,也会从中移除警报。 要手动重设该警报,请执行以下操作: 1. 在操作菜单中,单击 Health Explorer。 2. 右键单击要关闭的警报。 3.
覆盖恢复操作 PRO Pack 4.0 支持两种恢复操作。以下标志值触发相应的恢复操作: • 1:用于迁移 • 2:将服务器置于限制模式 通过更改默认的恢复操作标志值,可以覆盖默认的恢复操作。例如,使用 Operations Manager 控制台中提供 的覆盖选项,将恢复标志值由 2 更改为 1。将默认值覆盖为 1 并实施 PRO Tip 后,恢复操作会从主机触发 VM 的迁移。如果您输入非 1 和 2 的任何其他值,PRO Tip 实施将失败并显示错误消息。 要覆盖恢复操作,请执行以下操作: 1. 单击 Operations Manager 中的撰写选项卡。 2. 浏览至撰写 → 管理包对象 → 监测器 3. 搜索 Dell PRO Pack 监测器。 4. 选择想要覆盖的监测器。 5. 右击并选择覆盖 → 覆盖恢复 → <监测器> 。 6. 选择覆盖复选框。 7. 更改覆盖值的值。 注: 当选择启用时,Operations Manager 会自动实施设备监测器。因为此过程包括 VMM 迁移、查 看和设置相应的值。 8. 选择强制选项。 9.
警报和恢复操作 下表列出了警报和建议的补救操作: 表.
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 1153;5153 电压传感器检测到警 告值 警告 指定系统中的电压传 感器超过警告阈值。 提供传感器位置、机 箱位置、先前状态、 电压传感器值等信 息。 限制 1154;5154 电压传感器检测到故 障值 错误 特定系统中的电压传 感器超过故障阈值。 限制和迁移 1155;5155 电压传感器检测到不 可恢复的值 错误 指定系统中的电压传 感器检测到不可恢复 的错误。提供传感器 位置、机箱位置、先 前状态、电压传感器 值等信息。 限制和迁移 1203;5203 电流传感器检测到警 告值 警告 特定系统中的电流传 感器超过警告阈值。 限制 1204;5204 电流传感器检测到故 障值 错误 特定系统中的电流传 感器超过故障阈值。 限制和迁移 1205;5205 电流传感器检测到不 可恢复的值 错误 指定系统中的电流传 感器检测到不可恢复 的错误。提供传感器 位置、机箱位置、先 前状态
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 障,但该装置仍为冗 余。提供冗余装置位 置、机箱位置、先前 冗余状态和完全冗余 所需的设备数等信 息。 1306;5306 冗余丢失 错误 指定系统中的冗余传 感器检测到其中一个 冗余装置中的组件已 断开连接、发生故障 或不存在。提供冗余 装置位置、机箱位 置、先前冗余状态和 完全冗余所需的设备 数等信息。 限制 1353;5353 电源设备检测到警告 警告 特定系统中电源传感 器的读数超过可定义 警告阈值。 限制 1354;5354 电源设备检测到故障 错误 电源设备已断开连接 或失败。 限制 1355;5355 电源传感器检测到不 可恢复的值 错误 指定系统中的电源传 感器检测到不可恢复 的错误。提供传感器 位置、机箱位置、先 前状态、电源设备类 型、其他电源状态和 配置错误类型等信 息。 限制 1403;5403 内存设备状态警告 警告 内存设备纠错率超过 可接受值。 限制 1404
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 1454;5454 风扇罩已从系统中移 除很长一段时间 错误 风扇罩已从指定系统 中移除,并已持续用 户可定义的一段时 间。提供传感器和机 箱位置等信息。 限制和迁移 1455;5455 风扇罩传感器检测到 不可恢复的值 错误 指定系统中的风扇罩 传感器检测到不可恢 复的错误。提供传感 器和机箱位置等信 息。 限制和迁移 1503;5503 交流电源已断电 错误 交流电源线已断电, 并且由于缺乏冗余, 需将其分类为错误。 限制和迁移 1504;5504 交流电源线已断电 错误 电源设备已断开交流 电源线或交流电源线 未传输电能,并且由 于缺乏冗余,需将其 分类为错误。提供传 感器和机箱位置等信 息。 限制和迁移 1505;5505 系统中的交流电源线 传感器发生故障 错误 指定系统中的交流电 源线传感器发生故 障。无法监测交流电 源线状态。提供传感 器和机箱位置等信 息。 限制和迁移 16
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 供传感器位置、机箱 位置、先前状态和处 理器传感器状态等信 息。 1703;5703 电池传感器检测到警 告值 警告 指定系统中的电池传 感器检测到电池处于 潜在故障状态。 限制 1704;5704 电池传感器检测到故 障值 错误 指定系统中的电池传 感器检测到电池发生 故障。提供传感器位 置、机箱位置、先前 状态和电池传感器状 态等信息。 限制 1705;5705 电池传感器检测到不 可恢复的值 错误 指定系统中的电池传 感器无法检索值。提 供传感器位置、机箱 位置、先前状态和电 池传感器状态等信 息。 限制 2048 设备故障错误 严重 存储组件(例如物理 磁盘或存储设备)出 现故障。出现故障的 组件可能已由控制器 在执行任务(例如重 新扫描或检查一致 性)时确定。 限制和迁移 2056 虚拟磁盘故障 严重 虚拟磁盘中包括的一 个或多个物理磁盘已 发生故障。 限制和迁移 2057 虚
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 2094 预测故障报告 警告 预测物理磁盘将发生 故障。 限制 2100 温度超过最大警告阈 值 警告 物理磁盘机柜太热。 有多种因素会导致过 热温度。 限制 2101 温度低于最低警告阈 值 警告 物理磁盘机柜太冷。 限制 2102 温度超过最大故障阈 值 严重 物理磁盘机柜太热。 有多种因素会导致过 热温度。 限制和迁移 2103 温度低于最低故障阈 值 严重 物理磁盘机柜太冷。 限制和迁移 2112 机柜关闭 严重 物理磁盘机柜的温度 高于或低于允许的最 高或最低温度范围。 限制和迁移 2122 已降级冗余 警告 一个或多个机柜组件 发生故障。例如:风 扇或电源设备发生故 障。 限制 2123 冗余丢失 警告 虚拟磁盘或机柜丢失 数据冗余。 限制和迁移 2125 用于丢失或脱机 VD 的控制器高速缓存 警告 控制器在 IO 发生时 与其 VD 断开
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 2174 控制器电池已被移除 警告 控制器无法与电池进 行通信。电池可能已 被移除或接触点降级 限制和迁移 2178 控制器电池记忆周期 超时 警告 控制器电池在记忆周 期开始之前必须完全 充满。 限制 2187 超出控制器 DIMM 上的单位 ECC 错误 限制 警告 控制器内存出现故 障。 限制和迁移 2201 全局热备用失败 警告 控制器无法与指定为 全局热备用的磁盘进 行通信。磁盘发生故 障或被移除。 限制 2203 专用热备用失败 警告 控制器无法与指定为 专用热备用的磁盘进 行通信。 限制 2206 唯一可用的热备用是 警告 SATA 磁盘。SATA 磁盘无法更换 SAS 磁 盘 仅有的可指定为热备 用的物理磁盘使用的 是 SATA 技术。 限制 2207 唯一可用的热备用是 SAS 磁盘。SAS 磁盘 无法更换 SATA 磁盘 警告 仅有的可指定为热备 用的物理
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 2268 Storage Management 通信 错误 严重 Storage Management 已失 去与控制器的通信。 若控制器驱动程序或 固件遇到问题则会发 生此情况。 限制和迁移 2272 巡检读取发现无法纠 正的介质错误 严重 巡检读取任务遇到无 法纠正的错误。可能 存在无法重新映射的 坏磁盘块。 限制和迁移 2273 控制器标记了物理磁 盘上的块。 严重 控制器在尝试读取物 理磁盘上的块时遇到 了无法恢复的介质错 误并将该块标记为无 效。 限制和迁移 2278 控制器电池充电量低 于正常阈值。 警告 控制器电池无法保持 可正常工作的充足电 量或正在放电。 限制 2282 热备用 SMART 轮询 失败 警告 控制器固件尝试在热 备用上进行 SMART 轮询,但是无法完 成。 限制和迁移 2283 冗余路径中断 警告 控制器有两个连接器 连接到同一个机柜 上。 限制
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 2299 错误的 PHY 严重 物理连接或 PHY 有 问题。 限制 2300 不稳定机柜故障 严重 控制器未从机柜接收 到一致响应。 限制和迁移 2301 机柜硬件错误。 严重 机柜或机柜组件处于 “失败”或“降级”状 态。 限制和迁移 2302 机柜未响应 严重 机柜或机柜组件处于 “失败”或“降级”状 态。 限制和迁移 2306 坏块表格已达 80% 警告 坏块表格是用于重新 映射坏磁盘块的表 格。重新映射坏磁盘 块时会相应填写此表 格。 限制 2307 坏块表格已满。 严重 坏块表格是用于重新 映射坏磁盘块的表 格。 限制 2310 虚拟磁盘永久降级 严重 冗余虚拟磁盘已失去 冗余。虚拟磁盘的多 个物理磁盘发生故障 时则会发生此情况。 限制和迁移 2312 机柜的一个电源设备 发生交流电源故障 警告 电源设备发生交流电 源故障。 限制 2313 机柜
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 2320 单个位 ECC 错误。 DIMM 性能严重下 降。 严重 DIMM 出现故障。可 能即将发生数据丢失 或数据损坏。 限制和迁移 2321 单位 ECC 错误。控 制器 DIMM 未正常 工作。将不会进行进 一步报告 严重 双列直插式内存模块 (DIMM) 出现故障。 明显的数据丢失或数 据损坏。 限制和迁移 2322 直流电源设备关闭 严重 电源设备单元关闭。 用户关闭电源设备单 元或其发生故障。 限制和迁移 2324 交流电源设备电缆被 移除 严重 电源电缆可能被拉出 或移除。电源电缆也 可能由于过热而弯 曲,无法正常工作。 限制和迁移 2327 NVRAM 有损坏的数 据。控制器正在重新 初始化 NVRAM 警告 NVRAM 有损坏的数 据。此情况可能会在 电涌、电池故障后发 生,也可能因其他原 因发生。控制器正在 重新初始化 NVRAM。 限制和迁移 2328 NVRAM
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 2348 重建失败,因为目标 物理磁盘上有错误。 错误 无法重建位于故障磁 盘上的数据。 限制和迁移 2349 在写入操作中,无法 重新分配坏磁盘块 严重 写入操作无法完成, 因为磁盘包含无法重 新分配的坏磁盘块。 数据可能已经丢失。 限制 2350 在重建或恢复操作中 发现无法恢复的磁盘 介质错误 严重 重建或恢复操作遇到 无法恢复的磁盘介质 错误。 限制 2355 机柜固件下载失败。 警告 系统无法将固件下载 到机柜。控制器可能 失去了与机柜之间的 通信。数据传输可能 存在问题,或者下载 介质可能已损坏。 限制和迁移 2356 SAS SMP 通信错误 严重 此警报的文本由固件 生成并随情况而改 变。此文中提到的 SMP 是指 SAS 管理 协议。 限制 2357 SAS 扩展器错误 严重 机柜可能出现问题。 验证机柜的运行状态 及其组件。 限制 2387 检测到虚拟磁盘坏
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的警报说明 严重性 警报原因 Dell PRO Tip 建议操 作 链接已断开。 限制 b57w2k,b57nd6 0x, b57nd60a,l2nd 13,27,29,70 驱 动程序名称: e1express, e1qexpress, ixgbe, e1000 24 Dell OMNIC Intel 网 严重 络接口链接断开
3 相关文档和资源 本章提供帮助用户使用 Pro Pack 4.0 的文档和资源的详细信息。 安全注意事项 操作控制台访问特权由 Operations Manager 内部处理。您可以使用 Operations Manager 控制台上 Administration Security(管理安全)功能下的 User Roles(用户角色)选项来设置此特权。分配给您的角 色配置文件决定了您可以执行的具体操作以及您能管理的具体对象。有关安全注意事项的更多信息,请参阅有 关 Microsoft System Center 2012 R2 Operations Manager、Microsoft System Center 2012 SP1 Operations Manager 或 Microsoft System Center 2012 Operations Manager 联机帮助的文档,具体位于: technet.microsoft.com。 您可能需要的其他说明文件 除了本指南以外,您可以在此网站获取以下指南:dell.
联系 Dell 4 注: 如果没有活动的 Internet 连接,您可以在购货发票、装箱单、帐单或 Dell 产品目录上查找联系信 息。 Dell 提供了若干联机及电话支持和服务选项。服务会因所在国家和地区以及产品的不同而有所差异,您所在的 地区可能不提供某些服务。如要联系 Dell 解决有关销售、技术支持或客户服务问题: 1. 访问 dell.com/support。 2. 选择您的支持类别。 3. 在页面底部的选择国家/地区下拉列表中,确认您所在的国家或地区。 4.
从 Dell 支持站点访问说明文件 5 您可以通过以下方式之一访问所需的说明文件: • 使用以下链接: – • – 企业系统管理说明文件 - dell.com/openmanagemanuals – 远程企业系统管理说明文件 - dell.com/esmmanuals – OpenManage Connections Enterprise 系统管理说明文件 - dell.com/ OMConnectionsEnterpriseSystemsManagement – 适用性工具说明文件 - dell.com/serviceabilitytools – 客户端系统管理说明文件 - dell.com/clientsystemsmanagement – OpenManage Connections Client 系统管理说明文件 - dell.com/ connectionsclientsystemsmanagement 从 Dell 支持网站: a. 转至 dell.com/support/home。 b.