Dell EMC Server PRO Management Pack for Microsoft System Center Virtual Machine Manager 5.
注、小心和警告 注: “注”表示帮助您更好地使用该产品的重要信息。 小心: “小心”表示可能会损坏硬件或导致数据丢失,并说明如何避免此类问题。 警告: “警告”表示可能会造成财产损失、人身伤害甚至死亡。 版权所有 © 2009 - 2017 Dell Inc. 或其子公司。保留所有权利。Dell、EMC 和其他商标均为 Dell Inc. 或其附属公司的商标。其他商标均为其各自所有者 的商标。 2017 - 06 Rev.
目录 1 简介................................................................................................................................................................4 此版本中的新功能............................................................................................................................................................ 5 概览..............................................................................................................................................................................
1 简介 本文档面向的读者为系统管理员,即通常使用 Dell EMC Server PRO Management Pack (Dell EMC PRO Pack) 监测 Dell 系统并在发现 低效系统时采取补救操作的管理员。 Dell EMC PRO Pack 5.
此版本中的新功能 Dell EMC PRO Pack 的发行亮点: • 支持 OpenManage Server Administrator 8.4 到 9.0.
当所监测的硬件变为不正常状态时,生成 PRO Tip。 • • 执行 VM 实时迁移,无需停机。有关更多信息,请参阅 VM 实施迁移。 • 覆盖 Dell EMC PRO Pack 默认恢复操作。有关更多信息,请参阅覆盖恢复操作。 • 通过实施 PRO Tip 提供的补救操作,最大限度地减少停机。两种补救操作为: • 限制:在此模式中,建议在置放新 VM 且直到维护任务完成前,使服务器暂时不可用。 • 限制和迁移:在此模式中,建议所有正在运行的 VM 都已从不正常服务器迁移到正常服务器以防止服务中断。有关更多信 息,请参阅实施恢复操作。 了解 PRO Tip 管理 本节说明典型的 Dell EMC Server PRO Pack 设置和 PRO Tip 管理所涉及的事件顺序。 图 1: 组件交互 在图中,一组 PowerEdge 系统用作受管系统,而两个 PowerEdge 系统用作托管 Operations Manager 和 VMM 的管理站。在转变成非 正常状态时,OMSA 会生成具有相应严重性的警报。Dell EMC Server PRO Pack 可监测 PRO 的相同警报。D
顺序号 事件 9 PRO Tip 从 VMM PRO Tip 窗口中消失。 10 PRO 当前警报从 Operations Manger 中消失。 有关事件类型和相关补救操作的更多信息,请参阅警报和恢复操作。 支持的操作系统 受管系统和管理站上的 Dell EMC Server PRO Pack 支持的操作系统如下: 管理系统: 支持的操作系统。有关详细信息,请参阅 Technet.microsoft.com/en-us/library/gg610649.aspx。 管理站: 支持的操作系统: • 对于 Operations Manager 2016,请参阅 Technet.microsoft.com/en-us/library/dn997272(v=sc.16).aspx • 对于 Operations Manager 2012 R2 或 Operations Manager 2012 SP1 或 Operations Manager 2012,请参阅 Technet.microsoft.com/en-us/library/hh205990.
2 使用 Dell EMC Server Performance Resource Optimization Pack 本章提供使用 PRO Pack 的建议步骤。 主题: • 为 PRO Tip 计划环境 • 使用 VMM 进行监测 • 使用 Operations Manager 上的 PRO 特定警报进行监测 • 使用 Health Explorer 重设警报 • 覆盖恢复操作 • 警报和恢复操作 为 PRO Tip 计划环境 您可以计划启用与环境相关的 PRO 监测器。默认情况下,在 Dell EMC Server PRO Pack 中已禁用所有 PRO 监测器。有关警报和恢复 操作的列表,请参阅警告和恢复操作。选择要启用的警报。使用 OpsMgr Console 中的 OpsMgr Authoring Console(创作控制台) (或)Authoring Pane(创作窗格),为管理包创建覆盖以启用相关的 PRO 监测器。 启用 PRO 监测器的步骤如下: 1 启动 OpsMgr 控制台。 2 在导航窗格中单击创作。 3 在 Authoring(创作)选项卡中,选
图 2: PRO Tip 或者,如果在 PRO Tip 窗口中选择创建新 PRO Tip 时显示此窗口选项,此窗口会在 PRO Tip 生成时在 VMM 控制台上自动打开。 PRO Tip 窗口将以列表方式显示 PRO Tip 的源、提示和状态等信息。此窗口还会显示触发警报的问题描述、原因及建议的恢复补救操 作。 实施恢复操作 PRO Tip 窗口提供实施或解除建议操作的选项。如果您选择 Implement(实施),则 VMM 会实施以下某个恢复任务,具体取决于警 报的性质。 将主机置于限制模式 将主机置于限制模式可避免将工作负载分配到主机,直到问题解决。在此模式下,主机仍将接收 Operations Manager 上的警报和 VMM 上相关 PRO Tip。 可触发维护的系统运行情况属于虚拟主机上的非严重硬件警报,比如 PowerEdge 虚拟主机服务器上的机箱环境温度警告。 虚拟机的迁移 PRO Tip 管理包使用 VMM 算法,将 VM 从受影响的系统移动到运行状态正常的系统。有关 VMM 算法的更多信息,请参阅 Technet.microsoft.
图 3: 已完成的作业 如果主机组或主机群集中没有正常运行的其他主机可用,则移动 VM 操作的 PRO Tip 实施可能会失败。在这种情况下,PRO Tip 窗口 会将相应 PRO Tip 的 state(状态)显示为 Failed(失败),并在 Error(错误)部分详细介绍原因。VMM 控制台上 Jobs(作业)部 分中相应条目的状态还将显示为 Failed(失败)。 注: 在 PRO Tip 窗口中,失败信息会动态更新。但是,要刷新数据,必须单击在 PRO Tip 窗口外面单击,然后再次单击以使窗口 聚焦。 如果选择解除,则不执行 PRO Tip 并且会发生以下更改: • PRO Tip 从 SCVMM PRO Tip 控制台中被移除。 • Operations Manager 中的警报从 Dell Server PRO 警报中被移除。 有关更多信息,请参阅使用 Health Explorer 重设警报。 VM 实时迁移 作为已连接的用户,在实时迁移期间,用户可以将 VM 从 Windows Server 2016、Windows Server 2012 R2、Windows Server 20
• 警报视图 • 状态视图 警报视图 警报视图以表格格式显示 Dell PRO 特定警报,包括的信息有:严重级别、源、名称、解决状态以及创建日期和时间。 要访问警报视图,请执行以下操作: 1 启动 Operations Manager 控制台。 2 单击 Monitoring(监测)选项卡。 3 单击 Dell Server PRO Pack > Dell Server PRO Alerts(Dell Server PRO 警报)。 警报显示在屏幕右侧,如下图中所示: 图 4: Dell 服务器 PRO 警报 状态视图 以表格格式显示查找的 Dell 系统对象。状态视图显示对象的名称、路径以及 Dell 系统的存储运行状况。您可以通过定义对象以及应如 何数据显示,对状态视图进行个性化设置。 图 5: Dell PRO Pack 监测的服务器 — 状态视图 使用 Health Explorer 重设警报 Health Explorer 使用户能够查看警报并采取行动。选择 PRO Tip 窗口中的 Dismiss(解除)时,警报将被移除。 使用 Dell EMC Server Perf
要手动重设该警报,请执行以下操作: 1 在操作菜单中,单击 Health Explorer。 2 右键单击要关闭的警报。 3 选择 Reset Health(重设运行状况)。 警报将从 PRO Tip 窗口中消失。 覆盖恢复操作 PRO Pack 5.
图 6: 覆盖属性 警报和恢复操作 下表列出了警报和建议的补救操作: 表.
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的 警报说明 严重性 警报原因 Dell PRO Tip 建议操作 置、机箱位置、先前状态 和风扇传感器值的信息。 1153;5153 电压传感器检测到警告值 警告 指定系统中的电压传感器 超过警告阈值提供传感器 位置、机箱位置、先前状 态和电压传感器值的信 息。 限制 1154;5154 电压传感器检测到故障值 错误 特定系统中的电压传感器 超过故障阈值。 限制和迁移 1155;5155 电压传感器检测到不可恢 复的值 错误 指定系统中的电压传感器 检测到无法恢复的错误。 提供传感器位置、机箱位 置、先前状态和电压传感 器值的信息。 限制和迁移 1203;5203 电流传感器检测到警告值 警告 特定系统中的电流传感器 超过警告阈值。 限制 1204;5204 电流传感器检测到故障值 错误 特定系统中的电流传感器 超过故障阈值。 限制和迁移 1205;5205 电流传感器检测到不可恢 复的值 错误 指定系统中的电流传感器 检测到无法恢复的错误。 提供
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的 警报说明 严重性 警报原因 Dell PRO Tip 建议操作 装置位置、机箱位置、先 前冗余状态,并提供完全 冗余所需的设备数。 1353;5353 电源设备检测到警告 警告 特定系统中电源传感器的 读数超过可定义警告阈 值。 限制 1354;5354 电源设备检测到故障 错误 电源设备已断开连接或失 败。 限制 1355;5355 电源传感器检测到不可恢 复的值 错误 指定系统中的电源传感器 检测到无法恢复的错误。 提供传感器位置、机箱位 置、先前状态、电源设备 类型、其他电源状态和配 置错误类型信息。 限制 1403;5403 内存设备状态警告 警告 内存设备纠错率超过可接 受值。 限制 1404;5404 内存设备错误 错误 内存设备纠错率超过可接 受值,内存备用槽已激活 或出现多位 ECC 错误。 限制和迁移 1405;5405 内存设备状态不可恢复 错误 内存设备状态不可恢复。 内存模块由于无法恢复的 错误而出现故障。 限制和迁移
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的 警报说明 严重性 警报原因 Dell PRO Tip 建议操作 供传感器和机箱位置信 息。 1603;5603 处理器传感器检测到警告 值 警告 指定系统中的处理器传感 器处于限制状态。提供传 感器位置、机箱位置、先 前状态和处理器传感器状 态的信息。 限制 1604;5604 处理器传感器检测到故障 值 错误 指定系统中的处理器传感 器已被禁用、有配置错 误,或发生热断路。提供 传感器位置、机箱位置、 先前状态和处理器传感器 状态。 限制和迁移 1605;5605 处理器传感器检测到不可 恢复的值 错误 指定系统中的处理器传感 器发生故障。提供传感器 位置、机箱位置、先前状 态和处理器传感器状态。 限制和迁移 1703;5703 电池传感器检测到警告值 警告 指定系统中的电池传感器 检测到电池处于潜在故障 状态。 限制 1704;5704 电池传感器检测到故障值 错误 指定系统中的电池传感器 检测到电池发生故障。提 供传感器位置、机箱位 置、先前状态和电
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的 警报说明 严重性 警报原因 Dell PRO Tip 建议操作 2082 虚拟磁盘重建故障 严重 虚拟磁盘中包含的物理磁 盘发生故障或已损坏。 限制 2083 物理磁盘重建失败 严重 虚拟磁盘中包含的物理磁 盘发生故障或已损坏。 限制 2094 预测故障报告 警告 预测物理磁盘将发生故 障。 限制 2100 温度超过最大警告阈值 警告 物理磁盘机柜太热。有多 种因素会导致温度过高。 限制 2101 温度低于最低警告阈值 警告 物理磁盘机柜太冷。 限制 2102 温度超过最大故障阈值 严重 物理磁盘机柜太热。有多 种因素会导致温度过高。 限制和迁移 2103 温度低于最低故障阈值 严重 物理磁盘机柜太冷。 限制和迁移 2112 机柜关闭 严重 物理磁盘机柜的温度高于 或低于允许的最高或最低 温度范围。 限制和迁移 2122 已降级冗余 警告 一个或多个机柜组件发生 故障。例如,某个风扇或 电源设备可能发生故障。 限制
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的 警报说明 严重性 警报原因 Dell PRO Tip 建议操作 2201 全局热备用失败 警告 控制器无法与分配为全局 热备用的磁盘通信。该磁 盘可能已发生故障或移 除。 限制 2203 专用热备用失败 警告 控制器无法与分配为专用 热备用的磁盘通信。 限制 2206 唯一可用的热备用是 警告 SATA 磁盘。SATA 磁盘无 法更换 SAS 磁盘 唯一可分配为热备用的物 理磁盘采用 SATA 技术。 限制 2207 唯一可用的热备用是 SAS 警告 磁盘。SAS 磁盘无法更换 SATA 磁盘 唯一可分配为热备用的物 理磁盘采用 SAS 技术。 限制 2213 超过再充电最大次数 警告 虚拟磁盘或机柜丢失数据 冗余。对于虚拟磁盘而 言,其中包括的一个或多 个物理磁盘出现故障。 限制 2246 控制器电池降级 警告 电池温度过高。这可能是 因为电池正在充电。 限制 2264 设备丢失 警告 控制器无法与设备通信。 设备可能被移除。 限制
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的 警报说明 严重性 警报原因 Dell PRO Tip 建议操作 2289 控制器 DIMM 上的多位 ECC 错误 严重 读取或写入操作期间遇到 涉及多位的错误。 限制和迁移 2290 控制器 DIMM 上的单位 ECC 错误 警告 读取或写入操作期间遇到 涉及单个位的错误。 限制 2292 与机柜间的通信中断 严重 控制器和机柜管理模块 (EMM) 间的通信已中 断。电缆松动或出现故 障。 限制和迁移 2293 EMM(机柜管理模块) 故障 错误 该故障可能是由于 EMM 断电导致的。 限制和迁移 2298 机柜中有坏的传感器 警告 机柜中有坏的传感器。机 柜传感器用于监测风扇速 度、温度探测器等等。 限制 2299 错误的 PHY 严重 物理连接或 PHY 有问 题。 限制 2300 不稳定机柜故障 严重 控制器无法持久稳定地收 到机柜的响应。 限制和迁移 2301 机柜硬件错误。 严重 机柜或机柜组件处于“失 败”或“降
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的 警报说明 警报原因 Dell PRO Tip 建议操作 2319 控制器 DIMM 上的单位 警告 ECC 错误。DIMM 性能降 级。 双列直插式内存模块 (DIMM) 开始出现故障。 限制和迁移 2320 单位 ECC 错误。DIMM 严重降级。 严重 DIMM 出现故障。即将发 生数据丢失或损坏。 限制和迁移 2321 单位 ECC 错误。控制器 DIMM 未正常工作。将不 会进行进一步报告 严重 双列直插式内存模块 (DIMM) 出现故障。明显 的数据丢失或数据损坏。 限制和迁移 2322 直流电源设备关闭 严重 电源设备单元关闭。用户 关闭电源设备单元或其发 生故障。 限制和迁移 2324 交流电源设备电缆被移除 严重 电源线可能已拔出或移 除。电源线也可能由于过 热而弯曲,并且无法正常 工作。 限制和迁移 2327 NVRAM 有损坏的数据。 控制器正在重新初始化 NVRAM 警告 NVRAM 有损坏的数据。 此情况可能会在电涌、电 池故
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的 警报说明 严重性 警报原因 Dell PRO Tip 建议操作 2355 机柜固件下载失败。 警告 系统无法将固件下载到机 柜。控制器可能失去了与 机柜之间的通信。数据传 输可能存在问题,或者下 载介质可能已损坏。 限制和迁移 2356 SAS SMP 通信错误 严重 此警报的文本由固件生成 并随情况而改变。此文中 提到的 SMP 是指 SAS 管 理协议。 限制 2357 SAS 扩展器错误 严重 机柜可能存在故障。验证 机柜及其组件的运行状 况。 限制 2387 检测到虚拟磁盘坏块介质 错误 错误 虚拟磁盘坏块是因为一个 或多个成员物理磁盘存在 无法恢复的坏块。 限制和迁移 2396 检查一致性检测到无法纠 正的介质错误 严重 物理驱动器中的介质错 误: 限制 2397 检查一致性完成,但有无 法纠正的错误 严重 物理驱动器中的介质错 误: 限制和迁移 2416 检测到磁盘介质错误 警告 检测到磁盘介质错误。 限制 2417
Dell 事件 ID VMM 中有关 Operations Manager 和 PRO Tip 的 警报说明 严重性 警报原因 Dell PRO Tip 建议操作 Cache 设备时用户应用程 序现在应看到 I/O 故障。 2923 高速缓存设备缺失且无响 应 严重 一个或多个高速缓存设备 缺失,因此高速缓存无响 应。 限制和迁移 5050 温度传感器出现故障 严重 消息中标识的温度传感器 出现故障。此情况可能会 导致系统性能问题以及系 统的监测功能下降。 限制和迁移 5100 风扇传感器出现故障 严重 消息中标识的传感器出现 故障。可能需要传感器以 实现最佳系统性能。 限制和迁移 5103 风扇传感器出现故障 警告 消息中标识的风扇功能正 常。风扇可能未正确安装 或发生故障。 限制 5150 电压传感器出现故障 严重 消息中标识的电压传感器 出现故障。此情况可能会 导致系统性能问题以及系 统的监测功能下降。 限制和迁移 5200 电流传感器出现故障 严重 消息中标识的电流传感器 出现故障。此情况可能会 导致系统性能问题以及系 统的监测功能下降
3 相关文档和资源 本章提供帮助用户使用 Pro Pack 5.0 的文档和资源的详情。 主题: • 安全注意事项 • 您可能需要的其他说明文件 安全注意事项 Operations Console 访问权限通过 Operations Manager 内部处理。您可以使用 Operations Manager 控制台上 Administration Security (管理安全)功能下的 User Roles(用户角色)选项进行设置。用户所分配的角色的配置文件决定了可以执行哪些操作以及能管理哪 些对象。有关安全注意事项的更多信息,请参阅位于 Technet.microsoft.
4 联系 Dell 注: 如果没有活动的 Internet 连接,您可以在购货发票、装箱单、帐单或 Dell 产品目录上查找联系信息。 Dell 提供了若干联机及电话支持和服务选项。服务会因所在国家和地区以及产品的不同而有所差异,您所在的地区可能不提供某些服 务。如要联系 Dell 解决有关销售、技术支持或客户服务问题: 1 请转至 Dell.
5 访问 Dell EMC 支持站点上的文档 您可以使用以下链接访问所需的文档: • Dell EMC 企业系统管理文档 — Dell.com/SoftwareSecurityManuals • Dell EMC OpenManage 文档 — Dell.com/OpenManageManuals • Dell EMC 远程企业系统管理文档 — Dell.com/esmmanuals • iDRAC 和 Dell EMC 生命周期控制器文档 — Dell.com/idracmanuals • Dell EMC OpenManage 连接企业系统管理文档 — Dell.com/OMConnectionsEnterpriseSystemsManagement • Dell EMC 可维护性工具文档 — Dell.com/ServiceabilityTools • 客户端命令套件系统管理文档 — Dell.com/DellClientCommandSuiteManuals • a 转至 Dell.