Dell Server PRO Management Pack 2.
Notas e Advertências NOTA: uma NOTA fornece informações importantes para ajudar você a aproveitar melhor os recursos do seu computador. AVISO: um AVISO indica um potencial de danos ao hardware ou a perda de dados se as instruções não forem seguidas. ____________________ As informações deste documento estão sujeitas a alteração sem aviso prévio © 2011 Dell Inc. Todos os direitos reservados. Qualquer forma de reprodução deste material sem a permissão por escrito da Dell Inc. é expressamente proibida.
Sumário 1 Introdução . Novidades Visão geral . . . . . . . . . . . . . . . . . . . . . . . . 5 . . . . . . . . . . . . . . . . . . . . . . . . . 6 . . . . . . . . . . . . . . . . . . . . . . . . 6 Termos relacionados O que é o PRO Tip? . . . . . . . . . . . . . . . . . . . 7 . . . . . . . . . . . . . . . . . . . . 7 Recursos e funcionalidades . . . . . . . . . . . . . . . Entender o Gerenciamento de PRO Tip Sistemas operacionais compatíveis 2 . . . . . . . . . . . . . . . . . . . .
3 Documentação e recursos relacionados . . . . . . . . . . . . . . . . . . . . . . . 39 Considerações sobre segurança . . . . . . . . . . . . Outros documentos de que você pode precisar Obter assistência técnica 4 Sumário 39 . . . . 39 . . . . . . . . . . . . . . . .
Introdução Este documento é destinado aos administradores de sistema que usam o Dell Server PRO Management Pack (Pacote de Gerenciamento Dell Server PRO) (Dell PRO Pack) para monitorar os sistemas Dell e tomar medidas corretivas quando um sistema ineficiente é identificado.
Novidades Este lançamento do PRO Pack é compatível com: • SCE 2010 • SCVMM 2008 R2 SP1 • Suporte a novo hardware • Alertas adicionais do Dell OpenManage e alertas da placa de interface de rede (NIC) • Aprimoramentos nas resoluções de alguns alertas antigos Para obter mais informações sobre os alertas e suas resoluções, consulte Alertas e ações de recuperação.
Termos relacionados • Um sistema gerenciado é um sistema Dell executado no OpenManage Server Administrator (OMSA), que é monitorado e gerenciado usando o Operations Manager e o SCVMM. Pode ser gerenciado local ou remotamente usando as ferramentas compatíveis. • Uma estação de gerenciamento ou estação de gerenciar é um sistema Dell baseado no Microsoft Windows com o Operations Manager e o SCVMM instalados para gerenciar cargas de trabalho virtuais.
Recursos e funcionalidades Dell PRO Pack: 8 • Faz o gerenciamento PRO dos sistemas Dell PowerEdge executando plataformas Microsoft Hyper-V, através do monitoramento contínuo da integridade de sua infraestrutura física e virtual. • Trabalha com o Operations Manager e o SCVMM para detectar eventos como a perda de redundância no fornecimento de energia, temperatura mais alta do que valores limites, erro na bateria de armazenamento do sistema, falha no disco virtual, e assim por diante.
Entender o Gerenciamento de PRO Tip Esta seção explica uma configuração típica do Dell PRO Pack e a sequência de eventos envolvidos no gerenciamento de PRO Tip. Figura 1-1.
Tabela 1-1 descreve a sequência de eventos que ocorre no gerenciamento do PRO Tip. Tabela 1-1. Sequência de eventos com a descrição Número sequencial Evento 1 Os agentes do Operations Manager no host são ativados para detectar alertas de aviso, erro ou falha gerados pelo OMSA. 2 O alerta é enviado para o Operations Manager. 3 O console do Operations Manager mostra os alertas ativos do PRO. 4 O Operations Manager notifica o alerta e o ID do PRO Tip associado ao SCVMM.
Sistemas operacionais compatíveis Os sistemas de operação suportados do Dell PRO Pack no sistema gerenciado e na estação de gerenciamento são: Sistema gerenciado: O sistema gerenciado para o PRO Pack é um servidor Virtual Machine Manager. Para obter mais informações, consulte technet.microsoft.com/en-us/library/cc764213.aspx Estação de gerenciamento: Para obter a lista de configurações suportadas pelos SCOM, SCE e SCVMM, consulte os seguintes documentos: • SCOM 2007 R2 - technet.microsoft.
Introdução
Usar o Dell Performance Resource Optimization Pack (Dell PRO Pack) Monitoramento com uso do SCVMM Você pode gerenciar a integridade de seu ambiente virtualizado usando o PRO Tips (Dicas PRO) mostrado no console do SCVMM. Para consultar a janela PRO Tip, clique no menu PRO Tips da barra de ferramentas, como mostrado em Figura 2-1. O menu mostra também o número de dicas PRO (PRO Tips) ativas em parênteses. Figura 2-1. Botão PRO Tip no console do SCVMM Clique no menu PRO Tips.
Implementar ações de recuperação A janela PRO Tip fornece uma opção de implementar ou descartar a ação recomendada. Se você selecionar Implement (Implementar), o SCVMM implementará uma das tarefas de recuperação descritas abaixo, com base na natureza do alerta. Colocar o host em modo restrito. Colocar o host em modo Restrito evita atribuições de carga de trabalho ao host até que o problema seja resolvido. Neste modo, o host ainda recebe alertas no Operations Manager e nos PRO Tips associados do SCVMM.
As condições de integridade do sistema que acionam a migração de MVs são alertas de falha de hardware em um host de virtualização, como uma falha no disco virtual ou um erro de drive previsível. O Dell PRO Pack migra as MVs que tenham o status Running (Em execução). Ele não migra MVs com status como Stop (Parar), Pause (Pausar) e Saved (Salvo). Isto se baseia em uma classificação por estrelas dos servidores associados.
A implementação do PRO Tip de mover as MVs pode falhar se nenhum outro host íntegro estiver disponível no grupo de hosts ou cluster de hosts. Neste caso, a janela PRO Tip mostra o estado do PRO Tip correspondente como Failed (Falha), e a razão é elaborada na seção Error (Erro). O status da entrada correspondente na seção Jobs (Trabalhos) do console do SCVMM também será mostrado como Failed (Falha). NOTA: Na janela PRO Tip, a mensagem de falha é atualizada de maneira dinâmica.
Monitoramento usando alertas PRO específicos no SCOM/SCE Você pode monitorar os dispositivos físicos em sua rede usando o console do Operations Manager. O console do Operations Manager tem as seguintes visualizações: • Alert View (Exibição de alertas) — Mostra alertas específicos do Dell PRO em formato tabular, com informações sobre o nível de gravidade, a origem, o nome, o estado de resolução, e data e hora de criação. Para acessar a exibição de alertas: a Abra o console do Operations Manager.
• Exibição de estado — Mostra os objetos do sistema Dell em um formato tabular. A exibição de estado mostra objetos com o nome, o caminho, a integridade de armazenamento do sistema Dell, e assim por diante. Você pode personalizar a exibição de estado, definindo quais objetos você quer mostrar e como os dados são mostrados. Figura 2-4. Exibição de estado Usar o Gerenciador de Integridade para redefinir alertas O Gerenciador de Integridade permite que você visualize e tome medidas sobre os alertas.
Alterar ações de recuperação O Pacote PRO 2.1 suporta duas ações de recuperação. Os valores de sinalização a seguir acionam as respectivas ações de recuperação: • 1: Para migração • 2: Para colocar o servidor em modo restrito Você pode alterar a ação de recuperação padrão, alterando o valor padrão do sinalizador da ação de recuperação. Por exemplo, mude o valor do sinalizador de 2 para 1 usando a opção de alteração fornecida no console do SCOM.
10 Gere um alerta e uma dica PRO (PRO Tip). 11 Selecione Implement PRO Tip (Implementar PRO Tip). Este procedimento verifica se a ação de recuperação alterada foi bem-sucedida. Figura 2-5. Alterar ação de recuperação Alertas e ações de recuperação A Tabela 2-1 mostra uma lista dos alertas e das medidas corretivas recomendadas correspondentes: Tabela 2-1.
Tabela 2-1. Causa do alerta e ação de recuperação (continuação) ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade Causa do alerta Medida corretiva recomendada pelo PRO Tip 1054 O sensor de Erro temperatura detectou um valor de falha. Um sensor de Restringir temperatura na e migrar placa backplane, na placa de sistema, na CPU ou no suporte do disco do sistema especificado excedeu seu valor limite de falha. 1104 O sensor do Erro ventilador detectou um valor de falha.
Causa do alerta e ação de recuperação (continuação) Tabela 2-1. ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade 1305 Redundância degradada Advertência A leitura de um Restringir sensor de fonte de alimentação no sistema especificado excedeu o limite de advertência. 1306 Redundância perdida Erro 1353 A fonte de alimentação detectou uma advertência.
Tabela 2-1. Causa do alerta e ação de recuperação (continuação) ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade Causa do alerta Medida corretiva recomendada pelo PRO Tip 1703 O sensor de bateria detectou um valor de advertência Advertência Um sensor de Restringir bateria do sistema especificado detectou que uma bateria está em um estado de defeito previsível.
Causa do alerta e ação de recuperação (continuação) Tabela 2-1.
Tabela 2-1. Causa do alerta e ação de recuperação (continuação) ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade Causa do alerta Medida corretiva recomendada pelo PRO Tip 2102 A temperatura excedeu o limite máximo de falha Crítico O gabinete do disco Restringir físico está muito e migrar quente. Uma variedade de fatores pode causar alta temperatura. 2103 A temperatura caiu abaixo do limite mínimo de falha Crítico O gabinete do disco físico está muito frio.
Causa do alerta e ação de recuperação (continuação) Tabela 2-1. ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM 2125 O cache do Advertência Controlador controlador foi desconectado do congelado porque disco virtual um disco virtual enquanto está ficou off-line ou ocorrendo E/S foi perdido.
Tabela 2-1. Causa do alerta e ação de recuperação (continuação) ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade Causa do alerta Medida corretiva recomendada pelo PRO Tip 2171 A temperatura da Advertência A temperatura Restringir bateria do ambiente pode estar controlador está alta demais. O acima do normal. ventilador do sistema pode estar degradado ou ter apresentado defeito. 2174 A bateria do controlador foi removida.
Causa do alerta e ação de recuperação (continuação) Tabela 2-1. ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade 2203 Um hot spare dedicado falhou Advertência O controlador não Restringir consegue se comunicar com um disco designado como hot spare dedicado. 2206 O único hot spare Advertência O único disco físico Restringir disponível é um disponível para ser disco SATA. designado como hot Discos SATA spare usa a não substituem tecnologia SATA. discos SAS.
Tabela 2-1. Causa do alerta e ação de recuperação (continuação) ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade 2264 Um dispositivo está ausente. Advertência O controlador não Restringir consegue se comunicar com um dispositivo. O dispositivo pode ter sido removido. 2265 Um dispositivo Advertência O controlador não Restringir está em um estado pode se comunicar e migrar desconhecido. com um dispositivo. O estado do dispositivo não pode ser determinado.
Causa do alerta e ação de recuperação (continuação) Tabela 2-1. ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM 2273 Um bloco do disco Crítico físico foi marcado como inválido pelo controlador O controlador Restringir encontrou um erro e migrar de mídia irrecuperável durante a leitura de um bloco no disco físico e marcou aquele bloco como inválido.
Tabela 2-1. Causa do alerta e ação de recuperação (continuação) ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade Causa do alerta Medida corretiva recomendada pelo PRO Tip 2292 A comunicação com o gabinete foi perdida. Crítico O controlador perdeu Restringir a comunicação com e migrar um módulo de gerenciamento de gabinete (EMM enclosure management module). Os cabos podem estar soltos ou defeituosos.
Causa do alerta e ação de recuperação (continuação) Tabela 2-1. ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade Causa do alerta Medida corretiva recomendada pelo PRO Tip 2301 Erro de hardware do gabinete. Crítico O gabinete ou um componente do gabinete está degradado ou defeituoso. Restringir e migrar 2302 O gabinete não Crítico está respondendo. O gabinete ou um componente do gabinete está degradado ou defeituoso.
Tabela 2-1. Causa do alerta e ação de recuperação (continuação) ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade Causa do alerta Medida corretiva recomendada pelo PRO Tip 2312 Uma fonte de Advertência A fonte de Restringir alimentação do alimentação perdeu gabinete perdeu a a alimentação CA. alimentação CA. 2313 Uma fonte de Advertência A fonte de Restringir alimentação do alimentação perdeu gabinete perdeu a a alimentação CC. alimentação CC.
Causa do alerta e ação de recuperação (continuação) Tabela 2-1. ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade Causa do alerta 2320 Erro ECC de bit único Crítico O módulo de Restringir memória DIMM não e migrar está funcionando corretamente. 2321 Erro ECC de bit Crítico único. A DIMM do controlador não está funcionando. Não haverá notificações adicionais. O módulo de Restringir memória DIMM não e migrar está funcionando corretamente.
Tabela 2-1. Causa do alerta e ação de recuperação (continuação) ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade 2327 A NVRAM Advertência A NVRAM tem dados corrompidos. tem dados Isso pode ocorrer corrompidos. O controlador está após um surto de reinicializando energia, uma falha a NVRAM da bateria ou por outras razões. O controlador está reinicializando o NVRAM Restringir e migrar 2328 A NVRAM tem dados corrompidos. Advertência A NVRAM tem dados corrompidos.
Causa do alerta e ação de recuperação (continuação) Tabela 2-1. ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade 2342 A verificação de consistência encontrou dados de paridade inconsistentes. A redundância de dados pode ser perdida. Advertência Os dados de um Restringir disco de origem e migrar e os dados redundantes de um disco de destino são inconsistentes. 2349 Um bloco de disco Crítico defeituoso não pode ser redesignado durante uma operação de gravação.
Tabela 2-1. Causa do alerta e ação de recuperação (continuação) ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade 2356 Erro de Crítico comunicação SAS do SMP O texto deste alerta Restringir é gerado pelo firmware e pode variar dependendo da situação. SMP neste texto refere-se a "SAS Management Protocol" (Protocolo de Gerenciamento de SAS) 2357 Erro do expansor de SAS Crítico Deve haver um Restringir problema com o gabinete.
Causa do alerta e ação de recuperação (continuação) Tabela 2-1. ID do evento Dell Descrição do alerta no SCOM/ SCE e PRO Tip no SCVMM Gravidade Causa do alerta Medida corretiva recomendada pelo PRO Tip 2397 A verificação de consistência foi concluída com erros que não podem ser corrigidos. Crítico Erros de mídia nos discos físicos. Restringir e migrar 2416 Foi detectado um Advertência Erro médio de disco Restringir erro de disco.
Documentação e recursos relacionados Este capítulo fornece detalhes de documento e recursos para ajudar você a trabalhar com o Pacote Pro 2.1. Considerações sobre segurança Os privilégios de acesso ao console de operações são gerenciados internamente pelo SCOM/SCE. Isso pode ser configurado usando a opção User Roles (Funções do usuário) no recurso de Administration→ Security (Administração→ Segurança) no console SCOM/SCE.
• O guia Dell OpenManage Server Administrator Messages Reference Guide (Guia de referência de mensagens do Dell OpenManage Server Administrator) lista as mensagens mostradas no registro de alerta da página inicial de seu administrador de servidor ou no visualizador de eventos de seu sistema operacional.