Newsletter #3 - abril de 2023
Entre várias métricas acompanhadas, encontra-se informação que pode indicar o início de uma falha do equipamento (como por exemplo, a temperatura, velocidade de ventoinha, falha de disco) e informação de capacidade e utilização (% de CPU em utilização, % de memória usada, espaço livre em disco, número de processos, estado dos containners, entre outras). Com base nesta informação, são parametrizadas condições que acionam alarmes de diferentes níveis de criticidade, quando são atingidos certos valores numa métrica especifica ou numa conjugação de métricas considerados. Com esta nova ferramenta e métricas, as equipas de Infraestruturas e Rede e Administração e Operação de Sistemas criaram dashboards com listagens e gráficos de modo a destacar a informação pretendida para monitorizar os mais de 1500 equipamentos de rede e mais de 200 servidores, já parametrizados.
Esperamos desse modo poder prevenir e detetar eventuais problemas mais rapidamente.