Quem somos nós…
Com um catálogo abrangente de serviços integrados e especializados, a Orbbi atende às demandas operacionais e de segurança dos clientes, disponibilizando uma variedade de ferramentas que centralizam informações e infraestrutura de TI, simplificando a gestão e aprimorando o desempenho empresarial.
Responsabilidades e Atribuições:Definição da Estratégia de Observabilidade: - Estabelecer a visão- Definir a visão de longo prazo para a observabilidade na organização, alinhando-a com os objetivos de negócio. - Escolher as ferramentas: Selecionar as ferramentas e tecnologias mais adequadas para atender às necessidades da empresa, considerando fatores como custo, escalabilidade e integração com outras ferramentas. - Definir métricas: Identificar as métricas chave que serão monitoradas para garantir o desempenho e a saúde dos sistemas.- Desenvolver dashboards- Criar dashboards personalizados para visualizar e analisar os dados coletados, facilitando a identificação de problemas e a tomada de decisões.Implementação e Manutenção: - Desenvolver a infraestrutura- Configurar e implementar a infraestrutura de observabilidade, incluindo agentes, coletores de dados e bancos de dados.- Integrar com sistemas existentes: Integrar a plataforma de observabilidade com outras ferramentas e sistemas da empresa, como sistemas de CI/CD, plataformas de nuvem e ferramentas de análise de logs. - Automatizar processos- Automatizar tarefas repetitivas, como a criação de alertas e a geração de relatórios, para aumentar a eficiência. - Manutenção e otimização- Garantir a disponibilidade e o desempenho da plataforma de observabilidade, realizando manutenções periódicas e otimizando a coleta e o armazenamento de dados.Análise de Dados e Resolução de Problemas: - Análise de dados: Analisar os dados coletados para identificar padrões, tendências e anomalias. - Diagnóstico de problemas- Utilizar os dados de observabilidade para diagnosticar e resolver problemas de desempenho e disponibilidade. - Root cause analysis: Investigar a causa raiz dos problemas para evitar que ocorram novamente. - Otimização de desempenho: Identificar oportunidades para otimizar o desempenho dos sistemas com base nos dados coletados.Liderança e Gestão: - Construção e gestão da equipe: Recrutar, treinar e desenvolver a equipe de observabilidade, garantindo que todos os membros tenham as habilidades necessárias para realizar o trabalho. - Colaboração com outras equipes: Trabalhar em estreita colaboração com equipes de desenvolvimento, operações e negócios para garantir que a observabilidade atenda às necessidades de todos. - Comunicação: Comunicar os resultados da observabilidade para a equipe de desenvolvimento e para os stakeholders da empresa, utilizando linguagem clara e concisa.Para Este Desafio, é Necessário:- Experiência com Grafana, Prometheus, Elastic/Kibana, DataDog, ou outras plataformas de monitoramento. - Familiaridade com Tracing (ex: Jaeger, OpenTelemetry). - Logs e Monitoramento: Proficiência na configuração e gerenciamento de sistemas de logs centralizados (ex: ELK Stack, Fluentd, Logstash). - Criação e ajuste de dashboards, alertas, e visualizações customizadas. - Conhecimento em monitoramento de aplicações e infraestrutura com métricas, logs e tracing. - DevOps e Automação- Proficiência em CI/CD - Experiência com Infraestrutura como Código (IaC) usando Terraform, Ansible, ou Puppet. - Contêineres e Orquestração: Experiência com Docker e Kubernetes para implantações e gerenciamento de microsserviços.- Conhecimento em ferramentas de monitoramento de contêineres e orquestradores (Thanos). - Cloud e Serviços Gerenciador- Experiência com plataformas de Cloud Pública (AWS) e ferramentas de monitoramento associadas. - Habilidade em configurar monitoramento em cloud-native e utilizar serviços gerenciados de observabilidade.- Linguagens de Programação/Scripting: Proficiência em linguagens como Python ou Shell para automação e scripts de monitoramento. - Capacidade de integrar ferramentas de observabilidade com aplicações. - Diagnóstico e Resolução de Problemas- Habilidade em troubleshooting e resolução de problemas em sistemas distribuídos, com foco em latência, throughput e erros.- Análise de performance e identificação de bottlenecks com ferramentas de observabilidade.
Informações Importantes:
-Modelo de trabalho Remoto-Modelo de Contrato PJ.