Estamos em busca de um Site Reliability Engineer (SRE) Pleno/Senior para garantir a confiabilidade, escalabilidade e performance das nossas plataformas e sistemas. Esse profissional será responsável por criar soluções para melhorar a disponibilidade e a resiliência da nossa infraestrutura e sistemas em produção, além de colaborar com as equipes de desenvolvimento e operações para garantir a entrega contínua de alta qualidade. Trabalhamos com tecnologias modernas como Azure Cloud, containers Docker, monitoramento com Grafana/Prometheus e desenvolvimento em Python. Nossa infraestrutura é híbrida, operando em ambientes Linux e Windows.Responsabilidades:Garantir a alta disponibilidade, confiabilidade e escalabilidade dos sistemas em produção.Trabalhar com a equipe de desenvolvimento para projetar, implementar e monitorar soluções resilientes e escaláveis.Implementar e manter práticas de SLIs (Service Level Indicators), SLOs (Service Level Objectives) e SLAs (Service Level Agreements) para medir e melhorar a confiabilidade dos sistemas.Automatizar processos de monitoramento, alertas e escalabilidade para garantir respostas rápidas a incidentes.Gerenciar incidentes e trabalhar para minimizar o tempo de inatividade e mitigar riscos em ambientes de produção.Implementar práticas de Chaos Engineering para testar a resiliência dos sistemas e promover a melhoria contínua.Trabalhar com ferramentas de automação e infraestrutura como código (Terraform, Ansible, etc.) para provisionamento e gerenciamento de ambientes.Otimizar e melhorar o desempenho das aplicações e da infraestrutura de maneira contínua.Realizar revisão post-mortem após incidentes, analisando falhas e implementando soluções para evitar recorrências.Colaborar com as equipes de segurança para garantir a proteção dos sistemas e dados em todas as fases do ciclo de vida.Participar de revisões de arquitetura e infraestrutura, sugerindo melhorias para a escalabilidade e segurança.Trabalhar em ambientes de nuvem (AWS, GCP, Azure) e com plataformas de containers como Docker e Kubernetes.Requisitos:Domínio avançado de sistemas operacionais:Linux (tuning e otimização)Windows Server (administração avançada)Expertise em monitoramento e observabilidade:Grafana (desenvolvimento de dashboards complexos)Prometheus (configuração avançada e otimização)Definição e implementação de SLOs/SLIsError budgetsExperiência avançada com containers:Docker e KubernetesOtimização de imagens e segurançaTroubleshooting avançadoProficiência em desenvolvimento:Python para automação e ferramentasAPIs e integraçõesExperiencia com gerenciamento de banco de dadosExperiência sólida com Git, Github e estratégias de branchingConhecimento avançado de arquitetura de sistemasExperiência com análise de performanceExpertise em práticas de reliabilityConhecimento de arquiteturas distribuídasExperiência com gestão de incidentes críticosDiferenciais:Excelente capacidade de comunicação, sabendo transmitir informações técnicas complexas de forma claraHabilidade para trabalhar em equipe e colaborar com diferentes áreasCapacidade analítica e pensamento estruturado para resolução de problemasOrganização e documentação clara das soluções implementadasProatividade para identificar e propor melhorias nos processosResiliência para lidar com situações de pressão e incidentesAutonomia na busca por soluções e novos conhecimentosMentalidade de melhoria contínuaCapacidade de priorização e gestão do tempoAdaptabilidade para lidar com mudanças tecnológicas e de processoEmpatia e bom relacionamento interpessoalComprometimento com qualidade e boas práticasHabilidade para compartilhar conhecimento com a equipeCapacidade de mentoria técnicaHabilidade para liderar discussões técnicasVisão sistêmica para propor soluções arquiteturaisO que oferecemos:Uma cultura que valoriza aprendizado, inovação e colaboração.Oportunidades reais de crescimento profissional.Possibilidade de atuar em projetos de impacto global e com tecnologias inovadoras.Faça parte de um time que transforma ideias em experiências memoráveis!