Início: Assim que aprovado.Prazo: Indeterminado, fazer parte do time da consultoria.Objetivo da Posição:Buscamos um Site Reliability Engineer (SRE) para reforçar a confiabilidade da nossa plataforma, atuando com observabilidade, automação e boas práticas de segurança. O profissional será responsável por garantir que nossas aplicações tenham um monitoramento eficiente, disponibilidade consistente e processos robustos para recuperação e mitigação de incidentes.Requisitos:Formação: Graduação completa ou em andamento em Ciência da Computação, Engenharia da Computação ou áreas relacionadas.Experiência como SRE, DevOps ou Engenheiro de PlataformaConhecimento aprofundado em Kubernetes e observabilidadeCapacidade de troubleshooting e otimização de performanceInteresse em automação e infraestrutura como códigoBoa comunicação e habilidade para trabalhar em equipeExperiência ou conhecimento nas seguintes tecnologias:Cloud & Orquestração:AWS (ECS, Elastic Beanstalk, EKS)Kubernetes (EKS)Istio (mutualTLS, observabilidade de tráfego, roteamento)Observabilidade & Monitoramento:Grafana, Prometheus, LokiOpenTelemetry (Library, Agent, Sidecar)Grafana Tempo e KialiInfraestrutura & Automação:Terraform (com migração para OpenTofu)Docker e containerizaçãoCI/CD com GitHub Actions, CodePipeline, JenkinsSegurança e Performance:Segurança em ambientes Kubernetes e AWSImplementação e monitoramento de tráfego seguroEstratégias de mitigação de falhas e alta disponibilidadeResponsabilidades:Monitoramento & Observabilidade: Aprimorar e gerenciar ferramentas de monitoramento (Grafana, Prometheus, Loki, OpenTelemetry, Grafana Tempo, Kiali).Gestão de Tráfego & Segurança: Melhorar a implementação e observabilidade do Istio, incluindo mutualTLS, controle de tráfego e métricas de segurança.Cloud & Kubernetes: Gerenciar workloads em EKS, incluindo troubleshooting, escalabilidade e melhorias de deploy.Infraestrutura como Código (IaC): Manutenção e otimização do provisionamento de infraestrutura utilizando Terraform e suporte à migração para OpenTofu.CI/CD & Automação: Aprimorar e manter pipelines de GitHub Actions, CodePipeline e Jenkins para garantir entregas ágeis e seguras.Prevenção & Resolução de Incidentes: Implementar soluções para reduzir tempo de recuperação (MTTR) e melhorar a resposta a falhas.Melhoria Contínua: Propor otimizações contínuas para performance, segurança e custos na nuvem AWS.
#J-18808-Ljbffr