Sre | site reliability engineer

Santa Cruz do Sul

Mailbiz Tecnologia Da Informacao Ltda

Anunciada dia 27 março

Descrição

A Mailbiz é uma empresa Saa S focada em CRM para e-commerce, ajudamos os lojistas a aplicarem nosso método próprio de alavancagem de performance, focando em soluções de marketing digital (como e-mail marketing e outras possibilidades), conduzindo nossos clientes a um significativo aumento de engajamento e vendas.
Queremos entregar cada vez mais recursos tecnológicos e um melhor atendimento ao nosso cliente.
Nesse contexto, estamos à procura de um(a) Site Reliability Engineer queserá responsável pela operação, otimização e confiabilidade dos sistemas distribuídos da Mailbiz, abrangendo ambientes cloud e on-premises.
Este profissional terá um papel essencial na identificação, mitigação e prevenção de incidentes em produção, liderando iniciativas de Chaos Engineering e melhoria contínua.
Atuará diretamente na análise de problemas críticos, automação de processos e colaboração com os times de infraestrutura e engenharia para garantir a resiliência e o desempenho dos sistemas.
Principais Responsabilidades Garantir a disponibilidade e confiabilidade dos sistemas distribuídos (Kafka, Elasticsearch, Redis, Kubernetes).
Identificar, diagnosticar e resolver problemas críticos em produção, abrangendo ambientes cloud (AWS) e on-premises (VMware/OVH).
Liderar iniciativas de Chaos Engineering para validar a resiliência dos sistemas e mitigar falhas potenciais.
Implementar e gerenciar ferramentas de monitoramento, alerta e análise de incidentes (e.g., Prometheus, Grafana, Kibana).
Realizar testes de carga e stress com ferramentas apropriadas (e.g., JMeter, Gatling, Locust) e implementar melhorias com base nos resultados.
Colaborar com os times de infraestrutura e engenharia para projetar soluções escaláveis e resilientes.
Automatizar processos de manutenção, escalabilidade e deploy.
Propor e implementar melhorias contínuas na arquitetura e operação dos sistemas distribuídos.
Coordenar a resposta a incidentes críticos, realizando análises pós-morte e garantindo a documentação das lições aprendidas.
Trabalhar na criação de processos preventivos para reduzir incidentes e aumentar a disponibilidade do sistema.
Requisitos Técnicos Experiência com sistemas distribuídos (Kafka, Elasticsearch, Redis, Kubernetes).
Conhecimento avançado em ambientes Linux e infraestrutura híbrida (cloud e on-premises).
Vivência prática com ferramentas de Chaos Engineering e resposta a incidentes críticos.
Experiência com ferramentas de teste de carga e stress (Grafana K6, JMeter, Gatling, Locust ou similares).
Conhecimento em linguagens de programação como C#, Golang ou Python para automação e otimização de processos.
Familiaridade com práticas de CI/CD e monitoramento de sistemas.
Experiência com bancos de dados relacionais e não-relacionais.
Forte compreensão de arquiteturas de alta disponibilidade e escalabilidade.
Experiência em ambientes de operação 24/7.
Soft Skills Proatividade: Capacidade de antecipar problemas e propor soluções antes que impactem os sistemas.
Colaboração: Facilidade para trabalhar em times multidisciplinares e construir pontes entre áreas.
Comunicação: Habilidade para explicar conceitos complexos de forma clara e objetiva.
Resolução de Problemas: Pensamento analítico para solucionar desafios complexos em ambientes distribuídos.
Adaptabilidade: Conforto em lidar com situações de alta pressão e mudanças rápidas de prioridade.
Diferenciais Certificações em Kubernetes, AWS ou Chaos Engineering.
Experiência com sistemas de email marketing ou marketing digital.
Conhecimento em práticas de Fin Os para otimização de custos na infraestrutura.
Vivência com ambientes de alta escala e alta volumetria de dados.
Experiência com sistemas híbridos, combinando cloud e on-premises.
#J-18808-Ljbffr

Se candidatar

Criar um alerta

Salvar