Sre | site reliability engineer

Santa Cruz do Sul

MAILBIZ TECNOLOGIA DA INFORMACAO LTDA

Anunciada dia 28 janeiro

Descrição

A Mailbiz é uma empresa SaaS focada em CRM para e-commerce, ajudamos os lojistas a aplicarem nosso método próprio de alavancagem de performance, focando em soluções de marketing digital (como e-mail marketing e outras possibilidades), conduzindo nossos clientes a um significativo aumento de engajamento e vendas.

Queremos entregar cada vez mais recursos tecnológicos e um melhor atendimento ao nosso cliente.

Nesse contexto, estamos à procura de um(a) Site Reliability Engineerqueserá responsável pela operação, otimização e confiabilidade dos sistemas distribuídos da Mailbiz, abrangendo ambientes cloud e on-premises. Este profissional terá um papel essencial na identificação, mitigação e prevenção de incidentes em produção, liderando iniciativas de Chaos Engineering e melhoria contínua. Atuará diretamente na análise de problemas críticos, automação de processos e colaboração com os times de infraestrutura e engenharia para garantir a resiliência e o desempenho dos sistemas.

Principais Responsabilidades

* Garantir a disponibilidade e confiabilidade dos sistemas distribuídos (Kafka, Elasticsearch, Redis, Kubernetes).
* Identificar, diagnosticar e resolver problemas críticos em produção, abrangendo ambientes cloud (AWS) e on-premises (VMware/OVH).
* Liderar iniciativas de Chaos Engineering para validar a resiliência dos sistemas e mitigar falhas potenciais.
* Implementar e gerenciar ferramentas de monitoramento, alerta e análise de incidentes (e.g., Prometheus, Grafana, Kibana).
* Realizar testes de carga e stress com ferramentas apropriadas (e.g., JMeter, Gatling, Locust) e implementar melhorias com base nos resultados.
* Colaborar com os times de infraestrutura e engenharia para projetar soluções escaláveis e resilientes.
* Automatizar processos de manutenção, escalabilidade e deploy.
* Propor e implementar melhorias contínuas na arquitetura e operação dos sistemas distribuídos.
* Coordenar a resposta a incidentes críticos, realizando análises pós-morte e garantindo a documentação das lições aprendidas.
* Trabalhar na criação de processos preventivos para reduzir incidentes e aumentar a disponibilidade do sistema.

Requisitos Técnicos

* Experiência com sistemas distribuídos (Kafka, Elasticsearch, Redis, Kubernetes).
* Conhecimento avançado em ambientes Linux e infraestrutura híbrida (cloud e on-premises).
* Vivência prática com ferramentas de Chaos Engineering e resposta a incidentes críticos.
* Experiência com ferramentas de teste de carga e stress (Grafana K6, JMeter, Gatling, Locust ou similares).
* Conhecimento em linguagens de programação como C#, Golang ou Python para automação e otimização de processos.
* Familiaridade com práticas de CI/CD e monitoramento de sistemas.
* Experiência com bancos de dados relacionais e não-relacionais.
* Forte compreensão de arquiteturas de alta disponibilidade e escalabilidade.
* Experiência em ambientes de operação 24/7.

Soft Skills

* Proatividade: Capacidade de antecipar problemas e propor soluções antes que impactem os sistemas.
* Colaboração: Facilidade para trabalhar em times multidisciplinares e construir pontes entre áreas.
* Comunicação: Habilidade para explicar conceitos complexos de forma clara e objetiva.
* Resolução de Problemas: Pensamento analítico para solucionar desafios complexos em ambientes distribuídos.
* Adaptabilidade: Conforto em lidar com situações de alta pressão e mudanças rápidas de prioridade.

Diferenciais

* Certificações em Kubernetes, AWS ou Chaos Engineering.
* Experiência com sistemas de email marketing ou marketing digital.
* Conhecimento em práticas de FinOs para otimização de custos na infraestrutura.
* Vivência com ambientes de alta escala e alta volumetria de dados.
* Experiência com sistemas híbridos, combinando cloud e on-premises.
#J-18808-Ljbffr

Se candidatar

Criar um alerta

Salvar