Sre Especialista
Posted on March 4, 2026 by inventCloud
- São Paulo, Brazil
- N/A
- nan
Especialista em SRE será fundamental para garantir a confiabilidade, escalabilidade e performance dos nossos sistemas e serviços de produção. Atuará na ponte entre as equipes de desenvolvimento e operações, aplicando princípios de engenharia de software para automatizar tarefas operacionais, otimizar processos, monitorar a saúde dos sistemas e responder a incidentes de forma eficiente. O objetivo principal é garantir a estabilidade e a alta disponibilidade dos nossos produtos, proporcionando uma excelente experiência aos nossos usuários.
Confiabilidade e Disponibilidade
- Projetar, implementar e manter sistemas e infraestrutura altamente confiáveis e disponíveis.
- Definir e monitorar Service Level Objectives (SLOs), Service Level Indicators (SLIs) e Service Level Agreements (SLAs).
- Analisar tendências de desempenho e disponibilidade para identificar e mitigar riscos proativamente.
- Participar ativamente nas gestões de crises e na análise de causa raiz de incidentes, implementando ações corretivas e preventivas.
Automação e Eficiência
- Identificar oportunidades de automação de tarefas repetitivas e processos operacionais.
- Desenvolver e manter scripts, ferramentas e frameworks de automação utilizando diversas linguagens e tecnologias.
- Otimizar processos de deploy, configuração e gerenciamento de infraestrutura.
- Contribuir para a cultura de "Infrastructure as Code" (IaC).
Monitoramento e Observabilidade
- Projetar, implementar e manter sistemas de monitoramento abrangentes para identificar gargalos, falhas e anomalias nos sistemas e aplicações.
- Configurar alertas eficazes e acionáveis para garantir respostas rápidas a problemas.
- Apoiar no desenvolvimento de dashboards e relatórios para visualização da saúde e performance dos sistemas.
Gerenciamento de Incidentes
- Participar ativamente na resposta a incidentes de produção, diagnosticando problemas e coordenando a resolução.
- Liderar ou participar de post-mortems de incidentes para identificar aprendizados e implementar melhorias.
- Desenvolver e manter planos de resposta a incidentes.
Gestão de Crises e Continuidade Operacional
- Atuar como ponto focal técnico durante situações críticas, organizando e conduzindo salas de crise com múltiplos stakeholders.
- Liderar ou colaborar com a equipe responsável pela gestão de crises, garantindo o cumprimento de processos de resposta, comunicação e resolução.
- Desenvolver, documentar e manter atualizados os processos de gestão de crise, incluindo classificação de severidade, fluxos de escalonamento e protocolos de resposta.
- Planejar e executar simulações regulares de incidentes críticos, testando a eficácia dos processos e capacitando os envolvidos.
- Facilitar a comunicação entre times técnicos e liderança executiva durante crises, fornecendo atualizações claras e frequentes.
- Conduzir post-mortems com foco técnico, organizacional e de processo, promovendo aprendizado e melhoria contínua.
- Gerenciar ferramentas de apoio à gestão de crises (salas virtuais, runbooks, sistemas de alerta).
Gestão de Fornecedores e Indicadores de Performance
- Atuar como ponto de contato técnico para fornecedores de serviços críticos, garantindo alinhamento com os padrões e expectativas de SRE.
- Acompanhar e validar KPIs (Key Performance Indicators), SLAs (Service Level Agreements) e OLAs (Operational Level Agreements) dos fornecedores, promovendo ações corretivas em casos de não conformidade.
- Participar de reuniões periódicas de performance com fornecedores para revisão de entregas, qualidade de serviço e planejamento de melhorias.
- Apoiar na definição de requisitos técnicos e operacionais em processos de contratação e renovação de contratos.
- Contribuir para o desenvolvimento de métricas que permitam avaliar o impacto de serviços terceirizados na confiabilidade do ambiente.
- Garantir que fornecedores críticos estejam integrados aos processos de gestão de incidentes, crise e continuidade.
Capacidade e Escalabilidade
- Participar do planejamento de capacidade para garantir que os sistemas possam lidar com o crescimento da demanda.
- Projetar e implementar soluções de escalabilidade horizontal e vertical.
- Realizar testes de carga e performance para identificar gargalos e garantir a resiliência dos sistemas.
Colaboração e Comunicação
- Trabalhar em estreita colaboração com equipes de desenvolvimento, operações e outras áreas da empresa.
- Comunicar de forma clara e eficaz informações técnicas para diferentes públicos.
- Compartilhar conhecimento e melhores práticas de SRE com a equipe.
- Participar de revisões de arquitetura e design para garantir a observabilidade e a confiabilidade dos sistemas.
- Cumprir o regulamento interno, os requisitos dos sistemas de gestão da qualidade, observação e cumprimento das regulamentações da ANS, bem como das normas e procedimentos de saúde, higiene e segurança do trabalho inerentes ao setor, a utilização de EPI's/EPC's (Equipamento de proteção individual/ Equipamento de proteção coletivo) quando a atividade assim o exigir.
- Desenvolver outras atividades inerentes ao cargo ou a critério de seu superior imediato, desde que habilitado e estejam de acordo com o seu conhecimento e experiência.
Regime de Contratação:
Pessoa Jurídica
Departamento:
Outsourcing
Advertised until:
April 3, 2026
Are you Qualified for this Role?
Click Here to Tailor Your Resume to Match this Job
Share with Friends!
Similar Internships
Sre especialista ii
Descrição: Responsabilidades e Atividades: O Site Reliability Engineer (SRE) tem a missão de combin…