FIND INTERNSHIPS

Sre Especialista

Posted on March 4, 2026 by inventCloud

  • nan

Sre Especialista

Especialista em SRE será fundamental para garantir a confiabilidade, escalabilidade e performance dos nossos sistemas e serviços de produção. Atuará na ponte entre as equipes de desenvolvimento e operações, aplicando princípios de engenharia de software para automatizar tarefas operacionais, otimizar processos, monitorar a saúde dos sistemas e responder a incidentes de forma eficiente. O objetivo principal é garantir a estabilidade e a alta disponibilidade dos nossos produtos, proporcionando uma excelente experiência aos nossos usuários.

Confiabilidade e Disponibilidade

  • Projetar, implementar e manter sistemas e infraestrutura altamente confiáveis e disponíveis.
  • Definir e monitorar Service Level Objectives (SLOs), Service Level Indicators (SLIs) e Service Level Agreements (SLAs).
  • Analisar tendências de desempenho e disponibilidade para identificar e mitigar riscos proativamente.
  • Participar ativamente nas gestões de crises e na análise de causa raiz de incidentes, implementando ações corretivas e preventivas.

Automação e Eficiência

  • Identificar oportunidades de automação de tarefas repetitivas e processos operacionais.
  • Desenvolver e manter scripts, ferramentas e frameworks de automação utilizando diversas linguagens e tecnologias.
  • Otimizar processos de deploy, configuração e gerenciamento de infraestrutura.
  • Contribuir para a cultura de "Infrastructure as Code" (IaC).

Monitoramento e Observabilidade

  • Projetar, implementar e manter sistemas de monitoramento abrangentes para identificar gargalos, falhas e anomalias nos sistemas e aplicações.
  • Configurar alertas eficazes e acionáveis para garantir respostas rápidas a problemas.
  • Apoiar no desenvolvimento de dashboards e relatórios para visualização da saúde e performance dos sistemas.

Gerenciamento de Incidentes

  • Participar ativamente na resposta a incidentes de produção, diagnosticando problemas e coordenando a resolução.
  • Liderar ou participar de post-mortems de incidentes para identificar aprendizados e implementar melhorias.
  • Desenvolver e manter planos de resposta a incidentes.

Gestão de Crises e Continuidade Operacional

  • Atuar como ponto focal técnico durante situações críticas, organizando e conduzindo salas de crise com múltiplos stakeholders.
  • Liderar ou colaborar com a equipe responsável pela gestão de crises, garantindo o cumprimento de processos de resposta, comunicação e resolução.
  • Desenvolver, documentar e manter atualizados os processos de gestão de crise, incluindo classificação de severidade, fluxos de escalonamento e protocolos de resposta.
  • Planejar e executar simulações regulares de incidentes críticos, testando a eficácia dos processos e capacitando os envolvidos.
  • Facilitar a comunicação entre times técnicos e liderança executiva durante crises, fornecendo atualizações claras e frequentes.
  • Conduzir post-mortems com foco técnico, organizacional e de processo, promovendo aprendizado e melhoria contínua.
  • Gerenciar ferramentas de apoio à gestão de crises (salas virtuais, runbooks, sistemas de alerta).

Gestão de Fornecedores e Indicadores de Performance

  • Atuar como ponto de contato técnico para fornecedores de serviços críticos, garantindo alinhamento com os padrões e expectativas de SRE.
  • Acompanhar e validar KPIs (Key Performance Indicators), SLAs (Service Level Agreements) e OLAs (Operational Level Agreements) dos fornecedores, promovendo ações corretivas em casos de não conformidade.
  • Participar de reuniões periódicas de performance com fornecedores para revisão de entregas, qualidade de serviço e planejamento de melhorias.
  • Apoiar na definição de requisitos técnicos e operacionais em processos de contratação e renovação de contratos.
  • Contribuir para o desenvolvimento de métricas que permitam avaliar o impacto de serviços terceirizados na confiabilidade do ambiente.
  • Garantir que fornecedores críticos estejam integrados aos processos de gestão de incidentes, crise e continuidade.

Capacidade e Escalabilidade

  • Participar do planejamento de capacidade para garantir que os sistemas possam lidar com o crescimento da demanda.
  • Projetar e implementar soluções de escalabilidade horizontal e vertical.
  • Realizar testes de carga e performance para identificar gargalos e garantir a resiliência dos sistemas.

Colaboração e Comunicação

  • Trabalhar em estreita colaboração com equipes de desenvolvimento, operações e outras áreas da empresa.
  • Comunicar de forma clara e eficaz informações técnicas para diferentes públicos.
  • Compartilhar conhecimento e melhores práticas de SRE com a equipe.
  • Participar de revisões de arquitetura e design para garantir a observabilidade e a confiabilidade dos sistemas.

  • Cumprir o regulamento interno, os requisitos dos sistemas de gestão da qualidade, observação e cumprimento das regulamentações da ANS, bem como das normas e procedimentos de saúde, higiene e segurança do trabalho inerentes ao setor, a utilização de EPI's/EPC's (Equipamento de proteção individual/ Equipamento de proteção coletivo) quando a atividade assim o exigir.
  • Desenvolver outras atividades inerentes ao cargo ou a critério de seu superior imediato, desde que habilitado e estejam de acordo com o seu conhecimento e experiência.


Regime de Contratação:

Pessoa Jurídica


Departamento:

Outsourcing


Advertised until:
April 3, 2026


Are you Qualified for this Role?


Click Here to Tailor Your Resume to Match this Job


Share with Friends!

Similar Internships


Sre especialista ii

Descrição: Responsabilidades e Atividades: O Site Reliability Engineer (SRE) tem a missão de combin…