Senior SRE Engineer (Site Reliability Engineering) at knowmad mood

Madrid, Community of Madrid, Spain -

Full Time

Start Date

Immediate

Expiry Date

22 Jun, 26

Salary

0.0

Posted On

24 Mar, 26

Experience

5 year(s) or above

Remote Job

Yes

Telecommute

Yes

Sponsor Visa

Skills

SRE, Prometheus, Grafana, ELK, Microservices, Resilience Patterns, Java 8/11, Testing, Docker, Kubernetes, Performance Testing, Incident Resolution, On-call, Chaos Engineering, AIOps, English

Industry

IT Services and IT Consulting

Description

We are knowmad mood! Somos una compañía líder en transformación digital, en constante evolución y a la vanguardia de la tecnología. Nacimos para provocar un cambio real a través de la innovación y el desarrollo sostenible, con la misión de aportar valor a los clientes e impulsar nuestro talento. Formado por más de 3.000 personas creativas, digitales e innovadoras conectadas a un propósito y capaces de generar conexiones con personas de todo el mundo. Un equipo responsable, flexible y con alta capacidad de adaptación a las necesidades de nuestros clientes y del mercado, a la vez que proporciona valor, visión, creatividad, expertise, profesionalidad y pasión por la tecnología en cada proyecto. Los valores que marcan nuestro rumbo y nos guían hacia la excelencia son la colaboración, la innovación, el compromiso, la diversión y la conﬁanza. ¿Qué es lo que valoramos? Compromiso, trabajo en equipo y capacidad para comunicar ideas técnicas complejas. Experiencia sólida en monitorización y observabilidad (Prometheus, Grafana, ELK). Conocimiento avanzado en arquitecturas de microservicios y patrones de resiliencia. Dominio de Java 8/11 y prácticas de testing. Experiencia con Docker y Kubernetes. Experiencia en performance testing, resolución de incidencias y guardias on-call. Conocimientos en SRE, Chaos Engineering y AIOps. Perfil claramente senior y acostumbrado a trabajar en squads multidisciplinares. Nivel alto de inglés. ¿Cuáles serían tus funciones? Garantizar la fiabilidad y disponibilidad de los servicios en producción aplicando prácticas SRE. Diseñar e implementar monitorización y observabilidad con Prometheus, Grafana y ELK. Gestionar arquitecturas de microservicios, aplicando patrones de resiliencia (circuit breaker, bulkheading, service discovery). Desarrollar y mantener automatizaciones y servicios en Java (8/11) con buenas prácticas de testing. Administrar y optimizar contenedores y despliegues en Docker y Kubernetes. Realizar performance testing, análisis de capacidad y mejora continua del rendimiento. Participar en guardias rotativas y resolución de incidencias críticas, incluyendo post-mortems. Aplicar Chaos Engineering para validar la resiliencia del sistema. Implementar prácticas de AIOps para mejorar la detección y respuesta automatizada de incidentes. Colaborar dentro de un squad multidisciplinar, aportando visión técnica y coordinándose con desarrollo, QA y producto. Además, valoraremos muy positivamente si tienes experiencia y/o conocimientos en: Arquitecturas cloud (Azure, AWS o GCP). Gestión avanzada de pipelines CI/CD. Observabilidad de aplicaciones distribuidas a gran escala. Metodologías ágiles y trabajo en squads. Certificaciones en SRE, Kubernetes o cloud. Y con nosotros podrás disfrutar de: ✅Contrato Indefinido ✅ 100% remoto y flexibilidad horaria ✅Formación interna y acceso a certificaciones ♻Consulta nuestro calendario aquí: https://www.knowmadmood.com/es/talento/formacion ✅Plan de retribución flexible (seguro médico, transporte, tickets guardería, tickets restaurante) ✅Embajador de nuestra marca, a través de nuestro plan amigo ¡Recomienda a tus amigos y llévate un extra! ✅¡Eventos, meetups, techdays, charlas...y mucho más! En knowmad mood nos comprometemos con la igualdad de oportunidades y el respeto a la diversidad. Aplicamos nuestro Plan de Igualdad y el principio de no discriminación en todos nuestros procesos de selección. Para estar al corriente de nuestras novedades síguenos aquí -> knowmad mood

Responsibilities

The main functions involve guaranteeing service reliability and availability in production by applying SRE practices, which includes designing and implementing monitoring with tools like Prometheus and ELK. Responsibilities also cover managing microservices architectures, developing automation in Java, administering Docker/Kubernetes, and participating in on-call rotations for critical incident resolution.