Champion de Observabilidad (Remoto) at Keppri

Perímetro Urbano Medellín, Antioquia, Colombia -

Full Time

Start Date

Immediate

Expiry Date

15 May, 26

Salary

0.0

Posted On

15 Feb, 26

Experience

5 year(s) or above

Remote Job

Yes

Telecommute

Yes

Sponsor Visa

Skills

Observability, SRE, Platform Engineering, Cloud, AWS, OpenTelemetry, SLO/SLI, Kubernetes, Microservices, Tracing, Logging, Metrics, Incident Management, Terraform, Data Analysis, Evangelization

Industry

technology;Information and Internet

Description

Keppri Busca Champion de Observabilidad En Keppri, los seres humanos son el núcleo de nuestro desarrollo tecnológico. Somos una compañía enfocada en el ciclo de productos digitales, con amplia experiencia en los sectores financiero e inmobiliario. Si buscas un entorno donde el desarrollo personal y profesional es una prioridad, esta oportunidad es para ti. Tu Rol Champion de Observabilidad (Cloud / SRE / Plataforma) Serás responsable de liderar y evangelizar la estrategia de observabilidad end-to-end para un cliente del sector financiero (banca), asegurando visibilidad completa sobre sus productos y capacidades digitales (APIs, microservicios, integraciones, transacciones, autorizaciones, etc.). Tu misión será que los equipos puedan detectar, diagnosticar y resolver incidentes más rápido, mejorar el performance y operar con métricas claras de confiabilidad (SLO/SLI), impulsando una cultura de mejora continua basada en datos. Este rol requiere liderazgo transversal (sin necesidad de tener equipo directo): influirás en arquitectura, desarrollo, DevOps/SRE, seguridad y operación. Responsabilidades clave 1) Estrategia y Gobierno de Observabilidad Definir estándares y buenas prácticas de observabilidad: métricas, logs y trazas (naming, tags/labels, cardinalidad, convenciones). Diseñar el modelo de madurez de observabilidad y el roadmap de adopción por equipos y dominios. 2) Diseño e Implementación de Plataforma Diseñar/implementar la plataforma de observabilidad en nube (preferiblemente AWS) integrando servicios y herramientas (APM, logging, tracing, alerting). Asegurar observabilidad para EKS/Kubernetes, Lambda, API Gateway, servicios gestionados y workloads híbridos si aplica. 3) Instrumentación y Trazabilidad Distribuida Liderar la instrumentación de aplicaciones y plataformas con OpenTelemetry (y/o agentes APM), promoviendo tracing distribuido, correlación (traceId/correlationId) y propagación de contexto. Asegurar que la observabilidad esté incorporada desde el diseño (no como afterthought). 4) SLO/SLI, Alertas y Reducción de Ruido Definir y operacionalizar SLIs/SLOs por servicio y journey crítico (ej. autenticación, pagos, autorizaciones, transferencias). Diseñar alertas accionables, reducir alert fatigue y mejorar la señal vs ruido. 5) Operación, Incidentes y Mejora Continua Estandarizar runbooks, tableros (dashboards) y prácticas de postmortems / RCA. Impulsar aprendizaje continuo: tendencias, capacity/performance, degradaciones silenciosas, análisis de causa raíz. 6) Evangelización y Acompañamiento a Equipos Facilitar workshops, guías y acompañamiento a squads para acelerar adopción. Traducir datos técnicos a impacto de negocio: disponibilidad, latencia, experiencia del usuario, riesgos operativos. Competencias Clave +5 años de experiencia en roles como SRE, DevOps, Plataforma, Arquitectura de Software o Ingeniería de Producción (con foco en confiabilidad). Experiencia sólida implementando observabilidad en entornos cloud-native (microservicios, contenedores, Kubernetes). Conocimiento práctico de conceptos y frameworks: Observabilidad: métricas, logs, trazas, APM, profiling (ideal). SRE: SLI/SLO, error budgets, gestión de incidentes, postmortems. Experiencia con herramientas (no necesitas todas, pero sí base sólida en varias): OpenTelemetry (deseable fuerte) Prometheus / Grafana ELK/EFK / OpenSearch o plataformas de logs equivalentes APMs como Datadog / New Relic / Dynatrace / Splunk (o similares) En AWS: CloudWatch, X-Ray (deseable), y/o servicios administrados relacionados Conocimientos de AWS y arquitecturas modernas (EKS, Lambda, redes, IAM, etc.). Automatización e Infraestructura como Código: Terraform / CloudFormation (deseable). Capacidad para comunicar y alinear: explicar decisiones técnicas a stakeholders no técnicos, influir sin autoridad formal. Experiencia en entornos de desarrollo ágil y colaboración con múltiples equipos. Deseables (no excluyentes) Experiencia en ecosistemas bancarios/financieros (alta transaccionalidad, auditoría, compliance, disponibilidad). Conocimiento de prácticas FinOps aplicadas a observabilidad (costo de métricas/logs, retención, muestreo). Service mesh (Istio/Linkerd), eBPF/observabilidad avanzada, chaos engineering. Lo que ofrecemos Salario competitivo acorde a tu experiencia. Desarrollo profesional: apoyo para formación/certificaciones. Bonificaciones por desempeño. Un ambiente centrado en tu crecimiento humano y profesional. Proyectos retadores con impacto real en confiabilidad, operación y experiencia de cliente. Si estás listo para impulsar una cultura de observabilidad, elevar la confiabilidad de plataformas críticas y liderar la transformación operativa basada en datos, ¡únete a Keppri!

Responsibilities

The role involves leading and evangelizing the end-to-end observability strategy for a financial sector client, ensuring complete visibility over digital products like APIs and microservices. The mission is to enable faster detection and diagnosis of incidents, improve performance using clear reliability metrics (SLO/SLI), and drive a continuous improvement culture based on data.