Software Engineer (HPC & Cloud) at GECI Int.

, , -

Full Time

Start Date

Immediate

Expiry Date

24 Aug, 26

Salary

0.0

Posted On

26 May, 26

Experience

5 year(s) or above

Remote Job

Yes

Telecommute

Yes

Sponsor Visa

Skills

Rust, Go, AWS, Kubernetes, Apache Pulsar, OpenTelemetry, Jaeger, Prometheus, Grafana, Distributed Tracing, CI/CD, GPU Benchmarking, Lustre, FSx for Lustre, Distributed Systems, HPC

Industry

IT Services and IT Consulting

Description

Londres · 1 j/sem on-site + remote / Démarrage mi-juin 2026 Contexte Notre client — éditeur SaaS international — construit une plateforme de calcul distribué GPU-accelerated sur AWS. L'objectif : exécuter des workloads de calcul intensif sur des GPUs partagés en mode service, à grande échelle. Le projet est 100 % greenfield. Les choix d'architecture sont posés, mais le code distribué n'est pas encore en production. L'équipe SRE centrale gère l'infrastructure sous-jacente — ce rôle consiste à construire le tooling et la couche opérationnelle au-dessus. C'est un rôle software engineering en premier lieu — observabilité, tooling, cloud ops — avec une dimension HPC. Pas un poste d'infra. Ce que tu vas construire Fondations techniques de l'équipe • Les pipelines CI/CD et environnements de développement pour l'ensemble de l'équipe engineering dès le premier jour • Le provisioning et la gestion des instances GPU sur AWS (EC2, EKS, IAM, VPC) • Les outils de benchmarking GPU et de scheduling des runs de performance sur instances cloud Observabilité de bout en bout • L'instrumentation complète des services distribués : distributed tracing de bout en bout avec propagation de contexte dans les messages Apache Pulsar, logs structurés, métriques de performance • Des dashboards de performance sur l'ensemble du cluster et des outils d'analyse comparative entre versions • Un framework de validation automatique des outputs GPU versus référence CPU (correction numérique) Contexte distribué dans lequel tu interviens L'équipe construit des services worker/consumer sur Apache Pulsar, des pipelines de données entre nœuds CPU, nœuds GPU et stockage haute performance (Lustre/FSx), avec des mécanismes de fault tolerance et back-pressure sur des workloads de calcul intensif. Tu opères et instrumentes cette couche — tu n'en es pas le seul auteur, mais tu dois la comprendre en profondeur. Environnement technique Apache Pulsar · AWS (EC2, EKS, IAM, VPC) · Kubernetes · Lustre / FSx for Lustre · Go ou Rust · OpenTelemetry / Jaeger · Prometheus / Grafana · CI/CD Profil recherché Ce qu'on cherche vraiment : • Un ingénieur qui a construit du tooling de production pour des systèmes distribués — observabilité, CI/CD, benchmarking — pas uniquement de la configuration d'infra • Maîtrise de l'observabilité de bout en bout : distributed tracing (Jaeger, OpenTelemetry), métriques, logs structurés • Capacité à écrire du code robuste en Rust ou équivalent — ce rôle nécessite du software engineering, pas uniquement de l'IaC • AWS et Kubernetes en production • Anglais courant — l'équipe est internationale, basée à Londres Signaux positifs : • Expérience messaging distribué — Kafka, Pulsar, RabbitMQ, NATS • Expérience GPU ou HPC : environnements de calcul intensif, benchmarking, stockage haute performance (Lustre, GPFS) • RDMA ou transport inter-nœuds haute performance • Rust (un vrai plus) • Kubernetes Operator ou controller custom en Go • Contexte scale-up / produit technique : gaming, fintech, SaaS B2B à grande échelle

Responsibilities

Build the operational layer and tooling for a GPU-accelerated distributed computing platform on AWS. This includes developing CI/CD pipelines, GPU provisioning, and end-to-end observability frameworks.