DevOps & AI Infrastructure Engineer at CommIT
Kiryat Bialik, Haifa District, Israel -
Full Time


Start Date

Immediate

Expiry Date

18 Apr, 26

Salary

0.0

Posted On

18 Jan, 26

Experience

2 year(s) or above

Remote Job

Yes

Telecommute

Yes

Sponsor Visa

No

Skills

OpenShift, Docker, Linux, Automation, CI/CD, Run:ai, AI/MLOps, Monitoring, Python

Industry

Software Development

Description
חברת Commit מחפשת DevOps & AI Infrastructure Engineer לתפקיד מאתגר ומרתק בחזית הטכנולוגיה בצפון הארץ. במסגרת התפקיד, תחזוקה ואופטימיזציה של חוות ה-GPU הארגונית, תוך הנגשת משאבי המחשוב לפרויקטי ה-AI השונים בארגון. הצטרפו אלינו לעשייה בעלת משמעות אמיתית והשפעה רחבה. תחומי אחריות: Onboarding לפרויקטים: ליווי צוותי פיתוח ו-Data Science בתהליך הכניסה לעבודה בחווה, החל מהגדרת הדרישות ועד להרצה מלאה. בניית Docker Images: יצירה ותחזוקה של Image-ים מורכבים המותאמים לעבודה עם GPU (שימוש ב-NVIDIA Docker, CUDA, וכדומה) המותאמים לסטנדרטים הארגוניים. ניהול ותפעול שוטף: ניהול ותפעול חוות ה-GPU על גבי סביבת OpenShift, כולל ניטור ביצועים, הקצאת משאבים ופתרון תקלות מורכבות. אופטימיזציית משאבים: הטמעה וניהול של פתרונות תזמון וניהול תור (כמו Run:ai) למיקסום הניצולת של כרטיסי ה-GPU היקרים. אוטומציה ו-CI/CD: בניית Pipelines להפצה מהירה של מודלים וסביבות עבודה. Requirements דרישות סף : ניסיון מוכח ב-OpenShift: שליטה מעמיקה בניהול קלאסטרים, Deployment, וניהול Storage/Networking בסביבת OpenShift (או Kubernetes ברמה גבוהה מאוד). מומחיות ב-Docker: ניסיון מעשי בכתיבת Dockerfiles מורכבים, ניהול Multi-stage builds ואופטימיזציה של גדלי Images. הכרות עם עולם ה-Linux: שליטה מלאה במערכות הפעלה Linux (RHEL/Ubuntu) ברמת ה-Kernel והדרייברים (בדגש על NVIDIA Drivers). ניסיון ב-Automation: עבודה עם כלי CI/CD (כגון Jenkins, GitLab CI, או ArgoCD) וכלי Configuration Management (כגון Ansible). יתרונות משמעותיים: Run:ai: ניסיון קודם בעבודה עם מערכת Run:ai לניהול והקצאת GPU – יתרון גדול מאוד. AI/MLOps Background: הכרות עם ספריות ו-Frameworks כמו PyTorch, TensorFlow, ו-KubeFlow. ניטור (Monitoring): ניסיון בעבודה עם Prometheus ו-Grafana בדגש על ניטור GPU Metrics (NVML). Python: יכולת כתיבת סקריפטים לאוטומציה ואינטגרציה של כלים.
Responsibilities
The role involves maintaining and optimizing the organization's GPU farm while providing computing resources for various AI projects. Responsibilities include onboarding projects, building Docker images, managing GPU operations, optimizing resource usage, and automating CI/CD pipelines.
Loading...