Inference Engineer
Engineer-Profil, das Inferenz von ML- und LLM-Modellen optimiert: Latenz, Durchsatz, Kosten, Hardware.
Inference Engineers sorgen dafür, dass Modelle in Produktion schnell, robust und wirtschaftlich antworten. Sie kombinieren Wissen aus Hardware, Compiler, Serving-Frameworks und ML, um GPU-, CPU- und Edge-Workloads optimal zu betreiben.
- Festanstellung Senior
- 120.000–160.000 €
- Freelance
- 1.300–1.800 €/Tag
- Top-Stack
- vLLM, TensorRT-LLM, Triton, Quantization
Aufgaben
Wahl und Betrieb von Serving-Stacks (Triton, vLLM, TGI, KServe, BentoML), Quantization, Distillation, Speculative Decoding, Batching, KV-Cache-Optimierung, Hardware-Auswahl (H100, A100, MI300, Inferentia, Trainium). Optimierung von Latenz, Durchsatz und Kosten pro Token bzw. pro Inferenz.
Skills
CUDA-Grundlagen, PyTorch, ggf. TensorRT-LLM, vLLM, Triton, FP8/INT4-Verfahren, Performance-Profiling, MLOps-Praxis. In LLM-Kontexten zusätzlich Wissen über Modellarchitekturen und Tokenisierung.
Markt 2026
Sehr knappes Profil. Festanstellung Senior: 120.000–160.000 €, Lead: 160.000–200.000 €. Freelance: 1.300–1.800 €/Tag. Stark nachgefragt bei Plattformanbietern, Hyperscaler-Kunden und Self-Hosting-Initiativen.
Recruiting
Time-to-Hire 12–18 Wochen, oft über Headhunting. Spezialisierte Kandidatenpools verkürzen den Prozess. Klare Filterfrage: produktiver Betrieb eines Self-Hosted-LLMs in nennenswerter Größenordnung.
Praxis & Empfehlung 2026
Inference Engineering wird relevant, sobald Tokenkosten in den Bereich vierstelliger Tagesbeträge wandern oder Latenz-Anforderungen unter 500 ms steigen. Praktische Hebel sind 2026 unter anderem Speculative Decoding, KV-Cache-Sharing, Quantisierung auf FP8/INT4, gezieltes Modell-Routing zwischen großem und kleinem Modell, und Batch-Tuning. Ein erfahrener Inference Engineer kann GPU-Kosten realistisch um 30–60 % senken, ohne Qualität messbar zu verlieren. Bevor Sie die Rolle besetzen, sollten Sie wissen, ob Self-Hosting strategisch gewollt ist – sonst optimieren Sie an einem Setup, das in 6 Monaten wieder verschwindet. Eine gute Diskussion mit Architektur und CFO verhindert dieses Fehlmuster.
Häufige Fragen
- Brauche ich Inference Engineers, wenn ich nur OpenAI nutze?
- Nein. Erst wenn Sie selbst hosten oder spürbar Kosten optimieren wollen, lohnt sich diese Rolle.
Passende Leistungen
Verwandte Begriffe
- MLOps Engineer – Engineer-Profil, das die Plattform für Training, Deployment und Betrieb von ML- und LLM-Systemen verantwortet.
- AI Platform Engineer – Engineer-Profil, das die zentrale KI-Plattform eines Unternehmens baut und Self-Service für Fachteams ermöglicht.
- LLM Engineer – Engineer-Profil mit Spezialfokus auf große Sprachmodelle: Prompting, RAG, Agenten, Evaluation und produktive Integration.
