Spitzenbesetzung

Inference Engineer

Engineer-Profil, das Inferenz von ML- und LLM-Modellen optimiert: Latenz, Durchsatz, Kosten, Hardware.

Inference Engineers sorgen dafür, dass Modelle in Produktion schnell, robust und wirtschaftlich antworten. Sie kombinieren Wissen aus Hardware, Compiler, Serving-Frameworks und ML, um GPU-, CPU- und Edge-Workloads optimal zu betreiben.

Festanstellung Senior
120.000–160.000 €
Freelance
1.300–1.800 €/Tag
Top-Stack
vLLM, TensorRT-LLM, Triton, Quantization

Aufgaben

Wahl und Betrieb von Serving-Stacks (Triton, vLLM, TGI, KServe, BentoML), Quantization, Distillation, Speculative Decoding, Batching, KV-Cache-Optimierung, Hardware-Auswahl (H100, A100, MI300, Inferentia, Trainium). Optimierung von Latenz, Durchsatz und Kosten pro Token bzw. pro Inferenz.

Skills

CUDA-Grundlagen, PyTorch, ggf. TensorRT-LLM, vLLM, Triton, FP8/INT4-Verfahren, Performance-Profiling, MLOps-Praxis. In LLM-Kontexten zusätzlich Wissen über Modellarchitekturen und Tokenisierung.

Markt 2026

Sehr knappes Profil. Festanstellung Senior: 120.000–160.000 €, Lead: 160.000–200.000 €. Freelance: 1.300–1.800 €/Tag. Stark nachgefragt bei Plattformanbietern, Hyperscaler-Kunden und Self-Hosting-Initiativen.

Recruiting

Time-to-Hire 12–18 Wochen, oft über Headhunting. Spezialisierte Kandidatenpools verkürzen den Prozess. Klare Filterfrage: produktiver Betrieb eines Self-Hosted-LLMs in nennenswerter Größenordnung.

Praxis & Empfehlung 2026

Inference Engineering wird relevant, sobald Tokenkosten in den Bereich vierstelliger Tagesbeträge wandern oder Latenz-Anforderungen unter 500 ms steigen. Praktische Hebel sind 2026 unter anderem Speculative Decoding, KV-Cache-Sharing, Quantisierung auf FP8/INT4, gezieltes Modell-Routing zwischen großem und kleinem Modell, und Batch-Tuning. Ein erfahrener Inference Engineer kann GPU-Kosten realistisch um 30–60 % senken, ohne Qualität messbar zu verlieren. Bevor Sie die Rolle besetzen, sollten Sie wissen, ob Self-Hosting strategisch gewollt ist – sonst optimieren Sie an einem Setup, das in 6 Monaten wieder verschwindet. Eine gute Diskussion mit Architektur und CFO verhindert dieses Fehlmuster.

Häufige Fragen

Brauche ich Inference Engineers, wenn ich nur OpenAI nutze?
Nein. Erst wenn Sie selbst hosten oder spürbar Kosten optimieren wollen, lohnt sich diese Rolle.

Passende Leistungen

Passende Rolle finden →

Verwandte Begriffe

  • MLOps EngineerEngineer-Profil, das die Plattform für Training, Deployment und Betrieb von ML- und LLM-Systemen verantwortet.
  • AI Platform EngineerEngineer-Profil, das die zentrale KI-Plattform eines Unternehmens baut und Self-Service für Fachteams ermöglicht.
  • LLM EngineerEngineer-Profil mit Spezialfokus auf große Sprachmodelle: Prompting, RAG, Agenten, Evaluation und produktive Integration.

← Zurück zum Glossar