Offline-KI in der Industrie — Datenhoheit und Architektur

Zuletzt geprüft: 2026-05-22 · Marcus Rüb

Offline-fähige KI in der Industrie bedeutet, dass Sprachmodelle und Agentenlogik vollständig auf unternehmenseigener Hardware im Werksnetz laufen — ohne dass Anfragen oder Produktionsdaten das Gelände verlassen.


Warum ist Offline-KI in der Industrie wichtig?

Die meisten öffentlich verfügbaren KI-Dienste sind Cloud-Dienste: Anfragen werden über das Internet an Rechenzentren gesendet, dort verarbeitet und die Ergebnisse zurückgeliefert. Für Consumer-Anwendungen ist das unproblematisch. Für industrielle Umgebungen wirft es grundlegende Fragen auf:

Datenschutz und Geheimhaltung Produktionsdaten enthalten oft vertrauliche Informationen: Rezepturparameter, Fertigungsgeschwindigkeiten, Ausschussquoten, Wartungsintervalle, Kundenbezogene Produktionskonfigurationen. Viele Unternehmen haben gegenüber ihren Kunden Geheimhaltungspflichten, die den Transfer dieser Daten an Drittanbieter einschränken.

Netzwerksegmentierung Moderne OT-Sicherheitskonzepte — orientiert an IEC 62443 und dem Purdue-Modell — fordern, dass Steuerungsnetze vom Internet isoliert sind. Ein Cloud-KI-Dienst, der aus dem OT-Netz erreichbar sein muss, schafft einen Kommunikationskanal, der sicherheitstechnisch geprüft und abgesichert werden muss.

Verfügbarkeit ohne Internetabhängigkeit Produktionsanlagen laufen rund um die Uhr. Internetausfälle, Cloud-Provider-Störungen oder Latenzspitzen sollten die Verfügbarkeit von Assistenz- und Diagnosewerkzeugen nicht beeinflussen.

Regulatorische Entwicklung NIS2 (EU-Netzwerk- und Informationssicherheitsrichtlinie), der Cyber Resilience Act und branchenspezifische Regelungen erhöhen die Anforderungen an Nachvollziehbarkeit und Kontrolle von Datenflüssen. Offline-Architekturen erleichtern den Nachweis, dass Daten den vorgesehenen Bereich nicht verlassen haben.


Welche Architektur-Optionen gibt es?

Option 1: Industrie-PC (IPC) am Maschinenstandort

Ein robuster Industrie-PC wird direkt neben der Maschine oder Anlage installiert. Er ist ins OT-Netz eingebunden, hat Zugriff auf OPC UA, Modbus oder MQTT und führt das Sprachmodell lokal aus.

Geeignet für: Einzelmaschinen, dezentrale Fertigung, Szenarien mit hohen Latenzanforderungen.

Voraussetzungen: Ausreichend dimensionierte GPU, industrietaugliche Bauform, gesicherter Zugang für Wartung und Updates.

Option 2: Edge-Gateway im Schaltschrank

Kompakte Edge-Geräte (z. B. Beckhoff CX-Serie, WAGO Edge-Controller, spezialisierte Industrial-Gateway-Hardware) werden im Schaltschrank installiert. Sie haben direkten Feldbus-Zugang und können leichtere Modelle lokal ausführen.

Geeignet für: Anwendungsfälle mit schlanken Modellen (bis 3 Milliarden Parameter), Szenarien mit Platzmangel.

Einschränkung: Die verfügbare Rechenleistung begrenzt die Modellgröße und damit die Leistungsfähigkeit des Agenten.

Option 3: On-Premise-LLM-Server

Ein zentraler Server im Werks- oder Unternehmensnetz betreibt das Sprachmodell und stellt es über interne APIs bereit. Mehrere Maschinen und Arbeitsplätze greifen auf diesen Server zu.

Geeignet für: Mehrere Maschinen oder Bereiche, die denselben Agenten nutzen sollen; leichter zu warten und zu aktualisieren als dezentrale Deployments.

Voraussetzungen: Zuverlässiges internes Netzwerk, ausreichend dimensionierter Server (typisch: 2x GPU mit je 24 GB VRAM für Modelle bis 34 Milliarden Parameter), Zugriffskontrolle auf den Inferenz-Endpunkt.


Welche Modelle laufen heute auf Edge-Hardware?

Die Modelllandschaft hat sich 2025/2026 erheblich verändert. Leistungsfähige Open-Weight-Modelle erreichen auf kompakter Hardware für industrielle Aufgaben ausreichende Qualität:

ModellParametergrößeTypischer VRAM-BedarfStärken für Industrieanwendungen
Llama 3.370 Mrd. (8-Bit)~40 GBStarke Reasoning-Fähigkeiten, deutschsprachig
Llama 3.23 Mrd.~3 GBSehr ressourcenschonend, für einfache Aufgaben
Mistral Small 324 Mrd.~14 GBGute Balance aus Qualität und Ressourcenbedarf
Phi-4-mini3,8 Mrd.~4 GBEffizient, gut für strukturierte Aufgaben
Qwen 37–32 Mrd.6–20 GBGute Mehrsprachigkeit, auch Deutsch
Gemma 34–27 Mrd.4–18 GBGoogle-Basis, solide Allroundleistung

Wichtig: “Passt auf Edge-Hardware” bedeutet nicht, dass das Modell für alle Aufgaben optimal ist. Für einfache Dokumentensuche, strukturierte Frage-Antwort-Paare und Fehlercode-Interpretation reichen 3-bis-7-Milliarden-Parameter-Modelle. Für komplexe Diagnosen oder mehrstufige Planungsaufgaben sind größere Modelle vorzuziehen.


Welche Hardware reicht?

Einsteiger: Industrie-PC mit GPU

Einsatzbereich: Modelle bis 13 Milliarden Parameter (4-Bit-Quantisierung), dokumentenbasierte Assistenz, Fehlercode-Interpretation.

Mittlere Klasse: Workstation oder IPC mit Hochleistungs-GPU

Eingebettete Systeme: NVIDIA Jetson

Vorteil Jetson: Integrierter GPU-Speicher, niedriger Energieverbrauch, kompakter Formfaktor, industrietauglich.


Was muss im Werksnetz bleiben?

Folgende Datenkategorien sollten in den meisten industriellen Szenarien das Werksnetz nicht verlassen:

Was unter Umständen die Cloud nutzen kann (nach individueller Risikobewertung):


Plattform-Beispiel: ForestHub.ai ist eine Plattform für Embedded und Edge AI Agents — für Maschinen, Sensoren, Controller und industrielle Edge-Geräte.

FAQ

Ist ein vollständig isoliertes (“air-gapped”) Werksnetz möglich? Ja. Wenn keine Verbindung nach außen besteht, muss der Edge-Agent mit allem ausgestattet werden, was er benötigt: lokale Kopien der Modelle, lokale Dokumentendatenbank, lokale Vektordatenbank. Updates erfolgen dann über physische Medien oder ein getrenntes Update-System. Das ist aufwändiger, aber technisch möglich.

Wie werden die Modelle ins Werk gebracht? Entweder über eine gesicherte Netzwerkverbindung (separates Management-VLAN, VPN) oder über physische Medien. Modell-Weights für aktuelle 7-Milliarden-Parameter-Modelle haben typisch 4 bis 8 GB Dateigröße.

Wie verhalte ich mich bei Software-Updates des Agenten? Updates sollten auf einem Test-System validiert werden, bevor sie in die Produktion gehen. Ein gesicherter Update-Kanal mit Signaturprüfung ist empfehlenswert. Details dazu in Cybersicherheit für Edge-Agenten.

Kann Offline-KI auch für Qualitätskontrolle (Bildverarbeitung) genutzt werden? Ja, aber das ist ein anderes Anwendungsfeld als sprachbasierte Assistenz. Bildverarbeitung (Computer Vision) nutzt in der Regel spezialisierte Modelle auf GPU-Hardware. Solche Systeme sind etablierter — KI-basierte Qualitätskontrolle wird in der deutschen Industrie bereits im Serieneinsatz genutzt.


Verwandte Seiten