AI Systems Architecture

Software konnte lange nur das verarbeiten, was vorher sauber strukturiert war.

Agentische KI verschiebt diese Grenze. Sie kann Freitext, PDFs, Transkripte, Bilder und unklare Fälle aufnehmen. Sie kann Informationen suchen, Fälle einordnen, Vorschläge machen und Systeme bedienen.

Das ist die Chance: Prozesse, die heute zwischen Postfach, Fachwissen und Fachsystemen stecken, werden plötzlich automatisierbar.

Aber genau hier entsteht der Bruch. Wenn ein Chatbot falsch antwortet, liest ein Mensch die Antwort und kann sie verwerfen. Wenn ein Agent falsch handelt, steht das Ergebnis in den Systemen: der falsch eingeordnete Fall, der falsche Eintrag in der Kundenakte, die Freigabe, die nie hätte vorbereitet werden dürfen.

Dann reicht es nicht mehr, ein gutes Modell auszuwählen.
Dann braucht es Architektur.

Plausibel ist nicht genug

Aus Modelloutput wird Produktverhalten.

Ein KI-Modell kann eine Antwort erzeugen, die formal korrekt ist und trotzdem fachlich falsch. Ob die Form der Antwort stimmt, lässt sich automatisch prüfen. Ob ihr Inhalt fachlich stimmt, nicht. Ein Tool-Aufruf läuft technisch erfolgreich durch, hätte aber nie ausgelöst werden dürfen. Und früher reichte ein Blick ins Monitoring, um zu sehen, ob der Server noch läuft. Dass sich Modellverhalten schleichend verändert, sieht man dort nicht.

Diese Fehlerklasse ist neu genug, dass klassische Softwarepraktiken allein nicht ausreichen. Sie müssen ergänzt werden.

AI Systems Architecture fragt deshalb nicht nur „Was kann das Modell?“, sondern:

Was darf es tun?
Woran messen wir richtiges Verhalten?
Wer entscheidet bei Unsicherheit?
Wie merken wir, dass es schlechter wird?
Wie stoppen wir es, wenn es schadet?

Einzeln bekannt, zusammen Pflicht

Sechs Praktiken für den verlässlichen Einsatz agentischer KI.

1Verhalten wird explizit gemacht

AI-Features entstehen nicht aus einem Prompt allein. Verhalten entsteht aus Prompt, Schema, Kontext, Tools, Modellwahl und Evals. Wer eines davon ändert, verändert das Ganze.

Darum braucht ein AI-Feature ein Artefakt, das dieses Verhalten zusammenhält.

2Der Agent Contract wird zum Kernartefakt

Der Agent Contract beschreibt, was ein AI-Feature darf, erwartet, nutzt und beweisen muss. Er bündelt fünf Bestandteile zu einem Paket.

1 Output-Schema
2 Prompt
3 erlaubte Tools
4 Modell und Provider
5 Eval-Set

Eine neue Contract-Version bedeutet: Das Verhalten des Features hat sich geändert. Also wird sie versioniert, reviewt und gegen Evals geprüft. Engineering liefert die Form. Der Fachbereich liefert die Maßstäbe.

3Kontext ersetzt Bauchgefühl

Ein Modell kennt Sprache und Weltwissen. Es kennt nicht automatisch die aktuelle Kundenakte, die interne Richtlinie oder die fachliche Auslegung im Unternehmen.

Grounding bringt den richtigen Kontext zur Anfrage. Damit verschiebt sich die Architekturfrage: Nicht nur das Modell muss gut sein. Auch Suche, Quellen, Aktualität und Berechtigungen entscheiden über Qualität.

Gute AI-Systeme fragen nicht nur „Was könnte plausibel sein?“. Sie fragen: „Welche belegten Informationen darf das Modell für diesen Fall nutzen?“

4Evals machen Qualität messbar

Ausprobieren zeigt nur, dass es einmal funktioniert hat.

Produktionsreife braucht Evals: echte Fälle, erwartete Ergebnisse, fachliche Labels und wiederholbare Messung. Bei jeder Änderung an Prompt, Schema, Modell oder Tools läuft das Feature gegen diese Beispiele.

So wird Qualität nicht behauptet, sondern verfolgt. Nicht perfekt, aber sichtbar, vergleichbar, verbesserbar.

5Aktionen bekommen Grenzen

Sobald ein Modell Werkzeuge nutzt, bekommt es Wirkung. Lesen kann Daten offenlegen. Schreiben kann Schäden erzeugen. Und entscheidet es selbst, ist plötzlich unklar, wer dafür geradesteht.

Darum brauchen Tools klare Grenzen: Owner, Rechte, Risikoklasse, Audit-Trail, Abschaltweg. Manche Aktionen laufen autonom. Manche brauchen Freigabe. Manche gehören gar nicht in die Hände eines Modells.

Das ist keine Bremse. Es ist die Voraussetzung dafür, dass AI-Features mehr dürfen.

6Betrieb wird Teil des Designs

Ein AI-Feature kann schlechter werden, ohne dass jemand Code geändert hat. Eingaben verändern sich. Modellversionen ändern sich. Datenquellen altern. Tool-Antworten driften.

Deshalb müssen AI-Features im Betrieb sichtbar bleiben.

1 Welche Modellversion läuft?
2 Wie oft passt der Output des KI-Modells nicht zur Software?
3 Wie oft korrigieren Menschen?
4 Wie hoch sind Latenz und Kosten?
5 Welche Fälle eskalieren?

Ohne diese Signale ist Betrieb nur Hoffnung.

Vier Schreibtische, ein Feature

Vier Rollen tragen die Verantwortung.

Fachbereich

Ihr Fachwissen, Ihre Erfahrung und Ihre Maßstäbe werden Teil des Systems: Labels, Grenzen, Eskalationen, Tonalität, fachliche Korrektheit.

Engineering

Modellverhalten wird versioniert, getestet, deployed und beobachtet wie anderer produktiver Code.

Führung

AI-Features skalieren nur dann, wenn Risiko, Kosten und Wertbeitrag sichtbar werden.

Betrieb und Governance

Aus einzelnen Experimenten wird schnell ein Portfolio mit Ownern, Datenflüssen, Risikoklassen und Incident-Pfaden.

AI Systems
Architecture.

Eine Disziplin für Software, in der KI nicht nur antwortet, sondern handelt.