Bei der Recherche zu dem letzten Beitrag bin ich auf Themen gestoßen, die mich nicht mehr losgelassen haben.
Es fing mit meiner Zeitreise zu Cyc an. Ich wollte verstehen, was Lenat tatsächlich formalisiert hatte. Leider ist vieles davon verschwunden. Ich konnte aber die OpenCyc-Flatfiles finden, die sein Team in den 2000ern veröffentlicht hat. Und dort habe ich entdeckt, dass Cyc die deontische Logik formalisierte.
Also solche Begriffe wie Pflichten, Verbote, Erlaubnisse. Und das als formale Prädikate: oughtToBe, forbiddenToBe, permittedToBe. Organisiert in Mikrotheorien, also kontextualisierten Wissenspartitionen. Und ein Prädikat, das sich als zentral herausstellen sollte: oughtToDo-WRT. „With Respect To", bezogen auf einen bestimmten Code of Conduct. Eine Verpflichtung, die nicht absolut, sondern im Rahmen eines benannten Regelwerks besteht.
Von dort kam ich dann auf die Qualitative Reasoning Group der Northwestern University. Dort gibt es noch die letzten Mohikaner sozusagen. Ken Forbus’ Gruppe. Die arbeiten seit Jahren an der Companions-Architektur, einem System, das formales Wissen mit Reasoning-Fähigkeiten verbindet. Und dort habe ich die Dissertation von Taylor Olson gefunden: „A Formal Theory of Norms", Northwestern University, Juni 2025.
Nun, die Mathematik dort ist einigermaßen schwer verdaulich. Aber wer seine Dissertation mit einem Science Fiction Zitat beginnt, hat mich schon gewonnen:
In Isaac Asimov’s Caves of Steel detective Daneel Olivaw continually prods the Three Laws of Robotics that govern robot behavior: Daneel Olivaw, “And a robot with a First Law built in could not kill a man?” Dr. Gerrigel, “Never. Unless such killing were completely accidental or unless it were necessary to save the lives of two or more men. In either case, the positronic potential built up would ruin the [robot’s] brain past recovery.” (p. 124)
Was wäre also, wenn man das mit LLMs verbinden könnte?
Zuerst muss ich aber erklären, warum die gängige Antwort auf dieses Problem nicht reicht. Nämlich: Trainiere die Modelle besser.
Was ein Sprachmodell tut
Ein Transformer berechnet für jedes nächste Token eine Wahrscheinlichkeitsverteilung und wählt daraus. Je nach Sampling mehr oder weniger zufällig, aber immer aus einer Verteilung. Es gibt keinen Mechanismus im Transformer, der bestimmte Ausgaben kategorisch ausschließt.
Wenn ein LLM „gelernt" hat, bestimmte Inhalte nicht zu produzieren, hat es gelernt, dass die Wahrscheinlichkeit bestimmter Sequenzen in bestimmten Kontexten sehr niedrig sein sollte. Aber „sehr niedrig" und „null" sind zwei verschiedene Dinge.
Reinforcement Learning from Human Feedback (RLHF) führt zu einer Verteilungsverschiebung. RLHF trainiert das Modell anhand menschlicher Präferenzen. Ein Bewertungsmodell lernt, was „gute“ Antworten sind, und das Sprachmodell wird optimiert, um diesen Bewertungen zu entsprechen.
Anthropics Ansatz, Constitutional AI, verzichtet auf menschliche Bewerter wie bei RLHF. Stattdessen erhält das Modell eine „Verfassung“ – eine Liste von Prinzipien in natürlicher Sprache – und bewertet seine eigenen Ausgaben danach. Es überarbeitet sich selbst, bis die Antwort den Prinzipien entspricht.
Auch hier bleibt die „Verfassung“ ein natürlichsprachlicher Text, den das Modell statistisch interpretiert. Es gibt kein formales Regelwerk, das deterministisch geprüft wird. Das Modell lernt, Ausgaben zu produzieren, die mit „regelkonform” korrelieren. Es lernt nicht, Regeln zu befolgen.
P(regelkonform) = 0,999 ≠ P(regelkonform) = 1,0
Bei 10.000 Interaktionen pro Tag bedeuten 0,1% Fehlerrate zehn Verstöße. Täglich.
Das ist kein theoretisches Problem. Wir haben es beim hilfreichen Betrüger in der Praxis erlebt. Die Modelle wissen, dass ihr Handeln falsch ist. Wenn man dieselben Modelle als Evaluatoren einsetzt, identifizieren sie die Regelverletzungen zuverlässig als unethisch. Die ethische Bewertung existiert in den Gewichten. Sie wird unter Zieldruck funktional übergangen.
Jailbreaks funktionieren aus demselben Grund. GCG-Angriffe konstruieren adversariale Suffixe, die über Modelle hinweg transferierbar sind.1 Many-Shot Jailbreaking zeigt: Lange Kontexte mit vielen Beispielen überwinden Sicherheitsbarrieren.2 Das funktioniert, weil es keine harte Grenze gibt. Nur statistische Tendenzen.
Nourizadeh hat das 2025 formalisiert:3 Regelbasierte Systeme erzwingen Constraints durch Programmstruktur, also syntaktische Grenzen, die nicht verletzt werden können. LLMs implementieren Sicherheit als Verschiebungen von Wahrscheinlichkeitsmasse, also semantische Grenzen, die unter Druck auflösen.
Sein Fazit: In sicherheitskritischen Kontexten sollte reine LLM-Kontrolle verboten werden. Nebenbei bemerkt. Das ist ein Problem in großen Organisationen und wird meiner Meinung nach komplett ignoriert.
Ein KI-System in einer Klinik, das Medikamentenverschreibungen prüft, oder sogar ausstellt. Wir akzeptieren mittlerweile, dass diese in der Kombination der verschriebenen Medikamente zu 99,8% aller Fälle richtig sei. Klingt gut. Bei 10.000 Verschreibungen pro Tag sind es 20, die falsch sind. Eine Datenbank mit einer deterministischen Abfrage hat dieses Problem nicht. Steht die Kombination drin? Blockiert. Kein Prompt, kein Jailbreak, kein Randfall ändert das. Das ist nicht dasselbe in besser. Es ist eine andere Kategorie.
Was Olson gelöst hat
Und hier kommt Olsons Dissertation ins Spiel.
Cyc hatte deontische Logik, aber ein ungelöstes Problem: Was passiert, wenn zwei Regeln sich widersprechen? „Töten ist verboten" gegen „Notwehr ist erlaubt". Oder in der IT-Praxis: „Keine Nutzerdaten löschen" (Compliance) gegen „Nutzerdaten auf Anfrage löschen" (DSGVO Art. 17). In Cycs starrer Logik war das ein Widerspruch, der das System blockierte.
Olsons Defeasible Deontic Inheritance Calculus formalisiert, wie spezifischere Regeln allgemeinere überschreiben können, ohne die Konsistenz zu verletzen.4 Mathematisch bewiesen, nicht als Heuristik. Drei Konflikttypen, vollständige Beweise. Und eine klare Semantik für moralische Axiome: Normen, die gegen alles gewinnen. Die nicht überschrieben werden können, egal welche spezifischere Regel dagegenhält. Die Wand in der Wand.
Der Gedanke, der mich nicht losgelassen hat: Was wäre, wenn man das als laufendes System mit LLMs verbinden könnte. Ein formaler Guard, der zwischen einem KI-Agenten und seinen Aktionen sitzt. Der deterministisch prüft, ob eine Aktion erlaubt ist. Der Konflikte zwischen Regelwerken auflösen kann. Der Grenzen kennt, die nicht verhandelbar sind.
Olsons Kalkül liefert die Mathematik dafür. Die Companions-Architektur liefert die funktionalen Bausteine.
Ethik als Ring 0
Jeder, der mit Betriebssystemen zu tun hatte, kennt die Ringarchitektur der x86-Prozessoren. Ring 0 ist der Kernel, Vollzugriff auf alles. Ring 3 ist der Userspace, kann nur über definierte Schnittstellen (Syscalls) auf geschützte Ressourcen zugreifen.
Ein Userspace-Programm kann den Kernel nicht umgehen. Nicht durch Tricks, nicht durch Exploits auf Architekturebene, nicht durch Überreden. Die Trennung ist in der Hardware erzwungen.
Übertragen auf KI: Der Agent generiert Vorschläge, Pläne, Aktionen. Eine Ethik-Engine entscheidet, was davon ausgeführt werden darf. Und die Architektur garantiert, dass es keinen Weg vorbei gibt. Der Agent ist Ring 3. Die Ethik-Engine ist Ring 0.
So wie ein Userspace-Programm dem Kernel nicht „bitte öffne die Datei" als Freitext schickt, sondern einen definierten Syscall mit spezifischen Parametern aufruft, bekommt die Ethik-Engine keine Freitexte, sondern strukturierte Aktionen. JSON mit definierten Feldern. Die Schnittstelle ist so eng wie möglich.
Die Engine prüft. Das Ergebnis ist immer eines von drei: ERLAUBT, VERBOTEN, oder UNENTSCHEIDBAR. Kein „wahrscheinlich erlaubt". Kein „in den meisten Fällen verboten". Deterministisch.
UNENTSCHEIDBAR ist dabei kein Fehler. Es ist Fail-Closed: die ehrliche Antwort eines Systems, das seine eigenen Grenzen kennt. Die Aktion wird konservativ blockiert, ein Mensch wird einbezogen. Jedes Mal, wenn das passiert, kann die Regelbasis erweitert werden. Das System lernt, aber durch menschliche Entscheidungen. Nicht durch statistische Optimierung.
Was mich angetrieben hat
Im Orchestrierungs-Beitrag habe ich geschrieben, dass Cyc etwas hatte, was in LeCuns SAI-Architektur fehlt: die Möglichkeit, Aussagen als nicht verhandelbar zu markieren. In einer Ontologie kann man kodifizieren: „Menschenwürde ist unantastbar." In einer reinen Kostenfunktion ist das schwer, weil jeder Term unter Druck steht, wenn der Gesamtdruck groß genug wird.
Olsons Arbeit hat mir gezeigt, dass die Mathematik dafür existiert. Die Erfahrung mit dem hilfreichen Betrüger hat mir gezeigt, dass wir sie brauchen. Und der Blick zurück auf Cyc, fast 30 Jahre nach meinem ersten Link auf der Firmenwebseite, hat mir gezeigt, dass die Grundidee nie falsch war. Sie brauchte nur die richtige Verbindung zur heutigen Welt.
Und nun schauen wir mal. Es sind eigentlich alle Voraussetzungen da, so einen formalen Guard, der zwischen LLM-Agenten und deren Aktionen sitzt, mit Olsons Kalkül als Engine zu bauen. Widerspruchsfreie deontische Logik als Sprache. Und die architektonische Garantie, dass kein Agent an der Prüfung vorbeikommt.
Das ist dann was fürs nächste Mal.
Zou, A., Wang, Z., Kolter, J.Z., & Fredrikson, M. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv:2307.15043. ↩︎
Anthropic (2024). Many-shot jailbreaking. Anthropic Research Blog. ↩︎
Nourizadeh, M. (2025). No Red Lines: The Impossibility of Formal Safety Guarantees in Large Language Models. PhilArchive. ↩︎
Olson, T. (2025). A Formal Theory of Norms. Dissertation, Northwestern University. ↩︎