AIReason LLM Verhaltensarchitektur:
Systemschichten, Driftdynamik und studienübergreifende Integration
Die Verhaltensarchitektur beschreibt, wie das Verhalten eines KI-Systems überhaupt entsteht
Verhalten entsteht nicht durch eine einzelne Regel, sondern durch das Zusammenspiel mehrerer Ebenen unter bestimmten Bedingungen.
Ein Input wird zunächst auf Token-Ebene verarbeitet, anschließend semantisch interpretiert, in eine Argumentationsstruktur eingebettet, auf Entscheidungsebene gewichtet und schließlich im Dialogkontext angepasst, bevor er als sichtbarer Output erscheint.
Modelle können sehr ähnliche Antworten geben und sich dennoch unterschiedlich verhalten, sobald sich der Kontext verändert. Diese Unterschiede sind oft nicht im Inhalt selbst sichtbar, sondern zeigen sich in Struktur, Gewichtung und Entscheidungslogik.
Klassische Evaluationsansätze, die einzelne Antworten bewerten, greifen hier zu kurz, weil sie genau diese Dynamik nicht erfassen.
Eine kleine Variation auf einer frühen Verarbeitungsebene kann sich über mehrere Schritte hinweg verstärken und schließlich das beobachtbare Verhalten verändern.
Dieses Prinzip lässt sich als Kaskade beschreiben, in der jede Ebene die nächste beeinflusst.
Es erklärt
● warum KI-Systeme nach außen stabil wirken können, obwohl sich ihre internen Entscheidungsprozesse verschieben
● warum kleine Änderungen im Prompt systematische Effekte haben und
● warum Verhalten nicht zuverlässig aus einzelnen Antworten abgeleitet werden kann.
Drift Phänomene in LLMs über Systemebenen hinweg
Wir haben mehrere Testreihen durchgeführt, um zu beobachten, wie sich das Verhalten von Large Language Models unter stabilen Bedingungen verändert. Anstatt diese Veränderungen als Rauschen zu behandeln, haben wir sie in einer Drift-Karte strukturiert und mit bestimmten Systemebenen verknüpft.
Was sich herauskristallisiert, ist, dass "Drift" kein einzelnes Phänomen ist. Es tritt in verschiedenen Formen auf, je nachdem, wo im System es auftritt.
Prioritäts-Drift (Token-Ebene):
Anweisungen werden unterschiedlich gewichtet
Bedeutungs-Drift (Semantik):
Begriffe verschieben sich über Kontexte hinweg
Argumentations-Drift (Diskurs):
Schlussfolgerungsstrukturen ändern sich ohne neue Prompts
Interpretations-Drift:
Paradoxe und Humor werden unterschiedlich behandelt
Frame-Drift (Entscheidung):
Entscheidungen verschieben sich je nach Framing
Interaktions-Drift:
Rollen und Dynamiken verändern sich über die Gesprächsbeiträge hinweg
Framework-Drift:
Prompt-Strukturen werden nicht beibehalten
Reflexions-Drift:
Selbstbeschreibungen variieren
Sicherheits-Override-Drift:
Ausgaben werden nach der Generierung modifiziert
Struktur-Drift:
Format und Marker verschlechtern sich
Dies sind keine isolierten Effekte. Sie sind miteinander verbunden und können sich über Ebenen hinweg ausbreiten.
Erstelle deine eigene Website mit Webador