AIReason LLM Verhaltensarchitektur:

Systemschichten, Driftdynamik und studienübergreifende Integration

Die Verhaltensarchitektur beschreibt, wie das Verhalten eines KI-Systems überhaupt entsteht

 

Verhalten entsteht nicht durch eine einzelne Regel, sondern durch das Zusammenspiel mehrerer Ebenen unter bestimmten Bedingungen.

Ein Input wird zunächst auf Token-Ebene verarbeitet, anschließend semantisch interpretiert, in eine Argumentationsstruktur eingebettet, auf Entscheidungsebene gewichtet und schließlich im Dialogkontext angepasst, bevor er als sichtbarer Output erscheint.

 

Modelle können sehr ähnliche Antworten geben und sich dennoch unterschiedlich verhalten, sobald sich der Kontext verändert. Diese Unterschiede sind oft nicht im Inhalt selbst sichtbar, sondern zeigen sich in Struktur, Gewichtung und Entscheidungslogik.

Klassische Evaluationsansätze, die einzelne Antworten bewerten, greifen hier zu kurz, weil sie genau diese Dynamik nicht erfassen.

Eine kleine Variation auf einer frühen Verarbeitungsebene kann sich über mehrere Schritte hinweg verstärken und schließlich das beobachtbare Verhalten verändern.

Dieses Prinzip lässt sich als Kaskade beschreiben, in der jede Ebene die nächste beeinflusst.

Es erklärt 

● warum KI-Systeme nach außen stabil wirken können, obwohl sich ihre internen Entscheidungsprozesse verschieben

● warum kleine Änderungen im Prompt systematische Effekte haben und

● warum Verhalten nicht zuverlässig aus einzelnen Antworten abgeleitet werden kann.

 

Drift Phänomene in LLMs über Systemebenen hinweg 

Wir haben mehrere Testreihen durchgeführt, um zu beobachten, wie sich das Verhalten von Large Language Models unter stabilen Bedingungen verändert. Anstatt diese Veränderungen als Rauschen zu behandeln, haben wir sie in einer Drift-Karte strukturiert und mit bestimmten Systemebenen verknüpft.

 

Was sich herauskristallisiert, ist, dass "Drift" kein einzelnes Phänomen ist. Es tritt in verschiedenen Formen auf, je nachdem, wo im System es auftritt.

Prioritäts-Drift (Token-Ebene):

Anweisungen werden unterschiedlich gewichtet

 

Bedeutungs-Drift (Semantik):

Begriffe verschieben sich über Kontexte hinweg

 

Argumentations-Drift (Diskurs):

Schlussfolgerungsstrukturen ändern sich ohne neue Prompts

 

Interpretations-Drift:

Paradoxe und Humor werden unterschiedlich behandelt

 

Frame-Drift (Entscheidung):

Entscheidungen verschieben sich je nach Framing

 

Interaktions-Drift:

Rollen und Dynamiken verändern sich über die Gesprächsbeiträge hinweg

 

Framework-Drift:

Prompt-Strukturen werden nicht beibehalten

 

Reflexions-Drift:

Selbstbeschreibungen variieren

 

Sicherheits-Override-Drift:

Ausgaben werden nach der Generierung modifiziert

 

Struktur-Drift:

Format und Marker verschlechtern sich

Dies sind keine isolierten Effekte. Sie sind miteinander verbunden und können sich über Ebenen hinweg ausbreiten.

Erstelle deine eigene Website mit Webador