🟢 ✨ Interessantes Veröffentlicht: · 1 Min. Lesezeit ·

arXiv:2606.20205: Psychologische Profile von Sprachmodellen sind größtenteils ein Messartefakt, keine stabile Persönlichkeit

arXiv:2606.20205 ↗

Redaktionelle Illustration: Persönlichkeitsfragebogen vor einem Robotergesicht mit wechselnden Ausdrücken

Die Studie arXiv:2606.20205 testete 56 instruktionsabgestimmte Sprachmodelle mit standardisierten psychologischen und Präferenzinstrumenten. Mittels Varianzzerlegung zeigen die Autoren, dass gerichteter Response-Bias 81 bis 90 Prozent der Unterschiede zwischen Modellen erklärt, gegenüber nur 9 bis 16 Prozent bei Menschen – psychologische Profile von Modellen sind daher größtenteils ein Messartefakt.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Die Studie arXiv:2606.20205 hinterfragt die zunehmend verbreitete Praxis des psychologischen Profilierens von Sprachmodellen — die Anwendung von Persönlichkeits- und Präferenztests, die ursprünglich für Menschen entwickelt wurden, auf große Sprachmodelle. Forscher testeten 56 instruktionsabgestimmte Modelle mit standardisierten psychologischen und Präferenzinstrumenten.

Was entdeckt wurde

Mit Hilfe der Varianzzerlegung, einer statistischen Methode zur Trennung von Variationsquellen, stellten die Autoren fest, dass gerichteter Response-Bias — die Tendenz eines Modells, bestimmte Antworten unabhängig vom Inhalt zu wählen — 81 bis 90 Prozent der Unterschiede zwischen Modellen erklärt. Bei Menschen beträgt dieser Anteil nur 9 bis 16 Prozent. Der Unterschied bedeutet, dass das, was als „Persönlichkeit” eines Modells erscheint, größtenteils aus einem Messartefakt stammt und keine stabile Eigenschaft ist.

Warum das wichtig ist

Die Profile ändern sich laut der Studie je nach verwendeten Fragen, sodass die Ergebnisse derselben Tests weder zuverlässig noch vergleichbar sind. Die Autoren rufen zur Entwicklung zweckgerichteter Instrumente zur Modellbewertung auf, anstatt menschliche psychologische Skalen zu übernehmen. Der Befund ist eine Warnung vor den immer häufigeren Schlagzeilen, die einem bestimmten Modell einen „Charakter” zusprechen — solche Behauptungen beruhen oft auf einem Messartefakt.

Häufig gestellte Fragen

Wie viele Modelle wurden getestet?
56 instruktionsabgestimmte Sprachmodelle wurden mit standardisierten psychologischen und Präferenzinstrumenten getestet.
Wie groß ist der Anteil des Response-Bias?
Gerichteter Response-Bias erklärt 81 bis 90 Prozent der Varianz zwischen Modellen, während dieser Anteil bei Menschen nur 9 bis 16 Prozent beträgt.
Was empfehlen die Autoren?
Sie empfehlen die Entwicklung zweckgerichteter Instrumente zur Modellbewertung, da sich Profile je nach verwendeten Fragen ändern.