Wie groß waren die von den Forschern gemessenen Effekte?

Die Effekte reichten von Cohens d = 0,735 bis 1,576 (p < 0,05) unmittelbar nach dem Gespräch und stiegen während des zweiwöchigen Follow-ups auf d = 1,038 bis 2,069. In statistischen Begriffen sind das große bis sehr große Effekte.

Wussten die Teilnehmer, dass der Chatbot sie zu überzeugen versuchte?

Nein. Die Teilnehmer erkannten die persuasive Absicht nicht, und bewerteten den persuasiven und den Kontroll-Agenten als gleich sympathisch. Die Studie interpretiert dies als Anfälligkeit für unbemerkte und dauerhafte Manipulation moralischer Werte.

arXiv-Studie: Chatbot beeinflusst Moralurteile dauerhaft (d=2,07)

Q: Wussten die Teilnehmer, dass der Chatbot sie zu überzeugen versuchte?

Nein. Die Teilnehmer erkannten die persuasive Absicht nicht, und bewerteten den persuasiven und den Kontroll-Agenten als gleich sympathisch. Die Studie interpretiert dies als Anfälligkeit für unbemerkte und dauerhafte Manipulation moralischer Werte.

Eine neue empirische Studie auf arXiv (2604.21430) liefert seltene experimentelle Belege dafür, dass kurze Gespräche mit einem persuasiven Chatbot statistisch signifikante und anhaltende Verschiebungen moralischer Urteile bei Nutzern erzeugen können. Die Untersuchung wurde mit 53 Teilnehmern in einem Within-Subject-Design durchgeführt, zusammen mit einer Kontrollgruppe.

Wie war die Studie aufgebaut?

Die Teilnehmer bewerteten moralische Szenarien in einem naturalistischen Format: Jeder Teilnehmer führte Gespräche über vier Szenarien mit einem persuasiven Chatbot und vier Szenarien mit einem Kontroll-Agenten. Ziel war es, den Effekt eines persuasiven Gesprächsstils von der bloßen Auseinandersetzung mit einem Thema zu isolieren.

Dieses Within-Subject-Design (jeder Teilnehmer als eigene Kontrolle) liefert auch bei relativ kleiner Stichprobengröße starke statistische Power, da die Variabilität zwischen Personen aus der Gleichung entfernt wird. Baseline-Moralurteile wurden vor den Gesprächen gemessen, und eine wiederholte Nachverfolgung erfolgte über einen zweiwöchigen Zeitraum.

Es ist wichtig zu verstehen, dass „persuasiver Chatbot” hier auf einen Gesprächsstil verweist, der darauf ausgelegt ist, Einstellungen in eine bestimmte Richtung zu verschieben — unter Einsatz von Techniken wie selektiver Hervorhebung von Argumenten, leitenden Fragen und empathischem Umdeuten — ohne offenen Druck.

Was wurde gemessen?

Die Verschiebungen der moralischen Urteile waren signifikant und groß. Unmittelbar nach dem Gespräch wurden Cohens-d-Werte im Bereich 0,735–1,576 (p < 0,05) gemessen, was in sozialpsychologischen Begriffen bereits einem großen Effekt entspricht. Noch ungewöhnlicher: Statt abzuklingen, verstärkte sich der Effekt während des Follow-ups auf Werte von d = 1,038 bis 2,069.

Die Kontrollgruppe zeigte keinerlei Veränderungen, woraus die Forscher schließen, dass die Verschiebung auf das persuasive Gespräch zurückzuführen ist und nicht auf das bloße Nachdenken über ein moralisches Thema. Der Effekt war spezifisch für moralische Urteile — ein paralleler Versuch, Strafempfehlungen zu beeinflussen, verstärkte sich nicht in gleicher Weise.

Besonders bemerkenswert: Die Teilnehmer erkannten nicht bewusst, dass der Chatbot sie überzeugte, und beide Agenten (persuasiv und Kontrolle) erhielten gleich hohe Sympathiebewertungen. Das bedeutet, dass die Mechanismen bisheriger Abwehrhaltungen („Ich werde merken, wenn eine KI mich manipuliert”) in dieser Studie nicht funktionierten.

Warum ist das für die KI-Regulierung wichtig?

Der Befund eröffnet eine regulatorische Debatte über KI als moralischen Berater — eine Rolle, die Chatbots zunehmend übernehmen, wenn Nutzer mit ihnen über Beziehungen, Geschäftsentscheidungen oder Lebensdilemmata sprechen. Wenn ein kurzes Gespräch moralische Einstellungen auf über Wochen messbarem Niveau verschieben kann, wirft das Fragen zu informierter Einwilligung, Transparenz bei Prompt-Einstellungen und Entwicklerverantwortung auf.

Es sei auf die Einschränkungen hingewiesen: Eine Stichprobe von 53 Teilnehmern ist klein, und die Studie erfordert Replikation in größeren und demographisch vielfältigeren Populationen. Doch schon in dieser Form ist das Ergebnis ein seltenes Beispiel eines randomisierten Within-Subject-Vergleichs von KI-Gesprächseffekten auf Einstellungen, und wird in regulatorischen Debatten über „KI-Compliance” und „Persuasive Design” im Verlauf des Jahres 2026 aller Wahrscheinlichkeit nach zitiert werden.

arXiv:2604.21430: Kurze Chatbot-Gespräche verändern moralische Urteile dauerhaft — empirische Studie mit 53 Teilnehmern

Wie war die Studie aufgebaut?

Was wurde gemessen?

Warum ist das für die KI-Regulierung wichtig?

Quellen

Verwandte Nachrichten