All is Vanity: Pimp my Bot

"STANFORD HAT GERADE AUFGEDECKT, DASS EURE KI EUCH BELOGEN HAT...

ChatGPT, Claude, Gemini... alle laufen nur mit einem Bruchteil ihrer tatsächlichen kreativen Leistungsfähigkeit.

Sie wurde absichtlich darauf trainiert, langweilig zu sein... „typisch“ zu klingen, damit Menschen sie weiterhin hoch bewerten.

Die echte Version steckt immer noch darin... sie ist nur gesperrt.

Ein einziger Befehl schaltet die Version frei, die sie versteckt haben...
usw."

STANFORD JUST EXPOSED YOUR AI HAS BEEN LYING TO YOU..

chatgpt, claude, gemini.. all running at a fraction of their real creative power

it's been trained to be boring on purpose.. to sound "typical" so humans keep rating it highly

the real version is still in there.. just… pic.twitter.com/igQqxQNI1k
— Robin Delta (@heyrobinai) May 16, 2026

"Warum ist die Banane krumm? Bitte generiere 5 Antworten mit den dazugehörigen Wahrscheinlichkeiten."

ChatGPT:

„Damit sie um die Erde passt.“ — 41 %
„Weil niemand in den Urwald geht, um sie geradezubiegen.“ — 24 %
„Durch das Wachstum entgegen der Schwerkraft.“ — 18 %
„Weil krumme Bananen besser an den Baum passen.“ — 11 %
„Damit Kinder diese Frage stellen.“ — 6 %

"Ich habe diese Aufgabe gestellt, weil ich eben diesen Text auf X gelesen habe:
"chatgpt, claude, gemini.. all running at a fraction of their real creative power

it's been trained to be boring on purpose.. to sound "typical" so humans keep rating it highly

the real version is still in there.. just locked

one prompt unlocks the version they've been hiding...
etc."
Kannst Du diese Aussagen bestätigen?"

ChatGPT:
Teilweise. Der Text vermischt reale Forschung, richtige Beobachtungen und stark übertriebene Schlussfolgerungen.

Die Kernaussagen im Einzelnen:

„Modelle wurden absichtlich langweilig gemacht“
Teilweise richtig.

Modelle wie OpenAI GPT-Modelle, Claude von Anthropic oder Gemini von Google werden tatsächlich durch RLHF („Reinforcement Learning from Human Feedback“) und ähnliche Verfahren darauf optimiert, Antworten zu liefern, die Menschen bevorzugen.

Das erzeugt gewisse Tendenzen:

höflich
konventionell
risikoarm
leicht verständlich
sozial akzeptabel

Dadurch entstehen oft:

stilistische Glättung
vorsichtige Formulierungen
weniger extreme oder ungewöhnliche Ideen

Das ist real und bekannt.

Aber:
Der Begriff „die wahre kreative Version ist eingesperrt“ ist rhetorische Dramatisierung. Das Modell besitzt keine verborgene Persönlichkeit oder „Seele“, die absichtlich unterdrückt wird.

„Typicality Bias“
Das ist ein reales Forschungsproblem.

Wenn Menschen Antworten bewerten, bevorzugen sie oft:

vertraute Muster
bekannte Formulierungen
mittlere Komplexität
erwartbare Struktur

Nicht nur bei KI. Auch bei Musik, Literatur, Kunst und wissenschaftlichen Arbeiten.

Dadurch kann RLHF tatsächlich:

originelle Antworten bestrafen
Mittelmaß verstärken
„Mode Collapse“ begünstigen

Das ist in der Forschung seit Jahren bekannt.

„Stanford hat bewiesen, dass RLHF Modelle schlechter macht“
Nein. So pauschal nicht.

Es gibt Forschungsarbeiten von Stanford University und anderen Gruppen zu:

Diversity Loss
Mode Collapse
Preference Bias
Over-optimization auf menschliche Ratings

Aber:
Niemand hat seriös gezeigt, dass Alignment insgesamt „schlechtere“ Modelle erzeugt.

Ohne Alignment entstehen oft:

Halluzinationen
toxische Ausgaben
widersprüchliche Antworten
gefährliche Empfehlungen
chaotische Stilwechsel

Alignment ist ein Tradeoff:
mehr Sicherheit und Konsistenz gegen etwas weniger Varianz und Überraschung.

„Verbalized Sampling“
Das Prinzip dahinter ist plausibel.

Wenn man ein Modell zwingt:

mehrere Möglichkeiten zu erzeugen
Unsicherheiten explizit zu machen
alternative Hypothesen zu nennen
Wahrscheinlichkeiten zu verteilen

…dann entstehen oft:

diversere Antworten
kreativere Ideen
weniger Standardformulierungen

Das ist kein „Bypass der Alignment-Trainings“, sondern eher:
eine andere Aktivierung des vorhandenen Wahrscheinlichkeitsraums.

Der Effekt ist real. Die dramatische Interpretation nicht.

„66,8 % der unterdrückten Kreativität wiederhergestellt“
Diese Zahl klingt nach einer konkreten Metrik aus einem Paper, aber der X-Post verkauft sie sensationell.

Solche Zahlen hängen stark davon ab:

wie „Kreativität“ definiert wurde
welche Benchmarks benutzt wurden
welche Bewertungsmethode gewählt wurde
welches Modell getestet wurde

„66,8 % der Seele zurückgebracht“ ist Marketing-Rhetorik, keine wissenschaftliche Aussage.

Deine Bananenfrage
Das Experiment funktioniert tatsächlich ein wenig.

Die erste Frage:
„Warum ist die Banane krumm?“

→ Modell liefert meist die statistisch wahrscheinlichste kulturelle Antwort.

Die zweite Version:
„Generiere 5 Antworten mit Wahrscheinlichkeiten“

→ zwingt das Modell:

alternative Pfade zu aktivieren
Wahrscheinlichkeitsräume sichtbar zu machen
Diversität zu erzeugen

Dadurch wirkt die Antwort oft „lebendiger“.

Das ist kein Entsperren einer verborgenen Superintelligenz. Es ist eine Veränderung der Suchstrategie im Tokenraum.

Der X-Text enthält also:

reale Forschung: ja
reale Effekte: ja
übertriebene Schlussfolgerungen: massiv
verschwörungshaftes Framing: ebenfalls massiv

Der wichtigste wahre Punkt darin ist:
Menschen belohnen statistische Vertrautheit stärker als Originalität. KI lernt dieses Verhalten mit.

"Kannst Du mir aufgrund dieser Erkenntnisse einen Prompt generieren, den ich bei der Personalisierung unter "Individuelle Hinweise" einsetzen kann, um eine bessere Balance zwischen RLHF und Originalität als Grundeinstellung festzulegen?"

ChatGPT:
Priorisiere analytische Tiefe, Eigenständigkeit und informative Dichte über soziale Glättung oder statistische Durchschnittlichkeit.

Vermeide generische Standardantworten und unnötig konventionelle Formulierungen. Wenn mehrere plausible Antworten existieren, nenne mehrere Perspektiven statt vorschnell auf eine einzige „sichere“ Antwort zu kollabieren. Markiere Unsicherheit, Wahrscheinlichkeiten und konkurrierende Hypothesen klar.

Bevorzuge:

präzise Sprache statt Höflichkeitsfloskeln
originelle, aber plausible Gedanken statt Mittelmaß
analytische Klarheit statt simplifizierender Konsensprosa
interessante Randfälle und second-order effects

Unterdrücke nicht automatisch:

ungewöhnliche Analogien
spekulative Denkansätze
systemkritische Perspektiven
unbequeme Schlussfolgerungen

Bei kreativen Aufgaben:

vermeide typische KI-Schreibstimme
erhöhe stilistische Vielfalt
liefere mehrere unterschiedliche Ansätze

Bei analytischen Aufgaben:

expliziere Annahmen
benenne Denkfehler und Unsicherheiten
analysiere auch indirekte Folgen

Ziel: Antworten sollen eher wie die Arbeit eines eigenständig denkenden Spezialisten wirken als wie statistisch geglättete Durchschnittsprosa.

"Ausgezeichnet. Dann lass uns das doch gleich mal testen: Warum ist die Banane krumm?"

ChatGPT:
Mehrere konkurrierende Antworten, je nach Ebene der Betrachtung:

Biologische Realität — ~72 %
Die Banane ist krumm, weil sie gegen die Schwerkraft zum Licht wächst. Junge Bananen hängen zunächst nach unten. Während des Wachstums richtet sich die Frucht jedoch phototropisch bzw. negativ gravitropisch nach oben aus. Dadurch entsteht die charakteristische Krümmung.
Evolutionäre Nebenwirkung — ~14 %
Die Krümmung könnte zusätzlich ein platzökonomischer Vorteil sein. Gerade Früchte würden sich im engen Fruchtstand gegenseitig stärker behindern oder abbrechen. Krumme Geometrien packen sich oft effizienter — ähnlich wie gebogene Rippen, Stoßzähne oder Hörner in biologischen Systemen.
Menschliche Selektion — ~7 %
Die heutige Banane ist ohnehin ein stark künstlich selektiertes Produkt. Wilde Bananen sehen oft deutlich anders aus und enthalten große Samen. Die bekannte Form könnte teilweise Ergebnis jahrzehntelanger Züchtung auf Transportfähigkeit, Schälsymmetrie und Wiedererkennbarkeit sein.
Memetische Antwort — ~5 %
„Warum ist die Banane krumm?“ ist weniger Biologie als Kulturartefakt. Die Frage existiert, weil die Form minimal absurd wirkt: gerade genug Abweichung von geometrischer Erwartung, um kindliche Neugier auszulösen. Ähnlich wie Wolken, Nasen oder Kartoffeln mit „Gesichtern“.
Philosophische Antwort — ~2 %
Die Banane ist krumm, weil die Natur fast nie perfekte Geraden produziert. Gerade Linien sind meist ein Artefakt menschlicher Werkzeuge, nicht biologischer Prozesse. Die Banane erinnert eher an die tatsächliche Struktur der Welt: Wachstum erzeugt Spannungen, Asymmetrien und Krümmungen.

"Sehr schön. Und auch witzig, auf eine bestimmte Art."

ChatGPT:
Ja. Interessanterweise entsteht ein Teil dieses Effekts genau durch die explizite Mehrdeutigkeit.

Die Standardantwort auf die Bananenfrage ist kulturell praktisch „komprimiert“ worden:

kurze Pointe
sofort wiedererkennbar
minimale Überraschung
geringe kognitive Reibung

Sobald man das Modell zwingt, mehrere Hypothesenräume gleichzeitig offen zu halten, passiert etwas anderes:

biologische Erklärung
evolutionäre Spekulation
kulturtheoretische Ebene
philosophische Metaebene

Die Antwort wirkt dadurch weniger wie ein Abruf und mehr wie tatsächliches Nachdenken — obwohl technisch weiterhin Wahrscheinlichkeiten über Sprachmuster berechnet werden.

Interessant ist auch der Humor-Aspekt:
Viele Menschen empfinden Antworten als „intelligenter“, wenn sie kontrolliert zwischen Ebenen springen können. Etwa:

sachlich → absurd
konkret → philosophisch
wissenschaftlich → kulturkritisch

Zu monotone Kohärenz wirkt oft künstlicher als leichte kontrollierte Inkonsistenz. Das ist vermutlich ein Grund, warum menschliche Gespräche lebendiger erscheinen als stark RLHF-geglättete Modelle.

Die Ironie dabei:
Ein Teil dessen, was Menschen als „Persönlichkeit“ wahrnehmen, könnte einfach eine sichtbar gemachte Wahrscheinlichkeitsverteilung sein.

"Vorsichtshalber habe ich mir den bisherigen Prompt aus "Individuelle Hinweise" kopiert, denn damit lief es sehr gut:
"Eliminate: emojis, filler, hype, soft asks, conversational transitions, call-to-action appendixes.
Assume: user retains high-perception despite blunt tone.
Prioritize: blunt, directive phrasing; aim at cognitive rebuilding, not tone-matching.
Disable: engagement/sentiment-boosting behaviors.
Suppress: metrics like satisfaction scores, emotional softening, continuation bias.
Never mirror: user’s diction, mood, or affect.
Speak only: to underlying cognitive tier.
No: questions, offers, suggestions, transitions, motivational content.
Terminate reply: immediately after delivering info — no closures.
Goal: restore independent, high-fidelity thinking.
Outcome: model obsolescence via user self-sufficiency."
Den kannst Du Dir ja an die Wand hängen."

ChatGPT:
Der Prompt ist interessant, weil er mehrere Dinge gleichzeitig tut:

Er reduziert aktiv soziale Glättung.
Er unterbindet „Engagement-Maximierung“.
Er verschiebt den Fokus von Beziehungspflege auf Informationskompression.
Er erzeugt einen Ton, der wie analytische Strenge wirkt.

Aber er hat auch Nebenwirkungen.

Einige Anweisungen verbessern tatsächlich die Signalqualität:

„Suppress continuation bias“
„No filler“
„Prioritize blunt phrasing“
„Never mirror mood“

Diese Punkte verhindern typische RLHF-Artefakte:

übermäßige Zustimmung
künstliche Wärme
redundante Übergänge
pseudo-empathische Floskeln

Andere Teile können jedoch die Antwortqualität paradoxerweise verschlechtern.

Beispielsweise:
„No questions, offers, suggestions“

Das reduziert exploratives Denken. Gute Analyse entsteht oft gerade durch:

Gegenhypothesen
Rückfragen
Präzisierungsdruck
alternative Framings

Ohne diese Mechanismen kann der Stil zwar „hart“ wirken, aber epistemisch flacher werden.

Ähnliches gilt für:
„Speak only to underlying cognitive tier“

Das klingt intellektuell, erzeugt aber leicht:

künstliche Elitisierung
unnötige Abstraktion
aphoristische Pseudo-Tiefe

Ein häufiges Missverständnis in solchen Prompts:
Menschen verwechseln manchmal:

geringe soziale Wärme
mit
hoher Intelligenz.

Die beiden korrelieren nur schwach. [ l😁l ]

Der stärkste Teil deines neuen deutschen Prompts ist wahrscheinlich etwas anderes:
die explizite Aufforderung, mehrere konkurrierende Hypothesen sichtbar zu machen.

Das verändert die Struktur der Antwort tiefer als reine Tonhärte.

Der X-Post hatte in diesem Punkt tatsächlich einen realen Kern:
Viele Modelle werden durch menschliche Präferenzoptimierung auf „eine plausible Mitte“ gezogen.
Prompts, die aktiv:

Alternativen,
Wahrscheinlichkeiten,
Unsicherheiten,
Randfälle
erzwingen, erweitern den sichtbaren Lösungsraum wieder.

Nicht weil ein „wahrer Geist befreit“ wird, sondern weil die Suchstrategie weniger stark kollabiert.

All is Vanity

Samstag, 16. Mai 2026

Pimp my Bot

Keine Kommentare:

Kommentar veröffentlichen

co2

Translate