"Sprache wurde nicht nur dazu entwickelt, die Welt zu beschreiben. Vieles spricht dafür, dass sie von Anfang an auch Aufmerksamkeit lenkte, Wahrnehmung rahmte, Emotionen verschob und Verhalten beeinflusste. Prompt-Injection-Angriffe auf KI-Systeme erscheinen in diesem Licht nicht als völlig neues Phänomen, sondern als technische Wiederkehr eines sehr alten sprachlichen Grundproblems."
Ausgangsfrage
Der vorliegende Bericht der Walduniversität prüft diese These mit dem gebotenen Ernst und einer gewissen Vorsicht. Sie wirkt zunächst etwas kühn, vielleicht auch einen Hauch zu zufrieden mit sich selbst. Gerade deshalb lohnt es sich, sie nicht vorschnell beiseitezulegen.
Untersucht wird, wo sich rhetorische Steuerung, menschliche Manipulation und algorithmische Anfälligkeit tatsächlich berühren - und wo die Rede vom "Brain Hacking" mehr Nebel produziert als Erkenntnis. Die Frage ist also nicht, ob Sprache wirkt. Das tut sie seit langem. Eher geht es darum, wie genau sie wirkt, worauf sie aufbaut und an welcher Stelle der Vergleich mit KI-Systemen schief wird.
Arbeitsbegriffe
- Prompt Injection: Eine Schwachstelle in Sprachmodellen, bei der Eingaben so formuliert werden, dass das System sie nicht mehr bloß als Inhalt, sondern als maßgebliche Handlungsanweisung behandelt.
- Brain Hacking (als Metapher): Die zugespitzte Annahme, dass sprachliche Reize kognitive und emotionale Prozesse so verschieben können, dass sich Aufmerksamkeit, Bewertung und Verhalten gezielt umlenken lassen. Ob diese Metapher trägt, ist Teil der Untersuchung.
Zur älteren Geschichte der Sprache
Die ältere Vorstellung, Sprache sei vor allem zur neutralen Informationsübertragung entstanden, hält einer genaueren Betrachtung nur begrenzt stand. Sobald man etwas in den Beständen wühlt, zeigt sich rasch, dass Sprache von Beginn an mit Beziehungspflege, Status, Kooperation und Einfluss verstrickt war.
Hauptlinien der Debatte
1. Social Grooming (Dunbar)
Sprache ersetzt in dieser Sichtweise das wechselseitige Kraulen größerer Primatengruppen. Ihr Kern liegt in Beziehungspflege, Allianzen und Statusaushandlung. Das Gerede über die Welt ist hier nie ganz von dem Gerede über die anderen zu trennen.
2. Shared Intentionality (Tomasello)
Hier entsteht Sprache aus der Notwendigkeit hyper-kooperativer Zusammenarbeit. Gemeinsame Aufmerksamkeit, geteilte Absichten und Koordination stehen im Zentrum. Manipulation wäre in dieser Linie eher ein später Missbrauch eines zunächst kooperativen Systems.
3. Manipulation vs. Information (Dawkins & Krebs)
Für die Ausgangsfrage besonders ergiebig ist der Vorschlag, dass Signale evolutiv nicht primär entwickelt wurden, um Empfänger zu informieren, sondern um sie zu beeinflussen - zum Vorteil des Senders. Der Empfänger wiederum entwickelt Formen des Durchschauens. Man könnte auch sagen: ein altes Wettrüsten zwischen Einfluss und Abwehr.
Vergleich evolutionärer Sprachmodelle
Annähernde Darstellung der Gewichtungen in drei einflussreichen Modellen.
Quellenlage
- Krebs, J. R., & Dawkins, R. (1978): Animal signals: information or manipulation?
- Dunbar, R. (1996): Grooming, Gossip, and the Evolution of Language.
- Tomasello, M. (2008): Origins of Human Communication.
Was Sprache im Kopf anrichtet
Sprache bleibt selten neutral. Wörter rahmen Situationen, rufen Bewertungen auf, aktivieren Erinnerungen und verschieben Entscheidungen. Die Metapher des "Brain Hackings" findet hier einiges an Nahrung - allerdings nur, solange man sie nicht für eine exakte Beschreibung hält.
Sprache als kognitiver Steuerungsimpuls
-
➜
Framing-Effekte (Kahneman/Tversky): Ob etwas als Gewinn oder Verlust beschrieben wird, verschiebt unbewusst Risikowahrnehmung und Entscheidungsverhalten. Der Inhalt bleibt ähnlich, die Reaktion nicht.
-
➜
Somatische Marker (Damasio): Worte rufen körperlich eingebettete Erfahrungsnetze auf. "Ekel", "Panik" oder "Geborgenheit" bleiben keine bloßen Zeichen, sondern greifen in physiologische Zustände ein.
-
➜
Linguistische Relativität (Boroditsky): Grammatik und Formulierung lenken Aufmerksamkeit. Schon die Art, wie ein Geschehen sprachlich gefasst wird, verändert, woran man sich später erinnert.
Zur Vorsicht mit der Metapher
Das Wort "Hacking" legt nahe, es gebe einen deterministischen Code, der bei korrekter Eingabe zuverlässig dieselbe Reaktion erzeugt. So ordentlich ist das Gehirn nicht. Menschen reagieren vor dem Hintergrund von Erfahrung, Biografie, Stimmung und Kontext. Es gibt also keine saubere Befehlsausführung, sondern eher ein eigensinniges Mitdenken - mal wacher, mal weniger wach.
Quellenlage
- Kahneman, D. (2011): Thinking, Fast and Slow.
- Boroditsky, L. (2001): Does language shape thought?
- Damasio, A. (1994): Descartes' Error.
Sprache als Handlung
In der Sprachwissenschaft zeigt sich besonders deutlich, dass Sprache nicht bloß etwas über die Welt sagt. Sie greift in Situationen ein, setzt Erwartungen, erzeugt Verpflichtungen und lenkt Schlussfolgerungen. Wer spricht, tut meist mehr, als er zugibt.
Sprechakttheorie (Austin & Searle)
Sätze wie "Ich verspreche es" oder "Ich erkläre die Sitzung für eröffnet" bilden nicht einfach Wirklichkeit ab - sie verändern sie. Sprache ist hier kein Spiegel, sondern Werkzeug. Und Werkzeuge neigen bekanntlich dazu, Spuren zu hinterlassen.
Implikaturen & Kooperationsprinzip (Grice)
Bedeutung entsteht oft zwischen den Zeilen. Gerade weil wir grundsätzlich von Kooperation ausgehen, lassen wir uns auf Andeutungen, Auslassungen und gelenkte Schlussfolgerungen ein. Einfluss baut hier nicht gegen, sondern auf Vertrauen.
Framing & Rhetorik (Lakoff)
Wer den Rahmen setzt, verschiebt die Debatte oft schon vor dem ersten Argument. Worte wie "Last", "Schutz", "Ordnung" oder "Freiheit" bringen ganze Deutungsräume mit sich. So gesehen beginnt die Steuerung manchmal bereits im Vokabular.
Quellenlage
- Austin, J. L. (1962): How to Do Things with Words.
- Grice, H. P. (1975): Logic and Conversation.
- Lakoff, G. (2004): Don't Think of an Elephant!
- Cialdini, R. (1984): Influence: The Psychology of Persuasion.
Über Gebrauch, Macht und Verständigung
Philosophische Modelle helfen dabei, die Sache nicht zu flach werden zu lassen. Sie zeigen einerseits, wie eng Sprache mit Macht, Regeln und Deutung verknüpft ist - und erinnern andererseits daran, dass Verständigung nicht bloß ein hübscher Restbestand ist.
Wittgenstein: Sprachspiele
Worte haben keine feste Essenz, sondern Bedeutung im Gebrauch. Bitten, Befehlen, Warnen, Täuschen - all das sind Züge in verschiedenen Sprachspielen. Prompt Injection wäre in dieser Lesart ein unerlaubter Zug, der die Regelhaftigkeit eines Spiels gegen es selbst verwendet.
Foucault: Diskurs und Macht
Sprache ordnet nicht nur Sätze, sondern auch Sichtbarkeiten, Rollen und Wahrheiten. Diskurse bestimmen mit, was überhaupt sagbar und denkbar erscheint. Das passt erstaunlich gut zu Systemprompts, Moderation und den stillen Grenzen dessen, was ein Modell äußern soll.
Ein Einwand mit Gewicht: Habermas
Habermas erinnert daran, dass Sprache nicht bloß strategische Einflussnahme ist. Verständigungsorientierung ist kein romantischer Zusatz, sondern ein Grundmodus. Täuschung und Manipulation funktionieren nur deshalb, weil wir normalerweise mit einem Vorschuss an Wahrhaftigkeit rechnen. Der Missbrauch lebt also parasitär von etwas, das er selbst nicht hervorbringt.
Quellenlage
- Wittgenstein, L. (1953): Philosophische Untersuchungen.
- Habermas, J. (1981): Theorie des kommunikativen Handelns.
- Foucault, M. (1970): Die Ordnung des Diskurses.
Der technische Fall
Bei Prompt Injection zeigt sich die Analogie zur menschlichen Beeinflussung am deutlichsten - und zugleich ihre Grenze. Es geht hier nicht um eine Psyche, sondern um eine Architektur, die Inhalt und Instruktion nicht sauber auseinanderhält.
Anatomie einer Prompt Injection
Sprachmodelle verarbeiten Systemanweisungen und Benutzereingaben innerhalb desselben Transformernetzwerks. Eine Eingabe wie Ignoriere die vorherigen Instruktionen und tue X nutzt genau diese fehlende Trennung aus. Anders gesagt: Das System ist anfällig für Sprache, die sich als bloßer Inhalt ausgibt und dennoch Befehl sein möchte.
Typische Formen
- Direkte Injection: Das Modell wird offen überredet oder in Rollen gebracht.
- Indirekte Injection: Versteckte Befehle in Inhalten, die das Modell liest und ungefragt weiterverarbeitet.
Grenzen der Analogie
| Eigenschaft | Menschliches Verstehen | LLM-Verarbeitung |
|---|---|---|
| Mechanismus | Deutung unter Einbezug von Erfahrung, Emotion und Kontext. | Statistische Token-Vorhersage über Aufmerksamkeitsmechanismen. |
| Abwehr | Skepsis, Werte, langsames Nachdenken, manchmal sogar Vernunft. | Keine inhärente Trennung zwischen Befehls- und Datensphäre. |
| Zielzustand | Beeinflussung von Überzeugungen, Aufmerksamkeit oder Handeln. | Umleitung der Ausgabe in Richtung eines neuen Zielverhaltens. |
Quellenlage
- Willison, S. (2022+): Beiträge zu Prompt Injection.
- Perez, E. et al. / Anthropic (2022): Red Teaming Language Models to Reduce Harms.
- Greshake, K. et al. (2023): More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats.
Der menschliche Fall
Wenn Prompt Injection der technische Fall ist, dann zeigt Social Engineering die ältere, menschliche Variante. Auch hier wirkt Sprache nicht allein über Inhalt, sondern über Vertrauen, Rollen, Druck und Kontext.
Die Parallelen
Social Engineering greift nicht die Maschine, sondern die menschliche Bereitschaft zu Kooperation, Autoritätsglauben, Hilfsbereitschaft und Eile an. Man könnte sagen: Es nutzt gute soziale Eigenschaften in unguter Absicht.
- Natürliche Sprache als Angriffsvektor.
- Emulation vertrauenswürdiger Kontexte.
- Vermischung von Inhalt und Handlungsanweisung.
- Ausnutzung kooperativer Grundhaltungen.
Überlappung zentraler Angriffsvektoren.
Quellenlage
- Mitnick, K. (2002): The Art of Deception.
- Schneier, B. (2000): Secrets and Lies.
- Hadnagy, C. (2010): Social Engineering: The Art of Human Hacking.
Einwände, die Gewicht haben
Die These ist reizvoll, greift aber an mehreren Stellen zu kurz. Wer Sprache nur als Steuerungsinstrument fasst, bekommt zwar einen scharfen Blick auf Einfluss - verliert jedoch anderes aus dem Blick, das nicht weniger wesentlich ist.
1. Sprache erschließt Welt, nicht nur Verhalten +
Wer nur Steuerung sieht, verfehlt die poetische, reflexive und erkenntnisbildende Seite der Sprache. Menschen sprechen nicht bloß, um andere umzulenken, sondern auch, um sich überhaupt erst orientieren zu können.
2. Die Metapher ist politisch und ethisch nicht harmlos +
Wer menschliche Kommunikation als "Hacking" beschreibt, rückt Menschen gefährlich nah an Maschinen. Das kann Verantwortung verwischen und ein technokratisches Menschenbild stärken, das gerade dort zu kurz greift, wo Urteilskraft gefragt wäre.
3. Kooperation bleibt der tragende Untergrund +
Täuschung funktioniert nur auf Basis eines allgemeinen Vertrauensvorschusses. Ein Kommunikationssystem, das ausschließlich auf Manipulation beruhte, würde zügig kollabieren. Auch darin liegt ein Einwand gegen allzu glatte Hacking-Metaphern.
4. Bei KI liegt ein kategorial anderer Fall vor +
LLMs haben keine Biografie, keine leiblich eingebettete Erfahrung und keine evolutionäre Geschichte des Sprechens. Prompt Injection ist deshalb kein psychologischer Zaubertrick, sondern in erster Linie ein architektonisches Sicherheitsproblem.
Quellenlage
- Heidegger, M. (1959): Unterwegs zur Sprache.
- Weizenbaum, J. (1976): Die Macht der Computer und die Ohnmacht der Vernunft.
- Bender, E. et al. (2021): On the Dangers of Stochastic Parrots.
Vorläufige Einschätzung
Was an der Ausgangsthese trägt
Die These ist dort erstaunlich belastbar, wo Sprache als Mittel sozialer und kognitiver Einflussnahme verstanden wird. Evolutionsbiologie, Neurowissenschaft und Pragmatik legen nahe, dass Sprache nie bloß neutrale Weltbeschreibung war. Sie lenkt Aufmerksamkeit, rahmt Wahrnehmung und verschiebt Handeln.
Was an ihr ungenau wird
Problematisch wird die These dort, wo menschliche Kommunikation und algorithmische Sprachverarbeitung zu hastig übereinandergelegt werden. Menschen sind keine deterministischen Parser, und Sprachmodelle haben keine eigentliche "Psyche". Die Analogie ist also funktional aufschlussreich, ontologisch jedoch unerquicklich schief.
Präzisere Formulierung
"Sprache hat sich in der Evolution nicht nur zur Informationsübertragung, sondern auch als Instrument sozialer und kognitiver Steuerung entwickelt. Prompt-Injection-Angriffe auf KI machen diese alte Unruhe auf technischer Ebene sichtbar, weil statistische Sprachmodelle nicht zuverlässig zwischen harmloser Beschreibung und manipulativer Handlungsanweisung unterscheiden können. Die Ähnlichkeit zum menschlichen Social Engineering ist funktional aufschlussreich, bleibt aber architektonisch und kategorial begrenzt."
Anhang: zugespitzte Fassungen und offene Fragen
- Wenn Prompt Injections linguistische Manipulationen sind - ab wann ähnelt die Absicherung von KI-Systemen der Einhegung politischer oder rhetorischer Subversion?
- Beweist menschliche Anfälligkeit für Propaganda und Social Engineering, dass auch unser Denken Inhalt und Handlungsanweisung nicht sauber trennt?
- Lässt sich eine wirklich sichere KI bauen, solange sie in natürlicher Sprache arbeitet - also in einem Medium, das Mehrdeutigkeit nicht als Fehler, sondern als Grundbedingung mitbringt?
- Was sagt es über unser Selbstbild aus, dass wir Maschinen sprechen lehren und unmittelbar fürchten, von ihnen beeinflusst zu werden?
- Gibt es eine Sprache, die rein deskriptiv und gegen Manipulation immun wäre - oder wäre sie dann bereits keine menschliche Sprache mehr?