Die Kunst der Performance: Warum Hollywood-Stars die Seele von Videospielen werden

Veröffentlicht am März 11, 2024

Entgegen der Annahme, es ginge nur um Marketing, liegt der wahre Grund für den Einsatz von Hollywood-Stars in der künstlerischen Notwendigkeit, eine untrennbare, authentische Performance zu schaffen.

Die moderne Spieletechnologie verlangt nach einer Einheit aus Körper, Stimme und Emotion, die im traditionellen Synchronstudio oft nicht reproduzierbar ist.
Die Trennung von Schauspiel und Stimme führt häufig zu einem „Immersion-Bruch“, der Spieler aus dem Erlebnis reisst.

Recommandation: Achten Sie bei der nächsten Gaming-Session nicht nur auf die Stimme, sondern auf die Gesamtwirkung der Performance – die körperliche Wahrheit hinter dem digitalen Charakter.

Wenn ein Gesicht wie das von Keanu Reeves auf unserer Konsole erscheint, ist die erste Reaktion oft ein anerkennendes Nicken. Ein grosser Name, eine Garantie für Aufmerksamkeit. Viele glauben, der Grund für diesen Trend sei offensichtlich: Marketing. Man bucht einen Star, um ein Spiel zu verkaufen. Andere argumentieren, es liege daran, dass Spiele einfach „filmischer“ werden und deshalb echte Schauspieler brauchen. Diese Erklärungen sind nicht falsch, aber sie kratzen nur an der Oberfläche. Sie übersehen den Kern der künstlerischen Revolution, die sich in der digitalen Welt vollzieht.

Als Voice Director, dessen tägliche Arbeit darin besteht, Charakteren Leben einzuhauchen, sehe ich eine tiefere Wahrheit. Die entscheidende Frage ist nicht mehr nur: „Wer hat die passende Stimme?“, sondern: „Wer kann die Seele einer Figur vollständig verkörpern?“ Der wahre Grund für den Vormarsch von Hollywood-Schauspielern in der Gaming-Welt liegt in der Suche nach einer unteilbaren Performance-Einheit. Es geht um den Moment, in dem Stimme, Mimik und körperliche Bewegung zu einer einzigen, authentischen Wahrheit verschmelzen – ein Prozess, den wir als „Seelen-Transfer“ bezeichnen könnten. Eine Alchemie, die im isolierten, „kalten Studio“ der reinen Sprachaufnahme nur schwer zu erreichen ist.

Doch was genau unterscheidet diese neue Form des Schauspiels von der traditionellen Kunst der Synchronisation, die in Deutschland einen so hohen Stellenwert geniesst? Warum kann eine noch so brillante Stimme allein die emotionale Wucht eines Spiels wie The Last of Us nicht mehr tragen? Dieser Artikel nimmt Sie mit hinter die Kulissen, um zu ergründen, wie digitale Charaktere heute geformt werden, welche Hürden dabei entstehen und warum am Ende die authentische, ganzheitliche Performance über alles entscheidet.

Um diese komplexe Dynamik zu verstehen, werden wir die verschiedenen Facetten der Performance-Kunst in Videospielen beleuchten. Von der grundlegenden Frage, warum Stimme allein nicht mehr genügt, bis hin zur subtilen Kunst des Charakterdesigns, das bereits in der Silhouette beginnt.

Sommaire : Die Suche nach der digitalen Seele: Schauspiel im Wandel

Warum reicht reine Stimme nicht mehr aus, um Emotionen wie in The Last of Us zu transportieren?
Wie findet man die perfekte Stimme für einen 2 Meter grossen Ork?
Wie schreit man 4 Stunden lang Kampfgeräusche, ohne die Stimme zu verlieren?
Wann wirkt Schauspielerei in Spielen zu theatralisch und unglaubwürdig?
Warum werden Game-Sprecher oft schlechter bezahlt als Film-Sprecher?
Warum reisst es dich raus, wenn der Held wie die deutsche Stimme von SpongeBob klingt?
Warum muss ein Charakter schon als schwarzer Schatten erkennbar sein?
Warum stellen viele deutsche Gamer ihre Konsole trotzdem auf Englisch um?

Warum reicht reine Stimme nicht mehr aus, um Emotionen wie in The Last of Us zu transportieren?

Die Antwort liegt in einem Wort: Körperliche Wahrheit. Emotion ist kein rein vokales Phänomen. Ein gebrochenes Herz lässt die Schultern sinken, Wut spannt die Muskeln im Nacken an, Freude hebt den Brustkorb. Die Stimme ist oft nur das hörbare Resultat eines komplexen physischen Zustands. Spiele wie The Last of Us oder God of War leben von Mikronuancen im Schauspiel – ein zitterndes Kinn, ein kurzes Zögern im Blick, eine kaum merkliche Anspannung in der Hand. Diese Details transportieren mehr Geschichte als jede Dialogzeile.

Im traditionellen Synchronstudio, so exzellent die Sprecher auch sein mögen, arbeiten sie in einem Vakuum. Sie sehen Wellenformen auf einem Monitor und einen Text auf dem Blatt. Sie interpretieren eine bereits existierende Performance. Die revolutionäre Veränderung kommt durch Performance Capture, bei dem Schauspieler ihre Szenen wie auf einem Filmset vollständig spielen. Ihre Bewegungen, ihre Mimik und ihre Stimme werden gleichzeitig erfasst und bilden eine untrennbare Einheit. Ein Forennutzer im PC Games Forum bringt es auf den Punkt, indem er diese neue Realität beschreibt:

Besonders in Zeiten, wo immer mehr Spiele mit dem Performance-Capture-Verfahren erstellt werden, wo die Schauspieler wie auf einem Filmset ihre Szenen richtig spielen. Eine Darstellung, die von deutschen Synchronsprechern, die in einem Tonstudio von einem Blatt ablesen, niemals reproduziert werden kann.

– Unbekannter Forennutzer, PC Games Forum – Diskussion über deutsche Synchronisation

Diese untrennbare Einheit von Körper und Stimme ist der heilige Gral der modernen Spielentwicklung. Selbst herausragende deutsche Synchronsprecher stehen vor der Herausforderung, diese ganzheitliche Leistung nachträglich zu replizieren. Sie müssen eine Emotion stimmlich erzeugen, deren physischer Ursprung ihnen verborgen bleibt.

Fallbeispiel: Benjamin Völz als Johnny Silverhand in Cyberpunk 2077

Ein interessantes Beispiel für die Brücke zwischen alter und neuer Welt ist Benjamin Völz, die deutsche Feststimme von Keanu Reeves. Für Cyberpunk 2077 sprach er die Rolle des Johnny Silverhand. Wie GamePro berichtet, brachte Völz nicht nur seine jahrzehntelange Erfahrung mit dem Schauspieler Keanu Reeves mit, sondern auch eine persönliche Affinität zum Cyberpunk-Genre. Sein Engagement zeigt, dass selbst innerhalb des Synchron-Systems der Versuch unternommen wird, eine tiefere Verbindung zum Material herzustellen, um die Kluft zwischen Original-Performance und deutscher Lokalisierung zu überbrücken.

Wie findet man die perfekte Stimme für einen 2 Meter grossen Ork?

Die traditionelle Herangehensweise an diese Frage ist ein faszinierender Prozess, der tief in der Kunst der Charakter-Interpretation verwurzelt ist. Als Voice Director erhalte ich ein Charakter-Design – eine Zeichnung, vielleicht ein 3D-Modell – und eine Beschreibung. Ein zwei Meter grosser Ork? Die visuellen Anhaltspunkte sind klar: Masse, Kraft, eine tiefe Brusthöhle, die als Resonanzkörper dient. Meine Aufgabe ist es, diese visuellen Attribute in akustische Qualitäten zu übersetzen. Ich suche nach einer Stimme, die Gewicht und Präsenz hat, die rau und erdig klingt.

Der Casting-Prozess in spezialisierten deutschen Studios wie GlobaLoc oder Synthesis Germany ist methodisch. Sprecher werden gebeten, Stimmproben zu liefern, sogenannte „Vocal Archetypes“, die eine Bandbreite von Emotionen abdecken – vom bedrohlichen Knurren bis zum donnernden Schlachtruf. Anschliessend wird im Studio oft mit technischen Mitteln wie Pitch-Shifting (Veränderung der Tonhöhe) oder Layering (Überlagerung mehrerer Stimmspuren) gearbeitet, um der Stimme eine übermenschliche Qualität zu verleihen. Dieser Prozess ist eine Kunst für sich, die darauf abzielt, eine stimmliche Illusion zu schaffen, die perfekt zur visuellen Erscheinung passt.

Synchronsprecher bei der Aufnahme im professionellen Tonstudio

Doch hier zeigt sich der fundamentale Unterschied zur Performance-Capture-Philosophie. Im traditionellen Modell wird die Stimme *auf* einen Charakter gelegt. Sie ist eine Zutat, die hinzugefügt wird. Bei einer ganzheitlichen Performance hingegen *entsteht* die Stimme aus dem Charakter. Ein Schauspieler, der einen Ork spielt, würde seine Körperhaltung verändern, breitschultrig stehen und aus dem Zwerchfell atmen. Seine Stimme wäre nicht nur tief, weil sie technisch bearbeitet wurde, sondern weil sie aus einem Körper kommt, der physisch die Masse und Kraft eines Orks simuliert. Die Stimme ist dann keine Maske mehr, sondern Ausdruck des inneren und äusseren Wesens.

Ihr Plan zur Stimmen-Analyse: Wie Profis Charaktere dekodieren

Visuelle Analyse: Betrachten Sie die Statur, Grösse und Haltung des Charakters. Welche physischen Eigenschaften deuten auf eine bestimmte Stimmfarbe oder Sprechgeschwindigkeit hin?
Archetyp-Identifikation: Ordnen Sie den Charakter einem Archetyp zu (z.B. der weise Mentor, der brutale Krieger, der listige Dieb). Welche stimmlichen Klischees sind damit verbunden?
Kontext-Prüfung: Analysieren Sie die Welt, in der die Figur lebt. Spricht sie anders, wenn sie allein, im Kampf oder in einer Gruppe ist? Die Umgebung formt die Kommunikation.
Bewegungs-Check: Beobachten Sie die Bewegungen der Figur. Ist sie agil und schnell oder langsam und schwerfällig? Die Stimme folgt oft dem Rhythmus des Körpers.
Gegenprobe: Überlegen Sie, wie der Charakter klänge, wenn Sie das Gegenteil der offensichtlichen Wahl treffen würden. Manchmal liegt die interessanteste Performance im Kontrast.

Wie schreit man 4 Stunden lang Kampfgeräusche, ohne die Stimme zu verlieren?

Diese Frage führt uns direkt in den Maschinenraum der Videospiel-Lokalisierung. Die Aufnahme von Kampfgeräuschen, sogenannten „Efforts“, ist eine der körperlich und stimmlich anspruchsvollsten Aufgaben für einen Sprecher. Es geht nicht nur darum, laut zu sein, sondern eine immense Bandbreite an Lauten zu produzieren: kurze Anstrengungslaute, Schmerzensschreie, Wutausbrüche, Todesröcheln. Dies über Stunden aufrechtzuerhalten, erfordert eine ausgefeilte Stimmtechnik und Kontrolle, um die Stimmbänder nicht dauerhaft zu schädigen. Profis nutzen Atemtechniken aus dem Zwerchfell und platzieren den Klang so, dass der Druck nicht allein auf dem Kehlkopf lastet.

Gleichzeitig offenbart dieser Aspekt der Arbeit die oft serielle und entkoppelte Natur der Spiele-Synchronisation. Während ein Schauspieler am Filmset einen Schrei aus der unmittelbaren physischen Aktion heraus produziert, muss der Synchronsprecher diesen Schrei im „kalten Studio“ aus dem Nichts abrufen, oft dutzende Male hintereinander. Die Effizienz dieses Prozesses ist bemerkenswert. Wie Experten von Media-Paten.com erläutern, ist die Aufnahme bei Spielen oft einfacher und schneller als bei Filmen, da nicht auf Lippensynchronität geachtet werden muss. Dies ermöglicht eine hohe Schlagzahl: Ein professioneller Sprecher schafft bei Videospiel-Aufnahmen zwischen 200 und 500 Lines pro Tag.

Diese hohe Quantität steht jedoch oft im Widerspruch zur Qualität der Performance-Einheit. Jede Line wird einzeln aufgenommen, isoliert von der vorherigen und der nächsten. Der Schauspieler am Set erlebt eine Szene als fliessenden Bogen, in dem sich die Emotion aufbaut und entlädt. Der Sprecher im Studio hingegen reproduziert einzelne emotionale Spitzen im Akkord. Es ist ein Handwerk, das auf Effizienz und Reproduzierbarkeit getrimmt ist, aber es birgt die Gefahr, dass die organische Verbindung zwischen den einzelnen Momenten verloren geht. Die Performance wird zu einer Sammlung von Sound-Dateien, nicht zu einer durchlebten Erfahrung.

Wann wirkt Schauspielerei in Spielen zu theatralisch und unglaubwürdig?

Ein häufiger Kritikpunkt an Performances in Spielen – sowohl im Original als auch in der Synchronisation – ist, dass sie übertrieben oder „theatralisch“ wirken. Dieses Gefühl des Unbehagens, dieser Immersion-Bruch, entsteht oft dann, wenn die emotionale Reaktion einer Figur nicht im Einklang mit der Situation steht. Ein zu lautes Weinen in einem stillen Moment oder eine überzogene Geste in einer subtilen Szene reisst uns sofort aus der Illusion. Doch die Schuld liegt nicht immer beim Schauspieler oder Sprecher.

Besonders in der deutschen Synchronisation tritt ein Phänomen auf, das Branchen-Insider als das „Blindflug“-Problem bezeichnen. Der Synchronsprecher Vincent Fallow beschreibt es treffend: Oft erhalten die Sprecher und sogar das Tonstudio vom Publisher nur unzureichendes Material. Sie sprechen ihre Zeilen ein, ohne die dazugehörige Szene, die Mimik des Charakters oder den Kontext der Handlung zu kennen. Sie agieren im Dunkeln. Laut einem Insider-Bericht auf GIGA ist dieser Mangel an Informationen eine der Hauptursachen für qualitativ abfallende deutsche Versionen. Ohne den Kontext zu kennen, neigen Sprecher dazu, Emotionen zu „überspielen“, um sicherzugehen, dass die intendierte Stimmung auch ankommt. Das Resultat ist oft eine Performance, die künstlich und überladen wirkt.

Schauspieler in übertriebener theatralischer Pose im Motion-Capture-Studio

Hier schliesst sich der Kreis zur Performance-Einheit. Wenn ein Schauspieler wie Norman Reedus in Death Stranding eine Szene spielt, ist seine Performance von Natur aus geerdet. Sein leises, erschöpftes Stöhnen entsteht, weil er gerade eine körperlich anstrengende Bewegung ausgeführt hat. Es ist eine authentische, situative Reaktion. Ein Synchronsprecher, der nur die Textzeile „[erschöpftes Stöhnen]“ auf seinem Skript sieht, muss diese Emotion ohne physischen Ankerpunkt künstlich erzeugen. Die Gefahr, dabei die richtige Intensität zu verfehlen und ins Theatralische abzudriften, ist immens. Eine glaubwürdige Performance entsteht nicht durch maximale Emotion, sondern durch die richtige Emotion im richtigen Moment. Und dafür ist Kontext unerlässlich.

Warum werden Game-Sprecher oft schlechter bezahlt als Film-Sprecher?

Die Frage der Vergütung ist oft ein Spiegel der Wertschätzung und der etablierten Strukturen einer Branche. Im direkten Vergleich zwischen Film- und Videospiel-Synchronisation in Deutschland offenbaren sich signifikante Unterschiede, die viel über den Status des Voice-Actings in beiden Medien aussagen. Es geht nicht nur um die absoluten Beträge, sondern um die zugrunde liegenden Vertragsmodelle.

Während in der Film- und Seriensynchronisation oft pro „Take“ (eine kurze Aufnahmeeinheit) abgerechnet wird und Wiederholungsvergütungen für erneute Ausstrahlungen üblich sind, dominieren in der Games-Branche sogenannte Buy-Out-Verträge. Das bedeutet, der Sprecher erhält eine einmalige Pauschale für seine Arbeit. Egal wie oft das Spiel verkauft wird oder ob es in zukünftigen Editionen wiederverwendet wird, es gibt keine weiteren Zahlungen. Dieses Modell bietet den Publishern maximale finanzielle Planungssicherheit, entkoppelt den Sprecher aber vom langfristigen Erfolg des Produkts.

Der folgende Vergleich, basierend auf Daten von Branchenkennern, verdeutlicht die unterschiedlichen Vergütungsstrukturen, wie sie in einer Analyse von Media-Paten.com dargestellt werden.

Vergleich der Vergütungsmodelle: Film vs. Videospiele
Aspekt	Film-Synchronisation	Videospiel-Synchronisation
Vergütung pro Einheit	3,40 Euro pro Take	10 Euro pro Line + Kommgeld
Tagesleistung	Variabel, oft weniger Lines	200-500 Lines möglich
Vertragsmodell	Oft mit Wiederholungsvergütung	Buy-Out-Verträge (Pauschal)
Nachnutzung	Zusätzliche Vergütung möglich	Keine weiteren Zahlungen

Diese Struktur spiegelt eine historisch gewachsene Wahrnehmung wider: Videospiele wurden lange Zeit als Nischenprodukt und nicht als gleichwertige Kunstform zum Film betrachtet. Auch wenn ein Sprecher durch die hohe Anzahl an Lines pro Tag bei einem Spiel-Projekt auf ein gutes Tageshonorar kommen kann, fehlt die langfristige Beteiligung, die im Filmgeschäft üblich ist. Die geringere Gage pro Einheit und die Buy-Out-Praxis signalisieren, dass die einzelne stimmliche Leistung im Kontext eines Spiels als weniger wertvoll oder zumindest als andersartig im Vergleich zur Filmsynchronisation eingestuft wird. Es ist ein finanzieller Ausdruck der industriellen, auf Effizienz getrimmten Produktionsweise.

Warum reisst es dich raus, wenn der Held wie die deutsche Stimme von SpongeBob klingt?

Dieses Phänomen, in der deutschen Gaming-Community oft als der „Santiago-Ziesmer-Effekt“ bezeichnet, ist ein Paradebeispiel für einen unfreiwilligen Immersion-Bruch. Santiago Ziesmer ist der brillante Sprecher hinter SpongeBob Schwammkopf, doch genau diese ikonische Rolle wird ihm zum Verhängnis, wenn er in einem ernsten Kontext auftaucht. Hören wir seine unverkennbare Stimme aus dem Mund eines grimmigen Weltraum-Marines, entsteht in unserem Kopf eine kognitive Dissonanz. Das Gehirn kann die neue Rolle nicht von der alten, tief verankerten Assoziation trennen. Der Held wird unweigerlich zur Witzfigur.

Der ‚Santiago-Ziesmer-Effekt‘ tritt auf, wenn extrem bekannte Stimmen wie die von SpongeBob oder Homer Simpson in ernsten Rollen die Immersion für deutsche Spieler brechen.

– Gaming-Community, Diskussion über deutsche Synchronisation

Dieser Effekt ist besonders in Deutschland stark ausgeprägt, da wir eine relativ kleine, aber hochprofessionelle Sprecher-Szene haben. Dieselben talentierten Sprecherinnen und Sprecher sind in Filmen, Serien, Werbung und eben auch Videospielen zu hören. Ihre Stimmen werden zu vertrauten Begleitern, aber diese Vertrautheit ist ein zweischneidiges Schwert. Sie kann Immersion schaffen oder sie brutal zerstören.

Das genaue Gegenteil tritt ein, wenn eine bekannte Stimme die Kontinuität wahrt. Wenn David Nathan, die deutsche Feststimme von Schauspielern wie Johnny Depp und Christian Bale, eine ihrer Rollen spricht, oder wenn Benjamin Völz als etablierte Stimme von Keanu Reeves auch dessen Rolle in Cyberpunk 2077 übernimmt, verstärkt das die Immersion. Das Publikum hat die Stimm-Gesicht-Kombination bereits über Jahre verinnerlicht. Die Stimme bestätigt die Erwartungshaltung und macht die Figur sofort glaubwürdiger. Das Problem ist also nicht die Bekanntheit einer Stimme an sich, sondern die Kollision von widersprüchlichen Rollenbildern im Kopf des Zuhörers. Es ist der Beweis, dass eine Stimme niemals nur ein Klang ist, sondern immer auch ein Träger von Erinnerungen und Assoziationen.

Warum muss ein Charakter schon als schwarzer Schatten erkennbar sein?

Bevor auch nur eine Zeile Dialog geschrieben oder ein Sprecher gecastet wird, beginnt die Arbeit an einem Charakter an einem viel fundamentaleren Punkt: seiner Silhouette. Das Prinzip ist einfach, aber wirkungsvoll: Eine ikonische Figur muss bereits als schwarzer Umriss vor einer hellen Wand eindeutig erkennbar und in ihrer Persönlichkeit greifbar sein. Denken Sie an die spitzen Ohren von Batman, die runde Form von Mario oder die markante Gestalt von Lara Croft. Diese visuelle DNA kommuniziert sofort, wer diese Figur ist.

Diese Silhouette ist für mich als Voice Director die erste und wichtigste Partitur. Sie gibt den Takt und die Tonart für das stimmliche Casting vor. Eine breite, bullige Form wie die eines Orks schreit förmlich nach einer tiefen, langsamen und resonanten Stimme. Eine schlanke, agile Silhouette, wie die einer Assassinin, impliziert hingegen eine höhere, schnellere und präzisere Sprechweise. Die Form des Körpers definiert den Resonanzraum und damit die natürliche Klangfarbe der Stimme. Ein Charakter-Design, das keine klare, wiedererkennbare Silhouette hat, ist oft auch ein Charakter ohne klare Persönlichkeit – und entsprechend schwer zu besetzen.

Verschiedene Charaktersilhouetten im Gegenlicht als erkennbare Formen

Im Zeitalter des Performance Capture wird dieses Prinzip noch verfeinert. Es geht nicht mehr nur um die grobe Form, sondern um subtile Haltungs- und Bewegungsmuster, die ebenfalls Teil der Silhouette sind. Die leicht nach vorne gebeugte, lauernde Haltung eines Diebes oder der aufrechte, stolze Gang eines Königs sind visuelle Signaturen, die die stimmliche Performance direkt beeinflussen. Die deutsche Synchronregie steht vor der Aufgabe, diese visuellen Vorgaben in Casting-Entscheidungen zu übersetzen. Die Silhouette ist der stumme Prolog einer jeden guten Charakter-Performance. Sie ist das Fundament, auf dem alles andere aufgebaut wird.

Checkliste zur Silhouetten-Gestaltung: Die 5 Prinzipien

Eindeutigkeit: Ist die Silhouette einzigartig und sofort wiedererkennbar, selbst wenn Details fehlen? Ein guter Charaktertest ist der „Schattenriss-Test“.
Persönlichkeit: Kommuniziert die Form der Silhouette die Kernpersönlichkeit der Figur (z.B. stark, agil, intellektuell, bedrohlich)?
Dynamik: Suggeriert die Silhouette eine bestimmte Art von Bewegung? Die Pose ist genauso wichtig wie die Form.
Stimmliche Implikation: Gibt die Form (Brustkorb, Hals, Kopfhaltung) Hinweise auf die wahrscheinliche Stimm-Charakteristik?
Abgrenzung: Hebt sich die Silhouette klar von anderen Charakteren im Spiel ab, um visuelle Verwechslungen zu vermeiden?

Das Wichtigste in Kürze

Der Einsatz von Hollywood-Stars in Spielen ist weniger eine Marketing-Entscheidung als eine künstlerische Notwendigkeit für eine authentische, ganzheitliche Performance (Performance-Einheit).
Die traditionelle deutsche Synchronisation, obwohl qualitativ hochwertig, stösst an ihre Grenzen, wenn sie versucht, eine im Performance-Capture-Verfahren entstandene Einheit aus Körper und Stimme nachträglich zu reproduzieren.
Faktoren wie das „Blindflug“-Problem ( fehlender Kontext für Sprecher) und der „Santiago-Ziesmer-Effekt“ (kognitive Dissonanz durch bekannte Stimmen) führen oft zu einem Immersion-Bruch, der Spieler dazu bewegt, auf die englische Originalversion umzuschalten.

Warum stellen viele deutsche Gamer ihre Konsole trotzdem auf Englisch um?

Trotz der unbestritten hohen Kunstfertigkeit und langen Tradition der deutschen Synchronisation entscheiden sich viele anspruchsvolle Spieler bewusst für die englische Originalversion. Dieser Schritt ist keine pauschale Ablehnung der deutschen Arbeit, sondern oft das Ergebnis mehrerer kleiner, aber entscheidender Immersion-Brüche. Eines der hartnäckigsten technischen Probleme ist die Lippensynchronität. Wie der erfahrene Synchronsprecher Peter Flechtner in einem Interview erklärt, ist eine 1:1-Übersetzung fast nie möglich, weil deutsche Sätze oft länger als englische sind. Die Übersetzer und Sprecher müssen also Kompromisse eingehen, Sätze kürzen oder schneller sprechen, damit die Worte noch halbwegs zu den Lippenbewegungen passen. Das Ergebnis wirkt oft gehetzt und unnatürlich.

Ein weiterer, tiefer liegender Grund ist der Verlust von Nuancen. Akzente und Dialekte, die im Englischen Charaktere sozial, geografisch und kulturell verorten, gehen in der deutschen Standard-Synchronisation fast immer verloren. Ein schottischer Zwerg, ein texanischer Outlaw, ein zwielichtiger russischer Händler – im Deutschen sprechen sie oft alle ein sauberes Hochdeutsch. Wie Flechtner anmerkt, wirkt der Einsatz deutscher Dialekte schnell satirisch und würde die ernste Atmosphäre vieler Spiele untergraben.

Am Ende des Tages ist es die Suche nach der maximalen Authentizität – der perfekten Performance-Einheit. Peter Flechtner fasst die Ambivalenz der deutschen Szene brillant zusammen:

Akzente und Dialekte gehen verloren, weil es eher satirisch wirkt, wenn man eine Figur Bayerisch oder Österreichisch sprechen lässt. Dass in Deutschland die Synchronisation dennoch so beliebt ist, liegt daran, dass es als eine Kunstform behandelt wird, die ihren eigenen Beitrag leistet. Oft hat der deutsche Synchronsprecher ja eine andere Stimmfarbe und klingt fast besser als das US-Original. Arnold Schwarzenegger wäre ohne seine deutsche Stimme Thomas Danneberg möglicherweise hierzulande nicht so populär geworden.

– Peter Flechtner, Interview über Videospiel-Synchronisation

Die Entscheidung, auf Englisch zu spielen, ist also oft die Wahl für das Originalwerk, für die unverfälschte, ganzheitliche Performance, bei der Körper, Stimme, Akzent und Intention eine untrennbare Einheit bilden. Es ist die Anerkennung, dass selbst die beste Interpretation niemals die Kraft der ursprünglichen Schöpfung vollständig ersetzen kann.

Die Kunst der Performance in Videospielen entwickelt sich rasant weiter. Anstatt Synchronisation und Original-Performance als Konkurrenten zu sehen, liegt die Zukunft darin, die Stärken beider Welten zu verstehen und die Wertschätzung für die Komplexität einer wirklich glaubwürdigen, digitalen Seele zu fördern. Beginnen Sie bei Ihrem nächsten Spiel damit, bewusst auf diese Einheit aus Stimme und Körper zu achten – Sie werden Charaktere mit völlig neuen Augen sehen und hören.

Wwise & FMOD: Warum grosse Studios auf Audio-Middleware setzen und Eigenlösungen meiden

Wie erzeugen Sounddesigner das Brüllen eines Drachen, wenn es keine Drachen gibt?

Warum werden Hollywood-Stars wie Keanu Reeves immer öfter für Games gebucht?