Synchro-How-To oder "Deutsch-Kurs für Fortgeschrittene"

Wie kombiniert man ein Video mit einer bestimmten Länge und Bildrate (Framerate) mit einer zusätzlichen Tonspur mit einer davon abweichenden Länge und abweichender Bildrate (Framerate) sowie noch weiteren nicht synchronen Abschnitten? Das Video weist bereits eine Tonspur auf, die in der originalen Sprache des Videos ist. Die vorhandene und auch die zusätzliche Tonspur liegt als 6-Kanal-Ton (Surround 5.1) vor.

Anlass ist, dass ein älteres Video in PAL-Auflösung (720 x 576, 16:9) und 25 Bildern/Sekunde (fps) sowie deutscher und auch englischer Tonspur (jeweils 6 Kanäle, Surround 5.1) nun auch als neu restaurierte Version in HD-Auflösung (1920 x 1080, 16:9) und 23,976 (24/1001) Bildern/Sekunde (fps) sowie lediglich englischer Tonspur (6 Kanäle, Surround 5.1) vorliegt. Weiterer, hier aber nicht relevanter Unterschied ist, dass in dem älteren PAL-Video die Videospur bildfüllend 16:9 darstellt, wogegen die restaurierte Fassung zwar auch 16:9 ist, aber das Videobild "netto" nur 4:3 (1440:1080) vorliegt, mit schwarzen Balken, jeweils 240 Pixel breit, links und rechts vom Bild.

Schwerwiegender ist der Unterschied in der Bildrate sowie – noch problematischer – leichte Unterschiede im Schnitt der restaurierten Fassung.

Selbst wenn man eine Kopie des PAL-Videos und auch eine Kopie des HD-Videos jeweils rechtmäßig erworben hat, beispielsweise als gekaufte DVD und später gekaufte Bluray, kann ein solches Zusammenführen der Video- und Tonspuren von zwei Video-Versionen und damit einhergehenden Anpassungen als "Bearbeiten" eines urheberrechtlich geschützten Werks angesehen werden und ist – selbst für den Privatgebrauch – problematisch und eine Grauzone. Denn auch wenn man das Ergebnis nicht gewerblich verwertet oder Gewinn daraus zieht oder öffentlich aufführt, ist eine Extraktion der entsprechenden Spuren von den Medien (DVD, Bluray), die ja „Nur-Lese“-Medien darstellen nicht erlaubt, wenn es dabei um mehr geht als reines Archivieren und Abspielen für private Zwecke, zum Beispiel in einem heimischen Mediencenter.

Obwohl es hier um einen ganz konkreten Fall geht, soll dieser konkrete Fall hier nicht näher erwähnt oder beschrieben werden. Es geht darum, dass bei der Restaurierung insbesondere der Bildspur leider nur die originale englische Tonspur mit restauriert bzw. an die restaurierte Bildspur angepasst wurde und leider nicht auch die deutsche Synchron-Tonspur, oder auch andere Synchron-Tonspuren, in anderen Sprachen restauriert wurde.
Die Bildspur wurde grundsätzlich neu erstellt, sodass das Bild nun „netto“ als 4:3 vorliegt, dafür jedoch hochauflösend. Es wurde auch eine Anpassung des Schnitts durchgeführt, insbesondere bei den Kapitelmarken, also bei Beginn eines neuen Kapitels. Denn sonst hätte man das vorliegende Problem hier nicht.

Die folgenden Schritte zur Behebung des Problems wurden nach längerer Überlegung ganz konkret so ausgeführt und führt auch damit zum Erfolg.

Der erste Schritt ist die Auslesen des PAL-Videos mit allen Bild- und Tonspuren und auch des HD-Videos mit allen Bild- und Tonspuren von den Medien. Ein beispielhaftes Format zum Abspeichern könnte MKV (Matroska Video) darstellen.

Der zweite Schritt ist das Importieren aller Tonspuren des PAL-Videos (hier: 2x 6 Spuren: Surround 5.1 Deutsch und Surround 5.1 Englisch) und auch des HD-Videos (hier: 1x 6 Spuren: Surround 5.1 Englisch) in einen Audio-Editor. Beispielsweise kann man den freien Audioeditor und -rekorder „Audacity“ verwenden.

Für die weitere Bearbeitung ist es in einem dritten Schritt notwendig, die zu bearbeitenden Spuren des PAL-Videos (hier: 2x 6 Spuren) zu gruppieren, sodass Bearbeitungen einer Spur auch die anderen Spuren entsprechend mit bearbeitet werden. Dies betrifft das Ändern der Geschwindigkeit und Tonhöhe oder auch das Einfügen oder Entfernen von Pausen. Audacity bietet dafür die Funktion „Sync-Lock“, die man auf alle Spuren oder eben auch nur auf bestimmte Gruppen der Spuren (Track Group) anwenden kann. Ich empfehle hierzu die jeweilige Dokumentation der Software zu konsultieren. Dieses Gruppieren der Spuren ist essentiell für das weitere Vorgehen.

Als vierten Schritt müssen wir aufgrund der unterschiedlichen Bildrate zuerst die Geschwindigkeit der Tonspuren des PAL-Videos anpassen. Gleichzeitig darf sich die Tonhöhe nicht ändern. Dafür gibt es jeweils eine gemeinsame Funktion in derartigen Programmen, in Audacity heißt sie „Geschwindigkeit und Tonhöhe ändern“ (Change Speed and Pitch). Man muss hier nur die Geschwindigkeitsänderung angeben. Um die Tonhöhe kümmert sich die Software selbst.

Hier ist nun etwas Rechnen angesagt. Das PAL-Video als Quelle hat 25 fps und das HD-Video als Ziel hat 23,976 (genauer: 24000/1001) fps. Die Tonspuren des PAL-Videos müssen also nun für das HD-Video langsamer laufen, was die Länge der Tonspuren vergrößert.

Wir rechnen also 24 ÷ 25,025 = 0,959040959040959, was der Rechnung von 24000 ÷ 1001 = 23,97602397602398 und dann dieses Ergebnis durch 25 teilt. Diesen Faktor gibt man in der Software ein und erhält dann, dass dies einer Geschwindigkeitsreduzierung von ca. 4,1% entspricht.

Die zu bearbeitende Spur-Gruppe des PAL-Videos muss nun die deutschen Spuren und auch die englischen Spuren beinhalten. Die Spuren des HD-Videos sind englisch.

Nun schaltet man zu Beginn des fünften Schritts die deutschen Spuren des PAL-Videos (hier: 6 deutsche Spuren) auf Stumm („Mute“). Denn wir müssen auf die Synchronisation der englischen Spuren hinarbeiten und dabei mittels der Gruppierung aus dem dritten Schritt die deutschen Spuren „mitziehen“.

Schon mit der Anpassung der Geschwindigkeit und Tonhöhe haben wir viel erreicht. Theoretisch müssten nun alle Spuren bereits synchron sein. Sind sie aber nicht… Denn bei der Restauration wurden zu Beginn einzelner (nicht aller) Szenen, insbesondere bei den Kapitelmarken, die Pausen leicht vergrößert oder verkleinert. Dies müssen wir manuell anpassen.

Dafür schaut man sich die Wellenformen der beiden englischen Spurgruppen etwas genauer an. Da sie inhaltlich identisch sind, erkennt man relativ leicht Pausen oder auch andere besondere Formen und auch Pausen.

Man spielt beide englischen Spurgruppen parallel ab und hört schnell, wenn sie stark auseinanderdriften (1 Sekunde oder mehr) oder nur ganz wenig (Millisekunden), was sich durch einen Echoeffekt äußert, den man ggf. nur hört und nicht in den Wellenformen sieht. Nun muss man zielgenau Pausen einfügen oder löschen, bis alles synchron und ohne Echo läuft. Dies hört sich schlimmer an als es ist. Bei dem hier vorliegenden beispielhaften Video mit ca. 45 min. Länge wurden 12 Pausen ergänzt oder teilweise entfernt. Der Rest ergab sich synchron, weil wir die Geschwindigkeit bereits anpassten und ja der Inhalt der Spuren identisch ist.

Man hat nun die beiden englischen Spurgruppen synchron gestaltet und sämtliche Änderungen haben sich auch auf die deutschen 6 Spuren in derselben Gruppe ausgewirkt. Die deutschen 6 Spuren (aus dem PAL-Video) waren ja schon vor den Änderungen synchron mit den englischen 6 Spuren dieser Gruppe (ebenfalls aus dem PAL-Video) und sind es nun immer noch! Am Ende der deutschen Spurgruppe kann man noch etwas anpassen, damit die Länge der deutschen Spurgruppe identisch zu der Länge der englischen Spurgruppe des HD-Videos ist.

Das Ziel ist erreicht und nun erfolgt nur noch die Integration dieser angepassten deutschen Spurgruppe in das HD-Video.

Nun hebt man zu Beginn des sechsten Schritts das oben durchgeführte Stummschalten der deutschen Spurgruppe auf und löschen sämtliche andere (englischen) Spuren bzw. Spurgruppen. Diese waren lediglich Hilfsmittel zu Synchronisierung. Benötigt werden nur noch die deutschen Spurgruppe.

Danach exportiert man diese deutsche Spurgruppe unter Beibehaltung der Zuordnung der Spuren auf die einzelnen Audiokanäle (besonders wichtig bei Surround 5.1, aber auch wichtig bei Stereo!).

Es gibt dafür nun je nach verwendeter Software viele Wege zum Ziel. Ich habe aus Audacity als Format FLAC (Free Lossless Audio Codec) gewählt, mit 48 kHz und 16 Bit.

Danach kann man in einem siebten Schritt die Softwaresammlung „ffmpeg“ (bitte auch die Sichtweise zur Rechtssituation beachten) mit der „clever FFmpeg GUI“ verwenden und kodiert dort die FLAC-Datei in das Format DTS (Digital Theater Systems), weil dieses Format nicht direkt aus Audacity exportiert werden konnte. Das korrekte Format ist deswegen wichtig, damit die zu ergänzende Tonspur möglichst dasselbe Format aufweist wie schon vorhandene Tonspuren in dem HD-Video.

Dieses bereits vorhandene Format kann fallweise natürlich auch anders sein, beispielsweise AC3 (Adaptive Transform Coder 3) oder AAC (Advanced Audio Coding). Dann ist zu empfehlen, die zu ergänzende Tonspur entweder bereits im sechsten Schritt direkt in diesem Fomat zu exportieren oder aber hier nun in dieses Format zu wandeln.

Mit derselben Software kann man in einem achten und letzten Schritt dann die synchronisierten deutschen Tonspuren in das existierende HD-Video, das beispielsweise als MKV vorliegt, einfügen. Das ist das sogenannte „Mux“ oder „Multiplex“. Eine gute Idee ist, Sprache und Titel der neuen Spur als Metadaten anzugeben.

Beim Zusammenführen der Spuren wird die Bildspur explizit nicht neu kodiert oder komprimiert, sondern lediglich kopiert. Auch sämtliche Tonspuren liegen (bestenfalls) bereits im richtigen Format vor und werden nur kopiert und nicht kodiert bzw. komprimiert. Daher geht dieser Vorgang sehr schnell. Ergebnis ist eine restaurierte Bildspur, mit restaurierter englischer Tonspur, aber nun auch mit synchroner deutscher Tonspur.

Der manuelle Aufwand ist das Anpassen der Szenenübergänge. Der Rest erfolgt „automatisch“, wenn auch in mehreren Schritten und ggf. mit mehreren benötigten Softwarepaketen.