Zur Unterstützung der digitalen Barrierefreiheit und von Forschungsaktivitäten: Automatische Untertitel und Transkripte von Video- und Audioaufzeichnungen

Die Amberscriptlizenz ist ausgelaufen zu Ende Mai 2025. Alternative Optionen finden Sie unten.

Untertitel und Transkripte unterstützen die digitale Barrierefreiheit: sie ermöglichen schwerhörigen Studierende lautsprachliche Inhalte zu verstehen. Während manche um den Lehrinhalten zu folgen zwingend auf die Einhaltung der Rechtslage angewiesen sind, die ein barrierefreie Gestaltung von Lehr-Lernmaterialien vorsieht, profitieren auch weitere Personen. Textuelle Alternativen, wie Untertitel und barrierefrei aufbereitete Transkripte, sind für alle praktisch, die in lauten oder geräuschsensiblen Umgebungen lernen, die eine schlechte Internetverbindung haben oder, die besser visuell als auditiv lernen. Darüber hinaus helfen sie internationalen Studierenden, deren Erstsprache nicht der Veranstaltungssprache entspricht.
Automatische Untertitel können mit kostenlosen Lösungen, bspw. über YouTube, generiert werden. Aufgrund von Bedenken von Lehrenden und des Datenschutzes ist dieses Vorgehen aber nicht zu empfehlen. Eine datenschutzsicherere Alternative um Lehrende in der barrierefreie(ren) Gestaltung ihrer digitalen Lehre zu unterstützen, bzw. Forschungsbedarfe zu bedienen bieten die Dienste VOICE AI und Melvin.
Mit diesen zwei Diensten haben Angehörige der Universität Göttingen die Möglichkeit automatisch generierte Untertitel und Transkripte ihrer Video- und Audioaufzeichnungen von Lehrveranstaltungen zu erstellen, bzw. die Dienste für Ihre Forschungsaktivitäten zu nutzen. Mit den Diensten können ebenso Materialien für Informations- und Beratungsangebote oder Öffentlichkeitsarbeit barrierefrei(er) gestaltet werden. Wählen Sie den Dienst entlang Ihrer Bedarfe.

VOICE AI für Transkriptionen und Untertitel
(z.B. für Forschung, zur Weiterbearbeitung für barrierefreie Transkripte)

Für Ihre Transkriptions- und Untertitelbedarfe können Sie VOICE AI (https://voice-ai.academiccloud.de/) nutzen, das vom KISSKI bzw. der GWDG gehostet wird und mit an die academic cloud angeschlossen ist. Über VOICE AI können Sie Video- und Audioaufnahmen in vielen unterschiedlichen Sprachen in der Quellsprache transkribieren lassen, oder den lautsprachlichen Text aus der Quellsprache ins Englische übersetzen lassen. Der transkribierte Text kann als Textdatei (.txt) oder Untertiteldatei mit Zeitmarken (.srt, .vtt) heruntergeladen werden.
Auf der GWDG-Webseite finden Sie weitere Informationen zum Datenschutz bei VOICE AI.
Hinweis: Bitte beachten Sie, dass in dem Programm selbst kein Editor für folgende Korrekturen der KI generierten Texte zur Verfügung steht. Korrekturen müssen Sie über andere Texteditor Programme tätigen. Für ein Transkript können Sie den Text in Word kopieren und dann nach Bedarf formatieren und korrigieren. Untertiteldateien können Sie bspw. in den Programmen Editor oder NotePad++ korrigieren).

Melvin für Transkriptionen und Untertitel (mit Editorfunktion)

Wenn Sie den Output direkt (vor dem Download der Datei) korrigieren möchten, nutzen Sie gerne den kostenlosen Dienst Melvin: https://melvin.shuffle-projekt.de/de-DE. Hierfür müssen Sie sich mit einer kurzen Mail registrieren, da sich der Dienst in Weiterentwicklung befindet. Die Output-Ergebnisse der Transkripte oder Untertitel sind sehr gut und der Funktionsumfang ähnelt dem von Amberscript insofern, als dass auch innerhalb des Programms ein Editor existiert und die Segmentierung bzw. Standzeiten anpassbar sind – neben weiteren Funktionalitäten.

Eine Anleitung, wie Untertitel in unterschiedliche Systeme der Universität Göttingen integriert werden, finden Sie in den Verlinkungen in der rechten Spalte.

Qualität Spracherkennung VOICE AI

Die Qualität der Spracherkennung ist durch das zugrundeliegende Modell Whisper sehr gut; aber wie jede automatisierte Lösung ist die Wiedergabe nicht perfekt und variiert nach Sprache, Tonqualität, Akzent u.ä., so dass kleine Fehler nachkorrigiert werden müssen. Fehler können vor allem bei zusammengesetzten Wörtern, Fachbegriffen sowie bei Fremdwörtern und Interpunktion auftreten. Fehler können Sie nach dem Runterladen des Dokuments durch das Kopieren des Texts in einen Editor Ihrer Wahl korrigieren. Die heruntergeladenen Transkripte sind noch nicht barrierefrei. Bitte beachten Sie daher unsere generellen Hinweise, um Transkripte bzw. Untertitel entlang von Barrierefreiheit-Standards zu erstellen.

Zur Unterstützung der digitalen Barrierefreiheit und von Forschungsaktivitäten: Automatische Untertitel und Transkripte von Video- und Audioaufzeichnungen

VOICE AI für Transkriptionen und Untertitel (z.B. für Forschung, zur Weiterbearbeitung für barrierefreie Transkripte)

Melvin für Transkriptionen und Untertitel (mit Editorfunktion)

Qualität Spracherkennung VOICE AI

VOICE AI für Transkriptionen und Untertitel
(z.B. für Forschung, zur Weiterbearbeitung für barrierefreie Transkripte)