Du bist nicht mit dem Internet verbunden.
Corporate logo
GamingWearablesComputingThemenwocheReportage 623

Wie SwissTXT das Dolmetschen für gehörlose Menschen revolutionieren will

Stell dir vor, du bist taub. Mit anderen Gehörlosen kommunizierst du per Gebärdensprache, aber mit Hörenden? Da bleibt dir nur Lippenlesen oder Schreiben. Wäre es nicht toll, wenn du mit ihnen in deiner Sprache kommunizieren könntest? SwissTXT will mit neuen Technologien Untertitel und Gebärdensprachdolmetschen automatisieren.

Galahad betritt den Kingsman Meetingraum und wird von Arthur begrüsst. Er setzt sich an den ansonsten leeren Sitzungstisch. Die beiden setzen sich ihre AR-Brillen auf und sehen nun die weiteren Kingsman-Agenten als stereoskopischen Avatar.

Dieses Szene aus dem Film «Kingsman: The Secret Service» beschreibt, wie sich SwissTXT Gebärdensprachdolmetschen in Zukunft vorstellt. Durch Augmented Reality soll ein Abbild einer Person, in diesem Fall eines Dolmetschers, generiert werden, der in Echtzeit gesprochene Sprache in Gebärden übersetzt.

Wieso kümmert sich der Teletext darum?

SwissTXT – das sind doch die mit der farbigen Pixelschrift auf schwarzem Hintergrund, die du durch Druck auf die Text-Taste deiner Fernbedienung siehst? Genau, aber eben nicht nur. Die 1983 gegründete SwissTXT AG ist eine Tochter der SRG. Das Unternehmen ist nebst diversen weiteren Diensten für Access Services zuständig.

«Wir haben uns vor 35 Jahren selbst verpflichtet, einen Untertitelungsdienst zu erbringen. Zu Beginn war dieser Auftrag simpel. Dann kam die UN-Behindertenrechtskonvention und die Anforderungen an Accessibility wurden grösser. Mit den technischen Möglichkeiten sind diese dann nochmals gewachsen», sagt Robin Ribback, Innovation Manager bei SwissTXT. So stellt SwissTXT heute nicht nur Untertitel zur Verfügung, sondern unter anderem auch Gebärdensprache und Audiodeskription. Menschen mit Sinnesbehinderungen sollen Zugang zu Information, Bildung und Kultur erhalten.

Die UN-Behindertenrechtskonvention bezieht sich aber nicht nur aufs Fernsehen, sondern auch auf weitere Bereiche wie Bildung, Anlässe, Unternehmen und Politik. «SwissTXT muss ein Ökosystem für den Zugang zu Information, Bildung und Kultur schaffen», so Robin Ribback. In Zusammenarbeit mit u.a. den Universitäten Zürich, St. Gallen, Lausanne und den Hochschulen in Winterthur, Bern und Olten können sich beispielsweise Menschen mit Hörbeeinträchtigung Vorlesungen von sogenannten Re-Speakern online in Echtzeit aufs Tablet sprechen lassen. So erhalten sie Zugang zu Bildung.

Wie gesprochene Sprache zu schriftlicher Sprache wird

Wie wird gesprochene Sprache heute für Menschen mit Hörbeeinträchtigung übersetzt? Das funktioniert mit den Re-Speakern. Das lässt sich am Beispiel der Universität aufzeigen. Das Gesprochene einer Dozentin wird online einer Re-Speakerin übermittelt. Die kann sich irgendwo befinden. Ihre Aufgabe besteht darin, das Gesagte in Schriftsprache mit Interpunktion wiederzugeben. Eine automatische Spracherkennungssoftware verschriftlicht das Gesprochene der Re-Speakerin. Dieser Text wird online der Person mit Hörbeeinträchtigung übermittelt. Sie kann so der Dozentin durch Mitlesen folgen.

So funktioniert das Untertiteln heute. Das System wird jetzt optimiert. In einem zweiten Schritt soll der Re-Speaker in der Mitte des Übersetzungsprozesses durch eine automatische Spracherkennung ersetzt werden. Diese transformiert das gesprochene Wort bereits in einen Text. Dieser wird dann noch von einem Menschen optimiert. In Phase III fällt der Mensch komplett aus dem Prozess und nur eine KI macht die Übersetzung von gesprochener Sprache zu Text. Das soll aber nicht so wie bei Youtube funktionieren, wo einfach das gesprochene Wort für Wort wiedergegeben wird, sondern in sauberen Text.

«Für uns ist der kontinuierliche Verbesserungsprozess wichtig. Das entscheidende ist hierbei das Sammeln von Daten», sagt Robin Ribback. Diese sammelt SwissTXT laufend aus ihren Mandaten bei Broadcast, Bildung, Anlässen, Unternehmen und Politik. Dadurch wird die KI mittels Deep Learning ständig verbessert. «Zurzeit spielt der Mensch noch eine grosse Rolle in der Accessibility. Wir verbessern aber ständig unsere Daten, damit die automatischen Systeme mehr übernehmen. Irgendwann funktioniert dann alles automatisch», ist Robin Ribback überzeugt. Somit kann dann auch irgendwann das Ziel der hörbeeinträchtigten Menschen – nämlich 100 Prozent Live-Text, immer und überall – erreicht werden.

Das Ganze soll selbstverständlich nicht nur für Bildung und Fernsehen geschehen, sondern auch für Anlässe, Unternehmen und Politik. So sollen Sitzungen von National- oder Ständerat zusätzlich zu sonstigen Übersetzungen auch mit Audiodeskription und Gebärdensprache verfolgbar sein. Bei Events wird die Untertitelung von Stadionspeakern beispielsweise bereits heute gemacht. Menschen mit Hörbehinderung können bei Spielen des FC Bayern München im Stadion mit AR-Brille den Aussagen des Stadionspeakers folgen.

Wie gesprochene Sprache zu Gebärden wird

«Gehörlose wünschen sich Übersetzungen in Gebärdensprache», sagt Michaela Nachtrab, Business Developerin für Access Services, die selbst Gebärdensprachdolmetscherin ist. «Sie wollen sich in ihrer natürlichen Muttersprache verständigen.» Das ist nicht so simpel wie bei den Untertiteln. Denn bei der Gebärdensprache spielen mehrere Faktoren zum Verständnis eine Rolle. So ist bei der Gebärdensprache die Gebärde selbst wichtig, hinzu kommen noch der Oberkörper und die Mimik. «Schon kleine Bewegungen im Gesicht können Sinn unterscheidend sein. Wenn ich beispielsweise die Augenbrauen hochziehe und nach unten schaue, formuliere ich eine Frage», sagt Michaela Nachtrab. Und mit dem Oberkörper werden z.B. Positionen dargestellt.

Damit das gelingt, muss ein künstliches Abbild, eine KI, von Gebärdensprachdolmetschern gebaut werden. Ein Avatar sozusagen. «Avatar wir häufig mit Gamen gleichgesetzt. Deshalb nennen wir das bei uns Realatar», sagt Robin Ribback.

Zur Erstellung eines Realatars geht SwissTXT gleich vor wie bei der Untertitelung. Zuerst werden Dolmetscher in einem speziellen Studio aufgenommen und ein digitales Ebenbild erschaffen. Der so generierte Realattar kann auf Geräte wie Notebook oder Tablet übertragen werden. Wie beim Beispiel mit der Re-Speakerin können die Dolmetscher ihre Arbeit so von irgendwo verrichten. Es braucht lediglich noch eine Kamera die ihr Gesicht filmt und eine Kamera, die die Bewegungen wahrnimmt. Um die Bewegungen der Hände aufzunehmen werden Bewegungssensoren verwendet. Es ist künftig denkbar, dass jeder ein Abbild seiner selbst ablichten lassen kann und plötzlich Samuel L. Jackson für dich gebärdet.

«Das ist zurzeit die erste Phase, in der wir uns befinden, dem Live Remote Avatar Pupeteering», sagt Robin Ribback. «Das mag nach wenig klingen, aber so können die Dolmetscher ihre Arbeit von irgendwo, also auch von zuhause aus, verrichten. Das spart enorm Kosten», ergänzt Michaela Nachtrab. Jetzt geht es ans Sammeln von Bewegungs- und Mimikdaten: «Die Menschheit hat es bis jetzt verpasst, die optischen Bewegungsdaten der Gebärdensprachdolmetscher aufzuzeichnen», so Robin Ribback. In der Spracherkennung werden bereits seit 1987 Daten erhoben. Datenbanken für Gebärdensprache werden jetzt erst aufgebaut.

Als erstes werden Daten für Wettervorhersagen gesammelt. Das liegt daran, dass das Sprachrepertoire bei Wettervorhersagen relativ begrenzt und klar ist. Dadurch besteht wenig Raum für falsche Spracherkennung. Beim Sprachverständnis ist es nämlich so, dass Menschen etwa 99 Prozent richtig verstehen und Maschinen nur etwa 85 Prozent. Bei Gebärdensprache sinkt der Wert von Maschinen extrem. Erkennt eine Maschine 55 Prozent richtig, ist das bereits viel. Zum Verständnis von Sprache sind aber mindestens 90 Prozent korrekte Spracherkennung erforderlich.

Analog zur Untertitelung soll das Gebärdensprachdolmetschen in den drei Phasen automatisiert werden. Dazu wird die KI mit Natural language processing (NLP) und Deep Learning trainiert. Am Schluss soll die KI die gesprochene Sprache erkennen, in Gebärden umwandeln und den Realatar ausführen lassen.

So soll das Ganze Menschen mit Hörbehinderung zugänglich gemacht werden

An dieser Stelle kommt HbbTV ins Spiel. Dank dieser Technologie lässt sich ein transparentes Browser Overlay über dem Fernsehsignal anzeigen. Dadurch lassen sich Untertitel oder eben auch Gebärdensprachdolmetscher einblenden.

Was fürs Fernsehen funktioniert, sollte auch für andere Bereiche wie Bildung, Anlässe und Politik funktionieren. Wie bei den Beispielen zu «Kingsman: The Secret Service» und dem Stadionspeaker des FC Bayern München spielt Augmented Reality eine Rolle. Mit AR-Brillen sollen sich Gehörlose künftig den Gebärdendolmetscher auf die stereoskopische Brille holen.

Die Stereoskopie wirft aber weitere Fragen auf. «Wie können die Kingsman zusammen den Whisky trinken? Die holografischen Personen und Objekte sind ja fix im Raum. Es geht also weit über die einfache holografische Repräsentation aus. Da kommen Fragen auf, wie eine hybride Arbeitswelt funktioniert. Dahin geht die Forschung in Zukunft», ist Robin Ribback überzeugt.

Die Daten, die SwissTXT sammelt, stellt sie übrigens frei zur Verfügung. Hier erhältst du Zugriff.

Diese Beiträge könnten dich auch interessieren

Wer liest eigentlich noch den <strong>Teletext</strong>?
HeimkinoHintergrund

Wer liest eigentlich noch den Teletext?

Wenn Darth Vader die Nachrichten verliest
HeimkinoMeinung

Wenn Darth Vader die Nachrichten verliest

User

Kevin Hofer, Zürich

  • Editor
Technologie und Gesellschaft faszinieren mich. Die beiden zu kombinieren und aus unterschiedlichen Blickwinkeln zu betrachten ist meine Leidenschaft.

6 Kommentare

3000 / 3000 Zeichen
Es gelten die Community-Bedingungen.

User thug_life96

Eine Moment. Ich bin selbst gehörlos. Deine Frage durch Warum ganze Gebärdensprache? Als ich klein war, dass ich immer der Lesensproblem und Schreibensproblem ohne den Gebärdendolmetsch war. Es war sehr schwer zu üben! Jedoch kann ich bisher noch nicht richtige Schreiben - zum Beispiel: das Wasser für gewöhnte Hörende und aber gehörlos häufig falsch "die oder der Wasser". Du kannst was meine Text ist sehen. Eben, ist meine Deutsch sehr schlecht. Gebärdensprache als Hilfsmittel, sehe ich mir sogar mehr die Bücher lesen müssen. Gebärdensprache kann man schlecht zu der Textfehler beeinflussen. Arbeitsplatz für die tauben Leuten wirklich in Schwierigkeit, meisten der Firmen finden behinderten Menschen lieber zur IV-Rente schicken. Alle sagt/schreibt mir, deine Deutsch schlecht, wie kann man Kommunikation wenn Verfügbarkeit, warum bist du taub, du kannst hier nicht als Informatiker arbeiten dann nehme ich lieber beste Bewerbe als Vakanz an etc... Oftmals so negativ auf tauben Leuten. Findest du lustig oder? Galaxus/Digitec nimmt mir nicht als eine Angestellte auch. Plötzlich hat er über den Gehörlos mit Gebärdensprache interessant. Ich verstehe mir selber nichts. Der Welt ist mir einfache Absurdität!

24.01.2019
User bkeleanor

wartet! was ist das für eine brille im titelbild? gibts dafür einen Link?

24.01.2019
User a-macht

mirareality.com/

24.01.2019
Antworten
User kinkygirl

«Beitrag entfernt. Bitte halte dich an die Community-Richtlinien: digitec.ch/de/Wiki/4490»

26.01.2019
User Sopur

Was ist an Gebärdensprache besser als an Text? Ich gehe davon aus, dass Gebärdensprache entwickelt wurde, für Konversationen in denen eben kein Text möglich ist. Durch die heute verfügbaren technischen Hilfsmittel eigentlich überflüssig.
Dennoch: faszinieren, was möglich ist.

24.01.2019
User ChromeMystic

Gegenfrage: Ist es für dich natürlicher zu lesen und zu schreiben als mit jemanden zu sprechen? Können Kinder zuerst lesen oder zuerst sprechen? Es gibt einen Grund warum das ganze GebärdenSPRACHE heisst :D

24.01.2019
Antworten