COMPASS MAGAZINE #10
COMPASS MAGAZINE #10

INTERNATIONALE BEZIEHUNGEN Speech-to-Speech-Übersetzung eröffnet eine neue Welt der Kommunikation

Eine Technologie, die eine gesprochene Sprache in eine andere übersetzt, auch Speech-to-Speech-Übersetzung genannt, könnte unsere Art der Kommunikation verändern. Neueste technologische Erkenntnisse ermöglichen Forschern schnelle Fortschritte bei der Entwicklung von Tools, die eine natürliche und flüssige Kommunikation entstehen lassen – auch wenn wir unterschiedliche Sprachen sprechen.

In der Science-Fiction-Serie Star Trek wurde der Universalübersetzer, der die unmittelbare Kommunikation zwischen verschiedenen Kulturen ermöglichte, um das Jahr 2150 erfunden. In der Realität sind wir diesem Zeitplan voraus.

Im Mai 2014 hat Microsoft auf der Code Conference, einer jährlichen Medien- und Technologiekonferenz, erstmals öffentlich seine Skype Translator App vorgestellt. Gurdeep Singh Pall, Vizepräsident des Videochat-Anbieters Skype, und Satya Nadella, CEO von Microsoft, die beide Englisch sprachen, unterhielten sich mit der Deutsch sprechenden Microsoft-Mitarbeiterin Diana Heinrichs; die App hat dieses Gespräch in Echtzeit übersetzt.

Solche Demonstrationen haben die Fantasie der Menschen beflügelt und Forscherteams weltweit dazu angeregt, Übersetzungstools zu entwickeln, die uns helfen untereinander einfacher zu kommunizieren, egal welche Sprache wir sprechen.

Letztlich könnten solche Hilfsmittel viele Probleme im internationalen Reiseverkehr, beim globalen Handel und bei der interkulturellen Kommunikation lösen. Sie könnten Hindernisse beseitigen, aber kulturelle Unterschiede bewahren.

DIE GEGENWART IST NICHT PERFEKT

Die neuesten Speech-to-Speech-Tools vereinen diverse Technologien, darunter auch neue Lernmethoden neuronaler Netze nach dem Vorbild des menschlichen Gehirns, das sich durch mehrere Versuche ständig verbessert.

Jedoch befindet sich die präzise Speech-to-Speech-Übersetzung in Echtzeit noch im Entwicklungsstadium. Trotz der verringerten Fehlerrate, die durchschnittlich von 20% falschen Wörtern im Jahr 2010 auf 12% in 2013 gesunken ist, sind Computer noch nicht in der Lage, alle Aspekte einer Konversation abzudecken.

„Die derzeitige Speech-to-Speech-Software basiert auf einer nahezu wortwörtlichen Übersetzung von Sätzen“, sagt Sean Colbath, leitender Wissenschaftler bei Raytheon BBN Technologies, einer in Massachusetts ansässigen Tochtergesellschaft des Luftfahrt- und Rüstungsriesens Raytheon mit den Spezialgebieten Akustik, Signalverarbeitung und damit verbundene Informationstechnologie. „Sie erkennt weder Meme noch Zusammenhänge oder Doppeldeutigkeiten. Bei Namen könnte das System ins Stocken geraten oder diese wortwörtlich übersetzen. Oder wenn Sie fragen, wann der Bus abfährt, und danach, wie viel die Fahrkarte kostet, kann es keine Verbindung zwischen den beiden Sätzen herstellen und nicht erkennen, dass Sie die Busfahrkarte meinen.“

Dennoch hat die Speech-to-Speech-Technologie enorme Fortschritte gemacht.

BRANCHEN-ENTHUSIASMUS

Sprachübersetzungstechnologien, die bis vor Kurzem nur Nischenanwen-dungen waren, werden zum Mainstream und ziehen große Investoren an. Facebook übernahm beispielsweise das Unternehmen, das hinter der Sprachübersetzungs-App Jibbigo steht. Google führte für Google Translate Speech-to-Speech-Übersetzungen für 80 Sprachen ein. Und AT&T Labs, die in den USA ansässige Forschungs- und Entwicklungsabteilung des internationalen Telekommunikations-anbieters AT&T, treibt die Forschung mittels cloud-basierter Spracherkennung, Sprachübersetzungs- und Sprach-synthesemaschinen voran.

„Die Technologien in der Speech-to-Speech-Übersetzung haben sich deutlich verbessert“, sagt Srinivas Bangalore, ein Principal Member des Fachpersonals bei AT&T Labs. „Möglicherweise wird es nie völlig fehlerfreie Übersetzungen geben, aber pragmatische Dienstleis-tungen mit einer guten Benutzeroberfläche könnten dieses Manko abmildern und haben bereits jetzt praktische Relevanz.“

DEFINIERTE GESPRÄCHE

Die derzeitige Speech-to-Speech-Übersetzung funktioniert dann am besten, wenn das besprochene Thema so eng umrissen ist, dass die Technologie damit zurechtkommt. „Speech-to-Speech kann keine subtilen Botschaften, wie Zusammenhänge, Körpersprache oder Emotionen, erkennen“, sagt Neil Payne, Marketingdirektor der britischen Übersetzungsagentur Kwintessential. „Aber sie kann in bestimmten Bereichen angewendet werden, wo bestimmte Parameter für die besprochenen Themen vorhanden sind, wie in einem Gespräch zwischen Arzt und Patient.“

Alan Black, ein Computerwissenschaftler und Experte für Sprachsynthese am Language Technologies Institute der Carnegie Mellon University in Pittsburgh, ist derselben Meinung. „Momentan ist die Speech-to-Speech-Technologie in solchen Situationen am nützlichsten, wo man mit Menschen reden muss, die keine andere Sprache verstehen, wie bei internationalen Rettungseinsätzen“, sagt er. „Zu uns kommen zum Beispiel Flüchtlinge aus Burma und Myanmar. In der ansässigen medizinischen Fakultät werden sie behandelt, aber die Ärzte sprechen ihre Sprachen nicht und es gibt nicht genug Dolmetscher. In diesen Fällen ist die Speech-to-Speech-Technologie sehr hilfreich.“

Der Einsatz in diesem beschränkten Kontext liefert Erfahrungen, die für die Weiterentwicklung der Technologie für breitere Anwendungen genutzt werden können.

„Wir haben Speech-to-Speech-Technologie für das US-amerikanische Militär entwickelt“, sagt Colbath von Raytheon BBN. „Unsere Forschung hat das Ziel, die Grundlagen für eine funktionierende Speech-to-Speech-Technologie zu entschlüsseln. Aber wir gehen bereits über militärische Anwendungen hinaus und befassen uns mit den Bereichen Grenz- und Zollkontrollen. Die Gespräche sind hier breiter angelegt – die Reisenden könnten krank sein, um Asyl ersuchen oder Auskünfte erbitten –, aber dennoch ist ihr Umfang begrenzt. Wir arbeiten daran, hier mehr Zusammenhänge und Bedeutungen einzubauen, um das Gespräch am Laufen zu halten.“

„WIR WERDEN IRGENDWANN IN DER LAGE SEIN, ZWANGLOSE GESPRÄCHE ZU UNTERSTÜTZEN, WEIL DIE MENSCHEN DIESE FUNKTION WOLLEN UND IN IHRE WEITERENTWICKLUNG INVESTIEREN.“

ALAN BLACK COMPUTERWISSENSCHAFTLER UND EXPERTE FÜR SPRACHSYNTHESE, LANGUAGE TECHNOLOGIES INSTITUTE AN DER CARNEGIE MELLON UNIVERSITY

BARRIEREN ABBAUEN

Während die Parameter der Technologie erweitert werden, werden sich bald auch die Kommunikationsmöglichkeiten für einen breiten Nutzerkreis verändern.

„Speech-to-Speech-Übersetzung kann die internationale Geschäftskommunikation auf die nächste Ebene bringen, indem sie die Sprachbarriere sprichwörtlich überbrückt“, sagt Olivier Fontana, Produktmarketingdirektor für Microsoft/ BING translator für Microsoft Research Machine Translation Group in Redmond, Washington.

Aaron Davis, Computerlinguist und technischer Direktor von Lingotek, einem Anbieter von automatischen Übersetzungstools aus Lehi, Utah, stimmt dem zu. „In Kombination mit webbasierter Echtzeit-Kommunikations-technologie könnte Speech-to-Speech interessante Anwendungen für internationale Videokonferenzen mit mehreren Teilnehmern ermöglichen“, sagt er. „Wenn Übersetzungen oder Untertitel angeboten werden, könnten Menschen, die lieber in einer anderen Sprache sprechen möchten, sicher sein, dass ihre Aussagen präzise übertragen werden.“ Davis glaubt, dass Speech-to-Speech-Technologie auch in der Unterhaltungsbranche interessante Anwendungsmöglichkeiten bereithalten könne. „Videospieler verwenden bereits Audio-prompts, aber sie könnten auch über einen Chat kommunizieren, der ihren Mitspielern am anderen Ende der Welt ihre Nachrichten übersetzt.“

Eine weitere vielversprechende Anwendung ist die Vertiefung von Beziehungen. „Speech-to-Speech-Übersetzung eröffnet geografisch weit entfernt lebenden Freunden oder Familien ganz neue Möglichkeiten, um in Kontakt zu bleiben“, sagt Fontana. „Eine Großmutter in China könnte so zum Beispiel mit ihren Enkeln in Groß-britannien reden, auch wenn diese nicht dieselbe Sprache sprechen.“

KULTURELLE VERBINDUNG

Ob Speech-to-Speech das Interesse am Erlernen einer Fremdsprache schwinden lässt, ist eine berechtigte Frage. Aber Forscher sind der Meinung, dies sei nicht der Fall; zumindest bis jetzt. „Die Forschung rund um Speech-to-Speech verweist eher auf kulturelle Vorteile“, sagt Davis. „Wenn die Menschen nicht gezwungen sind, Englisch zu lernen, um sich verständigen zu können, pflegen sie verstärkt ihre eigene Kultur, angefangen bei der Sprache.“

Bangalore von AT&T Labs glaubt, dass Speech-to-Speech-Technologie zu mehr Austausch zwischen Menschen unterschiedlicher Kulturen führen wird. „Ausgestattet mit Übersetzungs-technologien wird es vielen leichter fallen, mit Menschen zu reden, die eine andere Sprache sprechen. Und sie erweitern dadurch auch ihren linguistischen und kulturellen Horizont“, sagt er.

Dem stimmt Fontana zu. „Die Speech-to-Speech-Übersetzung wird das Sprachenlernen demokratisieren und entmystifizieren“, sagt er. „Sie wird es Sprachunkundigen erlauben, mit Menschen zu reden, mit denen sie sonst nie ins Gespräch kommen würden. Und sie wird Sprachlernenden dabei helfen, mehr Vertrauen beim Anwenden der Fremdsprache zu haben.“

DIE ZUKUNFT KANN KOMMEN

Obwohl die reibungslose Übersetzung in Echtzeit noch in weiter Ferne zu liegen scheint, verbreitert sich das Anwendungsgebiet der Speech-to-Speech-Technologie bereits jetzt.

Dennoch warnt Davis vor einem „gut genug” Denken bei ihrer Weiterentwicklung. „Wenn wir einige Mängel in der Übersetzung durchgehen lassen und die Anwendung auf breiter Front einsetzen, werden wir auf einem gewissen Niveau steckenbleiben, weil wir nicht weiter an ihrer Perfektionierung arbeiten“, glaubt er. „Auch wenn die Fehlerquote vielleicht bei nur 10% liegt, könnten subtile Zwischentöne verlorengehen. Möglicherweise sind diese 10% für das Gespräch unverzichtbar.“

Solange ihre Dynamik beibehalten wird, glaubt Black von Carnegie Mellon, werde sich die Speech-to-Speech-Technologie weiterentwickeln und immer mehr Anforderungen und Erwartungen erfüllen. „Wie schon bei anderer künstlicher Intelligenz werden wir mit jeder Verbesserung der Technologie die Grenzen immer weiter verschieben“, sagt er. „Wir werden sie wohl nie perfektionieren, aber wir werden irgendwann in der Lage sein, zwanglose Gespräche zu unterstützen, weil die Menschen diese Funktion wollen und in ihre Weiterentwicklung investieren.“

von Jacqui Griffiths Zurück zum Seitenbeginn