Zum Inhalt
Zur Deutschlandfunk-Startseite
 
nach oben
02.04.2007
Im Sprachen-Babylon der Europäischen Union spitzen jetzt auch Computer die Ohren, um ihre Übersetzerqualitäten zu schärfen. (Bild: EU-Parlament) Im Sprachen-Babylon der Europäischen Union spitzen jetzt auch Computer die Ohren, um ihre Übersetzerqualitäten zu schärfen. (Bild: EU-Parlament)

Sprachkünstler im Dienst der EU

Übersetzungssoftware soll Verwaltung vereinfachen

Von Michael Gessat

Informationstechnik. - Tagen die Vertreter der 27 EU-Mitgliedsstaaten, sind handfeste Ergebnisse nur möglich dank qualifizierter Dolmetscher. Eine Hilfe wäre die automatisierte Übersetzung. Das Projekt TC-Star erforschte diese Anwendung, doch die Technik hat noch ihre Tücken.

TC-Star ist ein Projekt, in dem gesprochene Sprache zunächst einmal erkannt oder verschriftet wird, dann wird der Text übersetzt, etwa vom Englischen ins Spanische, und dann wird der Text synthetisch ausgegeben mit einer künstlichen Stimme, die sich aber möglichst so anhören soll wie der Originalsprecher...

...erläutert Volker Steinbiss von der gastgebenden Rheinisch Westfälischen Technischen Hochschule Aachen. Englisch und Spanisch gewissermaßen als EU-Vertreter, und dazu noch Chinesisch gerade wegen seiner strukturellen Andersartigkeit, das sind die drei Sprachen, auf die sich die an TC-Star beteiligten Teams beschränkten. Dafür aber funktionieren die entwickelten Software-Modelle ohne jede Festlegung auf bestimmte inhaltliche Felder - im Gegensatz zu Speziallösungen mit eng begrenztem Wortschatz:

Also im Europäischen Parlament, da geht's um Fischereifragen, um Frauenrecht und jetzt halt um globale Erwärmung, die Themen sind eben ziemlich breit.

Auf dem Weg zum maschinellen Simultandolmetscher hat man zwei der drei Etappen schon ganz gut im Griff. Spracherkennung begegnet einem bereits - mit akzeptablen Ergebnissen - im Alltag: Bei Diktiersystemen für den PC, beim Telebanking, oder bei allen möglichen Hotlines. Und auch die synthetische Sprachausgabe kann sich hören lassen. Bleibt als Sorgenkind die eigentliche maschinelle Übersetzung. Die konkret erreichbare Übersetzungsqualität hängt stark von der Ausgangs- und Zielsprache und von der Komplexität des Textes ab. Zufrieden sein kann man momentan schon mit Sätzen, in denen noch 15 Prozent Fehler stecken. Professor Hermann Ney von der Technischen Hochschule Aachen:

Es ist sicherlich so, das muss man sagen, dass diese Übersetzungen nicht so sind, dass man sie in der Form als endgültige Übersetzungen nehmen kann. Also sie können einem Menschen als Rohfassung dienen, woran der dann weiter arbeiten kann, oder sie können ihm eine Vorstellung geben, worum es da in dem Dokument oder auch in der Debatte geht. Also dass da ein perfekter Satz in der Zielsprache herauskommt, das ist zwar das Ziel, aber ist sicherlich schwierig zu erreichen und wird auch noch auch noch einige Zeit dauern.

Eine Zeit lang steckte die maschinelle Übersetzung in einer algorithmischen Sackgasse: Die Systeme der älteren Generation arbeiteten regelbasiert. Das heißt, man versuchte, die Grammatik und Syntax einer Sprache von vornherein zu erfassen, zu definieren und in einem Übersetzungssystem einzuprogrammieren. Alle Entwicklerteams bei "TC-Star" setzen auf ein neues Verfahren. Als erstes wird der Rechner dabei mit konkretem Sprachmaterial gefüttert. Zum Beispiel mit Protokollen der EU-Parlamentsdebatten, die im Original und in qualifiziert übersetzten Versionen vorliegen. Salim Roukos von IBM:

Das funktioniert so, dass wir einen parallelen Textkorpus haben, der uns eine Wort-zu-Wort- oder Satzteil-zu-Satzteil-Übersetzung ermöglicht. Für jeden Satzteil oder für jede Redewendung kann es mehrere plausible Übersetzungen geben, mit verschiedenen statistischen Wahrscheinlichkeiten. Und darüber hinaus nutzen wir unübersetztes Material der Zielsprache. Wenn wir also vom Spanischen ins Englische übersetzen, dann hilft uns das zusätzliche englische Datenmaterial, zu entscheiden, was ein guter englischer Satz ist.

Der besondere Charme dieser statistischen oder datengetriebenen Modelle: Der Rechner verbessert quasi im Alleingang seinen Stil und seine Übersetzungsleistung, je mehr er zu lesen bekommt. Die maschinellen Simultandolmetscher spitzen bereits die Ohren: Beim "Media Monitoring", wenn Firmen wissen wollen, ob ihr Markenname im arabischen oder chinesischen Fernsehen erwähnt wird. Und man darf unterstellen, dass auch Polizei- und Nachrichtendienste auf diese Weise eine erste Vorauswahl aus überwachten Sendern oder Websites treffen. Wenn das System bei bestimmten Schlüsselworten "anschlägt", dann schauen Menschen genauer hin. Das Forschungsprojekt "TC-Star" läuft nach nunmehr drei Jahren aus, aber ein fertiges Produkt ist noch lange nicht in Sicht. Ob also eines Tages Maschinen im Brüsseler Parlament simultan dolmetschen werden, das muss sich erst noch erweisen.


 
 

Mehr zur Sendung:

JETZT IM RADIO

Deutschlandfunk

Seit 00:05 Uhr
Lange Nacht
Nächste Sendung: 02:00 Uhr
Nachrichten

mehr

LIVE-STREAM

Deutschlandfunk

Dokumente und Debatten mehr

AUDIO ON DEMAND

Beiträge zum Nachhören

Forschung Aktuell

Sternzeit 10. Februar 2012

Sendezeit: 10.02.2012, 16:57

Haihaut im Strömungskanal

Sendezeit: 10.02.2012, 16:50

Schon vor 3000 Jahren rodeten Menschen den Regenwald

Sendezeit: 10.02.2012, 16:45

PODCAST

Radio zum Mitnehmen

Podcast: Sendungen

Podcast: Themen

PLAYER / RECORDER

dradio-Recorder
im Beta-Test:

 

KOOPERATIONSPARTNER

ARD-Logo und Link  ZDF-Logo und Link  Phoenix-Logo und Link