Wenn Computer sprechen lernen
Von Alexa bis Siri, vom Übersetzungsprogramm bis zu computergenerierten News – heute scheint alles machbar. Am Media Technology Center wird nach Anwendungen für den Redaktionsalltag gesucht.
Jedes Mal, wenn wir unserem Smartphone über Siri oder ein ähnliches Programm Fragen stellen oder Aufträge erteilen, kommunizieren wir mit künstlicher Intelligenz. Nur: Diese Intelligenz ist begrenzt. Verglichen mit menschlicher Intelligenz ist Siri sogar ziemlich dumm, meint Ryan Cotterell, seit Februar 2020 Professor an der ETH Zürich. Der Informatikprofessor wurde im Rahmen der Medientechnologie-Initiative berufen und verbindet Linguistik, automatisierte Sprachverarbeitung und künstliche Intelligenz. «Siri funktioniert nur deshalb, weil die Fragen und Befehle, die die Menschen ihrem Smartphone stellen, meist sehr einfach sind», so Cotterell.
Man dürfe an KI nicht die gleichen Erwartungen stellen wie an menschliche Intelligenz, betont der Forscher. Jeder Mensch erlerne mühelos seine Muttersprache, und jeder Deutschsprachige erkenne intuitiv grammatikalisch fehlerhafte Sätze im Deutschen. Für ein Computerprogramm sei es aber immer noch schwierig zu erkennen, ob ein deutscher Satz grammatikalisch korrekt ist. Ein sprachverarbeitendes Programm funktioniert auch ganz anders als ein menschliches Gehirn: «Kein Übersetzer hat jemals so viele Wörter lernen müssen, wie nötig sind, um ein Übersetzungsprogramm zu trainieren», sagt Cotterell.
Herausforderung Schweizerdeutsch
Moderne Übersetzungsprogramme arbeiten im Big-Data-Bereich. Sie trainieren mit Millionen von Satzpaaren. Doch jeder Übersetzer kann problemlos mehrere Alternativen für einen übersetzten Satz vorschlagen. Übersetzungsprogramme geben nur eine Lösung an. Das möchte Cotterell ändern. «Wir möchten, dass der Nutzer nicht nur einen Satz als Ergebnis erhält, sondern mehrere Möglichkeiten. Der Nutzer könnte dann den Satz aussuchen, der in den spezifischen Zusammenhang am besten passt.» Dafür einen brauchbaren Algorithmus zu entwickeln, sei aber kompliziert. Ein Problem sind auch gute Übersetzungsprogramme oder Sprachassistenten für Sprachen, die nur von kleineren Gruppen genutzt werden. «Wenn es nicht so viele Daten in einer Sprache gibt, ist es sehr schwierig, ein gutes System zu entwickeln», sagt Cotterell. Beeindruckt ist er von einem Programm, das am Media Technology Center an der ETH Zürich entwickelt wurde – einem Sprachassistenten, der Schweizer Dialekte spricht.
Dies ist anspruchsvoll, nicht nur, weil es viele regionale Varianten gibt, sondern weil Schweizer Mundarten gesprochene Sprachen ohne standardisierte Schreibweisen sind. Seit 2019 spricht der Sprachassistent fliessend «Bärndütsch». Ziel ist, ihn auf weitere Dialekte auszudehnen. Die Forschenden entwickeln den Schweizerdeutsch-Assistenten mit dem Schweizer Radio und Fernsehen als Partner. Technologien, die Hochdeutsch auf Schweizerdeutsch übersetzen oder die lokalen Nachrichten und Wetterprognosen im Dialekt aussprechen können, könnten auch automatisch gesprochenen Texten eine regionale Authentizität verleihen.
Computergenerierte Medienwelt
Die Sprachenvielfalt der Schweiz und Europas schafft Forschungsbedarf. Denn Sprachverarbeitungssysteme, auch solche, die für den Einsatz in Medien geeignet sind, stammen meist aus dem englischen Sprachraum. «Deshalb lässt sich das, was amerikanische oder englische Medien in Sachen computerisierte Sprachverarbeitung vormachen, nicht einfach hier anwenden», sagt Cotterell. So plant er mit Unterstützung von NZZ und TX Group ein Übersetzungssystem, das Qualitätsartikel vom Deutschen ins Französische übersetzen soll. Severin Klingler, Geschäftsführer des Media Technology Center, erklärt: «Wir möchten Technologien, die für den englischen Sprachraum existieren, auch für andere Sprachen verfügbar machen.»
Die neue Medienwelt schafft eigene Herausforderungen. Zum Medienalltag gehören heute auch Filter Bubbles und Fake News. Lässt sich dagegen mit KI etwas unternehmen? Am Media Technology Center setzt man sich auch damit auseinander. In einem Projekt geht es darum, der Filterblase entgegenzuwirken, indem das System nach Inhalten mit Gegenargumenten zu einem Thema sucht: Anti-Empfehlungs-System für Nachrichten (Anti-recommendation Engine for News Articles) nennt sich das Projekt. Ein weiteres Projekt dient dazu, Kommentare maschinell nach inhaltlichen Kriterien zu sortieren. «Man könnte so die Meinungsvielfalt sichtbarer machen», hofft Klingler.
Allerdings: Die gleichen Methoden können auch eingesetzt werden, um Filter Bubbles und Fake News zu erzeugen. Im Frühsommer machte ein neues sprachverarbeitendes KI-System namens GPT3 der kalifornischen Firma OpenAI Schlagzeilen. «Die Dimensionen dieses Systems sind so gross, dass wir in den Hochschulen so etwas weder bauen noch testen können», sagt Cotterell. In die Schlagzeilen schaffte es das System unter anderem wegen des Risikos KI-generierter Fake News: GPT3 schreibt nach wenigen News-Beispielen glaubwürdig erscheinende Nachrichtentexte auf Englisch. Auf Ryan Cotterell und seine Mitforschenden am Media Technology Center wartet noch viel Arbeit.
Dieser Text ist in der aktuellen Ausgabe des ETH-Magazins Globe erschienen.