"Ergibt logisch" statt "Ägyptologie": Wie können Siri und Co. von ihren Nutzern lernen? Fragen an den Computerlinguisten Jonas Kuhn.
Sprachsteuerung wird alltäglich - trotzdem verstehen Maschinen vieles falsch oder zwingen Nutzer zu seltsamen Aussagen. Computerlinguist Jonas Kuhn von der Uni Stuttgart erklärt die häufigsten Fehler und rät davon ab, sich an die Maschinen anzupassen. Sonst lernen sie es nie.
SZ: Heute sind sprachgesteuerte Geräte fast schon Alltag - aber immer wieder geschehen Missverständnisse. Ist die Technologie reif für den Markt?
Kuhn: Im Vergleich zu vor fünf oder zehn Jahren ist die Qualität schon dramatisch gestiegen. Aber jetzt benutzen wir diese Systeme nicht mehr nur zum Spaß sondern um Dinge im Netz zu suchen oder Geräte zu steuern. Und deshalb fallen jetzt auch die Fehler mehr auf.
Was fällt den Geräten besonders schwer? Unterschiedliche Dialekte?
Das sogar weniger. Früher musste man als Nutzer die Spracherkennung mühsam auf die eigene Stimme trainieren, heute gibt es kaum noch Beschwerden, dass Dialekte nicht gut verstanden werden. Das halte ich für weitgehend gelöst. Aber wir dürfen nicht vergessen: Sprachverstehen an sich ist eine unwahrscheinlich schwierige Aufgabe. Je nach Kontext können Lautfolgen verschiedene Bedeutungen haben. Und Maschinen können den Kontext nicht wirklich verstehen; also ist es für sie oft schwierig einzuordnen, worum es genau geht.
Computer, die auf Stimmen hören
Manchmal liegen sie ganz daneben oder machen aus einem Wort zwei andere, die gemeinsam ähnlich klingen.
Ich habe neulich Siri gefragt: "Wann findet in Frankfurt die Musikmesse statt?" Siri hat die letzten beiden Wörter zusammengezogen und "Messestadt" daraus gemacht. Diese Systeme überprüfen stets im Hintergrund, welche Wörter zusammenpassen, worum es gehen könnte. Zu Frankfurt passt offenbar Messestadt so genau, dass es diese Konstruktion naheliegend fand. In diesem Fall hätte nur eine andere Formulierung geholfen, in der "Messe" und "statt" nicht nacheinander kommen. Wo genau ein Problem liegt, ist natürlich oft nicht intuitiv nachvollziehbar. Aber Umformulieren ist die beste Strategie.
Tun die Maschinen sich schwer, wenn wir nuscheln oder Wörter zusammenziehen, so dass sie die Lücken dazwischen nicht identifizieren können?
Zunächst müssen die Geräte ja Folgen von Lauten erkennen und diese auf Wörter abbilden. Dafür gibt es im Hintergrund Wörterbücher. Diese dürfen aber nicht zu riesig sein, nicht nur, weil dann alles langsamer wird, sondern vor allem auch, weil sie sonst womöglich den Normalfall nicht mehr finden. Gestern habe ich Siri gefragt: "Wo in Deutschland kann man Luft- und Raumfahrt-Technik studieren?" Das hat sie richtig verstanden. Die gleiche Frage mit Ägyptologie ging schief.
Statt "Ägyptologie" hat sie "ergibt logisch" verstanden. Ägyptologie steht nicht im Wörterbuch. Das ist im Normalbetrieb sinnvoll: Wenn in einem Satz "ergibt logisch" vorkommt, würde es die Nutzer verwirren, wenn da die Ägyptologie vom Himmel fällt. Lücken zwischen Wörtern gibt es übrigens in flüssiger Sprache nie, deshalb müssen die Systeme überall mit Wortgrenzen rechnen.