Die Reaktion, die dem Autor des ursprünglichen Tweets zuerst einfiel, war natürlich „1984“. So wurden dann auch in diversen Online-Medien die Artikel aufgemacht und kommentiert.
Die FAS hat in ihrer aktuellen Ausgabe einen Artikel, der das Problem sehr viel differenzierter anspricht – und z.B. sehr zu Recht darauf hinweist, dass die Spracherkennungsfunktion des Fernsehers überhaupt erst durch eine Taste oder ein Kodewort aktiviert werden muss, und dass viele Funktionen auf dem Fernseher selbst laufen, also überhaupt nicht an irgendwelche mysteriösen und deswegen gefährlichen Server übertragen werden müssen. Insofern können wir jetzt alle aufatmen und in unseren Wohnzimmern wieder persönliche Gespräche führen :-)
Im Zusammenhang mit dieser Meldung lässt sich außerdem wieder einmal ein weit verbreitetes Missverständnis feststellen, das symptomatisch für den Umgang mit Spracherkennung ist, nämlich die Annahme, sie habe etwas mit künstlicher Intelligenz zu tun.
"Der Clou sind vielmehr einige Extras, die ihre Nähe zu Apples kluger Sprachassistentin Siri nicht leugnen können. Wie Siri eine inhaltliche und semantische Analyse des Gesagten bietet, um mehr Variabilität bei Eingaben und Kommandos zu erlauben, soll auch der Fernseh-Spracherkenner ein persönlicher Assistent werden, etwa mit Dragon TV, das Nuance in Amerika anbietet."Für die Anwendung selbst, also den Fernseher, der sich per Sprachbefehl steuern lässt, mag das sogar gelten. Die Spracherkennung ist aber an dieser Stelle nichts anderes als ein Frontend, das der Fernbedienung (hoffentlich) überlegen ist. Wer schon einmal auf dem Smart TV versucht hat, ein bestimmtes YouTube-Video zu finden, weiß was ich meine: man klickt sich mit Cursortasten durch ein Alphabet und braucht für die Eingabe länger, als das Video anschließend dauert. Hier ist Spracherkennung eine echte Alternative.
Was Spracherkennung aber von sich aus nicht leistet, ist das Verständnis dessen, was gesagt wird! Nach aktuellem Stand der Technik ist Spracherkennung ein rein statistischer Prozess, der einer Lautfolge die wahrscheinlichste Zeichenfolge zuordnet. Dass die Spracherkennung dabei nicht versteht, was gemeint ist, sollte jedem klar sein, der einen Erkennungsfehler einer Maschine mit einem menschlichen Verhörer vergleicht: der Mensch unterliegt immer der Annahme des in Konstanz, d.h. wir versuchen aus jeder Äußerung eine Bedeutung herauszufiltern. Deswegen würde ein Mensch, der ein Diktat transkribiert, das Wort „Verhörer“, selbst wenn es nicht kennt, niemals als „vor Hörer“ wiedergeben, wie meine Spracherkennung dies soeben getan hat. „Mit einem Menschen vor einem Hörer vergleichen“ wäre zwar inhaltlich absurd, aber zumindest grammatikalisch korrekt, und wenn wir ehrlich sind, können wir uns alle an genügend ähnliche Beispiele erinnern (siehe auch diese Posts über menschliche und maschinelle Verhörer). Die „inhaltliche und semantische Analyse des Gesagten“ ist vollkommen unabhängig davon, ob die Eingabe über ein Mikrofon oder eine Tastatur erfolgt. Damit der Computer die Frage „Wie alt ist meine Schwester?“ korrekt beantworten kann, kommt es nicht darauf an, dass er meine Sprache korrekt versteht, sondern dass er zumindest folgende Auskünfte gespeichert hat:
- Wer ist gemeint mit „ich“?
- Hat diese Person eine Schwester?
- Wann wurde diese geboren?
- Welches Datum ist heute, und wie ist die Differenz?
Dass es Maschinen gibt, die in der Lage sind, diese Frage zu beantworten, mag ein bezeichnendes Licht auf den Umgang mit unseren Daten werfen, hat aber mit Spracherkennung im wahrsten Sinne des Wortes nur an der Oberfläche zu tun. Spracherkennung ist eben kein Sprachverständnis!