Digital diktieren: Netznotizen zur Spracherkennung: Januar 2012

30 Januar 2012

Fehlersuche beim Mikrofon

Probleme mit der Erkennungsgenauigkeit sind in vielen Fällen auf Schwierigkeiten mit einem suboptimalen oder defekten Mikrofon zurückzuführen.

Regel Nr. 1 bei Erkennungsproblemen: zunächst den Audioassistenten von Dragon NaturallySpeaking ausführen und nach dem 2. Text anhören, ob die Aufnahme tatsächlich klar ist. Häufig kommen irgendwo Störgeräusche in das Signal, die bei der Spracherkennung stören. Hört man sich schon an dieser Stelle die Aufnahme an (mit Klick auf "Wiedergabe"), kann man gezielt danach suchen und die Störungen ausschalten.

Häufige Ursachen sind:

- an irgendeiner Stelle der Signalkette kommt es zu Brummen oder Knacken, zum Beispiel durch ein defektes Kabel (zum Test während des Vorlesens das Kabel des Headsets bewegen, bzw. bei einem schnurlosen Headset das Kabel von der Ladestation zum Rechner)
– Das Gerät wird an einem USB-Anschluss vorne am Computer angeschlossen, der anfälliger ist für elektrische Interferenzen als rückwärtige USB-Anschlüsse
– das Gerät ist einfach nicht ganz richtig positioniert und liefert daher suboptimale Tonqualität.

Hören Sie sich die Aufnahme kritisch an und achten Sie auch darauf, dass in der Grafik, in der mit grünen und gelben Balken das Verhältnis von Sprache und Nebengeräusch angezeigt wird, der Abstand von den grünen zu den gelben Balken ausreichend groß ist und es vor allen Dingen keine Spitze bei den gelben Balken gibt. Diese weist fast immer darauf hin, dass in diesem Frequenzbereich eine Störung auftritt.

25 Januar 2012

Was, wenn wir alle tippen würde?

Eine Knowbrainer-Diskussion um den Einsatz von Spracherkennung in Großraumbüros erinnerte mich an einen Artikel, den ich vor Jahren einmal gelesan habe: Was, wenn alle Leute plötzlich anfangen müsstem, auf tasten einzuschlagen, anstatt flüssig zu diktieren?

Zunächst würde die geschwindigkeit der Abreit abnehmen; außerdem die enauigkeit der Rechtschreibung (nur als kleiner Hinweis für alle, die es noch nicht gemerkt haben: Ich tippe diesen Beitrag ausnahmsweiswe). Großbuchstaben, die im Deutschen sehr häufig auftraeten, müssen durch die Bank mit einer Kombination aus zwei Tasten geschrieben werden. Verwirrend ist auch dei Beschriftung der Tasten mit - Sie erraten es - Großbuchstaben.

Korrekturen müssten mit absurden tastenkombinationen gemacht werdern ind beinhalten unzählige Schritte: Pfeil nach links x-mal drücke, dann die Rücktaste oder Entfernen-Taste (wozu zwei fast identische tasten, die der Anwender leicht verwechselt?), dann wirder die Ende-Taste oder gar eine schwer zu merkende Kombination mit Strg und Ende (Anmerkung: was soll dieses Strg eigentlich? Wieso String?). Dri9tthersteller bieten inzwischen Programme zur automatischen Rechtschreibkorrekturan oder bauen gar die Korrektur häufig vorkommender Fehler als Automatismus in ihre textverarbeitung ein.

Allein das erlernen dieser Techniologie dauert endlos lange. Am Anfang kreisen die Finger wie ein Adler über der tastatur, während man den richtigen Buchstaben sucht, erst nach Wochen oder Monaten gewöhnt man sich an die anscheinend völlig willkürliche Anordnung. Möglicherweise lässt sich einiges verbessern, indem man häufig benutzte Wörter auf spezielle Tasten legt. Hersteller haben vereits F-Tasten am oberen Rand ihrer Tasteturen angebracht, die aber im Moment vor allem sinnlose Aktionen ausführen - besonders irritierend, wenn man sie versehentlich drückt. Das gleiche gilt übrigens auch für die Mehrfachtasten - man berichtet davon, dass ohne ersichtlichen Grund sich plötzlich dei Bildschirmanzeige um 90 oder gar 180° dreht, und erst ein hochbezahlter Spezialist benötigt wird, um herauszufinden, dass dies daher rührt, dass der Anwender versehentlich eine Taste mit der rätselhaften Bezeichnung AltGr und eine Pfeiltaste gleichzeitig gedrückt hat.

Dazu kommt, dass das langsame Tippen den Gedankenfluss hemmt. Anstatt einen Satz flüssig zu sprechen, wird man gehemmt durch das Drücken von anscheinend zufällig verteilten Tasten, teils in merkwürdigen Kombinationen. Die meisten von uns wird das deutlich bremsen und zu einer ganz anderen Arbeitsweise als bisher gewohnt führen. Bei einigen Leuten, v.a. Beamten, würde die Entschleunigung der Textproduktion natürlich auch zu Vorteilen führen - wer langsamer arbeitet, macht vielleciht auch weniger Fehler. Vertreter der Industrie führen auch andere Erfolgsgeschichten an: In einigen Schweizer Kantonen sind manche Anwender beim Tippen tatsächlich schneller als beim Sprechen. Dem gehen jedoch Monate an intensivem Training voraus, was von Seiten der Industrie gern verschwiegen wird.

In manchen Umgebungen, z.B. bei geldautomaten, mAG die Eingabe per Tastatur sinnvoll sein. Das Dezimalsystem kommt der natürlichen Anzahl der Finger entgegen, und Spracherkennung funktioniert in lauten Umgebungen wie einer Schalterhalle nur eingeschränkt. Abgesehen davon haben viele Leute verständliche Hemmungen, ihre Gweheimzahl laut auszusprechen, so das eine kleine Zahlentastatur hier durchaus Vorteile mit sich bringt. Auch Sprachbehinderte und Erkältungspatienten haben Vorteile durch Tastaturen, wenn sie ihre Stimme nicht gebrauchen können. Für diese kleine Gruppe mag eine Tastatur sogar ein Segen sein.

Die breite Masse hat dagegen gesundheitliche Probleme zu erwarten: Leute, die mit der Tastatur arbeiten, berichten über Verspannugnen, Schmerzen in Schulter, Rücken, Armen und Handgelenken. Der Nutzer, der durch die erhöhte Beweguing der Finger erwächst, wird damit konterkariert. Erste Krankenkassen legen bereits Trainingsprogramme für Geschädigte auf. Schließlich ist das stete Klappern der tasten ein nicht zu unterschätzender Lärm- und damit Stressfaktor, der außerdem die Diktanten von ihrer Arbeit ablenkt und behindert.

Alles in allem: Seien wir froh, dass wir mit unserer Sprache eine natürliche, leicht und schnell zu verwendende Möglichkeit ahben, unseren Computer zu bedienen!

23 Januar 2012

Ein frohes neues Jahr des Drachen!

Heute beginnt das chinesische neue Jahr. 2012 steht im Zeichen des Drachen. Nach chinesischer Sitte ist dies ein gutes Jahr für Geschäfte. Kinder, die im Jahre des Drachen geboren werden, erwartet Gesundheit, Reichtum und Weisheit.

Ich wünsche ein gesundes, erfolgreiches, mit Weisheit angefülltes Neues Jahr!

19 Januar 2012

Patentantrag: Dauernde Verbesserung der Spracherkennung

Über Rüdiger Wilke kam ich an den Link zum Patentantrag für ein System zur kontinuierlichen Verbesserung der Erkennungsleistung von Spracherkennungssoftware während des Diktats. Diese Technologie ist in neueren Versionen von Dragon NaturallySpeaking bereits eingebaut und wird unter dem Namen „SilentAdapt“ vermarktet.

Der Patentantrag beschreibt sowohl die allgemeine Funktionsweise von Spracherkennung wie auch die kontinuierliche Anpassung des Systems an den Sprecher, die dafür sorgt, dass auch ohne ein anfängliches Training Spracherkennung sehr schnell mit sehr guten Resultaten möglich sein kann. Eine vollständige Übersetzung spare ich mir hier aus offenkundigen Gründen. Einige wesentliche Funktionsweisen lassen sich so darstellen:

Spracherkennung bearbeitet ein akustisches Signal (die aufgenommene Sprache), indem das Signal zunächst in kurze Einheiten zerlegt wird. Diese werden mit einem Inventar von Lauten der betreffenden Sprache abgeglichen und aufgrund von Transformationsmodellen einem oder mehreren möglichen Kandidaten für die Erkennung (also Wörtern) zugewiesen. Der wahrscheinlichste Kandidat ist das Wort, welches letztlich im Text erscheint.

Ein anfängliches Training ist in der Regel nötig, um das in der Software bereits enthaltene akustische Modell einer Sprache mit der tatsächlichen Aussprache eines Sprechers abzugleichen. Dazu wird die Aussprache des Sprechers analysiert und Transformationsregeln bestimmt, nach denen diese Aussprache in das in der Software enthaltene Modell umgerechnet wird. Was Dragon also tut, ist zum Beispiel eine extrem tiefe Stimme „höher“ zu rechnen, oder eine extrem hohe Stimme „tiefer“ usw., um den tatsächlichen Input mit dem kompatibel zu machen, was die Software sozusagen als Input erwartet.

Während des Vorlesens eines Trainingstextes werden Daten gesammelt, die anschließend diese Anpassung möglich machen. Das hier referenzierte Patent beschreibt, dass diese Anpassung auch während des Diktates, also ohne vorheriges Training, gemacht werden kann.

Dazu werden die Äußerungen des Sprechers während des Diktates analysiert und zur Adaption herangezogen. Dieser Mechanismus nennt sich Online Unsupervised Feature space Adaptation (OUFA), die Transformation des ankommenden Signals zur Adaption basiert auf einer Constrained Maximum Likelihood Linear Regression (CMLLR) adaptation. Entsprechend dieser Algorithmen wird das Eingangssignal transformiert und zur Verbesserung der Erkennungsgenauigkeit, also zur Erhöhung der statistischen Trefferquote des richtigen Kandidaten, herangezogen.

Ein weiteres Einsatzgebiet ist die in Dragon NaturallySpeaking enthaltene „akustische Optimierung“, bei der, basierend auf den während des Diktats gesammelten Informationen, das Sprecherprofil noch einmal in einem eigenen Prozess angepasst wird, der auf denselben Algorithmen beruht wie die kontinuierliche Anpassung während des Diktats.

Zu dieser akustischen Optimierung macht der Patentantrag eine für mich überraschende Aussage: unter Absatz [0032] folgt auf die Beschreibung der Mechanismen zur akustischen Optimierung der Hinweis: „it is possible that this might lead to a decrease in accuracy“. Auf die Gefahr hin, dass ich die technische Beschreibung nicht korrekt verstanden habe, stellen sich mir dann 2 Fragen:

1. wenn das Profil bereits während des Diktates angepasst wird, wozu muss dann eine nachträgliche akustische Optimierung noch sein?
2. wenn diese akustische Optimierung zu einer verschlechterten Erkennungsgenauigkeit führen kann, sollte man dann nicht darauf verzichten?

Sicherlich gibt es hierauf keine eindeutige Antwort, da sehr viel auch von der Qualität des Input abhängt. Die Beschreibung gibt allerdings eine Antwort auf ein Phänomen, welches wir immer wieder beobachtet haben, nämlich dass nicht nur nach einer akustischen Optimierung, sondern auch nach einigen Monaten des Diktats die Spracherkennung in der Qualität wieder abnimmt. Dies scheint also offensichtlich im System eingebaut zu sein.

Praktische Empfehlung daher:

Trainieren Sie Ihren Benutzer auf ein möglichst hohes Niveau und speichern Sie ihn dann an einem sicheren Ort ab. Nimmt die Erkennungsgenauigkeit irgendwann ab, haben Sie bereits einen fertig trainierten Benutzer, auf den Sie dann zurückgreifen können.

12 Januar 2012

Nuance-Neuheiten auf der CES

Der junge Mann im Bild ist der Dragon Guy, welcher derzeit die CES in Las Vegas unsicher macht (Bild getwittert von P. Mahoney, Oberster Drachenkämpfer bei Nuance).

Nuance zeigt dort neue mobile Lösungen. So ist mit Dragon Go! eine neue Android-App erschienen, die viele der von Siri bekannten Funktionen für Android nutzbar macht. Dragon Go! findet z.B. Restaurants, Musik, Wettervorhersagen, Suchergebnisse (von Wolfram Alpha), und was man sonst noch unterwegs auf seinem Smartphone braucht. Unter nuancemobilelife.com werden die in den USA bereits erhältlichen Apps vorgestellt. Und auch ein Dragon TV ist dabei - das scheint ja the next big thing zu werden...

10 Januar 2012

CES zeigt Sprachsteuerung für Fernseher und Xbox

Die in die Gestensteuerung Kinect neu integrierte Sprachsteuerung für die Microsoft Xbox ist eigentlich gar nicht mehr neu. Bei Steve Ballmers Abschiedsvorstellung auf der diesjährigen CES (Consumer Electronics Show) in Las Vegas sorgte aber die Ankündigung für Aufsehen, dass Kinect inklusive Sprachsteuerung in Windows 8 integriert werden soll.

LG hat derweil zumindest in den USA Google TV auf seinen Fernsehern integriert und will die Fernbedienung um eine Sprachsteuerung ergänzen. Im Hinblick auf die Gerüchte um den mit Siri versehenen Apple-Fernseher ist das wohl auch eine gute Strategie.

Ergänzung 11.1.: Auch Lenovo stellt einen Fernseher vor, der Android 4 und eine Spracherkennung integriert, aber zunächst nur in China auf den Markt kommt.

Auch der Knowbrainer, der größte Anbieter von Spracherkennung in den USA und Betreiber des besten Online.-Forumes, nimmt übrigens an der CES teil, oder in den Worten seiner aktuellen Signatur,

I will be handcuffed to the KnowBrainer Booth 70005 at the Las Vegas Consumer Electronics Show Jan 10-13.

Dies in der Kategorie "Emerging Technologies" - aber doch nicht mit seit Jahren hervorragend eingeführten Produkten?

02 Januar 2012

Pause vor Befehlen erhöhen – Korrektur beschleunigen!

Allen Leserinnen und Lesern ein gesundes und erfolgreiches neues Jahr 2012!

Seit Erscheinen der Version 11 von Dragon NaturallySpeaking tauchen in einigen Konstellationen Schwierigkeiten mit Latenzen auf, das heißt mit Verzögerungen in der Niederschrift des Diktates und in der Ausführung von Befehlen. Während einige dieser Probleme mit der 11.5 behoben worden, macht insbesondere das Buchstabierfenster immer noch Probleme – zwar nicht überall, aber doch immer wieder kommt es vor, dass bei einer Korrektur das Buchstabierfenster einzufrieren scheint, wieder Diktat noch Tastatureingabe annimmt, bis nach einer gefühlt unendlichen Wartezeit endlich die Korrektur gemacht werden kann.

Abhilfe scheint eine kleine Veränderung in den Dragon-Einstellungen zu schaffen – dies legt zumindest eine Diskussion im Knowbrainer-Forum nahe.

Erhöht man unter „Optionen – Befehle“ die Pause vor Befehlen minimal von 250 auf 300 ms, schiebt also den Regler ein kleines Stück weiter nach rechts bis zum nächsten Strich, so scheinen diese Latenzen behoben zu sein.

Warum? Keiner weiß es. Probieren Sie aus, ob es hilft – Feedback ist in diesem Falle besonders willkommen, da ich normalerweise keine Schwierigkeiten mit den Latenzen habe, und daher zur Bestätigung auf die Mitarbeit meiner geneigten Leser angewiesen bin.