04 Oktober 2012

Das optimale Sprachmodell

Dragon 12 bietet inzwischen 3 Sprachmodelle an: BestMatch III, BestMatch IV und BestMatch V. Diese Sprachmodelle sind jeweils auf bestimmte Prozessoren hin optimiert. BestMatch III ist das altbekannte Sprachmodell zur Verwendung mit einem Prozessorkern. BestMatch IV wurde in Dragon 11 eingeführt und nützt 2 Prozessorkerne. BestMatch V nützt mehrere Prozessorkerne gleichzeitig, benötigt aber mindestens 8 GB Arbeitsspeicher.

Durch die Verwendung des jeweils für den Rechner am besten geeigneten Sprachmodells erhofft man sich eine optimale Erkennungsgenauigkeit und Geschwindigkeit.  Das Sprachmodell wird von Dragon selbstständig ausgewählt, während ein Benutzerprofil erstellt wird. Auf der Registerkarte „Überprüfen Sie Ihre Einstellungen“ können Sie unter „Erweitert“ ein anderes Sprachmodell wählen. 




BestMatch III


BestMatch III ist das Sprachmodell, welches sich für die Verwendung mit vielen Sprachbefehlen und auf schwächeren Prozessoren anbietet. Die Erfahrung zeigt aber, dass ein ein Benutzerprofil mit BestMatch III-Sprachmodell auch bei für BestMatch V ausreichenden Systemanforderungen viel schneller läuft, besonders wenn man viele Sprachbefehle benötigt. Die Erkennungsgenauigkeit leidet nicht.

Um ein Benutzerprofil mit Sprachmodell BestMatch III anzulegen, erstellen Sie einen neuen Benutzer über den Benutzerassistenten. Im abschließenden Bildschirm werden Sie gebeten, Ihre Angaben noch einmal zu überprüfen. Wählen Sie dort „Erweitert“ und in dem Fenster, welches dann erscheint, „BestMatch III“. Folgen Sie dann weiter dem Assistenten.

BestMatch V


BestMatch V läuft nur auf mehreren Prozessorkernen und mindestens 8 GB Arbeitsspeicher und soll dort höchstmögliche Geschwindigkeit und Genauigkeit garantieren. Wir empfehlen, dieses Sprachmodell dann einzusetzen, wenn nicht mit Sprachbefehlen gearbeitet wird, und in den Dragon-Optionen, Registerkarte „Befehle“, die dort aufgeführten Sprachbefehle nach Möglichkeit zu deaktivieren, sowie unter „Extras – Optionen – weitere Einstellungen“ die Sprachsteuerung für Menüs usw. komplett abzuschalten.

17 September 2012

FAZ über Dragon 12 und seine Konkurrenten

Dragon NaturallySpeaking 12 ist seit einigen Tagen auf dem Markt, und die FAZ veröffentlichte am vergangenen Dienstag den 1. Test. Dieser ist nun online abrufbar.

Neben dem gewohnt kompetenten Vergleich verschiedener Spracherkenner, die sich derzeit auf dem Markt befinden, arbeitet der Artikel sehr schön die Vorteile der neuen Version heraus. Was die Verbesserung der Erkennungsgenauigkeit angeht, so lässt sich diese nur noch als asymptotische Funktion beschreiben, d.h. je näher man zum Grenzwert kommt, desto flacher verläuft die Kurve. Will sagen: die ohnehin schon hervorragende Erkennungsgenauigkeit aus Dragon NaturallySpeaking 11 lässt sich nicht mehr dramatisch steigern, auch wenn immer noch Verbesserungen möglich sind und auch vorgenommen worden.

Wichtig und auch schön formuliert finde ich die Bemerkung, wer nach ein paar Runden im Porsche 911 die Leistung eines Formel-1-Boliden suche, komme um ein Fahrertraining nicht herum. Dragon 12 hat in dieser Hinsicht einiges getan, um den Einstieg zu erleichtern. Nichtsdestotrotz zeigt die Erfahrung, dass ein kompetenter Trainer in der Regel sehr viel mehr aus dem Programm herauszuholen hilft, als der Anwender auf den 1. Blick vermutet. (Nur am Rande: vor ein paar Tagen habe ich Dragon einem Arzt vorgeführt, der auch selbst ein wenig diktieren wollte, aber natürlich schon an den Korrekturbefehl gescheitert ist – wofür sollte er sie auch kennen, denn sie ihm keiner gezeigt hat?)

Da ich keine Lust habe, mich bei FAZ NET anzumelden, hier mein Kommentar zu einem Leserkommentar:

Wer die Qualität der Spracherkennung daran bemisst, ob auf 1000 Buchstaben weniger als 2 Fehler oder auf 10 Sätze weniger als ein fehlerhafter Satz auftaucht, hat offensichtlich das grundlegende Prinzip nicht verstanden. Die Fehlerquote der Spracherkennung wird immer in falsch erkannten Wörtern gemessen – da Spracherkennung keine Tippfehler macht, sind falsche Buchstaben kein Kriterium, und da Sätze im Deutschen zwischen 2 und unendlich vielen Wörtern haben können, kann auch dies nicht verlässlich die Leistung einer Spracherkennung beurteilen. Und natürlich ist auch dieser Beitrag wieder diktiert.

Wo bleibt denn nun mein eigener Test? – Im Moment stecke ich so tief in der Beurteilung von Dragon 12, dass ich vor lauter Bäumen den Wald nicht mehr sehe. Insofern danke ich Herrn Spehr dafür, dass er mir in gewohnt kompetente Art und Weise die Arbeit abgenommen hat.

19 Juli 2012

„SendKeys“ bzw. „HOOKERR...“-Problem behoben!


Wie bekannt, häufte sich in der letzten Zeit eine Dragon NaturallySpeaking-Fehlermeldung „SendKeys wurde abgebrochen“ oder „HOOKERR_NONOTIFYWINDOW“. Diese Dragon-Fehlermeldung wurde vom Adobe Flashplayer Version 11.3.300.257 provoziert. Ein Downgrade auf eine frühere Version hat das Problem beseitigt.

Mit der neuesten Flashplayer-Version 11.3.300.265 ist das Problem offenbar behoben. Wir haben die neue Version 3 Tage lang auf mehreren Rechnern getestet, ohne dass der Fehler noch einmal aufgetreten wäre.

Die Version 11.3.300.265 des Adobe Flashplayer können Sie hier herunterladen:
http://get.adobe.com/flashplayer/

Weitere Alternativen werden hier diskutiert:

http://immer-eine-nuance-besser.de/viewtopic.php?f=16&t=210

Da das Upgrade auf die aktuelle Version den Fehler aber offensichtlich beseitigt, raten wir dazu, diesen Weg zu wählen.

16 Juli 2012

Spracherkennung im Auto

"Die Hände auf dem Lenkrad, die Augen auf der Straße" - so bewirbt Nuance seine neue "Dragon Drive!"-Technologie (Heise berichtet). Der Dienst soll es möglich machen, im Auto sowohl Funktionen zu steuern die Navigation, Radio, CD-Player; als auch unterwegs im Auto E-Mails und SMS zu diktieren oder sich vorlesen zu lassen. Ein Video gibt einen Vorgeschmack:



BMW hat diesen Dienst jetzt in seiner neuen 7er Serie integriert. Am Donnerstag fahren wir zum jährlichen Händlerevent zu Nuance nach München und werden dort unter anderem das BMW-Gebäude besichtigen – lassen Sie mich raten, welche neue Technologie da wohl im Vordergrund stehen wird.

Zunächst wird es möglich sein, sich E-Mail und SMS vorlesen zu lassen (dies gibt es bereits) und per Spracherkennung auf zu antworten. Auch die Sprachsteuerung vomn Navi und Radio soll möglich werden. Weitere Funktionen werden dann voraussichtlich in nicht allzu ferner Zukunft folgen.

Die integrierte Technologie ist übrigens dieselbe wie Dragon Go!, die in Android 4 enthalten sein soll und schon als "Siri on steroids" gefeiert wurde (den Link finde ich gerade nicht).

05 Juli 2012

Problemlösung: "HOOKERR_NONOTIFY_WINDOW" bzw. "Sendkeys wurde abgebrochen"

Das aktuelle Problem mit der Fehlermeldung „SendKeys wurde abgebrochen", alternativ „HOOKERR_NONOTIFY_WINDOW" wird vom Adobe Flashplayer 11.3 verursacht. Dieser hat sich vermutlich automatisch oder im Rahmen eines Browser-Update upgedatet. Naheliegende Lösung: Version 11.3 deinstallieren, Version 11.2 neu installieren.

Hier können Sie testen, welche Version des Flashplayer installiert ist. V. 11.2 ist gut, V. 11.3 verursacht den Fehler.

Um den Flash Player zu deinstallieren, gehen Sie auf: oder in die Systemsteuerung - Programme.

Der Download für den Flash Player 11.2 liegt unter http://helpx.adobe.com/flash-player/kb/archived-flash-player-versions.html#main_Archived_versions  oder direkt unter  http://fpdownload.macromedia.com/get/flashplayer/installers/archive/fp_11.2.202.233_archive.zip

Der Download hat 156 MB und enthält Versionen für 32 Bit und 64 Bit Windows, MAC und Linux. Bitte wählen Sie das korrekte Installationspaket. Für 32-bit Windows ist dies flashplayer11_2r202_233_win_32bit.msi, für 64-bit Windows flashplayer11_2r202_233_win_64bit.msi. Testen Sie unter die erfolgreiche Installation und wählen Sie nötigenfalls ein anderes Installer-Paket.

Um zu verhindern, dass sich der Adobe Flash Player automatisch updatet, gehen Sie so vor:

· Entweder gehen Sie in die Systemsteuerung - Flash Player
· oder Gehen Sie auf irgend eine Webseite, auf der Flash-Inhalte angezeigt werden, also z.B. auf die Testseite: und machen Sie einen Rechtsklick auf die Flash-Animation
· wählen Sie „globale Einstellungen - erweitert". Schalten Sie dort ab, dass Updates automatisch installiert werden.
· Sollten Sicherheitsbedenken auftreten: unter finden Sie eine Liste der im Flashplayer 11.3 behobenen Sicherheitslücken. Da das Upgrade auf 11.3 mit Dragon NaturallySpeaking zusammen recht zuverlässig einen Fehler provoziert, während diese Sicherheitslücken „nur" potentielle Gefahrenquellen sind, sollte man das Risiko abwägen, was das geringere Übel ist.

Hilft nicht? Hier weiterlesen: http://voiceberlin.blogspot.de/2011/04/aus-gegebenem-anlass-probleme-mit-adobe.html oder kommentieren unter  http://immer-eine-nuance-besser.de/viewtopic.php?f=16&t=210 

20 Juni 2012

HOOKERR_NONOTIFYWINDOW ist wieder da!

Anwender von Dragon NaturallySpeaking 11 erinnern sich eventuell an die Fehlermeldung  HOOKERR_NONOTIFYWINDOW.

Ursache war seinerzeit der Adobe Reader X, der mit Dragon NaturallySpeaking (übrigens in allen Versionen) nicht vollständig kompatibel war. Nuance hat im Upgrade auf Dragon NaturallySpeaking 11.5 das Problem gelöst; Adobe mit einem Upgrade auf den Reader X.1.3 (hier die aktuelle Version) nachgezogen. Insofern sollte jeder auf der sicheren Seite sein, der eines dieser beiden Programme (oder natürlich beide) verwendet.

Umso erstaunter waren wir, als in den letzten Tagen diese Fehlermeldung wieder gehäuft auftauchte,  wie auch die Meldung "Sendkeys wurde abgebrochen", die ebenfalls mit dem Adobe Reader-Problem zu tun hatte. Eine Recherche ergab, dass der Übeltäter diesmal der Adobe Flash Player 11.3 ist, der in der Regel über eine automatische Aktualisierung entweder des Flashplayer selbst oder des Mozilla Firefox installiert wird.

Die offensichtliche Lösung: Deinstallieren Sie die Version 11.3 und laden Sie sich die Version 11.2 herunter, mit der, soweit bekannt, keine Schwierigkeiten mit Dragon NaturallySpeaking auftreten.

Weil der Fehler noch relativ neu ist, können wir noch nicht aus eigener Erfahrung hundertprozentig bestätigen, dass der Adobe Flashplayer 11.3 tatsächlich diese Fehlermeldung verursacht. Die Kollegen von Speakeasy Solutions und Knowbrainer habe da schon mehr Erfahrung gesammelt; danke für die sachdienlichen Hinweise!

08 März 2012

DSS Pro-Standard verbessert

Grundig, Olympus und Philips, Hersteller professioneller digitaler Diktiergeräte, haben den Datenschutz des Audiocodec DSSPro weiter erhöht. Dieser in der professionellen Sprachverarbeitung etablierte Codec erlaubt nun zusätzlich zu der 128-Bit-Verschlüsselung optional auch eine 256-Bit-Verschlüsselung. "Wir führen die doppelte Verschlüsselungsrate ein, um den aktuellen Datenschutz-Anforderungen in sensiblen Branchen wie dem Gesundheits- und Justizwesen gerecht zu werden", so ein Sprecher der International Voice Association (IVA). In den USA beispielsweise ist eine solch hohe Verschlüsselungsstärke laut dem Health Insurance Portability and Accountability Act (HIPAA) Pflicht. So sind die personenbezogenen Daten bestens vor unerlaubtem Zugriff geschützt.

(Quelle: Grundig Pressemitteilung)

Neben höherer Sicherheit bietet der DSS Pro-Standard auch eine bessere Sprachqualität. Zur Verwendung mit Spracherkennung ist er daher bestens geeignet und ein wesentlicher Grund, sich für ein digitales Diktiergerät zu entscheiden, welches diesen Standard nutzt.

Edit 13.03.2012:

Nach einem Gespräch mit Philips weiß ich jetzt auch, wie man die höhere Verschlüsselung für sich nutzbar machen kann: Laden Sie sich die neueste Firmware vom Hersteller auf das Diktiergerät. Anweisungen finden Sie bei den jeweiligen Herstellern.

05 März 2012

Billy Idol's understudy

Dieser wunderschöne Erkennungsfehler kam dabei heraus, als ich versehentlich versuchte, mit einem englischen Benutzerprofil den Titel unseres neuen Forums, www.immer-eine-Nuance-besser.de, zu diktieren. Billy Idol's Zweitbesetzung... so hatte ich das noch nie gesehen.

27 Februar 2012

Neues Forum für Spracherkennung und digitales Diktat

Das von der Firma EGS Computer Vertrieb unter meiner Mitarbeit ins Leben gerufene Anwenderforum für professionelle Spracherkennung ist jetzt fertig und online!

Unter der Adresse www.immer-eine-nuance-besser.de finden Sie ab sofort das Anwenderforum für Dragon NaturallySpeaking, Philips-Eingabegeräte und -Software, sowie Sennheiser Headsets.

Die aktive Unterstützung aller drei Hersteller ist uns zugesagt. Die entsprechenden Personen sind im Forum auch schon angemeldet und z.T. schon aktiv!

Weil sich in diesem Forum zertifizierte Händler und Supporter wie auch Mitarbeiter der jeweiligen Hersteller aufhalten, hoffen wir, besonders qualifizierten Support auch bei schwierigen Anfragen liefern zu können.

Gerade das Zusammenwirken verschiedener Komponenten und der Vergleich unterschiedlicher Lösungsansätze kann ja nur davon profitieren, dass möglichst viele verschiedene Perspektiven zur Sprache gebracht werden können und ein professionelles Feedback erhalten.

Aus eigener Erfahrung habe ich außerdem festgestellt, dass in den anderen mir bekannten Foren die Expertise für alles, was mit Netzwerk und Netzwerkinstallation zusammenhängt, eher schwach ausgeprägt ist. Hier kann unser neues Forum www.immer-eine-Nuance-besser.de eine echte Lücke schließen.

Also, liebe Leserinnen und Leser: registrieren Sie sich noch heute! Hier werden Sie von Profis geholfen!

30 Januar 2012

Fehlersuche beim Mikrofon

Probleme mit der Erkennungsgenauigkeit sind in vielen Fällen auf Schwierigkeiten mit einem suboptimalen oder defekten Mikrofon zurückzuführen.

Regel Nr. 1 bei Erkennungsproblemen: zunächst den Audioassistenten von Dragon NaturallySpeaking ausführen und nach dem 2. Text anhören, ob die Aufnahme tatsächlich klar ist. Häufig kommen irgendwo Störgeräusche in das Signal, die bei der Spracherkennung stören. Hört man sich schon an dieser Stelle die Aufnahme an (mit Klick auf "Wiedergabe"), kann man gezielt danach suchen und die Störungen ausschalten.


Häufige Ursachen sind:

- an irgendeiner Stelle der Signalkette kommt es zu Brummen oder Knacken, zum Beispiel durch ein defektes Kabel (zum Test während des Vorlesens das Kabel des Headsets bewegen, bzw. bei einem schnurlosen Headset das Kabel von der Ladestation zum Rechner)
– Das Gerät wird an einem USB-Anschluss vorne am Computer angeschlossen, der anfälliger ist für elektrische Interferenzen als rückwärtige USB-Anschlüsse
– das Gerät ist einfach nicht ganz richtig positioniert und liefert daher suboptimale Tonqualität.

Hören Sie sich die Aufnahme kritisch an und achten Sie auch darauf, dass in der Grafik, in der mit grünen und gelben Balken das Verhältnis von Sprache und Nebengeräusch angezeigt wird, der Abstand von den grünen zu den gelben Balken ausreichend groß ist und es vor allen Dingen keine Spitze bei den gelben Balken gibt. Diese weist fast immer darauf hin, dass in diesem Frequenzbereich eine Störung auftritt.

25 Januar 2012

Was, wenn wir alle tippen würde?

Eine Knowbrainer-Diskussion um den Einsatz von Spracherkennung in Großraumbüros erinnerte mich an einen Artikel, den ich vor Jahren einmal gelesan habe: Was, wenn alle Leute plötzlich anfangen müsstem, auf tasten einzuschlagen, anstatt flüssig zu diktieren?

Zunächst würde die geschwindigkeit der Abreit abnehmen; außerdem die enauigkeit der Rechtschreibung (nur als kleiner Hinweis für alle, die es noch nicht gemerkt haben: Ich tippe diesen Beitrag ausnahmsweiswe). Großbuchstaben, die im Deutschen sehr häufig auftraeten, müssen durch die Bank mit einer Kombination aus zwei Tasten geschrieben werden. Verwirrend ist auch dei Beschriftung der Tasten mit - Sie erraten es - Großbuchstaben.

Korrekturen müssten mit absurden tastenkombinationen gemacht werdern ind beinhalten unzählige Schritte: Pfeil nach links x-mal drücke, dann die Rücktaste oder Entfernen-Taste (wozu zwei fast identische tasten, die der Anwender leicht verwechselt?), dann wirder die Ende-Taste oder gar eine schwer zu merkende Kombination mit Strg und Ende (Anmerkung: was soll dieses Strg eigentlich? Wieso String?). Dri9tthersteller bieten inzwischen Programme zur automatischen Rechtschreibkorrekturan oder bauen gar die Korrektur häufig vorkommender Fehler als Automatismus in ihre textverarbeitung ein.

Allein das erlernen dieser Techniologie dauert endlos lange. Am Anfang kreisen die Finger wie ein Adler über der tastatur, während man den richtigen Buchstaben sucht, erst nach Wochen oder Monaten gewöhnt man sich an die anscheinend völlig willkürliche Anordnung. Möglicherweise lässt sich einiges verbessern, indem man häufig benutzte Wörter auf spezielle Tasten legt. Hersteller haben vereits F-Tasten am oberen Rand ihrer Tasteturen angebracht, die aber im Moment vor allem sinnlose Aktionen ausführen - besonders irritierend, wenn man sie versehentlich drückt. Das gleiche gilt übrigens auch für die Mehrfachtasten - man berichtet davon, dass ohne ersichtlichen Grund sich plötzlich dei Bildschirmanzeige um 90 oder gar 180° dreht, und erst ein hochbezahlter Spezialist benötigt wird, um herauszufinden, dass dies daher rührt, dass der Anwender versehentlich eine Taste mit der rätselhaften Bezeichnung AltGr und eine Pfeiltaste gleichzeitig gedrückt hat.

Dazu kommt, dass das langsame Tippen den Gedankenfluss hemmt. Anstatt einen Satz flüssig zu sprechen, wird man gehemmt durch das Drücken von anscheinend zufällig verteilten Tasten, teils in merkwürdigen Kombinationen. Die meisten von uns wird das deutlich bremsen und zu einer ganz anderen Arbeitsweise als bisher gewohnt führen. Bei einigen Leuten, v.a. Beamten, würde die Entschleunigung der Textproduktion natürlich auch zu Vorteilen führen - wer langsamer arbeitet, macht vielleciht auch weniger Fehler. Vertreter der Industrie führen auch andere Erfolgsgeschichten an: In einigen Schweizer Kantonen sind manche Anwender beim Tippen tatsächlich schneller als beim Sprechen. Dem gehen jedoch Monate an intensivem Training voraus, was von Seiten der Industrie gern verschwiegen wird.

In manchen Umgebungen, z.B. bei geldautomaten, mAG die Eingabe per Tastatur sinnvoll sein. Das Dezimalsystem kommt der natürlichen Anzahl der Finger entgegen, und Spracherkennung funktioniert in lauten Umgebungen wie einer Schalterhalle nur eingeschränkt. Abgesehen davon haben viele Leute verständliche Hemmungen, ihre Gweheimzahl laut auszusprechen, so das eine kleine Zahlentastatur hier durchaus Vorteile mit sich bringt. Auch Sprachbehinderte und Erkältungspatienten haben Vorteile durch Tastaturen, wenn sie ihre Stimme nicht gebrauchen können. Für diese kleine Gruppe mag eine Tastatur sogar ein Segen sein.

Die breite Masse hat dagegen gesundheitliche Probleme zu erwarten: Leute, die mit der Tastatur arbeiten, berichten über Verspannugnen, Schmerzen in Schulter, Rücken, Armen und Handgelenken. Der Nutzer, der durch die erhöhte Beweguing der Finger erwächst, wird damit konterkariert. Erste Krankenkassen legen bereits Trainingsprogramme für Geschädigte auf. Schließlich ist das stete Klappern der tasten ein nicht zu unterschätzender Lärm- und damit Stressfaktor, der außerdem die Diktanten von ihrer Arbeit ablenkt und behindert.

Alles in allem: Seien wir froh, dass wir mit unserer Sprache eine natürliche, leicht und schnell zu verwendende Möglichkeit ahben, unseren Computer zu bedienen!

23 Januar 2012

Ein frohes neues Jahr des Drachen!

Heute beginnt das chinesische neue Jahr. 2012 steht im Zeichen des Drachen. Nach chinesischer Sitte ist dies ein gutes Jahr für Geschäfte. Kinder, die im Jahre des Drachen geboren werden, erwartet Gesundheit, Reichtum und Weisheit.



Ich wünsche ein gesundes, erfolgreiches, mit Weisheit angefülltes Neues Jahr!

19 Januar 2012

Patentantrag: Dauernde Verbesserung der Spracherkennung

Über Rüdiger Wilke kam ich an den Link zum Patentantrag für ein System zur kontinuierlichen Verbesserung der Erkennungsleistung von Spracherkennungssoftware während des Diktats. Diese Technologie ist in neueren Versionen von Dragon NaturallySpeaking bereits eingebaut und wird unter dem Namen „SilentAdapt“ vermarktet.

Der Patentantrag beschreibt sowohl die allgemeine Funktionsweise von Spracherkennung wie auch die kontinuierliche Anpassung des Systems an den Sprecher, die dafür sorgt, dass auch ohne ein anfängliches Training Spracherkennung sehr schnell mit sehr guten Resultaten möglich sein kann. Eine vollständige Übersetzung spare ich mir hier aus offenkundigen Gründen. Einige wesentliche Funktionsweisen lassen sich so darstellen:

Spracherkennung bearbeitet ein akustisches Signal (die aufgenommene Sprache), indem das Signal zunächst in kurze Einheiten zerlegt wird. Diese werden mit einem Inventar von Lauten der betreffenden Sprache abgeglichen und aufgrund von Transformationsmodellen einem oder mehreren möglichen Kandidaten für die Erkennung (also Wörtern) zugewiesen. Der wahrscheinlichste Kandidat ist das Wort, welches letztlich im Text erscheint.

Ein anfängliches Training ist in der Regel nötig, um das in der Software bereits enthaltene akustische Modell einer Sprache mit der tatsächlichen Aussprache eines Sprechers abzugleichen. Dazu wird die Aussprache des Sprechers analysiert und Transformationsregeln bestimmt, nach denen diese Aussprache in das in der Software enthaltene Modell umgerechnet wird. Was Dragon also tut, ist zum Beispiel eine extrem tiefe Stimme „höher“ zu rechnen, oder eine extrem hohe Stimme „tiefer“ usw., um den tatsächlichen Input mit dem kompatibel zu machen, was die Software sozusagen als Input erwartet.

Während des Vorlesens eines Trainingstextes werden Daten gesammelt, die anschließend diese Anpassung möglich machen. Das hier referenzierte Patent beschreibt, dass diese Anpassung auch während des Diktates, also ohne vorheriges Training, gemacht werden kann.

Dazu werden die Äußerungen des Sprechers während des Diktates analysiert und zur Adaption herangezogen. Dieser Mechanismus nennt sich Online Unsupervised Feature space Adaptation (OUFA), die Transformation des ankommenden Signals zur Adaption basiert auf einer Constrained Maximum Likelihood Linear Regression (CMLLR) adaptation. Entsprechend dieser Algorithmen wird das Eingangssignal transformiert und zur Verbesserung der Erkennungsgenauigkeit, also zur Erhöhung der statistischen Trefferquote des richtigen Kandidaten, herangezogen.

Ein weiteres Einsatzgebiet ist die in Dragon NaturallySpeaking enthaltene „akustische Optimierung“, bei der, basierend auf den während des Diktats gesammelten Informationen, das Sprecherprofil noch einmal in einem eigenen Prozess angepasst wird, der auf denselben Algorithmen beruht wie die kontinuierliche Anpassung während des Diktats.

Zu dieser akustischen Optimierung macht der Patentantrag eine für mich überraschende Aussage: unter Absatz [0032] folgt auf die Beschreibung der Mechanismen zur akustischen Optimierung der Hinweis: „it is possible that this might lead to a decrease in accuracy“. Auf die Gefahr hin, dass ich die technische Beschreibung nicht korrekt verstanden habe, stellen sich mir dann 2 Fragen:

1. wenn das Profil bereits während des Diktates angepasst wird, wozu muss dann eine nachträgliche akustische Optimierung noch sein?
2. wenn diese akustische Optimierung zu einer verschlechterten Erkennungsgenauigkeit führen kann, sollte man dann nicht darauf verzichten?

Sicherlich gibt es hierauf keine eindeutige Antwort, da sehr viel auch von der Qualität des Input abhängt. Die Beschreibung gibt allerdings eine Antwort auf ein Phänomen, welches wir immer wieder beobachtet haben, nämlich dass nicht nur nach einer akustischen Optimierung, sondern auch nach einigen Monaten des Diktats die Spracherkennung in der Qualität wieder abnimmt. Dies scheint also offensichtlich im System eingebaut zu sein.

Praktische Empfehlung daher:

Trainieren Sie Ihren Benutzer auf ein möglichst hohes Niveau und speichern Sie ihn dann an einem sicheren Ort ab. Nimmt die Erkennungsgenauigkeit irgendwann ab, haben Sie bereits einen fertig trainierten Benutzer, auf den Sie dann zurückgreifen können.

12 Januar 2012

Nuance-Neuheiten auf der CES

Der junge Mann im Bild ist der Dragon Guy, welcher derzeit die CES in Las Vegas unsicher macht (Bild getwittert von P. Mahoney, Oberster Drachenkämpfer bei Nuance).

Nuance zeigt dort neue mobile Lösungen. So ist mit Dragon Go! eine neue Android-App erschienen, die viele der von Siri bekannten Funktionen für Android nutzbar macht. Dragon Go! findet z.B. Restaurants, Musik, Wettervorhersagen, Suchergebnisse (von Wolfram Alpha), und was man sonst noch unterwegs auf seinem Smartphone braucht. Unter nuancemobilelife.com werden die in den USA bereits erhältlichen Apps vorgestellt. Und auch ein Dragon TV ist dabei - das scheint ja the next big thing zu werden...

10 Januar 2012

CES zeigt Sprachsteuerung für Fernseher und Xbox

Die in die Gestensteuerung Kinect neu integrierte Sprachsteuerung für die Microsoft Xbox ist eigentlich gar nicht mehr neu. Bei Steve Ballmers Abschiedsvorstellung auf der diesjährigen CES (Consumer Electronics Show) in Las Vegas sorgte aber die Ankündigung für Aufsehen, dass Kinect inklusive Sprachsteuerung in Windows 8 integriert werden soll.

LG hat derweil zumindest in den USA Google TV auf seinen Fernsehern integriert und will die Fernbedienung um eine Sprachsteuerung ergänzen. Im Hinblick auf die Gerüchte um den mit Siri versehenen Apple-Fernseher ist das wohl auch eine gute Strategie.

Ergänzung 11.1.: Auch Lenovo stellt einen Fernseher vor, der Android 4 und eine Spracherkennung integriert, aber zunächst nur in China auf den Markt kommt.

Auch der Knowbrainer, der größte Anbieter von Spracherkennung in den USA und Betreiber des besten Online.-Forumes, nimmt übrigens an der CES teil, oder in den Worten seiner aktuellen Signatur,
I will be handcuffed to the KnowBrainer Booth 70005 at the Las Vegas Consumer Electronics Show Jan 10-13.
Dies in der Kategorie "Emerging Technologies" - aber doch nicht mit seit Jahren hervorragend eingeführten Produkten?

02 Januar 2012

Pause vor Befehlen erhöhen – Korrektur beschleunigen!

Allen Leserinnen und Lesern ein gesundes und erfolgreiches neues Jahr 2012!

Seit Erscheinen der Version 11 von Dragon NaturallySpeaking tauchen in einigen Konstellationen Schwierigkeiten mit Latenzen auf, das heißt mit Verzögerungen in der Niederschrift des Diktates und in der Ausführung von Befehlen. Während einige dieser Probleme mit der 11.5 behoben worden, macht insbesondere das Buchstabierfenster immer noch Probleme – zwar nicht überall, aber doch immer wieder kommt es vor, dass bei einer Korrektur das Buchstabierfenster einzufrieren scheint, wieder Diktat noch Tastatureingabe annimmt, bis nach einer gefühlt unendlichen Wartezeit endlich die Korrektur gemacht werden kann.

Abhilfe scheint eine kleine Veränderung in den Dragon-Einstellungen zu schaffen – dies legt zumindest eine Diskussion im Knowbrainer-Forum nahe.

Erhöht man unter „Optionen – Befehle“ die Pause vor Befehlen minimal von 250 auf 300 ms, schiebt also den Regler ein kleines Stück weiter nach rechts bis zum nächsten Strich, so scheinen diese Latenzen behoben zu sein.

Warum? Keiner weiß es. Probieren Sie aus, ob es hilft – Feedback ist in diesem Falle besonders willkommen, da ich normalerweise keine Schwierigkeiten mit den Latenzen habe, und daher zur Bestätigung auf die Mitarbeit meiner geneigten Leser angewiesen bin.