22 September 2006

VXI Roadwarrior Bluetooth-Headset

Die Firma VXI ist bekannt für ihre robusten Headset-Lösungen, die darüber hinaus eine hervorragende Tonqualität für Spracherkennung mit Dragon NaturallySpeaking bieten. Das VXI Parrott TalkPro ist seit längerer Zeit das Headset meiner Wahl, weil es bequem sitzt und unter günstigen Umständen eine praktisch hundertprozentige Erkennung meiner Sprache garantiert. In Amerika sind schon länger Bluetooth-Lösungen von VXI auf dem Markt, von denen die ersten Geräte jetzt auch in Deutschland getestet werden. Ich hatte die Möglichkeit, ein solches Gerät - blueparrott RoadWarrior B150 - vom Distributor Jolo Data zum Test zu erhalten. Das Headset selbst wendet sich, wie der Name schon sagt, eigentlich an Lkw-Fahrer, die unterwegs mobil telefonieren möchten und eventuell auch den Computer nützen möchten - zumindest ist auf der Verpackung ein rustikal aussehender Herr im Führerhaus eines Lkw mit einem Notebook auf den Schoß zu sehen.

Die solide Ausführung des Headset bezieht sich also auf den potentiellen Einsatzbereich. Jedoch wurde das Headset auch von Nuance für Dragon NaturallySpeaking zertifiziert; um es mit einem PC zu verwenden, muss diese entweder Bluetooth-fähig sein oder man benötigt einen Bluetooth-Adapter. In kurzer Zeit soll aber ein fertiges Paket mit Headset und Bluetooth-Adapter lieferbar sein.

Voraus schicken muss ich, dass Bluetooth und ich zwei verschiedene Welten sind. Es ist mir noch nie gelungen, ein Bluetooth-Gerät auf Anhieb anzuschließen und zu benutzen. Vor diesem Hintergrund ging es erfreulich schnell, das Headset mit meinem PC zu verbinden. Nachdem es über Nacht aufgeladen wurde, ließ es sich problemlos verbinden und als Standard-Gerät einstellen.

Auch der Einsatz mit der Spracherkennung Dragon NaturallySpeaking gestaltet sich verhältnismäßig unproblematisch. Wichtig ist, das Bluetooth-Headset als zusätzliche Diktierquelle anzulegen. Man muss man leider noch einmal ein vollständiges Benutzertraining absolvieren, bevor man anfangen kann zu diktieren. Es hilft nicht, einfach nur den Audio-Assistenten auszuführen - die Erkennungsgenauigkeit ist danach absolut unzureichend.

Auch beim Anlegen des Bluetooth-Headset als neuer Diktierquelle hatte ich das Problem, dass am Anfang die Übertragung anscheinend nicht ausreichend war. Zumindest erschien im Audio-Assistent beim Einstellen der Lautstärke eine Fehlermeldung, es war unmöglich, weiter zu gehen. Im letzten Schritt erzielte ich dann immerhin 17 Punkte. Dies ist etwas unter meinem gewöhnlichen Durchschnitt.

Zunächst mal kann ich sagen, dass das Headset sehr bequem sitzt. Es wird nicht am Ohr befestigt, sondern mit einem Überkopf-Bügel, welcher anscheinend derselbe ist wie beim VXI Parrott TalkPro. Jedenfalls ist das Gerät sehr bequem. Optisch etwas gewöhnungsbedürftig ist die relativ große Sendestation am Ohr, die darüber hinaus während der Arbeit blinkt - die Kollegin beschwert sich schon über die Leuchtzeichen, die ich aussende. Das Gewicht und der ausgeübte Druck sind auf jeden Fall sehr gut auch über längere Zeit zu ertragen.

Am Gerät selbst sind drei Knöpfe - ein Multifunktions-Knopf, mit dem sich zum Beispiel das Headset stummschalten oder auch Telefongespräche annehmen lassen, zwei Knöpfe zur Lautstärkeregelung.

Jetzt zur Qualität der Spracherkennung. Das erste System, auf dem das Gerät getestet wurde, ist ein Computer mit einem Pentium vier-Prozessor, 3,4 GHz, 1 GB RAM. Der verwendete Bluetooth-Strecke stammt von der Firma BlueSoleil - zu meiner Schande sei's gesagt, aber es ist ein einfacher Aldi-Rechner. Die erste Zählung von Wörtern und die Ermittlung des Fehlerquotienten ergibt:

516 Wörter, 13 Erkennungsfehler (wenn man die regelmäßige Fehlerkennung von Bluetooth als Lotus nur einmal wertet) - also eine Erkennungsgenauigkeit von 97,5% nach der Formel 100-(Fehler*100/Wörter) = Erkennungsrate in %.

Ein Test auf einem Notebook (Pentium M. 1,8 GHz, 1 GB RAM) ergibt ein ähnliches Bild. die Erkennung läuft hier etwas schneller als auf dem Desktop-PC, bei der Konfiguration beziehungsweise beim Benutzertraining ergab sich dasselbe Problem mit der Lautstärke Einstellung des Mikrophons.

Als Bluetooth-Stack kommt ein Dongle zum Einsatz, das ursprünglich für die Verbindung mit einem Sony Ericsson-Headset vorgesehen war (im Paket als Xovox Communicator erhältlich). Angeblich ist dieser Bluetooth-Stack besonders gut zur Zusammenarbeit mit Spracherkennung geeignet. Im übrigen habe ich das Sony Ericsson-Headset früher mit beiden Rechnern verwendet, konnte aber keine großen Unterschiede in der Qualität auf dem einen oder anderen Rechner feststellen.

Bezüglich der Spracherkennungsqualität lässt sich feststellen, dass die Übertragung um einiges schneller geht als bei dem Olympus-Mikrophon, welches ich sonst verwendet hatte. Der gesprochene Text erscheint schneller auf dem Bildschirm. Allerdings machten sich bei beiden Testrechnern Verzögerungen bei der Erkennung von Befehlen bemerkbar. Dies ist in Dragon NaturallySpeaking 91 bekanntes Problem. (Auch wie diese ärgerliche Zusammensetzung von einer Zahl und dem unbestimmten Artikel zu einer anderen Zahl - aber dazu gibt es ja Tricks, wie man es vermeiden kann. Man muss nur daran denken, zum Beispiel "Dragon NaturallySpeaking 9 Leertaste ein bekanntes" zu sagen.)

Auffällig ist in dieser Kombination, dass nicht nur die Geschwindigkeit der Spracherkennung besser ist, sondern auch die Qualität. Abgesehen von völlig unbekannten Wörtern wird mein Diktat nach DragonPad mit fast 100 prozentiger Genauigkeit erkannt. (Und auch hier zeigt sich wieder eine Schwäche von Dragon NaturallySpeaking: sobald man anfängt, dass Programm zu loben, macht es Fehler.)

Nach Korrektur aller Erkennungsfehler und Abzug der Wörter, die nicht im Wörterbuch enthalten sind, ergibt sich eine Erkennungsgenauigkeit von 98%.

Inwiefern also ratsam ist, eine bestimmte Bluetooth-Software zu verwenden, sei einmal dahingestellt; ein Unterschied von einem halben Prozent in der Erkennungsgenauigkeit ist hier nicht wirklich aussagekräftig, schon gar nicht, wenn zwei verschiedene Rechner verwendet werden. Jedenfalls lässt sich schon nach einer oberflächlichen Betrachtung sagen, dass das VXI Roadwarrior-Headset eine gute Wahl ist, wenn man ein robustes, bequem zu tragendes schnurloses Headset sucht. Wenn dann demnächst der entsprechende Bluetooth-Adapter mitgeliefert wird, könnte es mein neues Lieblings-Headsets werden.

Huh!

"Endlich versteht dich jemand" - wirbt Nuance für Dragon NaturallySpeaking 9. Politisch korrekt ist die Verständnis heuchelnde Dame aber nicht :-)

Und eine hübsche Sammlung von Missverständnissen aus dem medizinischen Bereich (Englisch) gibt es beim Knowbrainer.

20 September 2006

Wie Zahlen funktionieren

Wie das Diktat von Zahlen funktioniert, erklärt Dieter Ruckstuhl von Mevotec im Dragon-Forum. Hilfreich auch die Hinweise von D. Peters und Carsten Stückmann in Antwort-Postings bezüglich der alten Probleme des Diktats von 20ern, Daten, und dem unbestimmten Artikel vor oder nach einer Zahl. Immer noch Workarounds, aber es geht.

Was mir auffiel, ist dass das Diktat von Ordnungszahlen in DNS Legal 9 einwandfrei funktioniert, in Professional hingegen nicht :-(

11 September 2006

Interview with Oliver Scholz: Vista Speech UX Program Manager at istartedsomething

Interview with Oliver Scholz: Vista Speech UX Program Manager at istartedsomething


Long Zheng's Blog heute mit einem Interview: Oliver Scholz, Produktmanager bei Microsoft und verantwortlich für die "User Experience" (d.h. die Benutzerführung bzw. Bedienbarkeit) der Spracherkennung in Windows Vista, hat eine Menge dazu zu sagen.

Richtig interessant wird die Spracherkennung wohl erst in ein, zwei Jahren, wenn Makro-Unterstützung, Vokabularfähigkeit und Mehrsprachigkeit eingebaut sind ... aber ich bin gespannt.

08 September 2006

Dinge, die die Welt nicht braucht

Nuance integriert Spracherkennung Dragon NaturallySpeaking in Tulip-Ego-Designernotebooks - und zwar DNS Standard in ein Notebook für schlappe 3.975,00 € - hier kann man es sich ansehen. Wenn man lange genug sucht, findet man auch die technischen Spezifikationen - 1 GB RAM, untere Grenze für DNS 9, und ein AMD Turion Prozessor.

Ist das jetzt die Reaktion auf die Spracherkennung in Vista? Immerhin bekommt man einen Zebra-Skin für das Notebook gratis dazu (normal 375 €), wenn man mal so richtig auffallen will. Ich seh Paris Hilton schon intime Details in ihr Zebra quatschen.

07 September 2006

Auffälliges Korrekturverhalten in Dragon

Unter phorum - Unofficial NaturallySpeaking Public Forum - Re: Revision and error correction revisited berichtet David Peters von folgendem Phänomen:

Diktiert man ein Wort, welches nicht im Vokabular von Dragon NaturallySpeaking enthalten ist, markiert man sodann dieses Wort und gibt man direkt das richtige Wort ein, ohne die Korrekturfunktion von Dragon NaturallySpeaking zu benutzen, so wird das Wort in das Vokabular aufgenommen! Dies gilt für Dragon NaturallySpeaking 8.

Das wollte ich immer schon einmal testen. In Dragon NaturallySpeaking 9 habe ich daher das Wort "Vattenfall" aus gegebenem Anlass ein diktiert und korrigiert. Ergebnis: wenn in den Optionen die Option "Wörter automatisch zum Vokabular hinzufügen" aktiviert ist, wird dieses Wort tatsächlich hinzugefügt!

Das heißt:

- ich diktiere "Vattenfall", Dragon schreibt "Daten Fall".

- ich sage "korrigier das", Dragon markiert die Phrasen und öffnet das Korrekturmenü.

- ich tippe einfach das Wort "Vattenfall" über die Markierung.

Ich diktiere noch einmal "Vattenfall", Dragon schreibt es korrekt und übernimmt das Wort mit einem roten Stern markiertes Vokabular.

Und jetzt die wirklich schlechten Neuigkeiten: Dragon NaturallySpeaking macht das auch, wenn ich ein diktiertes Wort nicht per Sprachbefehl markiere oder den Korrekturbefehl benutze, sondern wenn ich das Wort per Tastatur markiere und überschreibe. Damit nicht genug - selbst wenn ich das Wort lösche, welches Dragon NaturallySpeaking geschrieben hat, und danach eine Korrektur von Hand mache, wird das Wort in den Wortschatz aufgenommen!

Unter diesen Umständen kann ich nur empfehlen, die Option "automatisch Wörter hinzufügen" abzustellen. Wenn amn sich vorstellt, dass auch die Korrektur nur einiger Buchstaben dann in das Vokabular übernommen wird, wird einen ganz anders - und man versteht plötzlich, wo her die vielen, vielen benutzerdefinierten Müll-Einträge kommen, die sich im Laufe der Jahre ansammeln.

05 September 2006

"Wunderbare Erfahrungen!" FAZ-Rezension von Dragon 9

Heute erschien in der FAZ die Rezension von Dragon NaturallySpeaking 9. Aus urheberrechtlichen Gründen kann ich sie nicht ganz wiedergeben, daher hier nur einige Höhepunkte:

Der Rezensent (Dr. Michael Spehr) ist von Dragon NaturallySpeaking 9 begeistert. Zwar merkt er an, dass die Erkennungsgenauigkeit der Software sehr stark vom Diktierstil abhängt, nur unter bestimmten Bedingungen zu erreichen sind. "Der ungeübte Nutzer mit einem reichhaltigen Vokabular, ein Schriftsteller etwa, wird eher bei 95% liegen." Dafür hält er es für möglich, dass ein Arzt oder Rechtsanwalt mit einem klar definierten Wortschatz und häufig wiederkehrenden Formulierungen eine Genauigkeit von 100% erreicht. Übrig bleibt natürlich der Anspruch an den Diktanten, "druckreif" zu formulieren, also nicht die Gedanken erst niederzuschreiben und dann zu ordnen.

Nach Meinung des Rezensenten ist es nötig, das Benutzertraining mit Dragon NaturallySpeaking zu absolvieren, auch wenn die Software inzwischen ohne Training nur mit der Einstellung des Mikrophons gute Ergebnisse liefert. Außerdem empfiehlt er die Dokumentenanalyse von E-Mails und eigenen Dateien, um Dragon NaturallySpeaking mit dem eigenen Vokabular und der eigenen Schreibweise vertraut zu machen. [Dieser Analyse halte ich so, wie sie im Benutzerassistenten vorgenommen wird, sogar für schädlich: es wird wesentlich mehr Schrott aufgenommen als Wörter, die man tatsächlich braucht. Besser ist es, später im Erkennungscenter eine Analyse ausgewählter Dokumente vorzunehmen.] Die Wichtigkeit der Korrektur wird hervorgehoben; das Fehlen eines USB-Mikrophon zu angemerkt.

Positiv fällt auch auf, dass Dragon NaturallySpeaking 9 offensichtlich besser und schneller lernt als die Vorversionen.

Einige Hinweise gibt es auch zur Verwendung mit Diktiergeräten. Dragon NaturallySpeaking unterstützt in der aktuellen Version zusätzliche Audioformate wie MP3, WMA und WAV, und die Qualität der Umsetzung von mit einem digitalen Diktiergerät aufgenommene Diktate hat sich deutlich verbessert. Allerdings muss man gerade hier darauf achten, sauber zu diktieren, möglichst wenige Nebengeräusche zu produzieren und einen gleichmäßigen Abstand zwischen Mund und Diktiergerät einzuhalten. Dann erreicht man "sehr gute Resultate bei der Umsetzung von Aufnahmen, die im fahrenden Auto entstanden".

Weitere Neuerungen sind die Anwendung von Bluetooth-Mikrophonen, das Speichern der Benutzerdateien in einem Netzwerk und die automatische Umsetzung von Aufnahmen, die in einem vorher definierten Verzeichnis abgelegt werden.

Schließlich macht die verbesserte Kompatibilität von Dragon NaturallySpeaking mit zahlreichen Programmen viel Freude. Manchmal (wie z.B. beim Diktat dieses Eintrags) ist es allerdings auch noch nötig, dass Diktierfenster von Dragon NaturallySpeaking zu benutzen, in das sich doch sehr viel besser diktieren lässt als in nicht vollständig unterstützte Anwendungen. Dieses Diktierfenster ist allerdings - entgegen der Rezension - keine Neuerung in der aktuellen Version. Kritisch wird noch angemerkt, dass das Diktierfenster durchaus auch in einigen Anwendungen benötigt wird, die eigentlich unterstützt werden sollten - so gibt es im Internet Explorer oder in Firefox immer mal wieder Probleme.

Schließlich zitieren wir noch den letzten Absatz, der sich anhört, als käme er direkt aus der Marketing-Abteilung :-)

"Das neue Dragon ist also sehr empfehlenswert. Es gibt keine bessere Spracherkennung, und das Update auf Version 9 lohnt in jedem Fall."

PS Hier gibt's den Artikel, in DNS gelesen und ordnungsgemäß transkribiert von Willi Sander.

01 September 2006

Sneak Preview: Empfehlungen für Dragon NaturallySpeaking 9

Soeben fertig geworden und online gestellt:

- Empfehlungen beim Upgrade auf Dragon NaturallySpeaking
- Software- und Hardware-Empfehlungen

(beides als PDF).

Feedback bitte!

media|NRW - Nachricht: Sprachbarrieren in Europa überwinden

media|NRW - Nachricht: Sprachbarrieren in Europa überwinden

Neuen Nachrichten von meinem anderen Hobby - maschinelle Übersetzung, diesmal in Zusammenarbeit mit Spracherkennung. An so einem automatischen Dolmetscher arbeitet man ja mit unterschiedlichen Erfolgen schon seit längerer Zeit, wir erinnern nur an das damals viel zu früh gekommene (und verschiedene) Verbmobil-Projekt. Zum Spaß habe ich so etwas auch schon einmal mit Dragon NaturallySpeaking und @promt™ programmiert.

So, und jetzt eröffne ich die Diskussion über die Qualität einer Maschine, bei der beide Komponenten dafür bekannt sind, gerne einmal Fehler zu produzieren, die einem Menschen niemals unterlaufen würden. (Dass Menschen ganz andere Fehler unterlaufen, der eine Maschine niemals machen würde, steht auf einem anderen Blatt.)

Siehe dazu auch unten den Link zu der Übersetzung eines Forumsbeitrags :-)

Windows Vista bringt Nuance und IBM zum Schweigen

Microsoft Vista to silence IBM ViaVoice, Nuance

Der Inquirer sieht die Zukunft von Dragon und ViaVoice in dunklen Tönen. Die Integration von Spracherkennung in Windows ist er habe denselben Effekt wie der Internet Explorer ihn damals auf Netscape gehabt habe - Anwender werden nicht etwa das bessere Produkt auswählen, weil sie die Wahl zischen zwei Produkten haben, sondern sie werden gar nicht wählen und stattdessen das Produkt nehmen, das bereits auf Ihrem Rechner installiert ist.

Gleichzeitig fragt er, wie so IBM die Entwicklung von IBM ViaVoice praktisch eingestellt hat und damit zum Beispiel der Linux-Gemeinde Spracherkennung grundsätzlich vor enthält, wieso die Entwicklung bei Microsoft wesentlich zielstrebiger vor sich zu gehen scheint als bei Nuance, wieso Nuance sich nicht auf alternative Betriebssysteme konzentriert- um im bilde zu bleiben, schlägt er Nuance damit eine Art Mozilla-Rolle vor, also ein alternatives, besseres Produkt für mehr Plattformen, welches die Nische besetzt, die der Platzhirsch nicht bedienen kann oder will.

Die Reaktion von Nuance sieht allerdings, wie der Artikel berichtet, eher aus wie die Reaktion, die man ansonsten vom Platzhirsch erwarten würde: das Produkt sei überlegen, enthalte juristische und medizinische Wortschätze, welche der Konkurrenz fehlten, sei erhältlich für mehrere Sprachen... abgesehen davon, dass auch die Spracherkennung im Windows Vista in mehreren Sprachen erhältlich sein wird (deutsch ist eine von ihnen), mag es ja vielleicht sein, dass Ärzte und Juristen eine spezialisierte Anwendung verwenden werden. Genauso wird in Firmen ein Dokumenten-Management eingesetzt, aber der Heimanwender benutzt einfach den Windows Explorer (wenn er denn überhaupt so weit denkt).

IBM, früher der Pionier für Spracherkennung, hat bereits vor 10 Jahren ein Betriebssystem entwickelt, welches sich über Sprache steuern ließ. Dies ist aber komplett untergegangen. Eine Linux-Distribution von IBM ViaVoice ist ebenfalls seit längerer Zeit nicht mehr erhältlich (auch wenn einige Linux-Freunde immer mal wieder darauf hinweisen). Auch hier zitiert der Artikel nur ausweichende Stellungnahmen von IBM.

Der Hinweis auf diesen Artikel kommt aus einem Blog eines Microsoft-Entwicklers - immerhin. Dem darf man natürlich unterstellen, dass er sein eigenes Produkt besser findet als die der Konkurrenz. Ist ja auch sein gutes Recht. Umso mehr rechnen wir ihm an, dass er noch auf einige andere Punkte hinweist, die Dragon NaturallySpeaking im Moment Windows ist er voraus hat. So liegt Dragon NaturallySpeaking der Spracherkennung ein Headset bei (wobei ein Headset dieser Qualität nun wirklich kein Vorteil ist :-) Schon wesentlich interessanter sind die Makro-Fähigkeiten von Dragon NaturallySpeaking. Allerdings, wie man nicht ohne Grund anmerkt, liefert Microsoft ein SdK an Entwickler kostenlos aus, wohingegen das von Nuance richtig teuer ist, und auch OEM-Hersteller werden sich nicht nehmen lassen, ihren Computern demnächst Headsets beizulegen, gegen vielleicht sogar besser sind als die in einer Schachtel mit Dragon NaturallySpeaking (was ja, wie gesagt, auch nicht weiter schwer ist).

Meine Meinung: ich fürchte, sie haben recht. Nuance wird sich etwas ausdenken müssen, um das Produkt entsprechend zu positionieren. Das Schlimmste, was natürlich passieren kann, ist das die Microsoft Spracherkennung beim durchschnittlichen Benutzer dieselben Ergebnisse liefert wie in jener Produktdemonstrationen, und das Spracherkennung damit mal wieder für die nächsten Jahre von der Agenda verschwindet. Und es soll keiner glauben, dass Nuance dann sagen kann: "nehmt Dragon NaturallySpeaking, es funktioniert im Gegensatz zu Windows Vista". Die Leute werden immer nur sagen, dass Spracherkennung erwiesenermaßen eben nicht funktioniert.

Wie ich darauf komme? Fünf Jahre Telefon.

(diktiert mit Dragon NaturallySpeaking 9)