27 September 2008

FAQ: Audio-Assistent von Dragon NaturallySpeaking

Frage: Kennen Sie eine Lösung für die wiederholte Aufforderung, beim Wechsel der Headsets (USB, Kabel etc.) die Lautstärke- und Qualitätsprüfung von Dragon NaturallySpeaking immer wieder neu vornehmen zu müssen?


Antwort: Der Audio-Assistent prüft die Lautstärke des Sprachsignals und die Nebengeräusche beim Diktieren, legt also die akustischen Rahmenbedingungen für die Spracherkennung fest. Deshalb lässt er sich auch nicht abschalten oder umgehen.

Es ist aus diesen Gründen sinnvoll, den Audio-Assistenten beim Wechsel des Eingabegerätes immer wieder laufen zu lassen: zum einen haben verschiedene Geräte verschiedene Audio-Eoigenschaften, die für die Qualität der Spracherkennung nötig sind. Zum anderen verändert sich während des Diktierens auch die Stimme, so dass der Audio-Assistent Dragon dabei hilft, wieder optimal zu erkennen. Daher sollten Sie den Audio-Assistent regelmäßig, zumindest aber beim Wechsel des Eingabegerätes ausführen - besser eine Minute lesen als viele Fehler zu korrigieren.

23 September 2008

FAZ-Testbericht über Dragon NaturallySpeaking 10

In der FAZ vom heutigen Dienstag, 23. September 2008, wird endlich der Testbericht von Michael Spehr über das neue Dragon NaturallySpeaking 10 abgedruckt. Mit gewohnter Sorgfalt wird die Erkennungsgenauigkeit gegenüber der Vorversion getestet und tatsächlich als besser erkannt, werden die Neuerungen aufgelistet und auch die immer noch vorhandenen Lücken und Fehler genannt.

Einige kleine Ergänzungen möchte ich vornehmen: es wird das längst überfällige neue Merkmale erwähnt, dass man Datumsangaben und Zahlen Formatierungen jetzt einstellen kann. Leider ist dabei ein kleiner Fehler unterlaufen - ich habe nicht die Möglichkeit, frei zu definieren, ab welcher Zahl Zahlen nur noch als Ziffern geschrieben werden sollen. Auch die Vorgehensweise, einen bereits trainierten Sprecher einfach in die neue Version zu übernehmen und ein Upgrade zu machen, ist ein wenig fragwürdig, auch wenn es im vorliegenden Fall zu einem guten Ergebnis geführt hat - nach meinen Erfahrungen kommen beim Upgrade gerne einmal Fehler in das Vokabular, davon abgesehen, dass ein alter Sprecher die neuen Möglichkeiten der Software nie ganz ausnutzen kann.

Abgesehen von diesen kleinen Anmerkungen allerdings wirklich ein sehr guter und kompetenter Artikel, der den aktuellen Stand in der Spracherkennung objektiv wiedergibt. Wer ihn bei mir bestellen will, sende bitte eine E-Mail an meine Adresse: Stephan [@] soldatkuepper.de.

17 September 2008

Spracherkennung für Interviews

In der FAZ vom 16. September 2008 stellt Michael Spehr die Möglichkeiten vor, Spracherkennung für die Transkription von Interviews zu nutzen. Sein Fazit: derzeit ist Spracherkennung noch nicht reif dafür.

Gründe sind dafür vor allen Dingen die meist schlechte Qualität der Sprache, dann aber auch die Tatsache, dass ein Sprecherprofil für jeden Sprecher angelegt werden muss, damit die Sprache adäquat verschriftlicht werden kann.

Als Alternativen schlägt er ein "Echo-Diktat" vor, das heißt also das gleichzeitige Abhören und Nachsprechen des Interviews durch einen geschulten Diktanten. Dies erfordert allerdings sehr große Übung unter hoher Konzentration. Hier wendet man sich am besten an Profis. So gibt es inzwischen das Berufsbild des Schriftdolmetschers, der mithilfe von Spracherkennung das gesprochene Wort nahezu in echt zeit in geschriebenen Text umsetzen kann - wobei allerdings entsprechendes Training vorausgesetzt wird. Weitere Informationen dazu unter www.kombia.de.

Wer den Artikel verpasst hat und per E-Mail von mir erhalten möchte, melde sich bitte unter stephan [at] soldatkuepper.de!

Zum Thema Sprecherprofil übrigens noch die Anmerkung, dass inzwischen Dragon NaturallySpeaking mit einem komplett untrainierten Sprecher, für den bloß das anfängliche Ritual zum Einstellen des Mikrofons absolviert wurde, hervorragende Ergebnisse erzielt - und das unabhängig davon, ob ein Mann oder eine Frau das Mikrofon eingepegelt hat. Vielleicht wäre dies noch einmal einen Versuch wert?

12 September 2008

Dragon NaturallySpeaking 10 - erste Erfahrungen

Inzwischen habe ich Dragon NaturallySpeaking 10 Professional auf zwei Rechnern installiert und kann erste Erfahrungen mitteilen.

1. Installation:
Die Installation ging auf einem sauberen Rechner und als Upgrade gleichermaßen glatt, sofern man die setup.exe startet - DNS 10 erwartet eine Visual C++-Runtime, die der MSI-Installer nicht it installiert, die Setup.exe aber schon.
Das Upgrade der Sprecher schlug fehl, aber wohl deshalb, weil der eine ein 4voice (d.h. geschütztes) Vokabular hatte, das DNS allein nicht lesen kann. Bei den Rechnern handelt es sich zum einen um ein Notebook mit Windows XP Pro, Intel CoreDuo T2500 mit 2 GHz, 1 GB RAM; der andere ein Desktop PC mit Windows Vista, 2 GB RAM, AMD Sempron 3400+, 1,8 GHz,

Bei der benuterdefinierten Installation lassen sich jetzt Format- und allgemeine Optionen getrennt einstellen; die Komposita können schon hier abgewählt werden. Außerdem ist die umstrittene Datensammlung mit dabei, kann aber ebenfalls ausgeschaltet werden.

2. Erkennungsgenauigkeit:
Für einen ersten Vergleich zwischen der alten und neuen Version habe ich einfach zwei Mikrofone benutzt, eines (Olympus DR-1000) am Windows XP-Rechner, auf dem zu diesem Zeitpunkt noch Dragon 9.5 installiert war, das andere (VXI Parrott TalkPro-Headset) am Vista-Rechner mit DNS 10 angeschlossen. Den DNS 9-Benutzer habe ich seit Juni im täglichen Einsatz, der DNS 10-Nutzer war völlig neu angelegt.

Die Ergebnisse unterschieden sich zwar in den konkreten Fehlern, numerisch ist das Ergebnis gleich: jeweils 8 Fehler auf 671 Wörter. Nicht gewertet wurde die Zahlenformatierung (s.u.), in der DNS 10 klar die Nase vorn hat. Interessant ist, dass DNS 10 seinen Namen nicht erkennt: "Dragon NaturallySpeaking" wurde bei jedem Vorkommen anders geschrieben (was strenggenommen die Fehlerquote auf 14 erhöht hätte, doch habe ich das Wort nur einmal gewertet).

Bei diesem Test sprach ich bewusst deutlich. Bei undeutlicher Aussprache - wie sie sich im Laufe des Tages immer mehr einschleicht - kann ich noch keine genauen Aussagen treffen. Nach den Ergebnissen, die ich gestern Abend zwischen 21 und 22:00 Uhr hatte, scheint aber auch hier die Erkennung besser zu verlaufen. Eine gute Nachricht für alle Praktiker, die viel diktieren müssen, auch wenn sie müde sind, und bisher dafür mit schlechterer Erkennungsgenauigkeit bestraft wurden.

3. Systemressourcen:

Unter Windows Vista ließ sich DNS 10 mühelos installieren, meldete aber die Deaktivierung der natürlichen Sprachbefehle für Word und Excel aus Speichergründen. Offensichtlich ist diese Kombination also für Dragon 10 schon schwach. Die Erkennung lief allerdings flüssig und vom Tempo ähnlich wie auf dem XP-Notebook mit DNS 9.5.

Die eigentliche Überraschung: Die Installation auf dem XP-Notebook lief ohne Warnung vor mangelnden Ressourcen, und die Erkennung verläuft tatsächlich flüssiger als mit DNS 9.5! Offensichtlich ist Vista schuld, denn Michael Spehr berichtete mir dasselbe.

Überhaupt scheint die Spracherkennung nach allem, was man hört, wesentlich flüssiger zu verlaufen - auch aus anderen Ecken vermeldet man das gleiche. Schön, dass sich die Befürchtungen hier einmal nicht bewahrheitet haben - bisher hat Dragon NaturallySpeaking in jeder Version das System immer stärker in Anspruch genommen. im Task Manager belegt Dragon NaturallySpeaking jetzt allerdings ungefähr 200.000 KB Speicher, vorher waren es 140.000 KB.

4. Zahlen:
Fast alles, was uns geärgert hat, ist verschwunden: eine 53 jährige Patientin geht in beiden, aber eine drei bis 4 m lange Bremsspur, eine fünf bis 6 cm große Narbe oder gar ein 7 x 8 cm großes Bild wird von DNS 9.5 wie angezeigt geschrieben, von DNS 10 in allen Fällen korrekt. Auch das Datum scheint besser zu sein, mit Ausnahme des 23. EIne Folge von Ziffern wird korrekt geschrieben, also 089244104445 statt null acht neun zwei vier vier eins null vier vier vier fünf. Paragraph drei, Abs. 4, [Ziffer] 5 ist komplett identisch. Ein Fehler macht sich allerdings bei Maßeinheiten bemerkbar - im Kochrezept werden drei Eier, 4 g Mehl, 5 l Wasser (nein, Sie brauchen das nicht essen) als drei Eier ,4 g Mehl ,5 l Wasser geschrieben, das Komma also falsch gesetzt.

5. Neuigkeiten:
Alle Neuheiten habe ich noch gar nicht ausprobiert und kann sie daher auch nicht vermelden. Was wirklich Spaß macht, ist die Möglichkeit, mit einem einzigen Befehl ein Wort oder mehrere Wörter zu formatieren oder zu löschen. Man sagt in Microsoft Word zum Beispiel "fett Dragon NaturallySpeaking", und der Ausdruck wird sofort fett gesetzt. Analog funktioniert auch "lösche Dragon NaturallySpeaking", was eine Funktion ist, die schon von vielen Benutzern angefragt wurde - zumindest haben viele Leute, die ich trainiert habe, intuitiv versucht, mit diesem Befehl ein Wort zu löschen, und waren sehr enttäuscht, als es nicht ging.

Weitere Ergebnisse in Bälde!

Anwenderstimmen DNS 10 Wireless / Plantronics Calisto Headset

Dragon NaturallySpeaking Preferred Wireless Edition wird seit neuestem mit einem Plantronics Calisto-Headset geliefert, das nach Aussagen des Herstellers optimiert für Spracherkennung wurde. Da dieses Gerät bisher nur in den USA lieferbar war, liegen in Deutschland keine Erfahrungen vor, wie gut es tatsächlich ist. Ich erhalte in den nächsten Tagen ein Gerät zum Test, damit ich dazu etwas Fundiertes sagen kann, bisher sind die Anwenderberichte gemischt. In der Firma wurde das Gerät zum Beispiel positiv getestet, allerdings nicht von mir ;-)

Dieser Anwenderbericht steht in der Yahoo-Usergroup für Dragon NaturallySpeaking zu lesen:

Die Erkennungsgenauigkeit unter Calisto ist sehr eingeschränkt. Die Wiedergabe wird begleitet von einem unangenehmen Hintergrundgeräusch inklusive Knattern und Rauschen.
Die Software wurde auf zwei neuen Rechnern (Vista/XP) mit den jeweils gleich schlechten Resultaten, (Erkennungsgenauigkeit 15), getestet.
Bei Plantronics sagte man mir, dass der Support in Deutschland abgelehnt wird, weil es absehbar war, das die Bluetooth Übertragung wesentlich schlechter wäre als der DECT Standard des CS 60.
Nuance in Edinburgh will aber kein CS 60 als Ersatz anbieten. Das defekte Gerät habe ich mittlerweile eingeschickt.
Zu Dragon 10 ist generell zu sagen, dass es flüssiger läuft, als die
Vorgängerversion 9.5.

Hier scheint ein Defekt am Gerät vorzulegen, der für die genannten Probleme sorgt.

Ein Händler bestätigt, dass er zu diesem Headset sehr unterschiedliche Reaktionen gehabt hat. Von der Distribution weiß ich, dass die professionellen Versionen nach wie vor mit einem Plantronics CS 60 gebündelt werden - was aber auch damit zusammenhängt, dass zum Beispiel in einem Krankenhaus ein Bluetooth-Headset in aller Regel gar nicht installiert werden kann.

Der Vollständigkeit halber sei aber auch gesagt, dass die Zahl, die im Audioassistenten von Dragon NaturallySpeaking erreicht wird, nicht unbedingt etwas über die Erkennungsgenauigkeit aussagt. Ein Bluetooth-Headset erreicht hier schon allein deswegen einen niedrigeren Wert, weil hohe Frequenzen erst gar nicht übertragen werden - dafür ist der Bluetooth-Standard nämlich nicht ausgelegt. In der Praxis muss sich das übrigens gar nicht in einer schlechteren Erkennungsgenauigkeit niederschlagen, wie andere Erfahrungen von Anwendern mit Bluetooth-Headsets belegen. Hier wie überall gilt, das der Diktierstil einen wesentlich größeren Einfluss auf das Ergebnis hat als das Mikrofon.

Ich würde gern weitere Stimmen speziell zu diesem Headset hören. Wer hat es getestet? Schreibt!

Ich diktiere Teile dieses Beitrags übrigens mit dem neuen Dragon NaturallySpeaking 10 und einem Olympus-Handmikrophon und kann bestätigen, dass das Diktat tatsächlich sehr viel flüssiger läuft. Außerdem erkennt die Spracherkennung jetzt endlich das Wort "Bluetooth". Ist das ein Grund für ein Upgrade?

10 September 2008

Peinlicher Spracherkennungsfehler

Peinliche Panne für Augsburger Staatsanwalt ging es durch die Schlagzeilen, als ein Augsburger Staatsanwalt einen Angeklagten als "A****loch" titulierte; - der Herr entschuldigt sich damit, er benutze Spracherkennung, habe sogar Korrektur gelesen, aber dann die unkorrigierte Version des Dokuments verschickt.

Was lehrt uns das?

1. Korrektur muss immer sein, übrigens auch bei getippten, handschriftlichen und sonstwie produzierten Dokumenten.
2. Sorgfältiges Arbeiten hat seine Vorteile.
3. Dragon kennt auch die schlimmen Wörter - übrigens auch in V. 10, ich hab nachgeschaut...

Es soll Händler geben, die in ihren Wortschätzen diese Wörter löschen.

03 September 2008

Ich bin Feuerwehrmann geworden (Werbung für die andere Dragon-Informationsquelle)

Das beste Forum zu Dragon NaturallySpeaking im deutschsprachigen Raum wird von Willy Sander angeboten. Eine Besonderheit ist es, dass alle "kleinen Drachen", also alle Forumsteilnehmer, eingedenk einer beliebten Fernsehserie für Kinder zuerst als Grisu angemeldet werden - so auch ich. Seit langem schrieb ich in diesem Forum und rief nach jedem Beitrag wie Grisu: "ich will Feuerwehrmann werden!" Seit heute bin ich es - nach dem 50. Beitrag wird man befördert.

[Edit]: Ich erwähne dies nicht aus reiner Eitelkeit, sondern weil der Foren-Thread zum Thema "wie diktiere ich CO2 so, dass die Zahl tiefergestellt wird" läuft und daher vielleicht für manche Leser interessant ist. Wir haben inzwischen einen guten Ansatz gefunden, mit dem sich zumindest in Word das Problem umgehen lässt, dass Dragon keine Indizes und tiefergestellten Ziffern schreiben will. Zu den Ergebnissen verweise ich an das Forum; die Befehle versende ich gern auf Anfrage direkt.

Und jetzt habe ich hoffentlich noch ganz viel Zeit, um mich endlich Dragon NaturallySpeaking 10 widmen zu können. Erste Erfahrungen demnächst hier!