19 Dezember 2008

Spracherkennung unter Linux als Open Source

Simon listens ist der Titel eines österreichischen Projekts, das unter Windows, aber auch unter Linux eine Open-Source-Spracherkennung zur Verfügung stellen will. Die erste Alpha-Version ist vor kurzem erschienen. Ein Video der Funktionsweise ist auf der Webseite abrufbar.

Bei Simon handelt es sich um eine einfach zu benutzende grafische Schnittstelle für die Spracherkennungs-Software Julius und das HTK-Toolkit. Die benötigten Wörterbücher holt Simon direkt aus dem Wiktionary, einem Wikipedia-Schwesterprojekt. Dateien importiert die Software im HADIFIX- oder HTK-Format. Simon trainiert die Sprache anhand einfacher Beispiele und erkennt so neue Wörter. Da Simon über das TCP/IP-Protokoll auf die Julius-Engine zugreift (die man separat startet), kann die Spracherkennung auf einem zentralen Server erfolgen.

Die Julius-Engine gibt es schon etwas länger, wobei sie als Erkenner zunächst sprachunabhängig entwickelt wurde, um Sprachmodelle beliebiger Sprachen aufzunehmen. Konkret gab es dort Entwicklungen für Japanisch und Englisch, beide noch nicht sehr weit fortgeschritten. Simon-Listens integriert nun ein deutsches Sprachmodell in die Engine, so dass auch Deutsch erkannt wird.

Simon Listens bezieht sich übrigens darauf, dass das Projekt ursprünglich angetreten ist, einem behinderten Jungen namens Simon den Zugang zum Computer zu ermöglichen. Unterstützer werden noch gesucht (mehr dazu hier). Gerade zur Weihnachtszeit doch eine schöne Sache!

(mit Informationen von http://www.linux-community.de/Internal/Nachrichten/Simon-freie-Spracherkennung-fuer-Linux

15 Dezember 2008

Sauber diktieren!

Dieser Beitrag passt sehr gut zu meinem letzten Eintrag: will ich ein ordentliches Ergebnis beim Diktieren, muss ich auch ordentlich diktieren.

"Dragon hält uns da den Spiegel vor und zeigt uns, wie wir denken und Material organisieren. Und anstatt frustriert oder verärgert zu sein über das, was ich auf dem Bildschirm lese, nehme ich es als Gelegenheit wahr, meine Fähigkeiten zu verfeinern, Texte zu verfassen und zu schreiben."


Den zitierten Aphorismus von Lichtenberg "Bücher sind wie Spiegel, und wenn Affen hinein schauen, blicken keine Menschen zurück" würde ich aber lieber etwas kundenfreundlicher formulieren. Wer wird schon gern als Affe bezeichnet? Also lieber so:

Optimieren Sie Ihren Input, dann optimieren Sie auch das Ergebnis.

(Dank an Rüdiger Wilke!)

13 Dezember 2008

Äh! (Nothing but speech)

Beim Kunden gestern machte ich einige interessante Erfahrungen. Zwei Ärzte sollten geschult werden,. Der eine gehörte zu der Fraktion der Diktanten, die an viele Wörter ein äh-Geräusch hängen bzw. zunächst unartikulerte Laute ausstoßen, bevor sie ein Wort sagen.

(Vielen ist das gar nicht bewußt. Für Spracherkennung ist es aber Gift, statt "der" etwas wie "nnder" und statt "Punkt" z.B. "Punktäh" zu sagen, was vom Drachen dann getreulich als "Inder" und "Punkte" geschrieben wird. Nicht immer liegt der Fehler hinter dem Bildschirm!)

Der andere sprach flüssig, zwischendurch entschlüpfte ihm aber auch das ein oder andere "äh" auf der Suche nach dem richtigen Wort.

Dragon schreib nun bei Arzt 1 ständig kleine Wörter wie "in", "der", "um" ins Diktat. Bei Arzt 2 wurden die gelegentlichen "äh" ignoriert. Warum? Nun, wohl weil letzterer das "äh" nicht mit einem Wort verschmolz, sondern als einzelnes "Wort" sprach. Hier greift die "Nothing-but-speech"-Option von Dragon, die Nebengeräusche ausfiltert.

Wenn die Nebengeräusche jedoch so dicht an ein Wort artikuliert werden, dass sie als Teil des Wortes (fehl-) erkannt werden, hat Dragon keine Chance. Hier hilft der Logopäde.

Mehr dazu auch hier.

03 Dezember 2008

Neues von der Medica

Wegen ausreichender Arbeitsbelastung sowie einer Operation am Weisheitszahn komme ich leider erst heute dazu, ein paar Neuigkeiten von der Medica 2008 in Düsseldorf zu berichten, wie inzwischen auch schon zwei Wochen her ist.

Das größte Ereignis sicherlich die Ankündigung von Nuance, man werde fortan im medizinischen Bereich die vor einigen Wochen von Philips aufgekaufte SpeechMagic (Dragon NaturallySpeaking erkannte an dieser Stelle "zwiespältig :-)-Lösung einsetzen.

(Die Pressemitteilung: http://www.nuance.de/news/20081119_medica.asp)

Aus Sicht des Herstellers ist dies nur logisch: man hat einen zweistelligen Millionenbetrag für die Philips-Spracherkennung ausgegeben und will diese dort nutzen, wo sie ihre Stärken hat, nämlich im medizinischen Geschäft, bei Workflow-Lösungen in einem Krankenhaus, wo ein Arzt zwar mit Spracherkennung digital diktieren soll, sich aber nicht weiter um die Korrektur und Bearbeitung der Diktate kümmern soll, sondern dies dem Schreibbüro überlässt. Hier bietet die jetzt neu benannte SpeechMagic Solution Builder-Lösung einen bekannten und eingeführten Workflow.

Angesichts der Tatsache, dass Dragon NaturallySpeaking auch im medizinischen Bereich ein gut eingeführtes Produkt ist, wird dies natürlich die Frage auf, was mit Dragon
passieren wird. Gerade auch meine eigene Firma, die 4voice AG, hat ja einen eigenen Workflow - bis vor nicht allzu langer Zeit in direkter Konkurrenz zur Philips-Lösung -, der genau dasselbe zu leisten verspricht, aber mit Dragon NaturallySpeaking-Spracherkennung (und natürlich einigen Extras, die Philips so nicht bietet - aber das ist ein anderes Thema).

Letztlich wird die 4voice AG aber von dieser Entwicklung sogar profitieren: als langjähriger Partner von Nuance können wir jetzt auch die Philips-Lösung anbieten, behalten aber unsere Kompetenz mit Dragon NaturallySpeaking weiter. Das bedeutet auch: wenn ein großer Workflow mit Philips-Lösung gefragt ist, können wir dies bedienen; in anderen Fällen können wir weiter unsere Lösungen mit Dragon NaturallySpeaking anbieten.

Zu erwarten steht außerdem die Dragon NaturallySpeaking Medical Edition 10, die allerdings auf der Messe noch nicht gezeigt wurde und für die auch noch kein Erscheinungstermin feststeht. Wenn diese erst mal da ist, hat Nuance zwei schlagkräftige Produkte - einen Workflow und ein Produkt für Ärzte, die lieber alleine arbeiten wollen, das sich aber auch in einem Workflow integrieren lässt.

Wie der Markt auf diese Entwicklung reagiert, wird sich zeigen: es gab genauso Rückmeldungen, die diesen Entwicklungen positiv entgegensehen, wie auch andere, die eine allzu große Marktkonzentration eines Herstellers eher negativ finden. Dies sind aber nur die ersten Eindrücke - in den nächsten Wochen und Monaten wird sich zeigen, wie es tatsächlich weitergeht.

Zum Schluss sei noch die erfreuliche Tatsache vermeldet, dass der Kontakt zum neuen Nuance- (und ehemaligen Kuhlmann-) Vertriebsteam sehr freundlich verlaufen ist, wo jetzt nicht mehr gegeneinander antreten! Für mich der schönste Aspekt der Messe.

15 November 2008

Google stellt Suche mit Spracherkennung für iPhone vor

Google stellt Suche mit Spracherkennung für iPhone vor

Gestern kündigete Google eine Applikation für das iPhone an, mit der eine Suche über eine Spracheingabe ermöglicht werden soll: Ich spreche in mein (ach wäre es doch mein!) iPhone "suche China-Restaurant in Berlin-Neukölln", das iPhone schickt die Anfrage an den Goolge-Server, und Google weist mich zu meinem Liebligs-Chinesen Herrn Tang in der Karl-Marx-Straße... um das Prinzip zu verdeutlichen.

Leider geht diese Applikation noch nicht in Berlin, sondern erst in Amerika. Cool ist es trotzdem, gerade weil auch lokale Suche integriert ist. Der GPS-Empfänger sagt der Applikation, wo man sich gerade befindet, und Google spuckt die China-Restaurants in der Nähe aus, so dass ich nicht mal wissen muss, in welchem Teil der Welt ich mich gerade befinde.

Ein Vorab-Video gibt es z.B. hier zu sehen. Die Applikation soll über den AppStore für das iPhone erhältlich sein.

23 Oktober 2008

Test: Dragon NaturallySpeaking Legal 10

Seit kurzem ist Dragon NaturallySpeaking Legal 10 erhältlich, und ich habe mir diese speziell für Juristen zugeschnittene Version über meine Dragon NaturallySpeaking Professional installiert. Bestehende Nutzer bleiben dabei erhalten. Daher habe ich jetzt die Möglichkeit, einige Unterschiede in diesen beiden Editionen mehr hervorzuheben:

Dragon NaturallySpeaking Legal ergänzt Dragon NaturallySpeaking Professional um ein juristisches Fachvokabular. Worin allerdings die Unterschiede zwischen den juristischen und dem allgemeinen Vokabular (das im Dragon NaturallySpeaking Legal ebenfalls enthalten ist) bestehen, darüber kursieren verschiedene Auskünfte. Der Hersteller gab vor Jahren einmal an, dass das juristische Vokabular im Verhältnis zum allgemeinen Vokabular um 80.000 Einträge erweitert worden sei. Dies kommt uns schon deswegen merkwürdig vor, weil der aktive Wortschatz eines Dragon NaturallySpeaking-Vokabulars in der Regel immer rund 150.000 Wörter beträgt - diese 80.000 Wörter können also allenfalls teilweise in den aktiven Wortschatz übergegangen sein. Dazu kam, dass der Hersteller bei der Markteinführung der analog positionierten Dragon NaturallySpeaking Medical Edition explizit keine Zahl nennen wollen, sondern darauf hingewiesen wurde, dass das Vokabular aus ganz anderem Material gewonnen wurde.

Dies ist auch bei Dragon NaturallySpeaking Legal der Fall. Daher möchte ich hier auf ein ganz wichtiges Konzept hinweisen, was vielen Anwendern gar nicht bewusst ist:

Das Sprachmodell.

Ein Sprachmodell enthält statistische Informationen über den Gebrauch bestimmter Wörter und Ausdrücke in einem bestimmten Kontext, ihre Häufigkeit und Wahrscheinlichkeit. Da Spracherkennung letztlich ein statistisches Verfahren ist, bei dem die Software jedes Mal rät, welches Wort wohl am wahrscheinlichsten dem Geräusch entspricht, welches durch das Mikrofon aufgenommen wurde, hat das Sprachmodell eine immense Bedeutung für die Genauigkeit der Spracherkennung.

Bei meinen ersten Diktaten mit Dragon NaturallySpeaking Legal zeigte sich genau dies: alltägliche Wörter und Wortverbindungen wurden häufig nicht erkannt zu Gunsten von juristischen Fachausdrücken, die ganz ähnlich klangen. Dies ist kein Mangel der Software, sondern ein Vorteil: das juristische Vokabular erwartet juristisches Diktat, kein allgemeines.

Und hier zeigt sich auch der Vorteil der Legal-Version für Rechtsanwälte, die oftmals meinen, die paar Fachausdrücke auch selbst zum Wortschatz hinzufügen zu können:

Das Legal-Sprachmodell gibt den professionellen Sprachgebrauch eines Juristen wesentlich genauer wieder als das allgemeine Sprachmodell. Es geht nicht nur um das Lernen einiger Ausdrücke, sondern um eine ganze Fachsprache mit ihren spezifischen Wendungen, die Dragon NaturallySpeaking Legal neben dem allgemeinen deutschen Sprachgebrauch beherrscht, andere Editionen aber nicht.

Einige andere Dinge kommen hinzu: so formatiert Dragon NaturallySpeaking Legal Ausdrücke wie "§ 32 Abs. 4 S. 2" (zumindest in der Theorie) korrekt; Aufzählungen mit "1., 2., 3." werden direkt mit Zahlen geschrieben, Gesetzesfundstellen werden im entsprechenden Kontext korrekt abgekürzt, und was dergleichen mehr Eigenheiten sind, die ein juristischer Schriftsatz wesentlich häufiger braucht als, sagen wir, eine durchschnittliche geschäftliche E-Mail.

Fazit: Juristen profitieren von Dragon NaturallySpeaking Legal, weil das Sprachmodell wesentlich genauer auf ihre spezifischen Bedürfnisse zugeschnitten ist und daher sehr viel schneller und ohne Modifikationen eine gute Erkennungsgenauigkeit erreicht werden kann. Bei den durchschnittlichen Stundensätzen eines Juristen dürfte sich damit die Investition recht schnell bezahlt machen.

Hier noch die Adresse eines Berliner Spezialisten für juristische Wortschätze:
www.cs-spracherkennung.de

22 Oktober 2008

Testbericht: Grundig Digta Cordex

Seit einer Woche ziert das Grundig Digta Cordex meinen Schreibtisch, ein - Grundig sagt: das 1. - schnurloses Mikrofon zum digitalen Diktat und für Spracherkennung. Mikrofon und Ladestation machen optisch einen sehr ansprechenden Eindruck, das Mikrofon liegt auch gut in der Hand, der Schiebeschalter wurde noch einmal gegenüber dem anderen Grundig-Mikrofone verbreitert und lässt sich sehr gut bedienen. 3 Funktionstasten oberhalb des Schalters sind sehr gut zu erreichen, die anderen 3 Funktionstasten liegen zu weit unten, als dass man sie ohne Umgrifen erreichen könnte. Das Gewicht des Geräts und die Größe sind sehr angenehm, so dass ein Diktat auch über einen längeren Zeitraum hinweg den Sprecher nicht belastet.

Die Bedienung der mitgelieferten digitalen Diktatsoftware ist sehr logisch gestaltet und kann komplett über das Mikrofon erfolgen. Interessant ist die Lösung, den Schiebeschalter zur Auswahl in den Software-Menüs zu verwenden.

Auch für Spracherkennung ist das CordEx sehr gut geeignet. Es gilt hier wie bei jedem Handmikrophon die Einschränkung, dass man genau in das Mikrofon sprechen muss, um eine optimale Erkennungsgenauigkeit zu erzielen, diese ist dann aber wirklich sehr gut.

Das Gerät wird mit einem Akku geliefert, der in der Ladestation geladen wird. Leider muss sie dazu mit dem Netz verbunden werden; ein Laden allein über den USB-Anschluss des Computers ist nicht möglich.

Das Digta Cordex lässt sich auch mit mehreren Ladestationen verbinden, so dass ein Wechsel zum Beispiel von einem Behandlungszimmer z.B. in einer Arztpraxis möglich ist. Ganz ohne Umstände gilt dies allerdings nicht ab.

Vorbildlich ist dafür die Behandlung, wenn man sich mit dem Gerät einmal zu weit vom Computer entfernt: Das Gerät ist mit einem internen Speicher für bis zu 1 Minute Diktat ausgestattet, so dass man auch bei vorübergehender Verbindungsunterbrechung zum Rechner Diktate aufnehmen kann. Wenn also die Verbindung einmal abbricht, kann man ohne Angst vor Verlusten weiter diktieren; sobald das Mikrofon sich wieder mit dem Computer verbindet, wird das Diktat übertragen. Dies funktioniert auch wunderbar mit Spracherkennung. Man kann dann zu sehen, wie sie vor 1 min gesprochenen Wörter Schritt für Schritt am Bildschirm transferiert werden.

Eine Einschränkung im Betrieb mit Spracherkennung ist eigentlich keine: Dragon NaturallySpeaking macht es nicht ohne weiteres möglich, die Spracherkennung über das Mikrofon ein- und auszuschalten (mit einer Zusatzsoftware wie der 4voice Local geht das aber). Jedoch kann man die Spracherkennung einmal ausschalten und dann den Schiebeschalter dazu verwenden, das Mikrofon stumm zu schalten - Dragon hört dann zwar noch weiter zu, es kommt aber kein Signal an, was außerdem zur Folge hat, dass nach einer längeren Diktierpause die Spracherkennung wesentlich schneller reagiert als wenn sie abgeschaltet ist.

Es bleibt abzuwarten, wie die Akzeptanz des Grundig Digta Cordex sein wird: mit einem empfohlenen Verkaufspreis von 499 € empfiehlt es sich eher für den gehobenen Geschmack. Die ersten Exemplare sollen demnächst an Händler ausgeliefert werden.

17 Oktober 2008

Test: Plantronics Callisto Bluetooth-Headset

Gerne würde ich an dieser Stelle Erfreuliches über das Plantronics Calisto-Headset berichten, welches in Dragon NaturallySpeaking 10 Wireless Edition mitgeliefert wird. Ein solches Gerät habe ich seit zwei Wochen zum Test; vorher hatte mein Kollege es bereits - und uns fiel beiden dasselbe auf:

Wenn es uns gelingt, das Gerät anzuschließen, erkennt es recht ordentlich. Die Schwierigkeit besteht aber im Anschließen des Geräts.

Hier bestätigt sich meine alte Bluetooth-Phobie: es ist mir niemals gelungen, ein Bluetoothgerät dauerhaft und problemlos mit einem PC zu verbinden. Diese Geschichte zieht sich seit Jahren durch meine Erfahrungen - schon das erste spracherkennungstaugliche Bluetooth-Headset, dass Sony HBH-300, ließ sich zwar verwenden, gab auch eine sehr gute Erkennungsqualität, musste aber jeden Morgen aufs neue mit dem Rechner gepaart werden. Mit anderen Headsets wie dem Parrott Bluetooth-Headset habe ich ebenfalls qualitativ gute Erfahrungen gemacht, es aber niemals dauerhaft mit dem Rechner verbinden können. Mit einer Bluetooth-Maus was übrigens auch nicht anders - entweder es liegt an mir oder einem Bluetooth-Standard, aber wir beiden passen einfach nicht zusammen :-)

Auch bei den Calisto-Headset habe ich nach dem dritten oder vierten Versuch aufgegeben. Zwischenzeitlich war es mir gelungen, eine Verbindung herzustellen und zu diktieren, und es zeigte sich, dass das Diktat gut erkannt wurde, sofern ich das Headset als neu Diktierquelle eingerichtet hatte, das heißt also ein Kurztraining von 7 min Dauer durchgeführt hatte (wird in ein anderes Profil diktiert, dass nicht speziell auf dieses Headset zugeschnitten ist ist die Erkennungsgenauigkeit unter aller Kritik).

Ob es an mir oder am Gerät liegt - wer es zum Laufen bekommt, wird sicherlich damit glücklich werden, ich fühle mich in meinem Urteil bestätigt und werde weiterhin andere schnurlose Alternativen bevorzugen, wie zum Beispiel das Plantronics CS 60, das Jabra GN 9350 oder das neue Grundig Digta Cordex-Handmikrophon (Test folgt in Bälde).

Ein Hoch dem Nuance-Support!

Gestern hatte ich zum ersten Mal das Vergnügen, mit dem Nuance-Kundensupport zu sprechen. (Für Uneingeweihte: als Händler hat man einen eigenen Support, der als erstes die Dragon.log-Datei anfordert, um diese dann umgehend ad acta zu legen - daher der Wert der Foren, Distributoren und inoffizieller Quellen).

Problem: Bei einem Upgrade auf Dragon NaturallySpeaking 10 von 9 wollte die Installationsroutine einen "Security Key" zur Aktivierung haben. Gab es diesen nicht, so wurde die gesamte Installation rückgängig gemacht. Die Aktivierung wird normalerweise nach dem 1. Programmstart vorgenommen, so dass ich zuerst die Anforderung ignorierte - und dies mit drei Stunden fruchtloser Installationsversuche bezahlen musste.

Ein Anruf beim Kundensupport brachte unerwarteterweise des Rätsels Lösung: Während der Installation generiert Dragon einen Hardware-Key, aus dem dann mit der Seriennummer zusammen der Security Key generiert wird, welcher wiederum, bei der Aktivierung an Nuance übertragen wird. Dieser Hardware-Key war fehlerhaft. Dies war der freundlichen Dame in dem Moment klar, wo ich ihr den Key angab, und sie generierte auf der Stelle einen Security Key, mit dem ich problemlos die Installation abschließen konnte.

Fazit: Sollte während der Installation ein Security Key angefordert werden, 069 51 70 93 63 anrufen - hier werden Sie geholfen.

Übrigens auch zu loben: die Qualität der Computerstimme in der Warteschleife. Da hat Nuance Beachtliches geleistet - nur Dragon hat immer noch die viele Jahre alte "Vera", die einem Text vorquäkt.

02 Oktober 2008

Nuance übernimmt die Spracherkennungssparte von Philips

Nuance übernimmt die Spracherkennungssparte von Philips und will damit das Geschäft im Medizinmarkt vergrößern.

In Deutschland ist Philips mit SpeechMagic, vertreten u.a. durch die Firma Kuhlmann, der stärkste Mitbewerber von Nuance. In anderen Ländern tritt Nuance gar nicht an, weil Dragon in der Landessprache nicht verfügbar ist. Wenn Nuance Philips Speech Recognition jetzt übernimmt, sind sie auch in diesem Gebiet der Platzhirsch.

Ob beide Produktlinien weitergeführt werden, eine mit der Zeit verschwinden wird oder sich in die andere integriert, wird sich zeigen. Dragon ist eher auf den Consumer-Markt ausgerichtet und im Vergleich zu SpeechMagic wenig spezialisiert. Von daher ist für beide Produkte Platz.

Ich erinnere an zwei andere Übernahmen in den letzten Jahren. IBM Via Voice wurde nach der Übernahme in den Nuance-Vertrieb ausgehungert. Der Erwerb von Dictaphone und die anschließende Einführung des Powerscribe-Workflow in Deutschland waren nicht wirklich erfolgreich; Dragon und seine Fachhändler haben dies ganz gut überstanden. Hier hat es also der Markt, d.h. die fehlende Akzeptanz geregelt.

Welche Strategie Nuance mit dieser doch sehr spektakulären Übernahme weiter fahren wird, ist noch nicht bekannt. Bis auf weiteres soll sich für die Dragon-Händler nichts ändern - warten wir's ab. Im Moment ist es noch zu früh, etwas zu sagen.

27 September 2008

FAQ: Audio-Assistent von Dragon NaturallySpeaking

Frage: Kennen Sie eine Lösung für die wiederholte Aufforderung, beim Wechsel der Headsets (USB, Kabel etc.) die Lautstärke- und Qualitätsprüfung von Dragon NaturallySpeaking immer wieder neu vornehmen zu müssen?


Antwort: Der Audio-Assistent prüft die Lautstärke des Sprachsignals und die Nebengeräusche beim Diktieren, legt also die akustischen Rahmenbedingungen für die Spracherkennung fest. Deshalb lässt er sich auch nicht abschalten oder umgehen.

Es ist aus diesen Gründen sinnvoll, den Audio-Assistenten beim Wechsel des Eingabegerätes immer wieder laufen zu lassen: zum einen haben verschiedene Geräte verschiedene Audio-Eoigenschaften, die für die Qualität der Spracherkennung nötig sind. Zum anderen verändert sich während des Diktierens auch die Stimme, so dass der Audio-Assistent Dragon dabei hilft, wieder optimal zu erkennen. Daher sollten Sie den Audio-Assistent regelmäßig, zumindest aber beim Wechsel des Eingabegerätes ausführen - besser eine Minute lesen als viele Fehler zu korrigieren.

23 September 2008

FAZ-Testbericht über Dragon NaturallySpeaking 10

In der FAZ vom heutigen Dienstag, 23. September 2008, wird endlich der Testbericht von Michael Spehr über das neue Dragon NaturallySpeaking 10 abgedruckt. Mit gewohnter Sorgfalt wird die Erkennungsgenauigkeit gegenüber der Vorversion getestet und tatsächlich als besser erkannt, werden die Neuerungen aufgelistet und auch die immer noch vorhandenen Lücken und Fehler genannt.

Einige kleine Ergänzungen möchte ich vornehmen: es wird das längst überfällige neue Merkmale erwähnt, dass man Datumsangaben und Zahlen Formatierungen jetzt einstellen kann. Leider ist dabei ein kleiner Fehler unterlaufen - ich habe nicht die Möglichkeit, frei zu definieren, ab welcher Zahl Zahlen nur noch als Ziffern geschrieben werden sollen. Auch die Vorgehensweise, einen bereits trainierten Sprecher einfach in die neue Version zu übernehmen und ein Upgrade zu machen, ist ein wenig fragwürdig, auch wenn es im vorliegenden Fall zu einem guten Ergebnis geführt hat - nach meinen Erfahrungen kommen beim Upgrade gerne einmal Fehler in das Vokabular, davon abgesehen, dass ein alter Sprecher die neuen Möglichkeiten der Software nie ganz ausnutzen kann.

Abgesehen von diesen kleinen Anmerkungen allerdings wirklich ein sehr guter und kompetenter Artikel, der den aktuellen Stand in der Spracherkennung objektiv wiedergibt. Wer ihn bei mir bestellen will, sende bitte eine E-Mail an meine Adresse: Stephan [@] soldatkuepper.de.

17 September 2008

Spracherkennung für Interviews

In der FAZ vom 16. September 2008 stellt Michael Spehr die Möglichkeiten vor, Spracherkennung für die Transkription von Interviews zu nutzen. Sein Fazit: derzeit ist Spracherkennung noch nicht reif dafür.

Gründe sind dafür vor allen Dingen die meist schlechte Qualität der Sprache, dann aber auch die Tatsache, dass ein Sprecherprofil für jeden Sprecher angelegt werden muss, damit die Sprache adäquat verschriftlicht werden kann.

Als Alternativen schlägt er ein "Echo-Diktat" vor, das heißt also das gleichzeitige Abhören und Nachsprechen des Interviews durch einen geschulten Diktanten. Dies erfordert allerdings sehr große Übung unter hoher Konzentration. Hier wendet man sich am besten an Profis. So gibt es inzwischen das Berufsbild des Schriftdolmetschers, der mithilfe von Spracherkennung das gesprochene Wort nahezu in echt zeit in geschriebenen Text umsetzen kann - wobei allerdings entsprechendes Training vorausgesetzt wird. Weitere Informationen dazu unter www.kombia.de.

Wer den Artikel verpasst hat und per E-Mail von mir erhalten möchte, melde sich bitte unter stephan [at] soldatkuepper.de!

Zum Thema Sprecherprofil übrigens noch die Anmerkung, dass inzwischen Dragon NaturallySpeaking mit einem komplett untrainierten Sprecher, für den bloß das anfängliche Ritual zum Einstellen des Mikrofons absolviert wurde, hervorragende Ergebnisse erzielt - und das unabhängig davon, ob ein Mann oder eine Frau das Mikrofon eingepegelt hat. Vielleicht wäre dies noch einmal einen Versuch wert?

12 September 2008

Dragon NaturallySpeaking 10 - erste Erfahrungen

Inzwischen habe ich Dragon NaturallySpeaking 10 Professional auf zwei Rechnern installiert und kann erste Erfahrungen mitteilen.

1. Installation:
Die Installation ging auf einem sauberen Rechner und als Upgrade gleichermaßen glatt, sofern man die setup.exe startet - DNS 10 erwartet eine Visual C++-Runtime, die der MSI-Installer nicht it installiert, die Setup.exe aber schon.
Das Upgrade der Sprecher schlug fehl, aber wohl deshalb, weil der eine ein 4voice (d.h. geschütztes) Vokabular hatte, das DNS allein nicht lesen kann. Bei den Rechnern handelt es sich zum einen um ein Notebook mit Windows XP Pro, Intel CoreDuo T2500 mit 2 GHz, 1 GB RAM; der andere ein Desktop PC mit Windows Vista, 2 GB RAM, AMD Sempron 3400+, 1,8 GHz,

Bei der benuterdefinierten Installation lassen sich jetzt Format- und allgemeine Optionen getrennt einstellen; die Komposita können schon hier abgewählt werden. Außerdem ist die umstrittene Datensammlung mit dabei, kann aber ebenfalls ausgeschaltet werden.

2. Erkennungsgenauigkeit:
Für einen ersten Vergleich zwischen der alten und neuen Version habe ich einfach zwei Mikrofone benutzt, eines (Olympus DR-1000) am Windows XP-Rechner, auf dem zu diesem Zeitpunkt noch Dragon 9.5 installiert war, das andere (VXI Parrott TalkPro-Headset) am Vista-Rechner mit DNS 10 angeschlossen. Den DNS 9-Benutzer habe ich seit Juni im täglichen Einsatz, der DNS 10-Nutzer war völlig neu angelegt.

Die Ergebnisse unterschieden sich zwar in den konkreten Fehlern, numerisch ist das Ergebnis gleich: jeweils 8 Fehler auf 671 Wörter. Nicht gewertet wurde die Zahlenformatierung (s.u.), in der DNS 10 klar die Nase vorn hat. Interessant ist, dass DNS 10 seinen Namen nicht erkennt: "Dragon NaturallySpeaking" wurde bei jedem Vorkommen anders geschrieben (was strenggenommen die Fehlerquote auf 14 erhöht hätte, doch habe ich das Wort nur einmal gewertet).

Bei diesem Test sprach ich bewusst deutlich. Bei undeutlicher Aussprache - wie sie sich im Laufe des Tages immer mehr einschleicht - kann ich noch keine genauen Aussagen treffen. Nach den Ergebnissen, die ich gestern Abend zwischen 21 und 22:00 Uhr hatte, scheint aber auch hier die Erkennung besser zu verlaufen. Eine gute Nachricht für alle Praktiker, die viel diktieren müssen, auch wenn sie müde sind, und bisher dafür mit schlechterer Erkennungsgenauigkeit bestraft wurden.

3. Systemressourcen:

Unter Windows Vista ließ sich DNS 10 mühelos installieren, meldete aber die Deaktivierung der natürlichen Sprachbefehle für Word und Excel aus Speichergründen. Offensichtlich ist diese Kombination also für Dragon 10 schon schwach. Die Erkennung lief allerdings flüssig und vom Tempo ähnlich wie auf dem XP-Notebook mit DNS 9.5.

Die eigentliche Überraschung: Die Installation auf dem XP-Notebook lief ohne Warnung vor mangelnden Ressourcen, und die Erkennung verläuft tatsächlich flüssiger als mit DNS 9.5! Offensichtlich ist Vista schuld, denn Michael Spehr berichtete mir dasselbe.

Überhaupt scheint die Spracherkennung nach allem, was man hört, wesentlich flüssiger zu verlaufen - auch aus anderen Ecken vermeldet man das gleiche. Schön, dass sich die Befürchtungen hier einmal nicht bewahrheitet haben - bisher hat Dragon NaturallySpeaking in jeder Version das System immer stärker in Anspruch genommen. im Task Manager belegt Dragon NaturallySpeaking jetzt allerdings ungefähr 200.000 KB Speicher, vorher waren es 140.000 KB.

4. Zahlen:
Fast alles, was uns geärgert hat, ist verschwunden: eine 53 jährige Patientin geht in beiden, aber eine drei bis 4 m lange Bremsspur, eine fünf bis 6 cm große Narbe oder gar ein 7 x 8 cm großes Bild wird von DNS 9.5 wie angezeigt geschrieben, von DNS 10 in allen Fällen korrekt. Auch das Datum scheint besser zu sein, mit Ausnahme des 23. EIne Folge von Ziffern wird korrekt geschrieben, also 089244104445 statt null acht neun zwei vier vier eins null vier vier vier fünf. Paragraph drei, Abs. 4, [Ziffer] 5 ist komplett identisch. Ein Fehler macht sich allerdings bei Maßeinheiten bemerkbar - im Kochrezept werden drei Eier, 4 g Mehl, 5 l Wasser (nein, Sie brauchen das nicht essen) als drei Eier ,4 g Mehl ,5 l Wasser geschrieben, das Komma also falsch gesetzt.

5. Neuigkeiten:
Alle Neuheiten habe ich noch gar nicht ausprobiert und kann sie daher auch nicht vermelden. Was wirklich Spaß macht, ist die Möglichkeit, mit einem einzigen Befehl ein Wort oder mehrere Wörter zu formatieren oder zu löschen. Man sagt in Microsoft Word zum Beispiel "fett Dragon NaturallySpeaking", und der Ausdruck wird sofort fett gesetzt. Analog funktioniert auch "lösche Dragon NaturallySpeaking", was eine Funktion ist, die schon von vielen Benutzern angefragt wurde - zumindest haben viele Leute, die ich trainiert habe, intuitiv versucht, mit diesem Befehl ein Wort zu löschen, und waren sehr enttäuscht, als es nicht ging.

Weitere Ergebnisse in Bälde!

Anwenderstimmen DNS 10 Wireless / Plantronics Calisto Headset

Dragon NaturallySpeaking Preferred Wireless Edition wird seit neuestem mit einem Plantronics Calisto-Headset geliefert, das nach Aussagen des Herstellers optimiert für Spracherkennung wurde. Da dieses Gerät bisher nur in den USA lieferbar war, liegen in Deutschland keine Erfahrungen vor, wie gut es tatsächlich ist. Ich erhalte in den nächsten Tagen ein Gerät zum Test, damit ich dazu etwas Fundiertes sagen kann, bisher sind die Anwenderberichte gemischt. In der Firma wurde das Gerät zum Beispiel positiv getestet, allerdings nicht von mir ;-)

Dieser Anwenderbericht steht in der Yahoo-Usergroup für Dragon NaturallySpeaking zu lesen:

Die Erkennungsgenauigkeit unter Calisto ist sehr eingeschränkt. Die Wiedergabe wird begleitet von einem unangenehmen Hintergrundgeräusch inklusive Knattern und Rauschen.
Die Software wurde auf zwei neuen Rechnern (Vista/XP) mit den jeweils gleich schlechten Resultaten, (Erkennungsgenauigkeit 15), getestet.
Bei Plantronics sagte man mir, dass der Support in Deutschland abgelehnt wird, weil es absehbar war, das die Bluetooth Übertragung wesentlich schlechter wäre als der DECT Standard des CS 60.
Nuance in Edinburgh will aber kein CS 60 als Ersatz anbieten. Das defekte Gerät habe ich mittlerweile eingeschickt.
Zu Dragon 10 ist generell zu sagen, dass es flüssiger läuft, als die
Vorgängerversion 9.5.

Hier scheint ein Defekt am Gerät vorzulegen, der für die genannten Probleme sorgt.

Ein Händler bestätigt, dass er zu diesem Headset sehr unterschiedliche Reaktionen gehabt hat. Von der Distribution weiß ich, dass die professionellen Versionen nach wie vor mit einem Plantronics CS 60 gebündelt werden - was aber auch damit zusammenhängt, dass zum Beispiel in einem Krankenhaus ein Bluetooth-Headset in aller Regel gar nicht installiert werden kann.

Der Vollständigkeit halber sei aber auch gesagt, dass die Zahl, die im Audioassistenten von Dragon NaturallySpeaking erreicht wird, nicht unbedingt etwas über die Erkennungsgenauigkeit aussagt. Ein Bluetooth-Headset erreicht hier schon allein deswegen einen niedrigeren Wert, weil hohe Frequenzen erst gar nicht übertragen werden - dafür ist der Bluetooth-Standard nämlich nicht ausgelegt. In der Praxis muss sich das übrigens gar nicht in einer schlechteren Erkennungsgenauigkeit niederschlagen, wie andere Erfahrungen von Anwendern mit Bluetooth-Headsets belegen. Hier wie überall gilt, das der Diktierstil einen wesentlich größeren Einfluss auf das Ergebnis hat als das Mikrofon.

Ich würde gern weitere Stimmen speziell zu diesem Headset hören. Wer hat es getestet? Schreibt!

Ich diktiere Teile dieses Beitrags übrigens mit dem neuen Dragon NaturallySpeaking 10 und einem Olympus-Handmikrophon und kann bestätigen, dass das Diktat tatsächlich sehr viel flüssiger läuft. Außerdem erkennt die Spracherkennung jetzt endlich das Wort "Bluetooth". Ist das ein Grund für ein Upgrade?

10 September 2008

Peinlicher Spracherkennungsfehler

Peinliche Panne für Augsburger Staatsanwalt ging es durch die Schlagzeilen, als ein Augsburger Staatsanwalt einen Angeklagten als "A****loch" titulierte; - der Herr entschuldigt sich damit, er benutze Spracherkennung, habe sogar Korrektur gelesen, aber dann die unkorrigierte Version des Dokuments verschickt.

Was lehrt uns das?

1. Korrektur muss immer sein, übrigens auch bei getippten, handschriftlichen und sonstwie produzierten Dokumenten.
2. Sorgfältiges Arbeiten hat seine Vorteile.
3. Dragon kennt auch die schlimmen Wörter - übrigens auch in V. 10, ich hab nachgeschaut...

Es soll Händler geben, die in ihren Wortschätzen diese Wörter löschen.

03 September 2008

Ich bin Feuerwehrmann geworden (Werbung für die andere Dragon-Informationsquelle)

Das beste Forum zu Dragon NaturallySpeaking im deutschsprachigen Raum wird von Willy Sander angeboten. Eine Besonderheit ist es, dass alle "kleinen Drachen", also alle Forumsteilnehmer, eingedenk einer beliebten Fernsehserie für Kinder zuerst als Grisu angemeldet werden - so auch ich. Seit langem schrieb ich in diesem Forum und rief nach jedem Beitrag wie Grisu: "ich will Feuerwehrmann werden!" Seit heute bin ich es - nach dem 50. Beitrag wird man befördert.

[Edit]: Ich erwähne dies nicht aus reiner Eitelkeit, sondern weil der Foren-Thread zum Thema "wie diktiere ich CO2 so, dass die Zahl tiefergestellt wird" läuft und daher vielleicht für manche Leser interessant ist. Wir haben inzwischen einen guten Ansatz gefunden, mit dem sich zumindest in Word das Problem umgehen lässt, dass Dragon keine Indizes und tiefergestellten Ziffern schreiben will. Zu den Ergebnissen verweise ich an das Forum; die Befehle versende ich gern auf Anfrage direkt.

Und jetzt habe ich hoffentlich noch ganz viel Zeit, um mich endlich Dragon NaturallySpeaking 10 widmen zu können. Erste Erfahrungen demnächst hier!

26 August 2008

Dragon 10-Kaffeesatzleserei

Ein paar Neuerungen von Dragon 10 habe ich letztens schon genannt; eine Menge steht in den Werbemails, die Nuance im Moment verschickt - aber was brigts tatsächlich auf dem Feld der Erkennung?

Die angekündigte, um 20% verbesserte Erkennungsgenauigkeit geht wirklich an die Grenze des Wahrnehmbaren: wo DNS 9 10 Fehler macht, macht DNS 10 nur noch 8. Ob das so viel ausmacht? "Da aber schon Dragon 9 im IDealfall nur eines von hundert Wörtern missverstand, ist dies nicht sehr brisant" - schreibt Dorothee Wiegand in der aktuellen c´t, weiß darüber hinaus aber auch noch nichts Neues.

Für mich wäre viel spannender zu erfahrten, wie die neue Version mit undeutlicher Aussprache und Dialekten umgeht. Da gab es schon mal einen Sprung, als - man höre und staune - die Erkennungsgenauigkeit weiblicher Stimmen an die der Männer angeglichen wurde (war das in DNS 8?) Bei mir hat sich ein Kunde allen Ernstes darüber beschwert, dass Dragon am Abend schlechter erkenne als am Morgen - ob denn die Software müde würde? An ihm konnte es ja nicht liegen. Für mich werden aber genau hier die Schlachten der Zukunft geschlagen, und zumindest bei Nuance Deutschland ist man sich dessen bewusst. Auch das heißt aber nichts, bis das mal nach USA dringt...

Zum Thema Hardware, um Missverständnisse zu vermeiden: Die Mindestanforderungen sind nicht gestiegen, die empfohlenen Ressourcen haben sich mal eben verdoppelt. Wer daraus ableitet, DNS 10 habe keine höheren Systemansprüche als die Vorversion, beschönigt da wohl etwas. Wie es im Vergleich zu DNS 9 auf demselben Rechner aussieht, muss ich aber auch erst noch testen - mein Urlaub ist noch nicht vorbei, außerdem ist DNS 10 noch gar nicht erhältlich...

Stay tuned!

24 August 2008

Nuance und 4voice statten die nordrhein-westfälische Justiz aus

Nuance Pressemitteilungen Sind mir normalerweise keine Hinweise wert, in diesem Falle aber schon, weil hier eine Geschichte zum vorläufigen Abschluss kommt, die bereits seit meinem Eintritt bei der 4voice AG vor sich hin geköchelt hat: die Ausschreibung für die Justiz in Nordrhein-Westfalen. Eine Ausschreibung, die angefochten wurde, ein neues Ergebnis, die Auslieferung, Produkte, die nicht abgenommen worden und wieder zurückgegeben wurden - die Geschichte nahm kein Ende, und so ist es schon mit einer gewissen persönlichen Genugtuung verbunden, wenn Nordrhein-Westfalen sich jetzt doch wieder für den Anbieter entscheidet, der schon am Anfang eigentlich den Zuschlag erhalten sollte.

Soviel Stolz muss sein :-)

"Wie können sie jetzt Urlaub machen?" - weil doch DNS 10 da ist

"Wie können sie jetzt Urlaub machen?" - fragt mich einer meiner treuesten Leser und verweist auf die durch alle Newsticker gehende Agenturmeldung, dass Dragon NaturallySpeaking 10 jetzt erscheint.

Dabei ist noch gar nicht klar, wann es tatsächlich in die Läden kommt - nach meiner Information beginnt die Auslieferung Ende August. Nuance hat gar selbst noch die Version 9 auf der Website angekündigt.

Alles Neue habe ich aber schon vor meinem Urlaub onlinebestellkompatibel angekündigt. Wer also meine detaillierten Beschreibungen von Dragon NaturallySpeaking 10 lesen will, folge dem Link.

Der Fairness halber sei nicht unerwähnt, dass ich auch noch keine Vollversion 10 habe und mich daher auf Betas und Vorführungen verlassen muss, außerdem auf die Produktankündigungen des Herstellers.

Was auf jeden Fall cool wird, ist die Möglichkeit, in Befehle Variablen einzubauen, die nicht aus einer Liste stammen, sondern quasi frei sagbar sind. Dem Endanwender wird das v.a. an den Funktionen auffallen, die mit großem Aufwand angekündigt werden - der Möglichkeit, mit einem einzigen Sprachbefehl im Web zu suchen ("suche nach China-Restaurant in Berlin-Mitte"), und der Möglichkeit, ein Wort ohne vorheriges Markieren sofort zu formatieren ("schreib Dragon fett"). Dahinter steckt eine neue Technologie, die Variablen in Befehlen zulässt, welche nach Bedarf "gefüllt" werden können. Solche Variablen sollen demnächst auch in anderen Sprachbefehlen möglich sein, sicher weiß ich es von Textbausteinen, in denen man also beispielsweise einen kompletten Brief ablegen kann, bei der man bloß die Anrede als Variable markiert und dann per Sprache anspringt. Ob auch Skript-Befehle auf diese Weise möglich sein werden, wird sich zeigen - hier tun sich ungeahnte Möglichkeiten auf.

Gespannt bin ich darauf, welche Fehler und Ärgernisse der Version neun in Dragon NaturallySpeaking 10 ausgebügelt werden. Z.B. wird es möglich sein, einzustellen, welche Zahlen als Ziffer geschrieben werden sollen und welche nicht, so dass das lästige Formatieren im Vokabular oder aber korrigieren von Hand im Text oder der Befehl "schreib das als Zahl" weitestgehend der Vergangenheit angehören dürften. Wer, wie ein Arzt, eigentlich alle Zahlen als Ziffern braucht, stellt das einfach über ein Menü ein und fertig. Wie gut dann aber die Erkennungsgenauigkeit ist, muss auch die Praxis zeigen. Von der Beta-Version weiß ich, dass es hier noch Potenzial nach oben gab.

Andere Kleinigkeiten fallen mir kaum mehr auf, z.B. dass der Befehl "zum Absatzende" stillschweigend verschwunden ist. Vielleicht taucht er ja in der neuen Version wieder auf?

Stutzig machen mich die Systemvoraussetzungen, die mal wieder das Potential aktueller Hardware voll ausschöpfen (will sagen: auf älteren Rechnern die Grenze der Leistungsfähigkeit erreichen). Auch vor dem Hintergrund, dass Nuance die Spracherkennungstechnologie von Dragon NaturallySpeaking demnächst für Handys zur Verfügung stellen möchte, erscheint mir das nicht unbedingt zielführend. Ich bin sowieso gespannt, wohin diese Entwicklung noch geht - die Endgeräte werden immer leichter, Anwendungen werden im Netz zur Verfügung gestellt, aber meine Spracherkennung braucht (teilweise als letzte Anwendung) einen richtig leistungsstarken Prozessor und jede Menge Arbeitsspeicher. Hier bin ich sehr auf die nächsten Entwicklungen gespannt.

Das Kernstück, die Erkennungsgenauigkeit, kann ich natürlich ohne eine endgültige Version nicht beurteilen. Hier bin ich sehr gespannt, wenn mich das Paket erreicht, wie Dragon NaturallySpeaking 10 wohl im Vergleich zur Vorgängerversion abschneiden wird. Sie erfahren als erste davon - sobald ich aus dem Urlaub zurück bin!

08 August 2008

Ich bin dann mal weg.

When Your Computer Listens to You | New York Times Video

Mit diesem Beitrag verabschiede ich mich zunächst mal in den Urlaub - genau wie der freundliche Herr, der in dem Video zu sehen ist. Nur dass ich nicht nach Hawaii fliege, sondern nach Kreta. Das Video hat aber trotzdem alles mit dem Thema diese Blogs zu tun - aber das darf ich nicht sagen...

Ich melde mich dann bei Gelegenheit wieder mit meinen Netznotizen zu selbigem Thema!

05 August 2008

Linguatec kündigt neue Version seines Spracherkennungsprogramms Voice Pro an

Erster! Ich zitiere:

Der Münchner Sprachtechnologie-Experte Linguatec plant für Herbst 2008 die vollständig überarbeitete Neuauflage seines Spracherkennungsprogramms Voice Pro. Die Vorversion war 2004 Testsieger der Stiftung Warentest im Vergleich der Spracherkennungsprogramme.

Das Interesse an Spracherkennung ist immens. Kein Wunder – das Verfassen von Texten vielfältigster Art ist aus unserem beruflichen und privaten Alltag nicht wegzudenken, und wer würde nicht gerne „wie von Zauberhand“ schreiben können. Diktieren statt Tippen bedeutet eine spürbare Arbeitserleichterung und Entlastung für den Anwender. Auch Surfen und die Steuerung des Computers sind per Spracheingabe mühelos möglich.

Das Verblüffende an Spracherkennung ist die Geschwindigkeit, in der das Diktierte festgehalten wird. Nicht jeder kann von sich behaupten, so schnell zu tippen, wie er sprechen kann. Noch dazu sind beim Diktieren Rechtschreibfehler ausgeschlossen. In Kombination mit einer Erkennungsgenauigkeit von bis zu 99% bedeutet dies eine enorme Effizienzsteigerung für jede Schreibaufgabe.

Nach zwei Jahren intensiver Entwicklungsarbeit steht nun fest: Die neue Version der Spracherkennungssoftware Voice Pro kommt im Herbst auf den Markt. In einer engen Zusammenarbeit mit führenden Hochschulen in Deutschland, Österreich und der Schweiz wurde der Grundstock für eine neue Generation von Spracherkennung geschaffen. Besonderes Augenmerk legt die neue Version Voice Pro auf den Einsatz unter Windows Vista, eine deutlich verbesserte Erkennungsgenauigkeit und eine intuitive Bedienung.


Vista-Unterstützung war ja auch mal fällig, nicht wahr, Rike :-)

Ich bin gespannt, ob auch die Erkennungsmaschine mal überarbeitet wurde oder ob immer noch das alte ViaVoice vor sich hin werkelt. Ein Vorteil sind sicherlich die geringen Ansprüche, die die Software dann an den Rechner stellt. Wie es sich in der Praxis schlägt, werden wir nach Erscheinen feststellen.

Heute abend präsentiert Nuance in München übrigens auch neue Technologien. Obwohl in der Einladung von einem zehnfingrigen Drachen die Rede war, werde ich frühestens morgen erfahren, was es denn zu sehen gab und welche Wundertiere uns demnächst von dieser Seite ins Haus stehen, die dann bestimmt mächtig hungrig sind (nach GHz, RAM und so). Sicher weiß ich nur, dass ein sprachgesteuertes Auto zu sehen sein wird, weswegen das Event nicht im BMW-Tower stattfinden wird.

Test: Philips LFH 331 Ohrhörer-Mikrofon-Kombination

Ich habe mir testweise die Philips-Ohrhörer-Mikrophon-Kombination LFH 331 8zu sehen unter http://www.dictation.philips.com/index.php?id=53&CC=DE) für das digitale Diktiergerät DPM 9600 kommen lassen und gestern unter verschärften Bedingungen getestet - im doch recht starken Wind, an der Kreuzung Skalitzer Straße/Schlesische Straße in Berlin-Kreuzberg.

Vorgabe war festzustellen, ob das Gerät eine vernünftige Geräuschunterdrückung bietet.

Leider scheint es so zu sein, dass das Mikrophon keine spürbare Verbesserung bei der Aufnahme bringt. Dies mag am Wind liegen, der alles andere übertönt; aber auch was die Nebengeräusche durch Autos angeht, kann ich nicht wirklich eine qualitative Veränderung feststellen. Dies bezieht sich explizit auf die Spracherkennung eines aufgenommen Diktats, die Qualität des Diktats scheint mir subjektiv besser zu sein. Die Sprache selbst klingt klarer als durch das eingebaute Mikrophon des Diktiergerätes.

Das erste Fazit ist also, dass das Gerät durchaus dafür geeignet ist, in vertraulichen Situationen zu diktieren, in denen man nach Möglichkeit niemand mithören lassen will. Vor allem das abhören des Diktats geschieht für die Außenwelt geräuschlos; das Diktat selbst produziert natürlich immer noch gesprochene Sprache :-) Auch ein Diktat im Auto, bei dem ich die Hände weitgehend frei haben will, ist gut möglich; der Vorteil besteht halt darin, die Hände frei zu haben.

Um aber in einer lauten Umgebung Nebengeräusche herauszufiltern, würde ich ein anderes Gerät nehmen, also eines der Aufsteckmikrofone, die alle drei Anbieter im Programm haben.

So ist das eben - für jede Situation die passende Lösung. Leider nicht eine Lösung für alle Situationen...

22 Juli 2008

Fußschalter neu erfunden! (Belesenheit schützt vor Neuentdeckungen)

Michael Spehr macht mich aufmerksam auf einem Beitrag des hessischen Rundfunks, indem die Erfinder des Fußschalters für computergestützte Konstruktion von digitalen Diktaten erfunden werden - und Überraschung: es handelt sich um zwei Studenten aus Hessen. "Belesenheit schützt vor Neuentdeckungen" - pflegte mein verehrter Lehrer zu sagen.

Den Vorwurf brauchen wir den Erfindern gar nicht zu machen. Wie der Webseite der beiden Studenten zu entnehmen ist, sind sie sich durchaus dessen bewusst, dass es auch professionelle Diktiersysteme anderer Hersteller mit entsprechenden Fußschaltern gibt. Der Redakteur des hessischen Rundfunks scheint allerdings die nötigen Klicks nicht gemacht zu haben; er porträtiert die beiden tatsächlich so, als wäre ihr Gerät - welches übrigens mit einer einzigen Taste auskommt und daher für jede Sekretärin indiskutabel ist - tatsächlich der erste seiner Art für Computer.

Und weil ich im Gegensatz zum hessischen Rundfunk Webseiten gerne etwas genauer anschaue, erfahre ich bei der Gelegenheit, dass es tatsächlich die Firma NCH in Australien noch gibt, die irgendwann eine kostenlose Software zur Verfügung gestellt haben, mit der sich DSS-Dateien abspielen lassen - sehr zum Ärger der drei Großen, die nicht nur das Format erfunden haben, sondern auch eifrig Lizenzgebühren dafür kassieren.

Letztlich eine Bastellösung, die für Studenten sicherlich vollkommen ausreicht, aber kein professionelles Diktatmanagement ersetzen kann. Deshalb wird auf der Website auch das Diktiersystem von Olympus als professionelle Workflow-Lösung mit verkauft.

Als Fußnote:

Die Betreiber haben das Sonderangebot von Olympus, ein WS-110 digitaler Notetaker im Paket mit Dragon NaturallySpeaking "Recorder Edition", getestet, stellen den Test inklusive Korrekturen auf der Webseite zur Verfügung, und siehe da - die Spracherkennung schlägt sich mehr als tapfer! Wenn wir davon ausgehen, dass die meisten Wörter, die nicht erkannt wurden, nicht vorher zum Wortschatz hinzugefügt worden, wie sich das eigentlich gehören würde, ist die Umsetzung tatsächlich fast fehlerfrei.

21 Juli 2008

Vortrag: Spracherkennung für Übersetzer - jetzt erhältlich

Der Vortrag "Spracherkennung als Hilfsmittel für einen modernen Übersetzer-Arbeitsplatz", den Cornelia Soldat und ich am 24.06.2008 in der Humboldt-Universität zu Berlin gehalten haben, ist jetzt transkribiert und als Manuskript erhältlich. Interessenten senden bitte eine kurze Mail an
cornelia.soldat [at] cs-spracherkennung.de.

16 Juli 2008

Google Lets You Search for Text in Some Videos

Google lässt Sie in Videos nach Text suchen - schreibt das Blog www.blogscoped.com.

Was hier vorgestellt ist, ist eigentlich Audio Mining und als solches eine schon lange gehegte Begehrlichkeit: Große Mengen von gesprochenem Text werden per automatischer Spracherkennung verschriftlicht und nach bestimmten Schlüsselwörtern durchsucht. (Erinnert sich noch jemand an die Witze nach dem 11. September, als man am Telefon so Sätze wie "Ich bin laden, sprach der LKW-Fahrer" sagte, um den CIA einzuschalten?)

Google hat dies jetzt weitergeführt: YouTube-Videos können nach bestimmten Wörtern durchsucht werden und die Suchmaschine gibt das passende Video aus, komplett mit Markierung, wo der Suchbegriff zu hören ist. Verfügbar ist das im Moment für Videos der amerikanischen Präsidentschaftskandidaten; die direkte URL ist http://speech.clients.google.com/elections2008videosearch/gadget.

Nun ist nicht jede Technologie, die Google den Massen anbietet, unbedingt der Durchbruch, aber es freut uns doch, wieder ein Beispiel für funktionierende Spracherkennung zu sehen!

(Dank an Michael Spehr für den Hinweis)

15 Juli 2008

Tipp: Eigenschaften bearbeiten, um falsche Erkennungen auszuschalten

Wenig bekannt ist die Möglichkeit, Eigenschaften einzelner Wörter zu bearbeiten. Dazu werde ich in der nächsten Zeit einige Beiträge verfassen. Heute geht es darum, mit Hilfe der Eigenschaften eines Wortes die ärgerlichen Fehlerkennungen zu vermeiden, bei denen trotz hartnäckigem Training immer wieder das selbe falsche Wort hingeschrieben wird.

Wenn ein Wort konstant falsch verstanden wird und immer dieselbe Alternative auftaucht (z.B. PDS statt PDF), ist es verlockend, im Fenster "Vokabular bearbeiten" einfach "PDS" als gesprochene Form für "PDF" einzutragen. Jedoch kann das zu Verwirrungen in Dragons akustischem Modell führen, in dem u.a. die Informationen über die Aussprache einzelner Laute gespeichert werden. Besser ist es daher, im Fenster "Vokabular bearbeiten" unter "Eigenschaften" die gewünschte Form einzutragen. Dies berührt das akustische Modell nicht.

Unter "Vokabular bearbeiten" wählen Sie das Wort aus, was statt des richtigen Wortes erkannt wird, und klicken auf "Eigenschaften". Setzen Sie einen Haken vor "Alternative Form" und tragen Sie in das Feld daneben das Wort ein, welches geschrieben werden soll. Bestätigen Sie mit OK.

Denken Sie daran, dass jetzt immer das andere Wort erscheint, Sie also z.B. "PDS" nicht mehr diktieren können! Aber die gibt es ja sowieso nicht mehr...

14 Juli 2008

Vergleich: Diktiergeräte für Spracherkennung

Welches Diktiergerät eignet sich am besten für Spracherkennung? Um dieser Frage nachzugehen, habe ich einen identischen Text von circa 150 Wörtern Länge mit vier verschiedenen Diktiergeräten gelesen und jeweils von Dragon NaturallySpeaking 9.5 mit einem neuen, nicht auf das Diktiergerät trainierten Profil umsetzen lassen. Beim Diktat des Referenztextes mit einem Handmikrophon oder Headset habe ich in der Regel keinen Fehler (es handelt sich um einen Demo-Text aus dem Bereich Radiologie, den ich bei Präsentationen verwende).

Geräte, die sowohl das DSS-Format als auch das DSS pro-Format unterstützen, habe ich (nach Möglichkeit) mit beiden Formaten getestet.

Bei den getesteten Diktiergeräten handelt es sich um die derzeit aktuellen Modelle der führenden Hersteller:

- Olympus DS-4000
- Olympus DS-5000
- Philips Digital Pocket Memo 9600
- Grundig Digta 420

Jetzt die Überraschung: die Abweichungen waren minimal. Egal ob DSS oder DSS pro, egal welches Gerät - die Fehlerquote bewegte sich zwischen zwei und vier Fehlern. Interessanterweise war beim DSS pro-Format keine Verbesserung gegenüber dem DSS-Format feststellbar, obwohl beim Abhören der Diktate ein deutlicher Qualitätsunterschiede zu hören ist.

Die Frage bleibt, wie sich dieses Ergebnis bewerten lässt: sind vier Fehler auf 150 Wörter statistisch aussagekräftig oder nicht? Auf den ersten Blick handelt es sich natürlich um eine doppelt so hohe Fehlerquote; aber der Text ist zu kurz, um wirklich zu entscheiden, ob es sich um einen statistisch nicht aussagekräftigen Zufall handelt oder tatsächlich um eine deutlich schlechtere Qualität des Diktiergerätes. Hier wäre es interessant, alle Diktiergeräte einmal mit einem deutlich längeren Text zu testen. Das Olympus DS-5000, welches ich im Moment als mein Arbeitsgerät benutze, hat im kurzen Test vier Fehler gemacht; bei einem Diktat von 15 Minuten Länge aber nur sieben echte Erkennungsfehler provoziert.

Offensichtlich gilt also: die Geräte sind praktisch identisch, was die Leistung mit Spracherkennung angeht. Wichtiger ist der Stil beim Diktieren, die Nebengeräusche, wie konzentriert man ist. Und für die Entscheidung für oder gegen eines der Diktiergeräte bleibt nach wie vor eher der persönlich empfundene Komfort bei der Bedienung ausschlaggebend als die Qualität.

Fazit dieses Tests also: Diktiergeräte sind Gefühlssache :-)

19 Juni 2008

Vortrag: Spracherkennung und Übersetzungswissenschaft

Der für die Lange Nacht der Wissenschaften in Berlin angekündigte, dann aber verschobene Vortrag

„Spracherkennung und Übersetzungswissenschaft“

von Cornelia Soldat und mir wird jetzt endgültig nachgeholt am

Dienstag, 24.6. 16.00 Uhr, Humboldt-Universität zu Berlin, August-Boeckh-Haus Raum 5.42
Dorotheenstr. 65, 10117 Berlin, S + U Friedrichstraße

Alle Interessenten sind herzlich eingeladen!

16 Juni 2008

Neu bei Olympus: WS-110 DNS Version

Olympus bietet den digitalen Recorder WS-110 jetzt im Bundle mit einer Dragon NaturallySpeaking Recorder Edition an. Diese habe ich mir mal genauer angesehen, denn das Paket klingt wirklich verlockend: ein digitales Diktiergerät (der Einsteigerklasse) und ein Dragon mit nicht weniger als sechs Erkennungssprachen für ca. 100 € - wer kann dazu schon nein sagen?

Die Firma Olympus hat mir dankenswerterweise eine DVD zur Verfügung gestellt, von der aus ich die Recorder Edition auch ohne Probleme installieren konnte (ein Diktiergerät war nicht dabei, so das ich hierzu leider nichts weiter sagen kann). Allerdings wurde ich schon zu Beginn stutzig (ich hatte vorher eine ältere Version von Dragon auf dem Rechner): Der Installer warnt davor, dass die Funktionalität, direkt in den PC zu diktieren, mit diesem Upgrade verloren geht.

So war es dann auch: zwar kann ich Englisch, Spanisch, Französisch, Italienisch, Niederländisch und Deutsch als Erkennungssprachen installieren, doch als Diktierquelle steht mir nur "Pocket PC" und "Audiodateien auf Festplatte" zur Verfügung. Damit bewahrheitet sich der Name: Die Recorder Edition unterstützt nur das sogenannte Offline-Diktat, d.h. die Umsetzung von zuvor aufgenommenen Aufnahmen.

Dies tut sie in gewohnter Dragon-Qualität und in sechs Sprachen, insofern kann man sie wirklich als Schnäppchen bezeichnen. Unter der Haube arbeitet eine Dragon NaturallySpeaking Preferred 9.5.

Startet man das Programm, wird man auf eine britische Website geführt, wo sich die Vollversion Dragon NaturallySpeaking Preferred für nur 99,99 Britische Pfund erwerben lässt. Doch Obacht: Diese Preferred ist dann eine ganz normale Preferred ohne die sechs Sprachern (ich frage mich sofgar, ob Deutsch dabei ist). Auch der Umrechnungskurs hat es in sich: rechne ich die 100 Pfund in Euro um, kostet die Preferred plötzlich 199 EUR - laut amtlichem Wechselkurs wären es ca. 125 EUR. Da bestellt man doch lieber woanders.

Bei der Beschreibung der Software ist ebenfalls Vorsicht geboten: automatische Zeichensetzung und Ausfiltern von Ähs und Öhs stehen z.B. im Deutschen nicht zur Verfügung, wie auch in allen anderen Dragon-Versionen nicht. Im Englischen sieht das anders aus; andere Sprachen beherrsche ich nicht so weit, dass ich damit diktieren könnte.

Fazit: Was kann die Recorder Edition und was nicht?

- Sie kann Diktate in sechs Sprachen von (beliebigen) digitalen Diktiergeräten umsetzen. Das mitgelieferte Olympus WS-110 ist übrigens für sein gutes Mikrofon bekannt und für Spracherkennung sehr gut geeignet.
- Sie kann nicht direktes Diktat in den Rechner ermöglichen. Dazu braucht man die Dragon NaturallySpeaking Preferred Edition oder eine der professionellen Editionen. Damit werden allerdings die sechs Sprachen eingeschränkt auf höchstens zwei; und der Bezug über den eingebauten Link ist nicht wirklich ratsam.

Wer braucht das Angebot also? Die Recorder Edition in Verbindung mit dem WS-110 ist für mich (andere mögen das anders sehen) eine sehr günstige Möglichkeit, Sprachnotizen aufzuzeichnen und hinterher per Spracherkennung umzusetzen. Dies ist für mich ein wichtiges Einsatzgebiet, welches ich in letzter zeit fast täglich nutze. Wer sich ohnehin mit dem Gedanken trägt, ein Diktiergerät der Notetaker-Klasse anzuschaffen, ist mit dem Paket hervorragend bedient. Als Einstieg in die Spracherkennung bietet die Recorder Edtition von Dragon NaturallySpeaking lediglich einen Vorgeschmack auf die Möglichkeiten, die das direkte Diktat in den PC - immer noch die Königsdisziplin der Spracherkennung - bietet. Für die paar Euro mehr kann ich aber jedem nur raten, die Spracherkennung mit zu kaufen und dann bei Gelegenheit umzusteigen.

Lange Nacht der Wissenschaften - fand leider nicht statt

Will sagen: natürlich fand die lange Nacht der Wissenschaften statt, aber leider ohne unsere Beteiligung. Da der Vortrag "Spracherkennung als Hilfsmittel für einen modernen Übersetzer-Arbeitsplatz" von Cornelia Soldat und mir erst sehr spät ins Programm genommen wurde, gab es bei der Veranstaltung ein Missverständnis, aufgrund dessen wir uns schließlich ohne Ort und ohne Beamer wiederfanden und beschlossen haben, den Vortrag demnächst in einem anderen Rahmen an der Humboldt-Universität zu wiederholen.

Die Ankündigung werde ich rechtzeitig veröffentlichen.

Vorteil: der Vortrag wird nicht zu ganz so nachtschlafender Zeit stattfinden, und der Eintritt wird frei sein.

Ich freue mich auf Ihren Besuch, man lernt seine LeserInnen gern mal persönlich kennen!

11 Juni 2008

Spracherkennung in der Langen Nacht der Wissenschaft, Berlin

Am kommenden Samstag, 14.6.2008, führen meine Kollegin Dr. Cornelia Soldat und ich im Rahmen der Langen Nacht der Wissenschaften in Berlin Spracherkennung vor. Die Einladung stammt vom Institut für Slawistik der Humboldt-Universität zu Berlin (wo ich promoviert habe, falls noch mal jemand nach der Herkunft meines Doktortitels fragt), weshalb der Vortrag überschrieben ist mit "Spracherkennung als Hilfsmittel für einen modernen Übersetzer-Arbeitsplatz". Auch Nicht-Übersetzer werden aber auf ihre Kosten kommen, und sei es in der anschließenden Diskussion.

Themen sind u.a. die Erstellung und Bearbeitung von Fachwortschätzen, das technische Rüstzeug für Spracherkennung, aber auch die Funktionsweise solcher Anwendungen und die lingustischen Hintergründe.

Der Vortrag beginnt um 21h im Foyer der "Kommode", August-Bebel-Platz 1, Berlin-Mitte (gegenüber von Staatsoper und Humboldt-Universität).

Anschließend findet auf dem Platz - 1933 Ort der Bücherverbrennung - eine Lesung statt zum Thema: Verb(r)annte Interkulturalität Auch übersetzte Bücher fremdsprachiger Autoren wurden vor 75 Jahren dem Feuer anheim gegeben.

Am Bebelplatz, dem Ort der Bücherverbrennung, lesen Studierende Texte in Originalsprache und auf Deutsch. LESUNG: 22.00-23.30 Uhr

Herzliche Einladung an alle Interessierten! Weitere Informationen, Eintrittspreise usw. entnehmen Sie bitte der Website der Langen Nacht der Wissenschaften.

29 Mai 2008

BlackBerry zum Diktat – Diktiersoftware für BlackBerrys von Thax

BlackBerry zum Diktat – Diktiersoftware für BlackBerrys - kündigt Golem.de an. Thax Software hat eine Ergänzung des Findentity-Diktiersystems für Anwälte vorgestellt, bei dem sich der Blackberry als Diktiergerät verwenden lässt. Die Features - Tastenbedienung, Einfügen, Überschreiben, Indexmarken usw. - klingen völlig professionell; im Unterschied zu dem Versuch von Dictanet sollen die die Aufzeichnungen auch mit Spracherkennung bearbeiten lassen. Ein wenig Gedanken machr mir der verwendete Audio-Codec .amr statt des (lizenzpflichtigen) DSS. Das sieht nach proprietärer Lösung aus... einen PC-Player gibt es aber kostenlos dazu, notfalls lässt sich auch der Real Player verwenden. Spracherkennung braucht allerdings WAV; mal schauen, wir das gelöst wird.

Die Software soll 149 € zzgl. Mwst. kosten; derzeit gibt es sie zum kostenlosen Download zur Evaluation.

Ich warte seit Jahren auf eine vernünftige Lösung für den Pocket PC; Thax verspricht da was für "in ca. 3 Monaten". Ich bin gespannt!

(Dank an Ronny Jaekel)

16 Mai 2008

Test Headsets für Spracherkennung: Logitech vs. Terratec - wer hört besser zu?

Test Headsets für Spracherkennung: Logitech vs. Terratec - wer hört besser zu?

Der Titel sagt alles. Einen Hinweis habe ich noch: Die Zahl im Audioassistenten von Dragon gibt lediglich das Verhältnis von Sprache zu Nebengeräuschen an und ist kein Indikator für die spätere Erkennungsgenauigkeit! Ich hatte mal 37 Punkte mit einem Mikrofon, das so leise war, dass es überhaupt keine Nebengeräusche, aber auch nur sehr wenig Sprache aufgezeichnet hat. Wenn übrigens am Notebook alle Mikrofone brummen, würde ich mal den USB-Anschluss checken.
Das aber nur am Rande - Danke für den aufwändig recherchierten Test an Wolf-Dieter Roth (von dem wir auch nur Gutes gewöhnt sind).

Ich bleibe trotzdem bei meinem GN 9350, alternativ VXI Parrott Talk Pro - aber ich muss ja nicht auf den Pfennig schauen, was diese Geräte angeht. Abgesehen davon lohnt sich die Ausgabe für ein gutes Mikro immer - aber noch mehr der Aufwand, vernünftig zu diktieren (ceterum censeo...)

Nuance - Sprechen Sie Dragon?

Der Welt will ich diesen Wettbewerb nicht vorenthalten: Nuance - Sprechen Sie Dragon?

Ich spreche Dragon, um mein Blog schneller zu betexten :-)

Tipps und Tricks: Eigenschaften bearbeiten

Eine wenig genutzte Funktionen im Menü "Vokabular bearbeiten" ist die Möglichkeit, Worteigenschaften zu definieren. Hier hat man beispielsweise Gelegenheit festzulegen, ob vor oder nach einem Wort eine Leerstelle kommt, groß oder klein weitergeschrieben wird und dergleichen mehr. Außerdem -- und für die tägliche Anwendung meist wichtiger -- lässt sich das Verhalten von Zahlen vor oder nach einem Wort regeln und eine alternative Form in Abhängigkeit vom Kontext eingeben.

Dragon NaturallySpeaking bietet die Möglichkeit, Worteigenschaften zu ändern. Dazu öffnet man den Vokabulareditor (in Dragon NaturallySpeaking: Wörter - Vokabular anzeigen/bearbeiten), sucht das betreffende Wort und klickt dann auf „ Eigenschaften". Im folgenden Dialog lassen sich verschiedene Eigenschaften eines Wortes definieren, zum Beispiel ob das Wort mit oder ohne vorhergehende oder nachfolgende Leerstelle geschrieben wird, oder ob in einem bestimmten Kontext eine alternative Form geschrieben werden soll.

Über diese Funktion lässt sich zum Beispiel definieren, dass vor einer Zahl das Wort "Paragraph" als § geschrieben wird. Dazu wählt man unter "alternativen Schreibweise" die korrekte Schreibweise - in diesem Fall das § - und wählt zusätzlich "Immer alternativen Schreibweise verwenden - vor einer Zahl" und unter "Abstände": mit Leerstelle.

Analog lässt sich zum Beispiel definieren, dass das Wort "zirka" vor einer Zahl immer als "ca." geschrieben wird.

Über die Funktion "Zahlen immer als Ziffern schreiben" lassen sich auch Maßeinheiten definieren: wenn ich angebe, dass eine Zahl immer als Ziffer geschrieben werden soll, wenn sie vor diesem Wort steht, kann ich auch so exotische Maßeinheiten wie „ pmol/kg Körpergewicht" so bearbeiten, dass zahlen immer als Ziffern geschrieben werden, wenn sie vor der Maßeinheit stehen (und ich nicht sowieso grundsätzlich alle Zahlen immer als Ziffern schreiben will).

Damit Dragon NaturallySpeaking in einem Ausdruck wie "drei bis 4 cm" das Wort drei korrekt als Ziffer und "bis" als "-" schreibt, lässt sich über die Funktion "Eigenschaften" das Wort "bis" mit der alternativen Form "-"versehen. Diese alternative Form soll nur dann gebraucht werden, wenn vorher eine Zahl diktiert wurde.

Natürlich sind hier verschiedene Möglichkeiten, je nach Kontext, möglich. Leider können aber verschiedene Formatierungen nicht miteinander kombiniert werden; diese wird vielleicht in späteren Versionen der Software einmal der Fall sein.

15 Mai 2008

Tipps und Tricks: Zahlenformatierung

So erreicht man in Dragon NaturallySpeaking 9.5, dass Zahlen von null bis neun immer als Ziffern geschrieben werden, unabhängig vom Kontext:

Unter "Vokabular bearbeiten" ruft man sich jedes einzelne Zahlwort auf und bearbeitet die Eigenschaften so:

- Alternative Schreibweise: hier die Ziffer eingeben
- Abstände/Groß- und Kleinschreibung: "verbindet 2 Elemente mit dieser Eigenschaft" wählen

Zahlen werden jetzt unabhängig vom Kontext immer als Ziffern geschrieben, eine Reihe von Zahlen - z.B. eine Telefonnummer - wird ebenfalls korrekt geschrieben, das heißt ohne Lehrstellen zwischen den einzelnen Ziffern.

Anm.: Nicht beseitigt wird dadurch der Fehler, dass bei einem Datum mit nachfolgendem Punkt das Datum falsch geschrieben wird, also zum Beispiel "15.05.2000 8." anstatt "15.05.2008." - hier muss man eine Pause zwischen dem Datum und dem Punkt machen, damit das Datum korrekt geschrieben wird.


Wichtig: auch die groß geschriebenen Zahlwörter müssen mit diesen Eigenschaften versehen werden, ansonsten wird am Anfang eines Absatzes eine Zahl weiterhin als Wort geschrieben.

Richtig: 5 Wochen
Falsch: Fünf Wochen

Da mit diesen Einstellungen Zahlen immer als Ziffer geschrieben werden, sollte man sich überlegen, ob man wirklich diesen Weg geht - der Duden sieht als Standard vor, dass die Zahlwörter bis 10 ausgeschrieben werden, wer sich nach diesem Standard richten will oder richten muss, sollte eine Alternative dazu wählen:

Um die Zahlen von 0-9 nur im Kontext von anderen Zahlen als Ziffern zu schreiben (z.B. bei Postleitzahlen), gehen Sie so vor wie oben beschrieben. Setzen Sie aber zusätzlich in den Eigenschaften unter "Alternative Schreibweise" noch einen Haken vor "Immer alternative Schreibweise verwenden nach einer Zahl" und wählen Sie "Abstände - ohne Leerstelle".

Nuance liefert für DNS 9.5 folgende Hinweise zum Standard-Verhalten von Zahlen, die man sich natürlich auch angewöhnen kann:

Zur Eingabe von fünf- oder mehrstelligen Zahlen im Standardmodus möchten wir Sie auf die unterschiedlichen Eingabemöglichkeiten und die daraus resultierenden Zahlendarstellungen hinweisen:

1. "Direktes" Diktat der Zahl liefert als Ausgabe die Zahl formatiert mit Tausendertrennzeichen, z.B. "dreiundsiebzigtausendfünfhundert" - "73.500"
2. Eingabe der Zahl durch Diktieren von Ziffern liefert dies als Fließtext, z.B. "sieben drei fünf null null" - "sieben drei fünf null null"
3. Eingabe der Zahl durch Diktieren von Ziffern gefolgt von "Schreib das als Zahl" liefert diese als Ziffern getrennt durch Leerschritte, z.B. "sieben drei fünf null null" "Schreib das als Zahl" - "7 3 5 0 0"
4. Eingabe der Zahl durch Diktieren des Wortes "Ziffer" gefolgt von den Ziffern liefert die Zahl ohne Formatierung, z.B. "Ziffer sieben drei fünf null null" - "73500" 5. Eingabe der Zahl durch diktieren des Wortes "Nummerierung" gefolgt von den Ziffern liefert die Zahl ohne Formatierung, z.B. "Nummerierung sieben drei fünf null null" - "73500"
Bitte beachten Sie, dass im Zahlenmodus die letzten beiden Möglichkeiten nicht zur Verfügung stehen und die zweite Möglichkeit als Ergebnis "7 3 5 0 0" liefert.
Für weitere Möglichkeiten zur Eingabe von Zahlen und Ziffern bitten wir Sie, sich auf das Kapitel "Zahlen diktieren" in der Online-Hilfe zu beziehen.


Dies als Update zu diesem Beitrag.

FAZ-Bericht über Olympus-Recorder

Im Zusammenhang mit dem FAZ-Test des Olympus-Aufsteckmikrofons hatte ich bereits darauf hingewiesen, dass Olympus auch hochwertige Recorder herstellt, die die technischen Werte eines Diktiergerätes bei weitem überschreiten. Bevor jetzt alle Diktierer anfangen, bessere Tonqualität einzufordern, sei allerdings darauf hingewiesen, dass es sich hierbei um mehr oder weniger professionelle Aufnahmegeräte zum Beispiel für Interviews, Musik und anderes handelt, die auch in den entsprechenden Branchen vermarktet werden. Während die Aufnahmequalität dieser Recorder CD-Qualität hat, fehlen wichtige Sachen, wie z.B. Zurückspulen, Überschreiben und Einfügen einzelner Passagen und dergleichen mehr, die für einen Diktanten relevant sind. Demgegenüber steht die Qualität der Aufnahme bei einem Diktiergerät nicht besonders weit oben auf der Prioritätenliste - digitale Aufnahmen sind grundsätzlich besser als Tonbänder, und mit dem neuen DSS pro-Standard bleiben für eine Sprachaufzeichnung, die geschrieben und danach weggeworfen wird, eigentlich keine Wünsche offen, was die Aufnahmequalität betrifft.

Vorgestern testete die FAZ dann das in diesem Zusammenhang auch schon von mir erwähnte Olympus LS 10, und zwar genau im Hinblick auf die Aufnahmequalität von Musik und Interviews hin. Wer möchte, kann den Artikel bei mir beziehen, E-Mail an stephan.kuepper [at] 4voice.de genügt. Aber wie gesagt - die Zielgruppe ist eine andere, wie mir am selben Tage eindrucksvoll vor Augen geführt wurde: nämlich durch eine ganzseitige Anzeige im neuen Katalog des Sound and Drumland. Dort gibt es das Gerät übrigens für 399 € zu kaufen, empfohlener Preis bei Olympus ist 449 €.

08 Mai 2008

Sprachmakros für Windows Vista

Das Blog speech @ microsoft veröffentlicht die Beta-Version von Sprachmakros für Windows Vista. Eine recht ausführliche Beschreibung findet sich in Rob Chambers' Blog, d.i. der Teamleiter Speech Recognition. Zeit, den Vista-Rechner zu aktivieren und mit der Arbeit zu beginnen - die Vista-Spracherkennung beginnt gerade nützlich zu werden. Wenn es auf Deutsch funktioniert...

07 Mai 2008

Schnurlose Spracherkennung - Übersicht

Da mich in letzter Zeit immer wieder Fragen erreichen, hier meine Tipps zum Thema Schnurlose Headsets und Eingabegeräte.

Für Spracherkennung gibt es derzeit zwei geeignete schnurlose Headsets, das Plantronics CS 60 USB und das Jabra GN9330 bzw. GN9350. Das Jabra GN 9350 hat gegenüber den anderen Geräten den Vorteil, dass es sich außerdem an das Telefon anschließen lässt und es somit erlaubt, mit dem selben Gerät zu diktieren und zu telefonieren. Preis und Qualität der Spracherkennung sind bei Plantronics und Jabra praktisch gleich; wegen der Telefon-Funktion ist das Jabra GN 9350 ca. 120 EUR teurer. Die ungefähren Preise (inkl. Mwst.):

  • Plantronics CS60 - ca. 320 EUR
  • Jabra GN9330 - ca. 320 EUR
  • Jabra GN9350 - ca. 440 EUR

Bestellen kann man sie z.B. hier (auf "Funkheadsets" klicken).

Preislich unschlagbar ist natürlich die Dragon NaturallySpeaking Wireless-Version, ein Dragon Preferred mit beigelegtem CS 60, das für ca. 300 EUR erhältlich ist. Mein Tipp für Einsteiger, aber auch das ebste Preis-Leistungs-Verhältnis für alle, die ein Wireless-Headset suchen!

Die Entscheidung für ein Modell kann ich Ihnen nicht abnehmen - letztlich ist es, wie immer, eher eine Frage des persönlichen Geschmacks als der Technik. Daher kann ich im weiteren auch nur für mich sprechen (aber dazu ist ein Blog ja da):

Ich selbst arbeite derzeit mit dem Jabra GN 9350 und bin sehr zufrieden - das Headset ist leicht und bequem, Probleme sind bisher nicht aufgetreten und auch von Kunden nicht bekannt, der Akku hält einen Arbeitstag lang durch (auch wenn ich empfehle, ihn während der Mittagspause aufzuladen), nur zu Umschalt-Funktion zum Telefon kann ich leider nichts sagen, weil ich kein geeignetes Telefon habe. Wenn man wie ich Voice over IP und privat schnurlose Handgeräte benutzt, ist es eben nicht möglich, das Headset zwischen Telefon und Hörer einzuschleifen.

Schnurlos arbeitet außer den genannten Headsets nur noch das Revolabs Solo Desktop-Ansteckmikrofon, das ebenfalls eine hervorragende Qualität der Erkennung bietet - wenn es möglichst weit oben am Hemd befestigt wird und man den Kopf beim Diktieren nicht bewegt. Abweichungen von der korrekten Haltung bestraft es leider sehr schnell.

Das Grundig Digta Cordex, ein schnurloses Handmikrofon, soll demnächst nun wirklich auf den Markt kommen; Dictanet bietet außerdem ein proprietäres Gerät an, das aber für Spracherkennung nur bedingt geeignet ist und außerdem die Dictanet-Software benötigt. Ein anscheinend baugleiches Gerät ist neulich mal in meinem Blickfeld aufgetaucht; vielleicht werden ja inzwischen bessere Komponenten verbaut. Zur Software weiß ich nichts. Weitere Lösungen aus dem Musikbereich sind bei technisch versierten Diktanten im Einsatz, dies sind aber m.W. nur vereinzelte Anwender.

Die Erkennungsgenauigkeit ist inzwischen bei den schnurlosen Headsets genauso gut wie bei den schnurgebundenen. Ein schnurloses Headset ist für mich aber immer nur im Büro einsetzbar, weil ich immer eine Basisstation an den Rechner anschließen muss. Wenn ich mit einem Notebook viel unterwegs bin, möchte ich dieses Gerät nicht mit schleppen müssen (damit dann im kritischen Moment die Batterie leer ist); hier würde ich also auf jeden Fall zu einem schnurgebundenen Headset raten.

Hier empfehle ich das VXI Parrott TalkPro-Headset, das ich an meinem Testrechner und als Back-up einsetze. Meine Erfahrungen finden Sie, wenn sie in den letzten Notizen nach "Parrott" suchen oder einfach folgenden Link anklicken: http://voiceberlin.blogspot.com/search?q=parrott. Bestellen können Sie das VXI Parrott TalkPro USB-Headset hier.

Bluetooth-Headsets sind dagegen für Spracherkennung nicht wirklich geeignet, da der Bluetooth-Standard keine ausreichende Übertragungsqualität gewährleistet. Einzige Ausnahme: das BlueParrott-Headset, und auch nur dann, wenn das Notebook Bluetooth eingebaut hat. Das Headset ist gut, aber mit dem Geräteanschluss durch Bluetooth hatte ich immer nur Ärger - übrigens unabhängig vom Gerät genauso mit Mäusen, Tastaturen und anderen Geräten.

Soweit zu den von mir getesteten Geräten. Ich freue mich über Erweiterungen meines Horizontes - wer von den Lesern hat eine Empfehlung? Nutzen Sie die Kommentar-Funktion oder mailen Sie an stephan [at] soldatkuepper.de!

30 April 2008

FAZ-Bericht über Olympus-Aufsteckmikrofon

Am 29.4. berichtete Michael Spehr in der FAZ über das Olympus ME-12 Aufsteckmikrofon für Diktiergeräte, das Nebengeräusche sehr effektiv ausfiltert und damit nach seinen Angaben die Spracherkennungsgenauigkeit beim Diktat im Auto von 80-90% auf 98 % steigert. Für viele Diktierer sicher ein großer Nutzen!

Das Gerät selbst ist gar nicht so neu, aber das ist schließlich kein Hindernis für eine Berichterstattung. Wer es moderner liebt: Ein Kollege weist mich darauf hin, dass es inzwischen weitaus bessere Aufnahmesysteme von Olympus gibt, die allerdings dann auch entsprechend viel kosten, oder aber zum Diktat nicht gedacht sind. Beispiele sind die derzeit leider nicht verfügbaren Olympus LS 10 und Olympus DS 50.

Wirklich beeindruckend fand ich aber den Einsatz des Testers, der mit Tempo 140+ im Rhein-Main-Gebiet über die Autobahn braust und dabei noch diktiert! Sehr hübsch auch das Foto zum Artikel, das das Olympus-Mikro auf einem Philips-Diktiergerät zeigt und solcherart beweist, dass es mit allen gängigen Geräten kompatibel ist.

Den Artikel bestellen Sie bei mir per E-Mail an stephan.kuepper [at] 4voice.de. Das Aufsteckmikro gibt es z.B. im 4voice-Shop für ca. 20 EUR.

11 April 2008

Testbericht: Olympus DS 5000

Das neue digitale Diktiergerät von Olympus, dass Olympus DS 5000, ist bisher noch gar nicht auf dem Markt erhältlich. Das hier von mir vorgestellt Gerät wurde mir vorab von der Firma Olympus zur Verfügung gestellt, um es auf der Messe zu benutzen und dort vorzuführen. Dafür herzlichen Dank!

Das Olympus DS 5000 zeichnet ausschließlich im DSS Pro-Modus auf. Dafür gibt es zwei Qualitäten, SP und QP. Ich habe denselben Text in beiden Qualitäten aufgenommen; die höhere Qualität gab tatsächlich eine bessere Wiedergabe. Die Spracherkennung der beiden Dateien gab allerdings ein nahezu identisches Ergebnis; interessanterweise war der in der höheren Qualität aufgenommenen Text etwas schlechter umgesetzt. Der Fairness halber muss ich sagen, dass ich die Spracherkennung nicht auf das Gerät trainiert habe, sondern einfach mein normales lokales Profil gewählt habe.

Das Design des Gerätes ist wie immer Geschmackssache, ich habe etwas gebraucht, um mich mit der Farbe der Metallteile anzufreunden. Die schwarze Gehäusefarbe stört nicht wirklich, die metallfarbenen Teile wirken allerdings, als wäre das Gerät schon einige Zeit in Gebrauch. Inzwischen finde ich es aber angenehm. Der Schiebeschalter liegt hervorragend in der Hand, auch ansonsten sind zahlreiche kleine Verbesserungen vorgenommen worden.

Ob man wirklich die ganzen Bedienelemente auf der Vorderseite braucht, sei dahingestellt. Jedenfalls lassen sich die wesentlichen Funktionen im Kontext aufrufen, und auch das Bedienfeld zum Vor und Zurückspulen ist intuitiv zu bedienen, die Tasten allerdings "für Chirurgenhände zu klein" (Zitat einer Dame, die vor einigen Jahren ein digitales Diktatmanagement in einem Krankenhaus eingeführt hat).

Das Gerät enthält fest eingebaut ein Mikro-SD-Karte, außerdem eine herkömmliche SD-Karte als Wechselspeicher. Dies führt dazu, dass sich beim Anschluss des Gerätes gleich zwei Windows Explorer-Fenster öffnen, weil es als doppelter Wechseldatenträger erkannt wird. Im Gerät ist einstellbar, ob es als Wechseldatenträger oder als USB-Gerät fungieren soll.

Viele Verbesserung liegen im Detail, so z.B. in dem doppelten Speicher, der wirklich bequemen Ladestation, die sich mit einer Hand bedienen lässt und nicht mit der anderen Hand festgehalten werden muss, dem USB-Anschluss, der jetzt auch den Standards genügt, der leicht zu wechselnden Karte, dem neugestalteten Schiebeschalter usw. Olympus schließt mit diesem Gerät zu den neuen Modellen von Philips und Grundig auf, welches Gerät man bevorzugt, ist jetzt wieder mehr denn je Frage der persönlichen Vorlieben.

Nuance-Sonderaktion: Dragon-Testversion beim Kauf eines Plantronics Headset

Tipp aus der Voice Community:
Mit dem Kauf eines .Audio 310 oder .Audio 610 USB-Headsets von Plantronics haben Kunden noch bis Jahresende die Möglichkeit, die Spracherkennungssoftware Dragon NaturallySpeaking 9 kostenlos zu testen. Dies haben die beiden Hersteller Plantronics und Nuance im Rahmen einer strategischen Partnerschaft vereinbart. Die Kunden erhalten beim Kauf des Plantronic Headsets einen Code, mit dem sie die Testversion unter www.nuance.co.uk/plantronics kostenlos herunterladen und 15 Tage lang ausprobieren können. Danach können sie die Spracherkennungssoftware zu einem vergünstigten Preis erwerben.


Meine Neugier war nicht so groß, dass ich alles stehen und liegen gelassen hätte, um den Link auszuprobieren, aber neulich war es so weit: auch ohne Code kann man sich dort immer noch für die Testversion registrieren und sie herunterladen - zunächst nur eine kleine EXE-Datei von 385 KB, die dann einen Download Manager startet. Der ganze Download hat 250 MB.

Mein Augenmerk lag weniger auf dem Test der Spracherkennung - die funktioniert nicht schlechter als in anderen Versionen - als auf den Features der Standard. Hier muss ich sagen, dass ich nur die Eischätzung meines Kollegen Stefan Osterland bestätigen kann, der die Standard als "kostenpflichtige Demoversion" bezeichnet. Alles, was mir aus der Preferred (ca. 200 €) und Professional (ca. 800 € netto) liebgeworden ist, geht in der Standard nicht, angefangen mit dem Diktat außerhalb von DragonPad und MS Word bis hin zur raschen Vokabularbearbeitung und Befehlserstellung. Umsetzung vom Diktiergerät und Diktat auf Englisch kann man zu einem Ladenpreis von 69 € sowieso nicht erwarten.

Wer also schon immer mal probieren wollte, wie sich Spracherkennung anfühlt, kann sich 14 Tage lang mit der Standard beschäftigen und dann auf eine anständige Version umsteigen - Dragon NaturallySpeaking Preferred für Heimanwender, Dragon NaturallySpeaking Professional für Profis. Ich hoffe nur, dass jetzt nicht wieder eine Flut von "Spracherkennung funktioniert doch gar nicht"-Artikeln in den Medien folgt. Spracherkennung schlecht zu machen ist noch einfacher als sie gut zu machen, und liest sich allemal flotter, ob berechtigt oder nicht - siehe diesen Eintrag.

Foren: Nachtrag

Nachtrag 11.4. zu meinem Beitrag über das alte Nuance Forum und seine Alternativen, nach Rücksprache mit den beiden deutschen Dragon-Verantwortlichen:

Gleichzeitig zu dem inkriminierten Download-Link wurden im Forum irgendwelche Sex-Links gepostet. Weil das Forum zwar von deutschen Nuance-Mitarbeitern gelesen, aber von Amerika aus verwaltet wurde, war das Monitoring des Forums sehr weit unten auf der Prioritätenliste, und so wusste man sich nicht anders zu behelfen als es abzuschalten. Das belegt zwar (entgegen anderslautenden Gerüchten), dass das Forum durchaus von Nuance gelesen wurde, auch wenn der Hersteller viele angesprochene Probleme nie einer Lösung zugeführt hat, aber auch, dass Deutschland offenbar weit unten auf der Prioritätenliste steht (s. auch diese deutsche Forumsdiskussion und diesen Thread in einem amerikanischen Forum).

Im deutschsprachigen Raum gibt es neben diesem Blog diese ernstzunehmenden Anlaufstellen:

  • das OASA-Forum von Willy Sander

  • eine Yahoo-Newsgroup "Dragonanwender"


  • - wobei viele Beiträger identisch sind.

    Wer Hilfe vom Doktor persönlich möchte, der schreibt mir am besten direkt an stephan [at] soldatkuepper.de!

    10 April 2008

    FAZ-Bericht über Philips Diktiersystem

    Wegen der Conhit-Messe in Berlin komme ich erst am Tag nach Erscheinen des Artikels in der FAZ dazu, auf den jüngsten Test eines digitalen Diktiersystems hinzuweisen: Michael Spehr berichtet über das Philips Digital Pocket Memo 955. Dabei handelt es sich um ein System zur Aufzeichnung von Konferenzen mit (wahlweise) einem Aufsteckmikrofon oder bis zu 6 Kontaktflächenmikrofonen auf das digitale Diktiergerät DPM 955, das dem DPM 9370 täuschend ähnlich sieht, aber über keine Funktionen zum Einfügen etc. verfügt. In einer Konferenz werden diese Funktionen auch nicht benötigt, so dass sie niemandem fehlen werden. Damit bietet nun auch Philips eine einfache, handhabbare Lösung zur Aufzeichnung von Interviews und Sitzungen an.

    PDF-Versionen des Artikels sende ich gern auf Anfrage.

    Ich selbst habe (endlich) ein Grundig DigtaSonic 420 und (schon) ein Olympus DS-5000 im Test, die ich in den nächsten Tagen hier genauer unter die Lupe nehmen werde - beides allerdings keine Konferenzgeräte, sondern digitale Diktafone für den professionellen Einsatz. Stay tuned!

    Mailboxbotschaft per Software von Ton in Text verwandeln

    Ist dies Nuance's Antwort auf Spinvox? - fragt mich einer meiner treuesten Leser.

    Möglicherweise ist sie das, aber - Spinvox hat einen fertigen Dienst, Nuance nur ein Produkt.

    Weitere solcher Dienste werden kommen. Zumindest der Voicemail-Dienst von Spinvox ist genial, der SMS-Dienst ausbaufähig (ich würde gern SMS an jeden meiner Kontakte per Sprache senden können, nicht nur an eine vordefinierte Liste). Ich empfehle weiterhin jedem den Test.

    (Mit Dank an Ronny Jaekel)

    31 März 2008

    BBC NEWS über Spinvox

    Über Spinvox habe ich hier schon einige Male berichtet - im wesentlichen handelt es sich um einen Dienst, den man vom Handy anrufen kann, um eine gesprochene Botschaft in Text umsetzen zu lassen. Das funktioniert sehr gut mit SMS und Mailbox, nicht ganz so gut mit Blog-Einträgen und Notizen.

    Einen Hintergrundbericht zu dieser Technik gibt es jetzt auf der BBC-Website - immerhin handelt es sich um eine britische Technologie. Dort ist zum Beispiel auch zu erfahren, dass das System in Fällen, in denen die Spracherkennung meint, ein Wort nicht zu verstehen, um menschliche Hilfe bittet.

    In Deutschland scheint man noch nicht so weit zu sein, denn zumindest die Nachrichten auf meiner Mailbox weisen gerade bei Eigennamen meistens Lücken auf. Da aber der Absender angezeigt wird, ist das im praktischen Einsatz nicht weiter tragisch. Ich würde mir jedenfalls wünschen, dass viel mehr Leute auf meine Mailbox sprechen und nicht so ungeduldig sind, nach dem fünften Klingeln abzubrechen und mich zurückrufen zu lassen.

    Wer sich anmelden will, um den Dienst selbst zu nutzen:

    www.spinvox.com

    (mit Dank an Michael Spehr)

    20 März 2008

    Anlaufstellen für Fragen zur Spracherkennung

    Weil mich in letzter Zeit immer mal wieder Fragen zum alten Scansoft-Dragon-Forum erreichen:

    das Forum wurde abgeschaltet, als dort der Link zur Dragon 9.5 Update gepostet wurde - wohl der letzte Tropfen, der das Fass zum Überlaufen brachte, denn die Diskussion der Merkwürdigkeiten unseres geliebten Drachen hielt man wohl nicht unbedingt für die beste Werbung.

    Die Reaktion kam insofern überraschend, weil der Hinweis, Nuance könne sich die Beiträge mal lesen und ggf. Abhilfe bei immer wieder diskutierten Bugs schaffen, sich durch alle Beiträge des Forums zog - ohne dass darauf jemals eine Reaktion gekommen wäre. Auch eine Art der Kundenkommunikation.

    Folgt man dem alten Link, wird man aufgefordert, ein Passwort anzugeben. Das Passwort ist ein Ablenkungsmanöver. Ich hatte eines, das hier aber nicht gilt.

    Im deutschsprachigen Raum gibt es neben diesem Blog als ernstzunehmende Anlaufstellen:

  • das OASA-Forum von Willy Sander

  • eine Yahoo-Newsgroup "Dragonanwender"


  • - wobei viele Beiträger identisch sind.

    Wer Hilfe vom Doktor persönlich möchte, der schreibt mir am besten direkt an stephan [at] soldatkuepper.de!

    Frohe Ostern!

    Ihr Osterei finden Sie, indem Sie in Dragon NaturallySpeaking "Info" aufrufen und dann Umschalt + F1 drücken.

    Viel Spaß dabei!



    Nachtrag: Dieses Ei habe ich gerade in DNS Legal gefunden. Die hübschen Ukrainerinnen haben wohl bei der Lokalisierung nicht genau hingeschaut...

    Diese Fehlermeldung verhütet man übrigens, indem man in den Optionen, Registerkarte "Daten", den für die Wiedergabe reservierten Speicherplatz von 40 MB auf z.B. 200 MB erhöht.

    04 März 2008

    Voice on the Go Inc.

    Voice on the Go nennt sich ein Dienst, mit dem sich über das Handy E-Mails abrufen und vorlesen, verwalten und sogar per Spracherkennung beantworten lassen. Auch der Kalender lässt sich darüber verwalten.

    Ich bin zu selten im Auto unterwegs, als dass ich es unbedingt nützen würde, und habe mir statt dessen eine Bluetooth-Tastatur für meinen PDA gekauft. Da der Service demnächst ins O2-Paket aufgenommen werden soll, bekomme ich es aber vielleicht sowieso.

    Wer herausfinden will, ob es für ihn/sie das Richtige ist, der/die sehe das Video, das von der Startseite aus verlinkt ist.

    08 Februar 2008

    MacSpeech's Dictate: high quality voice recognition for the Mac - AppleInsider

    MacSpeech's Dictate: high quality voice recognition for the Mac - AppleInsider

    Gute Nachrichten für Mac-User: Laut dieser Website wird es Macspeech, die neue Spracherkennung für Mac mit Nuance (Dragon)-Technologie auch bald auf Deutsch geben!

    Die Forenkommentare lassen größtenteils den üblichen Sermon zur Spracherkennung ab oder wünschen sich Spracherkennung für das iPhone. Auf Spinvox habe ich schon hingewiesen, welches ein Schritt in die richtige Richtung ist. Offline-Spracherkennung auf einem Smartphone oder Handheld Computer ist aber wohl wegen der benötigten Rechnleistung noch utopisch. Interessant ist, dass iListen nach Aussage aller Forenteilnehmner Dragon klar unterlegen ist. So groß hatte ich den Abstand gar nicht in Erinnerung - aber Dragon hat ja auch einen Versionsspsrung gemacht, seit ich iListen getestet habe.

    29 Januar 2008

    FAZ-Bericht über Spinvox Voicemail

    "Die Frankfurter Allgemeine Zeitung berichtet heute über den Voicemail-Dienst von SpinVox, bei dem eine aufgenommene Voicemail, also eine Ansage auf der Mailbox, automatisch in geschriebenen Text umgesetzt wird und per SMS an Handy gesendet wird. Anstatt die Mailbox abzuhören, kann man einfach die SMS lesen. Das tolle ist, es funktioniert."

    spoken through SpinVox



    Jetzt spreche ich mit Dragon NaturallySpeaking weiter, weil der Blog-Dienst von Spinvox nämlich eine Aufzeichnung nach einer halben Minute abbricht:

    Bis jetzt habe ich wirklich gute Erfahrungen mit Spinvox gemacht, vor allen Dingen mit der Voicemail und dem SMS-Dienst. Auch ein Memo kann über das Telefon aufgenommen werden und als E-Mail an eine vordefinierte Adresse verschickt werden; hier gilt aber ebenfalls die Beschränkung auf 30 Sekunden, was für mich zu wenig ist. Egal, man spricht einfach mehrere Memos auf.

    Das übliche, nämlich die Eigennamen, machen Schwierigkeiten; ansonsten ist aber die Erkennung praktisch hundertprozentig. Und das bei wirklich schlechten Voraussetzungen: Eingabe über das Telefon, keine spezifische Diktier-Intonation und dergleichen mehr.

    Respekt, das hat Spinvox wirklich gut hingekommen!

    Abgesehen von der reinen Empfehlung liefert der Artikel interessante Hintergrund-Informationen. Empfohlene Lektüre, und wer heute die FAZ nicht kauft, schickt wie gewohnt einfach eine E-Mail an stephan.kuepper [at] 4voice.de und ich sende eine Kopie als PDF-Datei.

    24 Januar 2008

    MacDragon

    MacSpeech ist Eingeweihten bekannt als Anbieter einer Spracherkennung (iListen) für Apple MacIntosh-Computer, die qualitativ gar nicht mal so schlecht war (als ich sie vor nunmehr 3 Jahren mal getestet habe, war sie ungefähr auf dem Niveau von Dragon NaturallySpeaking 7).

    Jetzt lizensiert Nuance seine Dragon NaturallySpeaking-Technologie an Macspeech. Will sagen: demnächst wird es Dragon NaturallySpeaking auch auf dem Mac geben! Das ist doch mal eine gute Nachricht für uns, die wir das Design der Geräte schon immer cool fanden, aber trotzdem nicht von Windows weg wollten, weil wir dann unseren geliebten Drachen nicht mehr zur Verfügung hätten.

    Davon abgesehen bin ich gespannt, wie die Resonanz in der traditionell technikaffinen Mac-Gemeinde aussieht - wenn sich erst mal herumspricht, wie viel Spaß es macht, mit dem Computer zu sprechen, wird die Welle vielleicht wieder zurück schwappen, und mehr Leute werden sich für Spracherkennung begeistern - so wie Sie und ich jetzt schon :-)

    Der Name für das Produkt steht auch schon fest: MacSpeech Dictate (nicht unbedingt der Gipfel an Kreativität). Für verschiedene Dialekte des Englischen (ganz zufällig natürlich die, die auch in Dragon NaturallySpeaking enthalten sind) wird es das Produkt "bald" - angeblich ab dem 15.2. in den USA für 199 $ - zu kaufen geben. Ich bin gespannt auf die deutsche Version - vielleicht stellt mir die Firma ja mal einen von den coolen neuen Mac Airs zur Verfügung.

    20 Januar 2008

    Speaking Freely - bloggen vom Handy per Spracherkennung

    "SpinVox Block. So nennen sich alle neue Lösungen die in der letzten Zeit durch ___ Pressemitteilungen gingen und im Internet auftauchte. Man spricht v. einer Blockbeitrag(?) einfach in sein Handy zwar sind die auf eine Mailbox und auf einem Server der Spracherkennung das gesprochene in geschriebenen Text verwandelt und im Block veröffentlicht."

    spoken through SpinVox



    Das sollte heißen:
    Spinvox Blog - so nennt sich eine neuen Lösung, die in der Letzen Zeit durch mehrere Pressemitteilungen ging und im Internet auftauchte. Man spricht seinen Blogbeitrag einfach in sein Handy praktisch wie auf eine Mailbox und auf einem Server wird per Spracherkennung das Gesprochene in geschriebenen text verwandelt und im Blog veröffentlicht.

    Schon nicht schlecht, oder? V.a. wenn man die Anzahl meiner Tippfehler beachtet. Dragon erkennt zwar besser, aber nicht durch das Telefon. Großer Nachteil ist jedoch die Beschränkung auf eine Minute - das reicht mir nicht für einen Beitrag.

    Trotzdem: Der Service rockt. Sehr cool die Möglichkeit, eine Mailbox einzurichten, die alle Anrufe aufzeichnet, transkribiert und als SMS auf das Handy schickt. SMS zu diktieren geht auch schon mit einem kleinen Trick (Spinvox Blast), und schließlich kann man sich selbst ein Memo schicken, das allerdings auch nur eine Minute lang sein darf. Ich bin recht begeistert und werde den Service nutzen; wer ihn ausprobieren will, kann sich unter www.spinvox.com kostenlos registrieren. Im Moment fallen höchstens Telefongebühren an; da der Server über eine deutsche Festnetznummer errreichbar ist, sind die in meiner Flatrate schon enthalten :-)