23 Dezember 2009

Grundig Digta SonicMic in neuer Generation

Kurz vor Weihnachten gibt die Firma Grundig das Erscheinen ihrer neuen Gerätegeneration, das Grundig Digta SonicMic II, bekannt (Pressemitteilung). Äußerlich hat sich am Gerät nicht viel geändert, außer dass der Schiebeschalter etwas ergonomischer gestaltet wurde und nun über eine Schraube in der Empfindlichkeit einstellbar ist. Die verwendeten Komponenten sollen jedoch zu einem niedrigeren Stromverbrauch beitragen, die Klangqualität wurde verbessert und - für mich als Software-Mensch besonders interessant - eine neue Ausgabe des Grundig Adapter Server zur Konfiguration des Gerätes wurde entwickelt.

Dieser macht es zum Beispiel möglich, Tastenkonfigurationen direkt auf dem Gerät zu speichern, so dass man ein Gerät an verschiedenen Rechnern anschließen kann, ohne es dort jedes Mal neu konfigurieren zu müssen. Ferner ist jetzt auch eine Tastenbelegung für Dragon NaturallySpeaking enthalten, die auch für das neue Dragon Medical mit dem "Verborgen"-Modus bereits geeignet ist. So lässt sich über eine Taste der "Verborgen"-Modus aufrufen und das Diktat in die Anwendung zurück übergeben. Wie gut das inzwischen funktioniert, kann ich leider noch nicht sagen, weil mir im Moment noch die aktuelle Software fehlt. Diese wird es aber demnächst bei Grundig zum Download geben.

Für Spracherkennung interessant ist auch die Funktion des Schiebeschalters, das Mikrofon bereits stumm zu schalten, während im Hintergrund auf dem Rechner noch die Spracherkennung läuft. Bei anderen Geräten ist dies so nicht möglich; das Mikrofon reagiert erst nach Abschluss der Erkennung, was gelegentlich zu Problemen der Anwendung führt. Während dies bei den alten Digta SonicMic-Geräten eher ein zufälliger Vorteil war, hat man bei der neuen Generation nun bewusst darauf geeignet, dieses Merkmal beizubehalten, und es sogar konfigurierbar gemacht.

22 Dezember 2009

FAZ-Artikel: Philips SpeechMike Air

Die FAZ erinnert mich daran, dass ich eigentlich schon längst einen Bericht über das neue Philips SpeechMike Air, das schnurlose Diktiermikrophon von Philips, welches vor ein paar Wochen endgültig erschienen ist, hätte veröffentlichen sollen. Immerhin habe ich schon etliche dieser Geräte in der Hand gehabt, ausgeliefert, vorgeführt, geschult...

Mit der Philips Device Control Center-Software versehen, die man bereits aus dem schnurgebundenen SpeechMike kennt, ist das Philips SpeechMike Air tatsächlich ein mächtiges Werkzeug für jeden, der viel diktiert. Eine umfangreiche Steuerung Der Spracherkennung oder der SpeechExec-Diktiersoftware zur Aufzeichnung von Audio-Diktaten ist mit der Software möglich. Dragon NaturallySpeaking kann komplett mit dem Mikrofon gesteuert werden (wobei manche Einstellungen für mich nicht ganz nachvollziehbar sind, aber problemlos geändert werden können), und die physikalischen Eigenschaften, Handhabbarkeit, Tonqualität und Verbindung sind exzellent. Gegenüber meinem Testgeräten gibt es jetzt einen neuen Trackball aus glänzendem Metall, der eine Freude zu bedienen ist, und auch die gelegentlichen Abstürze bei der Verbindung, die mit meinem Testgeräten noch zu beobachten waren, scheinen der Vergangenheit anzugehören.

Die Verbindungs zum Rechner geschieht über Bluetooth 2.0, dass eine sehr viel bessere Sprachqualität aufweist und für Spracherkennung uneingeschränkt geeignet ist. Die Erkennungsgenauigkeit steht der meines schnurgebundenen Headset, das normalerweise für mich das Maß aller Dinge darstellt, in nichts nach. Dafür habe ich aber kein Kabel mehr, über das ich fahre, und so ein Handmikrophon ist ja auch sehr praktisch, wenn man keine längeren Texte hintereinander diktiert, sondern nur von Zeit zu Zeit kürzere Sachen absitzen muss...

Verspielt sind die Bezeichnungen der einzelnen Komponenten. Neben dem eigentlichen Mikrofon, den SpeechMike Air, gibt es eine Ladestation namens Airport, einen Sender (der meist in der Ladestation steckt, aber auch mit einem Mini-USB-Kabel direkt an den Rechner angeschlossen werden kann, zum Beispiel wenn man unterwegs ist) namens AirBridge und eine Tasche mit dem schönen Namen Airbag. Wer mag, kann sich das Gerät auch an einer mitgelieferten Schnur um den Hals hängen und ein (nicht mitgeliefertes) Headset oder ein Ansteckmikrophon daran befestigen.

Das SpeechMike Air gibt es wie auch das schnurgebundene Gerät in 3 verschiedenen Varianten mit Drucktasten, Philips-Schiebeschalter und internationalen Schiebeschalter für jeden Geschmack. Neben den Steuerungstasten für das Diktat ist immer eine Mausfunktion sowie 3 frei belegbare Funktionstasten dabei, so dass das Gerät tatsächlich den Rechner komplett bedienen kann. Der Preis liegt bei 399 € zuzüglich Mehrwertsteuer; die Variante mit Philips SpeechExec-Diktiersoftware kostet 499 € zuzüglich Mehrwertsteuer. Wer mit Dragon NaturallySpeaking arbeitet, kommt mit der Variante ohne SpeechExec-Diktiersoftware bestens zurecht.

Ach so: der Testbericht der FAZ ist in der heutigen Ausgabe vom Dienstag, 22.12.2009, erschienen. Kompetenter Tester ist wie immer Michael Spehr.

21 Dezember 2009

Opera Face Gestures

Nach der Spracherkennung jetzt die Gesichtserkennung - Steuern Sie Ihren Browser ohne Hände, nur mit Bewegungen des Gesichts! Hier das Video bei YouTube - Opera Face Gestures.

Fast noch komischer als dieser Aprilscherz ist die Tatsache, dass sich jemand, inspiriert von diesem Video, die Mühe gemacht hat, tatsächlich ein solches Programm zu schreiben:

http://www.smert.net/2009/04/23/opera-face-gestures-beta/

Video der Spracherkennung in Windows 7

Simon macht mich aufmerksam auf dieses Video, in dem die Spracherkennung in Windows 7 geradezu didaktisch vorgeführt wird. Didaktisch zum einen deshalb, weil so ungefähr alles, was man mit der Spracherkennung machen kann, irgendwann irgendwo vorkommt; zum andern auch, weil gezeigt wird, dass doch eine Menge auf den Autor ankommt: wer wie dieser Autor seine Gedanken erst beim Sprechen verfertigt, wird natürlich beim Diktieren länger brauchen als jemand, der bereits Übung darin hat, sich "spracherkennungstauglich" auszudrücken. Allein schon das Zögern vor jedem Satzzeichen spricht Bände :-)

Aber im ganzen ein wirklich gelungenes Video, das ich jedem nur empfehlen kann, der sich einmal mit der Spracherkennung in Windows 7 auseinandersetzen will.

Ich diktiere natürlich weiter mit Dragon NaturallySpeaking :-)

Dragon-Suche für das iPhone

Nachdem zumindest in den USA ein Dragon-Diktiersystem für das iPhone erhältlich ist (siehe unten), gibt es nun auch eine ganz ähnliche Anwendung zur Websuche mit dem iPhone.

Die Ankündigung verspricht wieder einen ganz einfachen Gebrauch: Anwendung starten, Suchbegriff sagen, Ergebnisse erhalten. Durchsucht werden folgende Dienste: Google, Yahoo, or Bing als Suchmaschinen (je nach Einstellung), YouTube, Twitter Search, iTunes™ und Wikipedia. Mit einem Suchwort werden sämtliche eingestellten Suchmaschinen durchforstet und die Ergebnisse geordnet angezeigt. Ein Video mit der Anwendung ist zu sehen unter
http://www.dragonmobileapps.com/apple/search_demo.html

Im Moment ist auch diese Anwendung im amerikanischen Appstore kostenlos zu haben. Hier der Link:

http://itunes.apple.com/us/app/dragon-search/id341452950?mt=8

08 Dezember 2009

Dragon für iPhone ist da - in Amerika

Soeben kommt die Ankündigung: Dragon für das iPhone ist da. Es funktioniert genau wie letzte Tage beschrieben: die Anwendung wird auf dem iPhone gestartet, der Text diktiert, mit einem Button "done" an einen Server zur Umsetzung geschickt und kommt in allerkürzester Zeit als Text zurück. Im Gegensatz zu Spinvox ist an ihr offensichtlich tatsächlich kein Mensch beteiligt.

Dafür ist die Erkennungsgenauigkeit sensationell gut. Der Herr in diesem Film wäre für mich ein Kandidat für eine Schulung im Diktieren, und selbst er erzielt eine einwandfreie Erkennung.

Nuance selbst demonstriert die Anwendung hier.

Im Moment ist die Anwendung im amerikanischen AppStore kostenlos zu haben (das wird sich aber ändern).

Produkt-Homepage

02 Dezember 2009

Haben wollen! (Dragon auf dem iPhone)

In meinem letzten Beitrag habe ich bereits darüber geschrieben, dass es eine Beta-Version einer Spracherkennung für das Handy gibt. Zum 1. Mal ist die Beta-Version für das iPhone jetzt im Internet zu sehen

Der Beitrag mit zugehörenden Video zeigt sehr schön, wie das Diktat in das iPhone funktioniert: die Sprache wird aufgezeichnet, mit einem Knopfdruck die Spracherkennung gestartet (die also offensichtlich auf einem entfernten Server läuft) und der Text in ein Diktierfenster übertragen. Von dort aus kann er in eine E-Mail, eine SMS oder in die Zwischenablage kopiert werden.

Nicht ganz so komfortabel von der Anwendung wie Dragon NaturallySpeaking auf dem PC, aber dafür von einer unglaublichen (man beachte das Video!) Erkennungsgenauigkeit, und auf jeden Fall wesentlich praktischer und besser als die Mäusetastatur des iPhone oder jedes anderen mobilen Gerätes. Der Tester ist entsprechend beeindruckt und spricht davon, dass diese Pflicht-Anwendung die Art, wie er sein iPhone verwendet hat, grundlegend verändert hat.

Tatsächlich: auf diese Anwendung haben wir gewartet! Wenn sie zu einem halbwegs vernünftigen Preis erhältlich ist, muss sie doch einfach ein Renner werden - und ich freue mich schon darauf, demnächst überall Leute in das iPhone diktieren zu sehen :-)

(Dank an Michael Spehr)

24 November 2009

Spracherkennung fürs Handy

Darauf warte ich seit Jahren: die Möglichkeit, mit dem Handy eine SMS oder E-Mail zu diktieren. Nuance bietet demnächst eine solche Lösung an. Wie der FAZ vom heutigen Dienstag, 94 zur November 2009, zu entnehmen ist, befindet sich die Software im Moment im Beta-Stadium und kann unter anderem auf dem BlackBerry und auf einem Nokia-Handy getestet werden. Es ist sowohl möglich, mit Sprachbefehl eine neue SMS zu erstellen ("sende SMS an Klaus Müller") als auch diese zu diktieren. Die eigentliche Spracherkennung geschieht auf einem Server von Nuance, das noch zu korrigierende Ergebnis wird zurückgeschickt und kann nach den erforderlichen Änderungen verschickt werden.

Michael Spehr, der Tester, ist schon recht angetan, sagt aber noch nichts zur aktuellen Erkennungsgenauigkeit. Diese wird vom Hersteller bei einem trainierten Sprecher mit 95-98 %, bei einem untrainierten Sprecher (was der Wirklichkeit mehr entsprechen dürfte) mit circa 86 % angegeben. Letzteres ist noch nicht wirklich praxistauglich, aber schon ein sehr guter Ansatz.

Ich bemühe mich um eine Betaversion - auf diese Anwendung habe ich wirklich seit Jahren gewartet. Meine Ergebnisse werden dann wie gewohnt hier veröffentlicht.

23 November 2009

Nuance siegt gegen Schnellschreiberin

Zu besichtigen bei YouTube - Mensch-gegen-Maschine: Nuance siegt gegen Schnellschreiberin.

Bei diesem Video handelt es sich um die Dokumentation eines Wettbewerbs, der Anfang November öffentlich auf der Veranstaltung Nuance Conversations abgehalten wurde: ein Diktat mit Dragon NaturallySpeaking ist schneller als das Tippen desselben Textes von der deutschen Meisterin im Schnellschreiben.

Was man natürlich bei dieser Plattform nicht anders erwartet hat :-)

06 November 2009

Zeit der Sprachsteuerung ist gekommen

Microsoft sagt: die Zeit der Sprachsteuerung ist gekommen - So berichtet der online-Dienst WinFuture.de. Wenn ein Konzern wie Microsoft dies tatsächlich in den Vordergrund stellt, und die Technologie entsprechend ist (was mit der Spracherkennung in Windows 7 durchaus gegeben sein dürfte), so machen wir Spracherkennungsbegeisterten einen großen Schritt nach vorn. Diktat und Steuerung des Rechners per Sprache entlastet einfach bei der Arbeit, sorgt dafür, schneller zu sein und bequem arbeiten zu können. Schon jetzt ist die Steuerung von Windows Vista und insbesondere Windows 7 durch Sprache vorbildlich und baut viele Hürden ab. Mit Dragon NaturallySpeaking lässt sich das meiste auch machen, wenn auch vielleicht nicht immer so intuitiv - dafür können aber die Befehle, die Microsoft nicht kann oder uns aus anderen Gründen vorenthält, mit Dragon NaturallySpeaking Professional nachprogrammiert werden.

Ich merke immer mehr, wie sehr ich mich auf mein Mikrofon verlasse und wie ungern ich noch die Maus in die Hand nehme. Dabei spielt natürlich eine wichtige Rolle, dass mir vom Sprechen die rechte Hand nicht weh tut und sich die Schultern nicht verspannen.

Dabei fällt mir ein, dass ich vor einigen Wochen gar nicht darüber berichtet habe, dass eine große Agentur die Spracherkennung ebenfalls als Technologie einstufte, die das Tal der Tränen inzwischen durchschritten hat und sich auf dem Hang der Erleuchtung befindet. Und als ich am Mittwoch auf der Veranstaltung der Firma Thax Software waren, die unter anderem Anwaltskanzleien ausstattet, hieß es dort, dass eine moderne Anwaltskanzlei eine Spracherkennung haben sollte - und sei es nur für die Fälle, wenn die Sekretärin nicht mehr zum Schreiben zur Verfügung steht.

04 November 2009

Dragon NaturallySpeaking jetzt offiziell für Windows 7 zertifiziert

Wie der Hersteller berichtet, ist Dragon NaturallySpeaking 10.1 jetzt offiziell auch für Windows 7, sowohl 32 Bit wie auch 64 Bit, zertifiziert.

Ankündigung im Nuance-Blog

Ankündigung auf der Nuance-Website

Da die Meldungen aus den USA kommen, wo Dragon Medical 10.1 erhältlich ist, wird dort nicht zwischen den verschiedenen Versionen von Dragon NaturallySpeaking unterschieden. In Deutschland sind wir leider technisch noch nicht so weit, daher hier das Ergebnis meiner eigenen Tests mit Dragon NaturallySpeaking 10.0 sowie 10.1 unter Windows 7, 32 Bit und 64 Bit:

Dragon NaturallySpeaking 10.1 in allen Versionen läuft tatsächlich unter Windows XP, Windows Vista 32 Bit und 64 Bit, Windows 7 32 Bit und 64 Bit.

Dragon Medical 10.0 deutsch läuft (wie auch die anderen Editionen von Dragon NaturallySpeaking 10.0) unter Windows XP, unter Windows Vista und unter Windows 7 32 Bit - aber weder unter Windows Vista 64 Bit noch unter Windows 7 64 Bit.

Soweit alles klar?

Was die gängigen Eingabegeräte angeht, so habe ich inzwischen ungefähr 10 verschiedene Mikrofone getestet und nirgendwo ein größeres Problem festgestellt.

Es bleibt noch der Hinweis, dass es sich bei Windows 7 um ein Betriebssystem handelt, das neuer ist als die Anwendersoftware, die darauf läuft, und es von daher trotz aller möglicher Tests, Zertifizierungen usw. durchaus möglich ist, dass das Zusammenspiel mit Dragon NaturallySpeaking auf einigen Rechnern nicht funktioniert. Hierfür übernehme ich explizit keine Verantwortung!

22 Oktober 2009

Dragon und Windows 7

Heute ist Windows 7 erschienen - dies an sich ist keine Neuigkeit, für die man diese Netznotizen braucht, sind doch alle Zeitungen voll davon. Interessant ist die Frage, ob Dragon NaturallySpeaking unter Windows 7 läuft. Ohne dass ich es bisher selbst ausprobiert hätte, gibt es genug Leute, die dies getan haben und ihre Erfahrungen in diversen Foren veröffentlicht haben. Fazit:

Dragon 10.1 ist kompatibel sowohl mit Windows 7 32-bit als auch mit Windows 7 64-bit in allen Editionen. Frühere Versionen, und damit auch Dragon Medical 10.0, laufen zumindest unter Windows 7 64-bit nicht (ebensowenig wie unter Vista 64-bit). Versionen früher als Dragon NaturallySpeaking 10.1 werden auch unter Windows 7 32 Bit nicht offiziell unterstützt, es sind Kompatibilitätsprobleme bekannt geworden.

Inwieweit alle Mikrofone, Headsets usw. reibungslos unter Windows 7 32 Bit und/oder 64 Bit laufen, würde hier den Rahmen sprengen. Aller Erfahrung nach sollten Geräte, die unter Windows Vista 32 Bit und Windows XP funktionieren, auch unter Windows 7 32 Bit funktionieren. Geräte, die unter Windows Vista 64 Bit funktioniert haben, sollten auch unter Windows 7 64 Bit funktionieren. Im Zweifel wenden Sie sich an die entsprechenden Hersteller.

Nuance-Blog zum Thema Windows 7

Ältere Posts

09 Oktober 2009

MacSpeech Dictate Deutsch ist da

Wie der deutsche Vertrieb meldet, ist MacSpeech Dictate jetzt in neuer Version 1.5.5. auf Deutsch erhältlich. Der Vertrieb redet zwar etwas drum herum, und die Versionsnummer gibt es auch nicht her, aber die wesentliche Neuerung ist, dass jetzt Dragon NaturallySpeaking als Spracherkenner verwendet wird. Daher ändert sich die Produktbezeichnung auch - früher hieß die Mac-Spracherkennung iListen.

Von Preis und Umfang dürfte Dictate somit jetzt mit Dragon NaturallySpeaking Preferred vergleichbar sein. Das nicht mehr ganz taufrische iListen hat damit einen mehr als würdigen Nachfolger, und die Apfelfreunde müssen sich nicht mehr mit Parallels und ähnlichen Hilfskonstruktionen abmühen.

Selber testen kann ich leider nicht, daher verweise ich auf den recht positiven Test in Macwelt. Mit 1,8 wird eine gute Note gegeben, das Diktat funktioniert sehr gut in Deutsch, Englisch, Französisch und Italienisch, lediglich bei der Sprachsteuerung merken die Tester Schwächen an.

Hier die Herstellerseite.

29 September 2009

Mehrere Großbuchstaben hintereinander diktieren

Vor dem Diktat von mehreren Buchstaben, die alle groß geschrieben werden sollen, sagt man statt "groß Anton", "groß Berta" usw. einfach "Großbuchstaben Anton Berta". "Großbuchstaben Emil Gustav Siegfried" erzeugt also beispielsweise den Firmennamen "EGS".

Das funktioniert auch mit Autokennzeichen. Um z.B. folgendes Ergebnis zu erhalten:

ME-GS 157

Sagt man:

Großbuchstaben Martha Emil Bindestrich Großbuchstaben Gustav Siegfried Leertaste eins fünf sieben

26 August 2009

Autoformat, Nummerierung, Aufzählungszeichen

Auto Format während der Eingabe ist während des Diktats mit Dragon NaturallySpeaking in Microsoft Word nicht möglich, da dieses von der SAPI (Speech Application Program Interface) nicht unterstützt wird. Das bedeutet auch, dass sämtliche automatischen Änderungen, typografische Anführungszeichen, automatische Nummerierung und Formatierung in Microsoft Word standardmäßig nicht funktioniert, sondern nur, wenn Select-and-Say nicht aktiviert ist. Sollte dies also funktionieren, handelt es sich eigentlich um einen Programmfehler.

Wie man einige dieser Zeichen trotzdem verwenden kann, habe ich bereits hier beschrieben.

Um eine Liste mit oder ohne Nummerierung in Microsoft Word zu erstellen, gehen Sie so vor:

Eine nummerierte Liste wird begonnen mit dem Befehl "nummeriert". Der nächste Listeneintrag wird automatisch erstellt, wenn Sie "Neue Zeile" sagen. Um die Liste zu beenden, ist die einfachste Möglichkeit, zweimal von Hand die Eingabetaste zu drücken (wie man es aus Microsoft Word kennt). Will man dies per Sprache erledigen, ist es nötig, noch einmal "neue Zeile" zu sagen, ein paar Wörter zu diktieren und danach den Befehl "nicht nummeriert" zu sagen.

Um eine Liste mit Aufzählungszeichen zu erstellen, sagt man am Anfang "Aufzählungszeichen". Die Beendigung geht genauso: erst "neue Zeile" sagen, der Befehl lautet "ohne Aufzählungszeichen".

24 August 2009

Warum heißt Dragon Dragon?

Angeblich weil auf dem Hochzeitsporzellan des Ehepaars Baker, den Erfindern der Software, Drachen zu sehen waren. Andere Frage: Warum haben sie sich ausgerechnet für dieses Porzellan entschieden?

Hier der Artikel aus der Frühzeit der Spracherkennung.

14 August 2009

Dragon und Windows 7

Dragon und Windows 7 wurden laut Eintrag in Nuance-Blog positiv im Zusammenspiel getestet, und zwar in der englischen und spanischen Version. Da es sich noch nicht um die endgültige Version von Windows 7 handelt, kann natürlich keine Garantie dafür übernommen werden, dass unter dem neuen Betriebssystem alles wie gewohnt läuft - aber das sind die bekannten Einschränkungen bei einem neuen Betriebssystem.

Durch einige Tester in Deutschland weiß ich, dass auch mit der deutschen Version von Windows 7 keine Probleme mit Dragon NaturallySpeaking zu erwarten sind.

18 Juli 2009

Zum Anfang, zum Ende, zurück

"Zum Anfang", "zum Ende" und "zurück" lauten drei weitgehend unbekannte Sprachbefehle für Dragon NaturallySpeaking. Die ersten beiden sprechen für sich, sie verkürzen das "zum Dokumentanfang" und "zum Dokumentende" um drei Silben bzw. stehen als Alternative zur Verfügung, wenn diese Befehle gerade mal nicht wollen.

"Zurück" setzt den Cursor an die letze Position zurück, z.B. nach dem Markieren und Formatieren eines Wortes. Der Befehl ist leichter auszuprobieren als zu beschreiben, also viel Spaß dabei!

(Tipps aus einem Forenbeitrag von Rüdiger Wilke)

02 Juli 2009

Plantronics und Linguatec bündeln Spracherkennung mit Bluetooth-Headset

Plantronics und Linguatec: Kooperation bei Spracherkennung mit Bluetooth-Headset.

Bluetooth-Headsets waren früher für Spracherkennung nicht wirklich geeignet, wie ich nicht müde wurde, zu betonen. Die Qualität des übertragenen Signals reicht einfach nicht aus, um eine vernünftige Erkennung zu gewährleisten, und darüber hinaus waren auch immer wieder Schwierigkeiten bei der Verbindung des Headsets mit dem PC zu verzeichnen (bei mir zumindest - soweit, das ich mich von Bluetooth als Verbindungsmedium meines PC verabschiedet habe).

Linguatec und Plantronics bieten jetzt eine Lösung an, die sowohl eine bessere Qualität der Übertragung gewährleistet wie auch (hoffentlich) mithilfe einer Ladestation eine sichere Verbindung zwischen Headset und Computer, die nicht abreißt. Alles zusammen wird im Paket als linguatec voice pro Wireless Edition für 249 € angeboten.

Ich habe übrigens vor kurzem ein neues Blue Parrott Bluetooth-Headset, ebenfalls mit größerer Bandbreite und verbesserter Qualität, zum Test erhalten, habe es aber noch nicht geschafft, das an einen Bluetooth-fähigen Rechner anzuschließen (was wirklich! an mir liegt). Sobald es mir gelingt, werde ich hier berichten.

Spracherkennung zum Spionieren (Kreative Wissenschaft)

Druckergeräusche verraten Patientenakten und Kontodaten, hat eine Forschergruppe der Universität des Saarlandes herausgefunden. Mithilfe einer Spracherkennung werden die charakteristischen Geräusche, die ein Nadeldrucker beim Ausdruck eines Wortes macht, analysiert und das Wort erkannt - mit ungefähr 70 prozentiger Genauigkeit. Dasselbe funktioniert auch bei Zahlen.

Der Nadeldrucker häufig noch in Arztpraxen und Banken im Einsatz sind, ist es hiermit theoretisch möglich, Kontonummer oder Patientendaten auszuspionieren. Wobei 70 % Erkennungsgenauigkeit bei einer Kontonummer nicht wirklich eine Sicherheitslücke sind - von 7 Stellen ist eine falsch, aber welche, und welche ist richtig? Da kann ich gleich einen Brute Force Attack starten :-)

Aber immerhin: wieder eine kreative Einsatzmöglichkeit für Spracherkennung.

08 Juni 2009

Dragon -Trainingsvideos

Nuance hat eine neue Serie von Trainingsvideos für Dragon NaturallySpeaking gestartet, die auf dem amerikanischen Kundenportal zu finden sind bzw. sein werden. Das erste Video behandelt das Anlegen eines Sprecherprofils, die Einstellung des Mikrofons, das Sprechertraining und die Hilfefunktionen - alles, was man vor dem Diktat braucht. Eine professionelle Schulung lohnt sich aber weiterhin :-)

05 Juni 2009

Blog "Digitale Diktiertechnik" - der natürliche Partner

Ich wusste bis heute noch gar nicht, dass es auch ein Blog zum Thema Digitale Diktiertechnik gibt - obwohl mir der Betreiber seit Jahren persönlich bekannt ist und wir auch schon das ein oder andere Projekt miteinander angegangen sind. Umso mehr freue ich mich, dass ich mich jetzt hier guten Gewissens noch stärker auf die Spracherkennung konzentrieren kann, da alles, was mit Diktiergeräten, Diktiermikrophonen usw. zusammenhängt, bei Herrn Carsten Schultes in allerbesten Händen ist. Wie ich berichtet auch er zwar aus Händlersicht, aber durchaus objektiv über neue Geräte und Technologien, und ich habe mich schon immer gerne bei ihm informiert (und er hoffentlich auch bei mir).

Sie können sich jetzt bei uns beiden informieren, was neueste Entwicklungen in Spracherkennung und digitaler Diktiertechnik angeht - viel Spaß!

04 Juni 2009

ComputerBild-Video über Dragon NaturallySpeaking

Die Computer Bild hat in der Ausgabe 12/2009 einen Vergleichstest von 3 Spracherkennungsprogrammen gehabt: Dragon NaturallySpeaking Standard, linguatec voice pro und der Microsoft Windows Vista-Spracherkennung. Testsieger ist Dragon NaturallySpeaking. Ein Video über die Arbeit mit der Spracherkennung ist sowohl bei der Computer Bild als auch inzwischen werbefrei bei YouTube erhältlich - gar nicht mal schlecht gemacht und sehr sachlich.

Ausführlich besprochen wird der Test und das Video hier, wobei dem nicht mehr viel hinzuzufügen ist - ComputerBild-Niveau, einige Naivitäten erstaunen (Warum kann man nirgends freie Vokabulare / Wortlisten runterladen? Note 6! - Warum macht die Software bei einem völlig unbekannten Wort keine Alternativvorschläge? Note 6!), auch über die Meinung zum Preis-/Leistungsverhältnis mag man staunen - aber die Computer Bild kostet ja auch nur 1 € und richtet sich an eine eher weniger solvente Kundschaft.

Mich erstaunt eher, dass Linguatec Voice Pro in der Erkennung (!) schlechter abgeschnitten hat als die "nackte" Vista-Spracherkennung - da hatte ich selbst bessere Erfahrungen gemacht. Meine 11jährige Tochter bestätigt dies Ergebnis allerdings: seit die neue Spracherkennung auf dem Rechner sei, verstünde er sie schlechter als vorher.

(Am Rande: Dragon ist für Kinder nicht gemacht, dort hat sie gar keine Chancen. Aber auch die Microsoft- und Linguatec-Akustischen Modelle scheinen eher auf tiefere Stimmen ausgelegt zu sein.)

So, und jetzt teste ich DNS Legal 10.1, für Profis, mit einem Preis-/Leistungsverhältnis jenseits der Vorstellungskraft des Bild-Lesers!

27 Mai 2009

Remote Audio für Windows 7

Kollege Müller macht mich aufmerksam auf dieses neue Feature in Windows 7: Terminal Services Team Blog : What’s New in Remote Audio for Windows 7?

Mit Win7/Server 2008R2 wird damit auch die Audioaufnahme unter reinem WTS unterstützt. Das heißt, dass Spracherkennung jetzt auch ohne zusätzliche Audiokanäle (Citrix, HOB, diverse proprietäre Geschichten der Gerätehersteller) in einer Windows Terminal Server-Umgebung eingesetzt werden kann, vulgo: dass ich von meinem Desktop direkt in eine Spracherkennung oder ein digitales Diktiersystem, die/das auf einem Server läuft, diktieren kann. Wer wie wir es häufig mit Großkunden zu tun hat, die genau diese IT-Landschaft einsetzen (wollen), für den tun sich ungeahnte Perspektiven auf. Da die Hersteller von Diktiergeräten und Mikrofonen (Grundig, Philips, Olympus) auch selbst alle an Audiokanälen für Windows Terminal Server etc. arbeiten bzw. diese schon bereitstellen, sollte da demnächst eine Menge möglich sein, auch wenn kein Windows 7 auf dem Arbeitsplatz läuft.

25 Mai 2009

Dragon Medical 10 jetzt offiziell erhältlich

Dragon Medical 10 ist seit dem deutschen Röntgenkongress offiziell angekündigt und erhältlich. Fertig war es wohl schon seit einiger Zeit, und es soll auch schon den ein oder anderen geben, der damit arbeitet - Praxisberichte liegen aber leider noch nicht vor. Erhältlich ist Dragon NaturallySpeaking Medical offensichtlich über die Dragon NaturallySpeaking-Fachhändler. Auf dem Röntgenkongress wurde es am Stand von Nuance Healthcare Solutions gezeigt, die aber auf der Webseite nicht als Bezugsquelle gelistet sind.

Wie auch bei Dragon NaturallySpeaking Legal handelt es sich im Prinzip um eine Dragon NaturallySpeaking Professional, welche um entsprechende Fachvokabulare (Radiologie, Orthopädie, Allgemeine und Innere Medizin, Chirurgie, Neurologie, Kardiologie) und einige Zusatzfunktionen erweitert wurde. Die Qualität der Vokabulare wird sich in der Praxis erweisen. Die 4voice AG und andere Anbieter bieten schon seit Jahren Vokabulare an, die in der Praxis längst erprobt sind; hier wird also wohl in nächster Zeit ein Wettbewerb beginnen.

Erstmals wird es in Dragon Medical möglich sein, dass das Diktierfenster auch dann Text empfängt und umsetzt, wenn der Cursor in einer anderen Anwendung steht. Dies ist zum Beispiel für Radiologen sehr praktisch, die am Bildschirm Bilder betrachten und dabei diktieren. Spezialisierte medizinische Diktiersysteme wie unser voice4medicine kennen diese Funktion allerdings schon längst.

Laut Ankündigung soll es in Zukunft mit Dragon Medical möglich sein, in elektronischen Patientenakten zu diktieren. Ob das im Umkehrschluss heißt, dass wer Dragon NaturallySpeaking Professional benutzt, sein TurboMed, Medistar oder was auch immer damit nicht mehr bedienen könnte - was im Moment in Deutschland allerdings problemlos funktioniert? Dass die Select-and-Say-Fähigkeit von Dragon NaturallySpeaking Medical einfach auf sämtliche elektronischen Patientenverwaltungssysteme ausgeweitet würde, heißt das mit Sicherheit nicht - dafür sind es einfach zu viele, und zu heterogen.

Einige andere genannte Merkmale sind bereits bekannt, so zum Beispiel das Ausfüllen von Formularen oder das Einfügen von Textvorlagen; auch was das Neue an der Auflistung der zur Verfügung stehenden Sprachbefehle sein soll, wäre mir jetzt nicht auf den 1. Blick transparent. Aber ich habe die Software ja auch noch nicht, um aus 1. Hand zu urteilen. Wenn es soweit ist, wird es hier sicherlich mehr Informationen geben - natürlich auch im Hinblick darauf, ob Dragon Medical eine Alternative zu bereits eingeführten medizinischen Diktiersystemen ist.

07 Mai 2009

"He, Nudlaug, wos is?" - Computer spricht jetzt wienerisch

"He, Nudlaug, wos is?" - Computer spricht jetzt wienerisch

So berichtet der Standard, meines Wissens das österreichische Äquivalent zur Bild-Zeitung, in seiner online-Ausgabe. Da die österreichische Fraktion in der Firma 4voice sich inzwischen verdoppelt hat, wäre eine solche Sprachausgabe für die interne Kommunikation vielleicht hilfreich?

Viel amüsanter sind übrigens die Kommentare, die uns Piefkes all unsere Klischees zu bestätigen scheinen.

06 Mai 2009

Linguatec Voice Pro 12 im FAZ-Test

Linguatec Voice Pro 12: Elektronischer Horchposten mit Microsoft-Genen - so kommentiert die FAZ die aktuelle Version von linguatec voice pro 12 auf Basis der Microsoft Windows Vista-Spracherkennung. Der Test ist sehr aufschlussreich, da er sowohl die Vorzüge - schneller Einstieg und gute Bedienung - wie auch die Nachteile für den Profi aufzeigt und somit eine gute Entscheidungshilfe liefert. Hauptkritikpunkt bleibt aber das, was bereits aus Windows Vista bekannt ist und was linguatec auch nicht hat lösen können: eine schnelle Korrektur über die Tastatur wie aus Dragon NaturallySpeaking bekannt ist nicht möglich; stattdessen müssen Begriffe per Spracheingabe buchstabiert werden.

Also ich mache das ständig so :-) aber wirklich professionell ist es nicht, da hat Herr Dr. Spehr schon ganz recht. Das Fehlen von zahlreichen Einstellungsmöglichkeiten, die Dragon NaturallySpeaking mitbringt, wird den Einsteiger wohl kaum stören. Wer sich allerdings eingehend der Software beschäftigt, beziehungsweise einschlägige Erfahrungen mitbringt, was alles möglich ist, dem fallen diese Mängel deutlich auf.

03 Mai 2009

Download Dragon NaturallySpeaking 10.1 Standard und Preferred

Für Benutzer von Dragon NaturallySpeaking 10 Standard und Preferred hier der Link zum Download der 10.1 (Seriennummer bereithalten):

http://www.nuance.com/vista/naturallyspeaking/Dragon10.1/Dragon10.1_DE/form.asp?L=German

Von Verbesserungen, die über Service Pack 1 und 64bit Vista-Unterstützung hinausgehen, ist dort leider nicht die Rede, obwohl zumindest die englische Version noch mehr mitbringt; z.B. die Unterstützung von Internet Explorer 8 und Firefox 3. Ich warte auf erste Ergebnisberichte, da ich sebst keine gültige Seriennummer der Dragon Preferred habe, kann ich die neue Version weder downloaden noch testen.

28 April 2009

Dragon 10.1 deutsch

Dragon NaturallySpeaking Standard und Preferred werden in allernächster Zukunft auch in Version 10.1 auf Deutsch erhältlich sein. Dies wurde von Nuance bekannt gegeben und gleichzeitig ein Kaufpreis angeboten, der jedem aufrechten Dragon NaturallySpeaking-Händler die Schamröte ins Gesicht treibt - immerhin müssen wir dann hinterher wieder den Support leisten und zwar nach Möglichkeit kostenlos.

Auch die professionellen Versionen werden demnächst in aktualisierter Form erscheinen. Einen Termin hierfür gibt es aber derzeit noch nicht; sobald sich daran etwas ändert, werde ich ihn selbstverständlich mitteilen.

In Dragon NaturallySpeaking 10.1 ist neben der Unterstützung für 64 Bit Windows Vista auch das komplette Servicepack eins enthalten, außerdem einige weitere Veränderungen und Verbesserungen am Vokabular und am Verhalten, zum Beispiel in Microsoft Word.

Wie es immer ist bei Upgrade: erst vorsichtig testen, dann entscheiden, ob es sich lohnt. Die Kompatibilität mit 64 Bit-Vista sollte ja für die meisten von uns nicht ausschlaggebend sein …

17 April 2009

Nuance Anleitung: Vokabular optimieren

Nuance hat auf der amerikanischen Website unter http://support.nuance.com/usersguides einige Dokumentationen zum Download bereitgestellt, von denen zumindest diese Anleitung zur Bearbeitung des Vokabulars für alle Anwender von Dragon NaturallySpeaking sehr interessant sein dürfte.

Hierin sind so ungefähr alle Werkzeuge beschrieben, mit denen sich ein Wortschatz optimieren lässt - geschriebene und gesprochene Formen; Wörter aus Dokumenten hinzufügen; Sprachmodell verbessern; E-Mails verarbeiten und dergleichen mehr.

Dazu ein kleiner Hinweis: beim Anlegen eines neuen Sprechers fordert Dragon NaturallySpeaking bereits dazu auf, das Sprachmodell anhand von Dokumenten und E-Mails zu verbessern. Dies wird nicht empfohlen. Es ist wesentlich effizienter, wenn man dies später aus dem Erkennungscenter heraus tut - einfach deswegen, weil der Assistent viel mehr Möglichkeiten der Anpassung bietet, und weil man außerdem auch selbst die Möglichkeit hat, auszuwählen, welche Dokumente Dragon NaturallySpeaking überhaupt durchsuchen soll (standardmäßig wäre das nämlich nur der Ordner Eigene Dateien).

Allerdings würde ich Vorsicht dabei walten lassen, E-Mails automatisch durchsuchen zu lassen - es wird der Postausgangsordner durchsucht, und er enthält eben nicht nur die eigenen E-Mails, sondern auch eine Menge dessen, worauf man selbst geantwortet hat. Ich habe es jetzt spaßeshalber einmal ausprobiert (nicht ohne vorher meine Benutzerdateien zu speichern), kann aber noch nicht sagen, ob es was bringt. Solange würde ich vermutlich auf diese Funktion verzichten wollen.

16 April 2009

Dragon Flash -- Customer Newsletter

Für amerikanische Kunden (für deutsche auch? Außer Werbung habe ich nie was erhalten) veröffentlicht Nuance einenn monatlichen Newsletter, dessen aktuelle Ausgabe Sie unter Dragon Flash -- Customer Newsletter - Speaking About Dragon - from Nuance finden. Leider keine Angaben, wie er sich abonnieren lässt.

Der Newsletter enthält Hinweise zu DNS 10.1, das in englischer Sprache nun als Standard, Preferred und Professional für Anwender der V. 10 zum Download bereitsteht, außerdem Hinweise zum Anlegen gesprochener Formen im Vokabular, etwas, das integraler Bestandteil meiner Schulungen ist. Unter "Wörter - Anzeigen/Bearbeiten" lässt sich zu einem Wort, dessen Schriftbild von der Aussprache abweicht (Abküruzunegn, Fremdwörter usw.) eine "gesprochene Form", d.h. eine Lautschrift der Aussprache anlegen. Hört Dragon dies, schreibt er/sie/es (m.E. ist der Drache ein Weibchen, aber suchen Sie sich das korrekte Pronomen selbst heraus) die entsprechende geschriebene Form.

So lässt sich z.B. "4voice AG" als "vor weuß ah geh" wiedergeben, "form- und fristgerecht" als "Form und fristgerecht" und dergleichen mehr. Wer Schwierigkeiten mit der Erkennung bestimmter Wörter hat, sollte sich diese Funktion einmal näher ansehen. Mehr Hinweise dazu im Newsletter selbst.

26 März 2009

Dragon NaturallySpeaking 10.1 erscheint - Stück für Stück

Nuance hat die Download-Seite für Dragon NaturallySpeaking 10.1 eingerichtet. Zunächst kann das Upgrade nur für die englischen Versionen von Dragon NaturallySpeaking Preferred und Dragon NaturallySpeaking Standard runtergeladen werden. Weitere Sprachen und Ausgaben werden folgen, bis Juli 2009 sollen alle Sprachen und alle Versionen bedient sein.

Das Upgrade ist kostenlos für alle Anwender von Dragon NaturallySpeaking 10. Inwieweit man zum Upgrade berechtigt ist, wird durch die Abfrage der Seriennummer festgestellt. Halten Sie die Seriennummer daher bereit, wenn Sie das Update durchführen wollen - denken Sie aber auch daran, dass es für Deutsch im Moment noch gar nicht verfügbar ist. Das Erscheinen wird beizeiten an dieser Stelle mitgeteilt.

17 März 2009

Sprachsteuerung und Spracherkennung am Computer für Behinderte mit Dragon NaturallySpeaking - ein Erfahrungsbericht

Sprachsteuerung und Spracherkennung am Computer für Behinderte mit Dragon NaturallySpeaking - ein Erfahrungsbericht von "Sitting Fool", durch eine Multiple Sklerose-Erkrankung komplett gelähmt.

Ich habe es beruflich und privat eigentlich nur mit Leuten zu tun, die Spracherkennung einsetzen, um sich die Arbeit zu erleichtern oder zu beschleunigen. Es gibt aber auch genügend Leute, die ohne Spracherkennung überhaupt keine Möglichkeit haben, mit dem Computer und der Welt zu kommunizieren. Dieser Erfahrungsbericht wirft ein Licht auf diese - inzwischen kommerziell vollständig unterrepräsentierte - Gruppe von Benutzern.

Wenn man davon ausgeht, das Dragon NaturallySpeaking irgendwann einmal genau zu diesem Zweck konstruiert wurde, man dann aber feststellte, das sich wesentlich mehr Geld mit Ärzten und Juristen verdienen lässt, wirft das ein bezeichnendes Licht auf uns alle. Ich gebe selbst zu, das ich mir nicht zutrauen würde, den Computer komplett ohne Hände zu bedienen und dass ich deswegen Kunden auch gerne an Spezialanbieter wie die Firma Humansystem verweise.

Die in Windows Vista eingebaute Spracherkennung ist übrigens, was die Bedienung des Computers angeht, vorbildlich und machte mir intuitiv mehr Spaß als Dragon NaturallySpeaking. Die Leistung beim Diktat ist allerdings nicht ganz so gut. Interessanterweise kann man beide Spracherkennungen parallel verwenden - also für die Steuerung des Computers die eingebaute Spracherkennung von Windows Vista, zum Diktat Dragon NaturallySpeaking. Wenn man dann aus Versehen beide Maschinen eingeschaltet hat, wird jeder Satz zweimal hingeschrieben - sehr schön, um einen direkten Vergleich zu erhalten :-)

15 März 2009

Dragon blog! - Speaking About Dragon - from Nuance

Wie ich gerade erfahre, habe ich Gesellschaft: es gibt jetzt ein Dragon blog direkt von Nuance! Erster Blogger ist kein Geringererer als Peter Mahoney, Senior Vice President and General Manager, Dragon, also quasi der oberste Drachenkämpfer.

Eine der neuesten Ankündigungen bezieht sich darauf, dass Dragon 10 bald auch in einer Version für 64-bit Windows Vista erhältlich sein wird. Mal schauen, ob bei der Gelegenheit auch weitere Wünsche umgesetzt werden, die das Service Pack 1 noch offen lässt.

Die Ankündigung hat überraschend viele Antworten hervorgerufen - ich wusste nicht, dass 64-bit Vista schon so verbreitet ist. Oder gilt das nur für Amerika?

07 März 2009

CeBIT News 2: Linguatec Voice Pro

Linguatec stellt mit der bereits erwähnten VoicePro 12-Software eine Lösung vor, die die Spracherkennung von Windows Vista benutzt, dem verbesserungsfähigen Diktat unter Vista aber durch erweiterte Sprachmodelle und Korrekturmöglichkeiten aufhilft. Nach Auskunft von Linguatec wurden heirzu ca. 15.000 Sprecher aufgenommen, um das deutsche Sprachmodell der Vista-Spracherkennung zu verbessern, und auf den Servern in Redmond adäquat verarbeitet. Die Live-Demonstration sah sehr gut aus.

Da die wirklich vorbildliche Vista-Sprachsteuerung verwendet wird, ließ sich einiges Erstaunliche zaubern, z.B. Die Toten Hosen aufs Wort loslärmen lassen und per Sprachbefehl lauter stellen. Die Sprachsteuerung ist m.E. ein echter Komfortgewinn - in der Vorbereitung auf den Messetermin hatte ich mich mal wieder an meinen Vista-Rechner gesetzt und gemerkt, wie gut er sich per Sprache bedienen lässt, solange die Programme von Microsoft sind. Auch dies soll Voice Pro besser machen und auch Nicht-Microsoft-Anwendungen bedienen.

Allen Versionen bis auf die Standard liegen zusätzliche Fachwortschätze bei, die, wie aus früheren Versionen von VoicePro bekannt,zum Grundwortschatz zugeschaltet werden können. So lässt sich auch eine Kombination aus z.B. Sport und Wirtschaft erealisieren; wie sinnvoll das ist und ob sich der Sprachgebrauch eines Sportreporters nicht doch in mehr als nur der Wortwahl von dem eines Managers unterscheidet, sei dahingestellt.

Dateien vom Diktiergerät kann VoicePro 12 ebenfalls umsetzen, allerdings nicht das DSS-Format. Hier wollte man wohl Lizenzgebühren sparen und verweist auf die DSS-Konverter, die jedem Profi-Diktiergerät beiliegen. Diktate können mitsamt Originalaufnahme abgespeichert werden, so dass ein Workflow in der Theorie möglich wäre (aber noch nicht ersthaft verfolgt wird).

Korrektur und Wortschatzbearbeitung wurden gegenüber Vista verbessert, jedoch konnte ich mir diese Bestandteile nicht live ansehen. Hier bleibt noch was zu testen, wenn die endgültige Version erscheint. Ich bin gespannt, ob die Benutzerfreundlichkeit hier so gut ist wie bei der Rechnersteuerung.

Übrigens wird es auch eine Wireless-Version geben, der das Wideband-Bluetooth-Headset Jabra MN5390 beiliegen soll.

Hier noch ein Bericht auf ZEIT Online.

CeBIT-News

Das GMX-Magazin erinnert an Exkanzler Gerhard Schröder, der sich zur CeBIT 1999 wünschte: "Ich mchte gerne einen Computer haben, in den ich reinsprechen kann." Zehn Jahre spter wartet GMX noch immer auf den Computer, der aufs Wort hört, - ich aber habe mir schon mal das eine oder andere in die Richtung angesehen.

Datatronic zeigte am Datev-Stand ihr Diktiersystem inkl. SpeechMagic-Spracherkennung, das sich v.a. durch seine Anbindung an Datev Phantasy auszeichnet.Auf derselben Basis, jedoch nach eingenen Angaben durch mehr Schnittstellen vielseitiger einsetzbar, ist DictaPlus, die nach der Übernahme von Philips Speech Recognition durch Nuance jetzt auch wieder in den medizinischen Sektor wollen und dazu in der kommenden Version 6.2 einige Schnittstellen versprechen.

Auf Dragon als Spracherkennung bauen die Diktiersysteme von Dictanet, WinScribe und Thax. Bei allen drei Herstellern war das mobile Diktat in das iPhone (nur Dictanet) und den Blackberry ein Thema. Der iPhone-Client von Dictanet und das Blackberry-Diktat von WinScribe sollen grundsätzlich auch in der Lage sein, an eine Spracherkennungngesendet zu werden, was mein heimlicher Traum ist: unterwegs diktieren und das geschriebene Diktat zuhause (oder gar per Mail auf dem mobilen Gerät) erhalten. Thax, die für Dictanet den Blackberry-Client liefern, arbeiten nach eigener Aussage auch daran, holten mich aber auf den Boden der Tatsachen zurück mit der Anmerkung, dass die Tonqualität wohl kaum für wirklich gute Spracherkennung ausreichen dürfte.

Während diese Hersteller sich auf juristische und medizinische Workflowlösungen spezialisiert haben, stellt Linguatec mit der neuen VoicePro 12-Software eine Lösung vor, die auch für den weniger spezialisierten Anwender - und Gerhard Schröder -interessant ist. VoicePro basiert auf der für sich genommen schon vorbildlichen Sprachsteuerung von Windows Vista und hilft dem noch deutlich verbesserungsfähigen Diktat unter Vista durch verbesserte Sprachmodelle und Korrekturmöglichkeiten auf. Mehr darüber im nächsten Post.

Über Spinvox habe ich hier bereits berichtet; was mir neu war, ist, dass die Technologie dahinter zumindest teilweise von dem ägyptischen Hersteller InfoDynamix. Dort ruft man tatsächlich einen Server an, der Sprache in Text verweandelt; die deutsche Dependance in Düsseldorf ist aber leider meist überlastet, so dass es nur selten gelingt, sich selbst eine Sprachnachricht zu diktieren,. Dies soll sich aber demnächst ändern, wie mir ein freundlicher Vertreter der Firma versprach - wollen wir es hoffen.

Schließlich benötigt man für gutes Diktat ein gutes Mikrofon. Plantronics stellt zwei neue schurlose Headsets von, die wahlweise an PC und Handy bzw. Festnetztelefon angeschlossen werden können, so dass man nur ein Gerät für beides braucht. Sie sollen im Laufe des Jahres unter der Bezeichnung Savi Office bzw. Savi Go erscheinen. Savi Office funkt per DECT, Savi Go mit Wideband Bluetooth, womit es dann auch für Spracherkennung tauglich sein sollte, wenn die Konnektivität stimmt.

02 März 2009

Dragon Service Pack 1: Mehr Erfahrungen

Ich habe mal einige der wichtigsten Verbesserungen zusammengestellt, die das Service Pack 1 für Dragon NaturallySpeaking 10 bringt:

- Zahlenformatierung (z.B. nach Komma) verbessert
- Daten werden etwas besser erkannt
- Einstellungen im Menü "Formatierung" werden i.d.R. beibehalten sowie benutzerspezifisch gemacht und ergänzt; insbesondere die Einstellungen für Zahlenformate und Komposita werden nicht mehr vergessen
- Fehler in der Zusammenarbeit mit Textcontrol-Fenster behoben
- Buchstabiermodus verbessert: keine überflüssigen Leerzeichen mehr
- Befehl "verbinde das" verbessert
- Beim Diktieren eines hinzugefügten Begriffs zu Beginn eines Absatzes wird dieser Begriff nicht mehr zwangsläufig groß geschrieben
- Seriennummer kann angezeigt werden
- Wörter werden nicht mehr hinterrücks ins Vokabular aufgenommen, sondern nur bei Korrektur über das Menü oder nach Befehl "verbinde..."

Letzteres ist vermutlich die beste Neuerung, weil das automatische Hinzufügen von Wörtern zum Wortschatz immer ein Ärgernis war, das Fehler ins Vokabular brachte. Obwohl ich mich fast daran gewöhnt hatte, einfach durch Übertippen von Erkennungsfehlern neue Wörter zum Wortschatz hinzuzufügen - aber der eine Tastendruck vorher und nachher ist ja wirklich kein Hindernis, verglichen mit der Kontrolle, die ich jetzt (endlich) habe.

Schließlich fiel mir (und anderen) auf, dass nach Installation die Erkennungsgenauigkeit zunächst nachlässt, dann aber nach ca. 1 h Diktat wieder das gewohnte Niveau erreicht oder soggar übertrifft - ich diktiere derzeit mit praktisch 100% Genauigkeit.

Also ein empfohlener Download!

24 Februar 2009

Linguatec Voice Pro 12 kommt!

Am 27.3.2009 ist der Erscheinungstermin für Linguatec Voice Pro 12. Bereits im letzten Sommer angekündingt, wird zur CeBIT eine Vorabversion vorgestellt; das Programm kommt dann Ende März in den Handel.

Voice Pro war bisher immer auf IBM ViaVoice-Basis. ViaVoice wird aber seit Jahren nicht mehr weiterentwickelt. So hat man sich entschieden, eine neue Technologie zugrundezulegen: die Spracherkennung, die Microsoft in Windows Vista einsetzt.

Damit ist linguatec der (meines Wissens) erste Hersteller, der aus dieser Technologie ein ganzes Produkt macht - mit (hoffentlich) verbesserter Korrekturfunktion, der Möglichkeit, Wörter, die gleich ausgesprochen werden, intelligent korrigieren zu können, verschiedenen Fachwortschätzen unter anderem für EDV, Medizin und Recht, Transkription von Diktaten von Diktiergerät, Export von Benutzerprofilen - die ganze Palette, die man heutzutage eigentlich von einer einigermaßen fortgeschrittenen Spracherkennung erwarten dürfte.

Es fehlt bisher noch die Möglichkeit, Befehle zu definieren, diese ist von Microsoft selbst aber für Deutsch auch noch gar nicht implementiert. In einem US-amerikanischen Windows ist es bereits möglich, eigene Befehle anzulegen, der Chefentwickler selbst teilte mir aber nicht, dass dies für andere Ausgaben noch nicht verwirklicht ist.

Preislich dürfte linguatec voice pro eine echte Alternative zu Dragon NaturallySpeaking sein, wenn dann die Erkennungsgenauigkeit ungefähr das hält, was die Ankündigungen versprechen. Insbesondere die Anwendungen für Ärzte und Rechtsanwälte sind mit circa 400 € um die Hälfte günstiger als vergleichbare Anwendungen mit Dragon NaturallySpeaking. Für den nicht spezialisierten Anwender gibt es eine Standard- und eine Premium-Version, die mit 69 € beziehungsweise 169 € preislich im selben Rahmen wie Dragon NaturallySpeaking liegen.

Es zeigt sich aber auch ein großes technisches Problem: dadurch, dass die Spracherkennung von Windows Vista eingesetzt wird, benötigt linguatec voice pro als Systemvoraussetzung Windows Vista oder das (für den Sommer angekündigt) Windows 7. Seit Erscheinen von Windows Vista habe ich noch bei keinem professionellen Kunden eine Installation unter diesem Betriebssystem gemacht. Windows 2000 ist im professionellen Umfeld bisher noch häufiger anzutreffen. Nach meinem Dafürhalten wird sich das mit Windows Vista auch nicht mehr ändern. Wer überlegt, auf ein neues Betriebssystem umzusteigen, wird stattdessen wahrscheinlich lieber auf das mit viel Vorschusslorbeeren bedachte Windows 7 warten, ein Umstand, der den Einsatz von linguatec voice pro im professionellen Umfeld in der nächsten Zeit deutlich behindern wird. Die restlichen Systemanforderungen sind so, dass ein Rechner mit Vista sie problemlos erfüllen dürfte.

Jedenfalls würde ich mich sehr darüber freuen, wenn ich die Spracherkennung mal testen könnte. Interessant dürfte auch werden, wie sie im Vergleich zur reinen Windows Vista-Spracherkennung abschneidet, was die Erkennungsgenauigkeit angeht. Hier hätte man dann jedenfalls eine Referenz, von der aus man zu dem Produkt raten könnte (Sie wissen nicht, ob es was für Sie ist? Probieren Sie es erstmal aus und setzen sie dann das Produkt obendrauf.) Der Mehrwert ergibt sich dann von ganz allein aus den verbesserten Anwendungsmöglichkeiten und Wortschätzen.

20 Februar 2009

Servicepack 1 für Dragon NaturallySpeaking

Seit vorgestern ist das Servicepack 1 für Dragon NaturallySpeaking 10 erhältlich. Registrierte Anwender können das herunter laden, indem sie unter "Hilfe - nach Software-Aktualisierungen suchen" klicken. Es wird dann im Internet danach gesucht und das Paket wird heruntergeladen. Bitte beachten Sie die Anweisungen des Herstellers zur Installation - dies hier ist ein Blog und kein Handbuch :-)

Einige ärgerliche Fehler sind behoben worden, andere sind immer noch da. Die Experten liefern sich schon wieder heiße Diskussionen (http://forum.oasa-speech.de/viewtopic.php?t=353), für den normalen Anwender haben sich jedoch zunächst einmal viele Dinge verbessert, von denen ich hier wenigstens die wichtigsten aufführen möchte:

- die Formatierung von Zahlen nach einem Komma ist verbessert worden, außerdem merkt Dragon NaturallySpeaking sich jetzt einigermaßen zuverlässig, ob Zahlen immer als Ziffern geschrieben werden sollen oder nur wenn sie größer als 10 beziehungsweise 100 sind (Menü "Formatierung")
- das gleiche gilt für Komposita: im Menü "Formatierung" kann ich den Haken vor Komposita wegnehmen, Dragon hört dann auf, ungefragt mehrere Wörter zu einem zusammenzuziehen
- hat man im Vokabular einer aus mehreren Wörtern bestehende Wortverbindung abgelegt, wird diese jetzt auch nach einem neuen Absatz korrekt geschrieben
- das Menü "Formatierung" wurde in einigen weiteren Punkten überarbeitet, so lassen sich wesentlich mehr Eigenschaften zuschalten und abschalten.

Gravierende Nachteile sind mir nach einem Tag Arbeit nicht aufgefallen, was - werden die Experten sagen - für mein oberflächliches Arbeiten sprechen mag, ich selber schmeichele mir aber damit, dass ich mich in meinen Gewohnheiten nicht von der großen Menge der Anwender unterscheide und daher guten Gewissens dazu raten kann, das Servicepack herunterzuladen. Auch wenn für spätere Ausgaben noch genug zu tun bleibt, sind doch etliche Fehler beseitigt worden, einige neue Optionen hinzugekommen, so dass sich die Installation wohl lohnen dürfte.

Vorsichtige Leser werden dennoch ein paar Tage abwarten, ob ich in der nächsten Woche eventuell doch noch über etwas stolpere... das Servicepack kann nämlich nicht deinstalliert werden, sondern erfordert eine komplette Deinstallation von Dragon NaturallySpeaking.

30 Januar 2009

Loquendo Spracherkennung für Russisch

Loquendo ASR (Automatic Speech Recognition) jetzt auch für Russisch erhältlich - mit Zielgruppe Auto, Navigationssysteme usw.

Loquendo kannte man bisher eher als Anbieter von text-to-speech-Systemen, doch auch Spracherkennung für einige Sprachen, darunter jetzt auch Russisch, ist im Portfolio. Die Features klingen nicht schlecht, u.a. die Fähigkleit, multiple Befehle nacheinander zu geben, ohne Pause dazwischen; Unabhängigkeit vom Sprecher, hohe resistenz gegenüber Nebengeräuschen (im Auto essentiell). Es soll auch PC-taugliche Anwendungen geben, aber das große Geld ist damit natürlich nicht zu verdienen.

Mein alter Traum einer Diktiersoftware für Russisch ist daher immer noch in weiter Ferne :-(

27 Januar 2009

SVOX kauft Sprachverarbeitungssparte der Siemens AG

Zur Meldung: SVOX kauft Sprachverarbeitungssparte der Siemens AG: Expansion in Spracherkennung und Sprachdialog

Bei dieser Akquisition geht es nicht um Diktat, sondern v.a. um Anwendungssteuerung im Auto und im Handy: beide Firmen haben hier schon längere Zeit kooperiert. SVOX, die sich bisher eher im Bereich Text-to-speech hervorgetan haben, hat damit jetzt eine Spracherkennungsengine und ist in der Entwicklung von Dialogsystemen unabhängiger.

26 Januar 2009

iX-Artikel: Sprach- und Texterkennung heute

In der Computerfachzeitschrift iX findet sich ein umfassender und technisch recht avancierter Artikel zum aktuellen Stand der Texterkennung (OCR) und Spracherkennung im Computer:

"Wer immer noch Texte oder Audiokassetten abtippt, mag dafür gute Gründe haben. Vielleicht kennt er aber auch einfach nur nicht die neuesten Programme zur Text- und Spracherkennung. iX hat sich einige Angebote näher angesehen."


Getestet werden im Bereich Spracherkennung Dragon NaturallySpeaking 10, Linguatec Voice Pro und MacDictate. Interessanterweise bescheinigt der Tester keinem Programm eine deutliche Überlegenheit in der Erkennungsleistung, von den Features her hat Dragon aber die Nase vorn. VoicePro steht immer noch bei V. 11 und ist daher noch nicht Vista-fähig, obwohl schon im Sommer das Upgrade angekündigt wurde. MacDictate ist laut Test inzwischen auf Deutsch erhältlich, die Website des deutschen Vertriebs weiß davon allerdings noch nichts.

Besonders interessant, weil auch für den (technisch einigermaßen gebildeten) Anwender verständlich, ist eine 2 Seiten lange Beschreibung dessen, welche technischen Grundlagen der Spracherkennung zugrundeliegen. Zeitschriften, die sich an den interessierten Laien wenden, sparen dies meist aus (auch weil die zugrundeliegende Mathematik das Abiturniveau deutlich überschreitet). Wer also wissen möchte, wie seine Spracherkennung unter der Haube funktioniert, sollte mal einen Blick in die Zeitschrift werfen.

Hier die Zusammenfassung der Heise-Redaktion.

18 Januar 2009

Spracherkennung mit dem Logitech ClearChat Wireless

Dennis Deutschmann bloggt zum Thema Spracherkennung mit dem Logitech ClearChat Wireless.

Wenn's stimmt, was er schreibt, nämlich dass das schnurlose Headset für 99€ empf. VK mit Spracherkennung auf dem Netbook eine sehr gute Erkennung liefert, werden sich Plantronics und GN Netcom, deren Headsets das dreifache kosten, noch umschauen.

Ich versuche mal, selbst so eins zum Test zu erhalten. Und ein Netbook hätte ich auch gern... seufz... mit Spracherkennung...

17 Januar 2009

Nuance entwickelt jetzt mit IBM zusammen

Der neuesten Pressemitteilung von Nuance zufolge kooperiert man jetzt mit dem (außer Microsoft) letzten verbliebenen Entwickler von Spracherkennung, nämlich mit IBM. Spracherkennungslösungen von IBM und Nuance sollen vor allen Dingen im Bereich Callcenter und Embedded vorangetrieben werden.

Seit IBM die Entwicklung von ViaVoice praktisch eingestellt hat, haben sie dort sich auf diese beiden Bereiche konzentriert. Auch Nuance ist in diesem Bereich recht stark vertreten. Eine Kooperation wird also zwei traditionsreiche Entwicklungslinien zusammenfügen.

ViaVoice befindet sich schon längst im Vertrieb von Nuance und wird dort seit Jahren erfolgreich totgeschwiegen. Das aber hier mit einer neuen Version zu rechnen ist, ist auch nach dieser Kooperationsvereinbarung höchst unwahrscheinlich. Nur das kleine gallische Dorf linguatec scheint hier noch irgendwas in Planung zu haben - aber diese Planungen sind auch schon ein halbes Jahr alt, ohne dass ich bisher ein Produkt gesehen hätte -?

07 Januar 2009

Select-and-say

Select-and-Say ist ein wesentliches Feature von Dragon NaturallySpeaking, das im Wesentlichen bedeutet, dass jedes auf dem Bildschirm sichtbare Wort per Sprache ausgewählt und bearbeitet werden kann, egal ob es vorher diktiert oder getippt wurde. Dies Feature funktioniert nicht in allen Anwendungen, jedoch in allen gängigen Office-Programmen wie Microsoft Word, Microsoft Outlook, Microsoft Excel und zahlreichen anderen. Eine vollständige Liste findet sich in der Dragon NaturallySpeaking-Hilfe, wenn man "Select-and-Say" als Suchwort eingeht.

Für den konkreten Einsatz bedeutet Select-and-Say, dass innerhalb eines Diktates ein Wort oder eine Phrase per Sprachbefehl markiert und/oder korrigiert werden kann. Dabei ist es möglich, sich auch die Aufnahme (falls vorhanden) bis Diktates vorspielen zu lassen und auf diese Weise über die Korrekturfunktion von Dragon NaturallySpeaking das Sprecherprofil zu verbessern.

Ob eine Anwendung Select-and-Say unterstützt, lässt sich leicht daran erkennen, ob in der Dragon-Leiste ein grüner Punkt erscheint, oder ob dieser Punkt grau ist. Grün bedeutet, dass Select-and-Say in vollem Umfang funktioniert.

In Anwendungen, die Select-and-Say nicht unterstützen, steht diese Möglichkeit nur solange zur Verfügung, wie das Diktat im Arbeitsspeicher gespeichert ist, das heißt in der Regel bis zum nächsten Tastendruck oder Mausklick. Außerdem zeigt sich, dass in vielen Anwendungen einer Auswahl oder Korrektur der Sprache nicht passgenau möglich ist, Dragon NaturallySpeaking also nicht das Wort ganz genau markiert, sondern häufig ein Zeichen vorher oder hinterher mit einschließt oder weglässt. Dies äußert sich in verschiedenen Programmen unterschiedlich stark, so kann es sein, das in einigen Programmen ein Diktat überhaupt nicht möglich ist oder nur mit extremer Verzögerung; in anderen Programmen kann man fast wie gewohnt arbeiten, solange man keine Taste drückt und die Maus nicht betätigt. Dies hängt letztlich von den verwendeten Windows-Fensterklassen ab - wenn diese sich ähnlich verhalten wie die von Dragon NaturallySpeaking hundertprozentig unterstützten Fensterklassen, geht das Arbeiten mit Dragon NaturallySpeaking sehr flüssig.

In einigen Anwendungen kann Select-and-Say von Hand aktiviert werden. Dazu gibt es zwei - leider nicht mehr ganz aktuelle - Einträge in der Nuance Knowledge Base, die Nummer 3417 und die Nummer 4247, die über die Suchfunktion zu finden sind.

Anwendungen, die Select-and-Say nicht unterstützen, in Deutschland aber sehr populär sind und deswegen immer wieder zu Anfragen Anlass geben, sind zum Beispiel Open Office, Mozilla Firefox, Mozilla Thunderbird. Die Unterstützung für letztgenannte Programme beschränkt sich in Dragon NaturallySpeaking auf Sprachbefehle. Diktat mit voller Select-and-Say-Funktionalität ist jedoch in den Fenstern nicht möglich, wie immer wieder beklagt wird. Hier muss man gegebenenfalls das Diktierfenster zu Hilfe nehmen. Da alle diese Anwendungen aus der Open Source- und Linux-Welt stammen, und daher mit Standard-Windows-Fensterklassen nicht kompatibel sind, außerdem in Amerika bei weitem nicht so populär sind wie hier, ist in näherer Zukunft auch nicht mit einer vollen Select-and-Say-Unterstützung zu rechnen.

Gelegentlich kommt es vor, dass eine Select-and-Say-fähige Anwendung diese Fähigkeit verliert. In der Regel ist dann entweder nötig, das entsprechende Add-In wieder zu aktivieren, oder - im Falle von Microsoft Word - die Dokumentenvorlage normal.dot zu löschen. In schweren Fällen sind auch andere Eingriffe nötig, zum Beispiel das Löschen der ctfmon.exe. Der geneigte Leser findet eine Anleitung in der Nuance Knowledge Base unter der Nummer 3118.

Bugs in Dragon berichten

Wer Bugs in Dragon NaturallySpeaking findet, kann diese hier melden. Wichtig ist, so viel Information wie möglich zu liefern, damit sich das Problem reproduzieren lässt. Dafür hat man allerdings gerade mal 1.000 Zeichen Platz. Viel mehr Mühe geht drauf für eine Systembeschreibung, Eingabe der Seriennummer usw. Außerdem darf man zwar seine E-Mail angeben, erhält aber nach Absenden des Reports eine Meldung:

Thank you for your report to Nuance. We appreciate your effort in reporting this issue along with the details of how to re-create. We will review all reported bugs for possible resolution in a future release.

ISSUES SUBMITTED ON THIS FORM WILL NOT RECEIVE A RESPONSE.


Böse Zungen würden jetzt behaupten, viele Probleme seien schon so oft reproduziert und in diversen Foren gemeldet (sowie teils behoben) worden, dass Nuance einfach mal dort nachlesen sollte - aber vielleicht hilft es ja trotzdem... die Prozedur ist ansonsten dieselbe wie beim Problemformular unter http://epay.scansoft.com/de/, wo man aber wenigstens gelegentlich eine Antwort erhält.