Digital diktieren: Netznotizen zur Spracherkennung: 2010

09 Dezember 2010

Vorsicht mit Acrobat Reader X und Dragon!

Von verschiedenen Kollegen wurde mir berichtet, dass nach der Installation bzw. dem Upgrade auf Acrobat Reader X Dragon nicht mehr ordnungsgemäß funktioniert. Eine Deinstallation und Neustart löst das Problem in der Regel.

Vor dem Upgrade auf Acrobat Reader X seien also alle Dragon-Nutzer gewarnt!

Der Acrobat Reader 9 läuft bei mir seit langem fehlerfrei.

Grüße an Sascha Christ!

07 Dezember 2010

DragonDictate 2.0 für Mac

DragonDictate 2.0 ist nicht die Wiederauflage des aus den neunziger Jahren bekannten Vorgängers von Dragon NaturallySpeaking. Vielmehr ist DragonDictate der alte neue Namen von Macspeech Dictate (Test der Vorversion), welches vor einiger Zeit von Nuance aufgekauft wurde. Die Version 2. 0 erscheint in diesen Tagen gerade noch rechtzeitig zum Weihnachtsgeschäft.

Die Spracherkennungmaschine von DragonDictate ist dieselbe, die in Dragon NaturallySpeaking 11 zum Einsatz kommt. Bei der Benutzeroberfläche hat sich gegenüber Macspeech Dictate wohl noch nicht besonders viel geändert (dies schreibe ich, ohne das Produkt bereits in der Hand gehabt zu haben, aufgrund von englischen Anwenderberichten). Vom Leistungsumfaung und vom Preis - 199 € unverbindliche Preisempfehlung - scheint DragonDictate am ehesten mit Dragon NaturallySpeaking Premium vergleichbar zu sein:

Dragon Dictate basiert auf derselben Technologie wie Dragon NaturallySpeaking 11 für den PC und verbessert damit die Präzision und Leistungsfähigkeit von MacSpeech Dictate 1.5. Die neue Version bietet eine schlankere Konfiguration, eine neu gestaltete Mac-Benutzeroberfläche und dynamische, neue Sprachbefehle für das Diktieren, Editieren, Navigieren und Korrekturlesen. Dragon Dictate für Mac "lernt" außerdem besser als die Dictate-Vorgängerversionen und reagiert schneller auf Sprachbefehle.

Systemvoraussetzungen für Dragon Dictate für Mac: Intel-basierter Mac, Mac OS X 10.6 Snow Leopard oder höher, 3 GB freier Festplattenspeicher, 2 GB RAM (empfohlen) sowie ein Internet-Anschluss für die Produktregistrierung. Im Lieferumfang von Dragon Dictate für Mac enthalten ist ein von Nuance empfohlenes USB-Mikrofon-Headset, Bzw. in der Wireless-Version ein Bluetooth-Headset.

Englische Videos, in denen das Programm vorgeführt und mit Dragon NaturallySpeaking verglichen wird, finden sich hier.

Dies hier würden wir uns auch für Dragon NaturallySpeaking wünschen:

Mit einfachen Befehlen können Sie ausgewählte Wörter in Klammern, Anführungszeichen usw. setzen.

Der Befehl ist wirklich nicht besonders schwierig zu programmieren - schade, dass er in Dragon NaturallySpeaking noch nicht serienmäßig enthalten ist!

26 Oktober 2010

PC Professionell testet Dragon Premium 11

Unter http://www.itespresso.de/2010/09/21/dragon-naturally-speaking-11-im-test/ findet sich ein ausführlicher Test von Dragon Premium 11, der auch ausführlich und nachvollziehbar die Erkennungsgenauigkeit testet. Das (wenig überraschende) Fazit: je bekannter die Textsorte, desto höher die Erkennungsgenauigkeit ;-)

Die Erkennungsgenauigkeit ist gegenüber Version 10 verbessert worden, allerdings nach Aussage des Testers relativ gering. Da der Tester, um die Vergleichbarkeit zu gewährleisten, alle Diktate erst auf ein Aufnahmengerät gesprochen und dann umgesetzt hat, ist die ermittelte Erkennungsgenauigkeit (94,4% für V. 10 vs. 95,1% für V. 11) wohl auch etwas niedriger als die eines Online-Diktates. Ich gehe in der Regel von 2-3 Prozentpunkten aus, die einfach dadurch verlorengehen, dass das direkte Feedback des Online-Diktats fehlt.

Im ganzen hält der Tester die Version 11 eher für ein Service Pack als für eine gründlich überarbeitete Version. Hier muss ich widersprechen, denn die gesamte Vokabulararchitektur in Version 11 ist neu aufgebaut worden. Die 11 ist nicht einfach eine 10 mit ein paar neuen Features! Hier hätte sich beim Test gelohnt, die Fehler zu etwas genauer analysieren und zu vergleichen, um festzustellen, wo die Stärken und Schwächen genau liegen.

Trotz dieser Anmerkungen ein umfang- und kenntnisreicher Test, der sich zu lesen lohnt!

07 Oktober 2010

O2 führt mobilen Schriftdolmetschdienst ein

Wie Heise Online berichtet, richtet O2 einen mobilen Schriftdolmetschdienst für Hörgeschädigte ein. Diese sollen die Möglichkeit haben, einen Schriftdolmetscher vorab zu buchen, der Ihnen gesprochene Sprache vermittels Spracherkennung in Text umsetzt.

Das Besondere am neuen, "Verbavoice" genannten Dienst ist, dass der Dolmetscher online über eine Smartphone oder ein Netbook zugeschaltet wird, also vor Ort nicht anwesend sein muss. Damit ist eine größere Flexibilität für alle gegeben.

Bisher arbeiten Schriftdolmetscher vorwiegend vor Ort und sprechen das nach, was in Schrift umgesetzt werden soll. Die eigentliche Umsetzung erledigt eine Spracherkennung. Wer das Gesagte nicht hört, kann es so auf dem Bildschirm lesen.

In Deutschland arbeitet z.B. die Trierer Firma Kombia in diesem Bereich.

Hier habe ich schon einmal über Schriftdolmetschen berichtet, damals in Zusammenhang mit einem FAZ-Artikel. Verwandt damit ist das Re-Speaking, das beim Fernsehen zur Live-Untertitelung von Fußballspielen, Parlamentsdebatten usw. eingesetzt wird.

22 September 2010

Dragon für Mac in neuer Version in USA erschienen

In der Begeisterung über Dragon NaturallySpeaking 11 soll die Nuance-Pressemitteilung nicht verschwiegen werden, die die neue Version von Dragon für Mac ankündigt. Diese basiert bereits auf der neuen Erkennungsmaschine von Dragon 11, enthält eine überarbeitete Benutzeroberfläche, zahlreiche neue Befehle zur Korrektur, Navigation und Bearbeitung, Suche im Internet und was man sonst schon aus Dragon NaturallySpeaking für Windows kennt. Neidisch machen aber die Ankündigungen so schöner Befehle wie "setze in Klammern". Das wäre mir auch aus der Windows-Version noch nicht bekannt.

Eine Ankündigung für eine deutsche Version gibt es bisher noch nicht.

Die englische Produktseite findet sich unter www.Macspeech.com

FAZ-Rezension: Dragon NaturallySpeaking 11

"Der feine Luxus des schnellen Diktats steht im Zeichen des Drachen" - titelt die Frankfurter Allgemeine Zeitung in ihrer gestrigen Ausgabe. Die wie immer sehr kompetente und umfangreiche Rezension von Dragon NaturallySpeaking 11 wurde vom Diktat-Experten Michael Spehr verfasst, geht eingehend auf die verschiedenen Neuerungen ein, lobt die deutlich verbesserte Erkennungsgenauigkeit und -Geschwindigkeit, gibt aber auch Empfehlungen für den Einstieg, mit welcher Version man am besten arbeiten sollte, und rät, einen Experten für den Einstieg zurate zu ziehen.

Hier gibt es den Artikel auf FAZ.NET!

20 September 2010

Erste Erfahrungen mit Dragon 11

Inzwischen habe ich mehrere Versionen von Dragon NaturallySpeaking 11 (Premium, Professional, Legal) auf diversen Rechnern installiert und so viel diktiert, dass ich ein paar Eindrücke abgeben kann.

Auf einem neuen, aktuellen Notebook mit einem i5-Prozessor läuft das Diktat richtig schnell und praktisch fehlerfrei. Mit den ersten längeren Diktaten fallen dann auch einige positive Neuerungen auf. So finde ich es deutlich leichter, Abkürzungen, die aus einzelnen Buchstaben bestehen, zu diktieren.

Auf einem aktuellen Netbook mit Atom-Prozessor N450 ist, der Hardware angemessen, die Umsetzung nicht so schnell. Aber auch hier ist die Genauigkeit, selbst mit einem ganz neuen und praktisch nicht trainierten Benutzerprofil, vorbildlich. Sehr schön zu sehen ist in dieser Konstellation der Zwischenspeicher, den Dragon NaturallySpeaking 11 voll ausnutzt: man kann einfach weiter diktieren, auch wenn noch kein Text auf dem Bildschirm zu sehen ist, und das Programm setzt auch längere Absätze zwar mit Verzögerung, aber praktisch fehlerfrei in Text um.

Auf diesem Rechner zeigt sich übrigens auch, dass ein neu angelegtes Benutzerprofil schneller reagiert als eines, das aus der Vorversion übernommen wurde. Dies lässt sich allerdings nicht verallgemeinern: auch auf anderen Rechnern habe ich erfolgreich andere Profile auf den neuesten Stand gebracht, und dort gingen sie ab wie Schmidts Katze. Allerdings gab mir Dragon auf dem Netbook bereits bei der Installation eine Warnung, dass die Hardware nicht wirklich ausreiche und 2 GB Arbeitsspeicher zu empfehlen seien. Insofern gibt es keinen Grund, sich zu beschweren – ich habe es nicht anders gewollt.

Einige Probleme bei der Installation sind auch schon aufgetaucht. So kommt Dragon 11 nicht unbedingt damit klar, wenn noch Reste einer Office 97-Installation auf dem Rechner vorhanden sind. Hier hilft der Nuance-Support oder ein Fachhändler weiter.

Bei der Gelegenheit noch ein Hinweis zum Diktat von Abkürzungen und zum Buchstabieren von Namen. In Dragon 11 sollte dies immer mit vorangestelltem "schreib"-Befehl geschehen, da ansonsten alles Buchstabierte konsequent in Großbuchstaben erscheint. Wird auf diese Weise über eine Markierung diktiert, fügt Dragon 11 das Wort sogar automatisch zum Wortschatz hinzu. Korrekt ist also: "schreib W O R T", um ein Wort auch wirklich korrekt zu buchstabieren und ins Vokabular aufzunehmen. Bei manchen Ausdrücken ist aber das Buchstabieralphabet immer noch vorzuziehen, insbesondere wenn Buchstaben vorkommen, die vom Klang her leicht zu verwechseln sind.

Auch der von mir heiß geliebte, verborgene Befehl in Dragon NaturallySpeaking 10.1 ist jetzt an der Oberfläche gelandet und ins Deutsche übersetzt worden. Mit "großschreibe [Wort]" lässt sich jetzt ein beliebiges Wort im Text mit einem großen Buchstaben schreiben. Aufgrund der Mehrfachauswahl geht das auch für alle Vorkommen dieses Wortes im Text. Das macht wirklich Spaß!

17 September 2010

Sennheiser DW Office: schnurloses Headset für Diktat und Telefon

Seit einigen Wochen arbeite ich mit dem Sennheiser DW Office-Headset. Dieses Headset ist sowohl zum Telefonieren als auch für den Anschluss an einen Computer per USB und somit für Spracherkennung geeignet.

Die würfelförmige Basisstation verfügt über mehrere Anschlüsse, über die das Signal wahlweise ans Telefon oder an den Rechner geschickt wird. Mit 2 Tasten kann zwischen Telefon und Diktat umgeschaltet werden.

Mit einem geeigneten Adapter kann ich auch telefonieren, ohne den Hörer abnehmen zu müssen. Dies funktioniert nicht bei allen Telefonen (eine Liste findet sich auf der Sennheiser-Website); Telefone, für die es keinen Adapter gibt, kann ein Hörerlifter bestellt werden, der den Hörer auf Knopfdruck mechanisch abnimmt.

Auf der anderen Seite funktioniert die Spracherkennung im Computer hervorragend. Das Sennheiser DW Office ist nach meiner Erfahrung das 1. schnurlose Headset, das es von der Erkennungsgenauigkeit her mit einem schnurgebundenen Headset aufnehmen kann. Dazu trägt unter anderem der verlängerte Mikrofon-Arm bei, der sich von den Stummeln der meisten schnurlosen Headsets positiv abhebt. Darüber hinaus ist es extrem bequem zu tragen, so dass man es wirklich stundenlang am Ohr haben kann, ohne dass es unbequem wird.

Für mich im Moment die optimale Lösung für Diktat und Telefon. Der Preis – 350 € zuzüglich MwSt. –ist nicht wirklich ein Schnäppchen, wenn man aber bedenkt, wie viel Komfort man gewinnt und wie viel Zeit man spart (allein dadurch, dass man beim Telefonieren die Hände frei hat und eine Antwort-E-Mail zumindest schon vorbereiten kann), lohnt sich die Investition innerhalb weniger Wochen.

26 August 2010

Dragon 11 ist da

... und beim Händler Ihres Vertrauens erhältlich. Da nur die dort gelisteten zertifizierten Händler das Programm auch supporten können, rate ich dringend, dort und nicht bei irgendeinem Billiganbieter im Internet zu kaufen.

Im Moment wird die Version Premium, der Nachfolger von Dragon NaturallySpeaking Preferred, in drei verschiedenen Versionen - als Dragon NaturallySpeaking Premium mit schnurgebundenem Headset, als Premium Wireless mit schnurlosem Headset oder als Premium Mobile mit digitalem Aufnahmegerät - angeboten. Die Premium-Variante kann schon eine Menge, ist aber anders als die für Mitte September angekündigten professionellen Versionen nicht netzwerkfähig, kann keine eigenen Sprachbefehle erstellen und ist auch im Bereich der Wortschatzarbeit eingeschränkt.

Auch der Nachfolger von Standard ist unter der Bezeichnung "Dragon NaturallySpeaking Home" erhältlich. Dieses Paket bezeichne ich cum grano salis als kostenpflichtige Demo: es zeigt, dass und wie Spracherkennung funktioniert, ist aber im Funktionsumfang so beschnitten, dass es nicht wirklich Spaß macht.

Die erste Installation habe ich inzwischen hinter mir und war von der Erkennungsgenauigkeit sehr begeistert (und das obwohl der Sprecher nicht gerade zum Durchschnitt gehört). Der neue Benutzerassistent und die völlig überarbeitete Programmoberfläche vereinfachen den Einstieg doch enorm.

Weitere Highlights sind die verbesserte Unterstützung für Multicore-Prozessoren, die sich in schnellerer Verarbeitung, besserer Erkennung und schnellerer Befehlsverarbeitung niederschlagen; Unterstützung von Office 2010 und OpenOffice Writer und der Direktimport von DSS und DS2-Dateien, wie sie von professionellen digitalen Diktiergeräten erzeugt werden.

Mein persönlicher Favorit ist die Möglichkeit, mehrere Vorkommen desselben Wortes auf einmal zu bearbeiten ("großschreibe Sie" - "nimm alle").

Eine umfangreiche Besprechung finden Sie unter http://www.knowbrainer.com/downloads/DNS_11_Review.pdf (englisch).

10 August 2010

Warum schreiben Sie nicht schon über Dragon 11?

Weil Dragon 11 zwar angekündigt ist, aber noch nicht ausgeliefert wird. Auf Youtube gibt es schon ein paar Videos, die aber noch nicht detalliert auf Features eingehen:

Ein Werbefilm von Nuance sagt nichts über Dragon 11, was nicht schon auf Dragon 10 zuträfe, zeigt aber dem Eingeweihten ein paar Neuigkeiten. Bei 0:52 sieht man den neuen Wechsel zwischen Anwendungen, bei 1:30 die neue Sidebar. Hübsch auch die Demonstation einer Tabelle bei 2:10, aber nicht wirklich neu. Ansonsten sieht man einen Talking Head und wird am Ende damit verwirrt, dass dessen "Tochter" Dragon auf dem Mac nutzt

http://www.youtube.com/watch?v=f2tgU_5Q-2A&NR=1 ist ein Bericht von Network World, in dem Peter Mahoney, Produktverantwortlicher für Dragon, das Produkt vorstellt, ohne aber besonders auf Neuheiten einzugehen. Auch hier sieht man gelegentlich ein paar Neuheiten, z.B. das neue Symbol, das das Erkennungsfenster ablöst (0:23), und die Möglichkeit, mehrere Vorkommen eines Wortes im Text auf einmal zu bearbeiten (0:58, leider unter dem Voice-Over versteckt).

Mahoney schreibt auch über "die Motivation hinter Dragon 11", nämlich die Bedienbarkeit und Nutzerfreundlichkeit zu steigern. Hiermit wird übrigens auch die Datensammlung gerechtfertigt, die Nuance seit einiger Zeit betreibt.

Eine Übersicht über die verschiedenen Versionen von Dragon NaturallySpeaking 11 ist bisher nur auf Englisch im Netz zu finden.

Dragon Medical wird übrigens von der Dragon NaturallySpeaking-Schiene abgekoppelt, wird also zunächst nicht in Version 11 erscheinen. Nachdem bereits das "NaturallySpeaking" aus dem Namen gestrichen wurde und die Dragon Medical 10.1.1 auch erst ein paar Wochen alt ist, war dies zu erwarten, zumal die beiden Produkte längst verschiedenen Abteilungen zugeordnet wurden. Dragon Medical 10.1.1 ist übrigens im Moment die Spracherkennung unserer Wahl und wird auch gerade zum Diktat dieses Beitrags verwendet.

Offizieller Erscheinungstermin für Dragon NaturallySpeaking 11 Premium (der Nachfolger von Dragon NaturallySpeaking Preferred) ist der 25. August. Die professionellen Versionen erscheinen im Laufe des September. Dann werden wir mehr wissen. Vorbestellungen nimmt der Fachhändler Ihres Vertrauens entgegen.

Dragon für iPhone: FAZ-Besprechung

Auch schon ein paar Tage alt ist die Besprechung für Dragon für das iPhone in der FAZ. Online kann man sie hier lesen (übrigens inkl. einem viel kommentierten Erkennungsfehler):

http://www.faz.net/s/Rub4C34FD0B1A7E46B88B0653D6358499FF/Doc~ED1100FB8DAE4498C8F20A7C96821856B~ATpl~Ecommon~Scontent.html

Der Blogger Volker Weber hat die Software mit katastrophalem Ergebnis getestet (Testbericht). Interessant sind hier die Reaktionen von einigen gewieften Spracherkennung-Benutzern, darunter auch von Michael Spehr, der den FAZ-Test durchgeführt hat. Die Kommentatoren machen wieder einmal deutlich, dass Spracherkennung wesentlich vom Sprecher abhängt und der Umgang mit ihr gelernt werden muss: auf gute Tonqualität achten, deutlich sprechen, Satzzeichen mitsprechen. Oder wie wir hier sagen: kaum macht man es richtig, da geht es.

09 August 2010

Dragon für iPhone jetzt auch in Deutschland erhältlich

Seit dem 2. August gibt es Dragon für das iPhone jetzt auch in Deutsch. Hier die Pressemitteilung:

http://www.nuance.de/news/20100802_dragon-mobile-apps.asp

Schon vorab habe ich die Anwendung gesehen und war sehr beeindruckt. Auch als ein Mann und eine Frau abwechselnd gesprochen haben, wurde der Text korrekt umgesetzt.

Was man wissen sollte: das iPhone dient als Aufnahmegerät. Die Sprache selbst wird auf einen Server übertragen und dort in Echtzeit per Spracherkennung (wie die Schnelle Reaktionszeit zeigt) im Text übertragen, der dann nach Abschluss des Diktats zurück auf das Gerät gesendet wird. Die Spracherkennung findet also nicht auf dem Gerät selbst statt, dazu reicht die Rechenleistung nach wie vor nicht aus. Jedes Diktat verlässt das Gerät einmal, um auf dem Server in Text umgesetzt zu werden. Bei der Installation wird übrigens auch optional (lässt sich aber abschalten) die Liste der Kontakte an den Server übermittelt, um sicher zu gehen, dass auch ungewöhnliche Namen richtig erkannt werden. Dies für die Freunde der Sicherheit.

Die Freunde der Videos werden hier etwas finden:

Video: Dragon Dictation und Search (2:03)

Mehr Video: http://www.dragonmobileapps.de/apple/demo_video.html

Dragon für iPhone läuft auch auf dem iPad und dem iPod Touch. Ich brauche demnächst ein neues Handy - mit dieser Anwendung ist das iPhone wieder in den Kreis der potentiellen Kandidaten zurückgekehrt.

30 Juni 2010

Spracherkennung bei der Fußball-Weltmeisterschaft

Eine sehr schöne Fallstudie darüber, wie das Arbeiten mit Dragon NaturallySpeaking Professional möglich ist: : die ARD nutzt Dragon NaturallySpeaking, um alle WM-Spiele live mit Untertiteln für Hörgeschädigte zu versehen. In einem Studio in Potsdam kommentieren eigens ausgebildete Sprecher die Übertragungen.

Wortschätze anlegen, das Programm auf eine konkrete Aufgabe vorbereiten, den Sprecher trainieren - alles wird hier sehr anschaulich beschrieben. Und den Nutzen kann jedermann auf Tafel 150 leicht nachprüfen.

Empfohlen für alle, die überlegen, ein Projekt mit Spracherkennung durchzuführen!

Hier noch ein Bericht darüber, wie das Schweizer Fernsehen bei Sportübertragungen eine ähnliche Technik einsetzt.

21 Mai 2010

MacScribe - Transkription auf dem MAC

MacSpeech Dictate bringt die Spracherkennung auf den Mac. Die verwendete Erkennung Maschine ist seit einiger Zeit Dragon NaturallySpeaking. Während damit ein direktes Diktat in hoher Qualität möglich ist, war es bisher aber nicht möglich, auf dem Mac Diktate von digitalen Diktiergerät zu transkribieren.

MacScribe füllt nun diese Lücke. Audiodateien im Format wav, aif, aiff, m4v, mp4 und m4a können von der Software gelesen und in Text umgesetzt werden. Damit ergänzt das Produkt Macspeech Dictate um eine Transkriptionslösung - das eine Programm eignet sich für direktes Diktat in den Rechner, das andere Programm zum Umsetzen vom digitalen Diktiergerät. Mit 129 € ist diese Zusatzfunktion nicht zu teuer bezahlt, Zumal sie in den Sprachen Deutsch, Englisch, Französisch und Italienisch funktioniert.

Deutsche Informationen unter http://www.application-systems.de/scribe/

20 Mai 2010

Genauigkeitsmessungen

Im Knowbrainer-Forum hat David Peters schon vor 2 Jahren einen interessanten Beitrag eingestellt, wie sich die relative Erkennungsgenauigkeit eines Benutzerprofils messen lässt. Insbesondere geht es hier um die "gefühlte Verschlechterung" eines Benutzerprofils im Laufe der Arbeit, die sich seinen Messungen zufolge nicht nachweisen lässt, sondern die offensichtlich nur auf ein subjektives Empfinden des Benutzers zurückgeht.

Zum Zwecke der Messung hat er einen Text von ungefähr einer Seite diktiert (um sicher zu gehen, das keine unbekannten Wörter darin vorkommen), diesen Text als reine Ton Datei, also als WAV-Datei aufgenommen und von Dragon NaturallySpeaking umsetzen lassen. Es zeigte sich, das die Fehlerquote bei einem neuen Profil doppelt so hoch war wie bei demselben Profil nach einiger Zeit der Arbeit, obwohl sein subjektives Gefühl ihn annehmen ließ, dass sich die Erkennungsgenauigkeit verschlechtert hatte.

Sein Fazit (das sich weitgehend mit meinem deckt): sehr viel wichtiger als alles andere ist nach wie vor das korrekte Diktieren und eine deutliche Aussprache. In dem Maße, in dem man sich an Spracherkennung gewöhnt, lässt die Aufmerksamkeit beim Diktieren nach. Im selben Maße steigt aber die Fehlerquote. Hat man einen davon unabhängigen Input (wie eine WAV-Datei), zeigt sich, das das Programm tatsächlich spürbar hinzu lernt, das Problem also wie so häufig vor dem Bildschirm zu suchen ist.

Gruß aus der guten alten Zeit

Die Überschrift sollte zwar eigentlich "Aus der guten alten Zeit" heißen, aber es zeigt sich, dass der Drache in den Jahren seiner Existenz offensichtlich ein gewisses Maß an Intelligenz erworben hat, jedenfalls seinen eigenen Kopf besitzt. Wie dem auch sei:

Dieses Video zeigt die Markteinführung von Dragon NaturallySpeaking, der 1. Spracherkennung für kontinuierlich gesprochene Sprache, im Jahre 1997. Manchmal glaubt man, das sich gar nicht so viel verändert hat.

10 Mai 2010

Spinvox gibt den kostenlosen Service in Deutschland auf

Mehrere Jahre lang habe ich mir alle Sprachnachrichten, die auf mein Handy gesendet wurden, von kostenlosen Spinvox-Dienst im Text übertragen lassen (angeblich mit Spracherkennung, anscheinend aber doch mit menschlicher Hilfe). Dieser Dienst ist jetzt offenbar im Zusammenhang mit der Übernahme von Spinvox durch Nuance eingestellt worden.

Ein ähnlicher Dienst in Deutschland ist mir nicht bekannt, so dass ich zur guten alten Mailbox zurückkehren muss. Da ich in letzter Zeit sehr viel weniger Anrufe mobil erhalte, hält sich mein persönlicher Verlust in Grenzen. Schade ist es aber doch um einen sehr ausbaufähigen Service - jedoch können wir davon ausgehen, das Nuance demnächst etwas Eigenes mit eigener Technologie auf den Markt bringen wird und lediglich an den Kontakten von Spinvox in die Industrie, nicht aber deren Technologie interessiert war.

26 April 2010

Dragon for Email für Blackberry

Die neue Ergänzung der Dragon-Produktfamilie für mobile Endgeräte - Dragon für E-Mail für BlackBerry. Auch diese Variante ist leider derzeit nur in den USA erhältlich.

Die Funktionsweise ist der auf dem iPhone nochmals überlegen: das Diktat geschieht direkt in den E-Mail-Client des BlackBerry, Knopfdruck, diktieren, nochmal Knopf drücken, und der Text erscheint wenige Sekunden später in der Anwendung und kann von der abgesendet werden.

Hier ein englisches Video, welches es recht schön demonstriert:

Die Anwendung kann derzeit kostenlos heruntergeladen werden, allerdings nur in Amerika. Offensichtlich ist auch ein Vertrag mit einem amerikanischen Netzbetreiber nötig. Wer trotzdem der Link möchte:

http://www.dragonmobileapps.com/index.html

06 April 2010

... und auch sehr hübsch:

... aber nicht ganz neu

Zur Nuance-Pressemeldung

Jetzt aber Aprilscherz

Kreativer Einsatz von Spracherkennungs- und Übersetzungstechnologie, zum Quartalsbeginn vorgestellt von Google UK

Mehr davon

01 April 2010

Kein Aprilscherz, trotzdem lustig

Einem Hinweis im Knowbrainer-Forum entnahm ich, das es in der englischen Version seit 10.1 einen Befehl "capitalize" gibt, der analog zu Befehlen wie "Fett", "kursiv", das danach genannte Wort im Text findet und groß schreibt. Diesem Befehl habe ich nun auch in der deutschen Version ausfindig gemacht, und er heißt, man glaubt es kaum:

Capitalize

und wird genauso ausgesprochen, wie meine kleine Tochter englische Wörter aussprechen würde: Kapital Liese.

Wer also ein Wort im Fließtext nachträglich groß schreiben möchte, kann ab sofort sagen:"Kapital Liese [dieses Wort]". Funktioniert Auch Mit Mehreren Wörtern, wie man sieht. (Befehl: "Kapital Liese auch mit mehreren")

Viel Spaß damit!

Die ZEIT testet MacSpeech Dictate

Die ZEIT testet Macspeech Dictate und stellt dabei fest, dass die Schwierigkeiten beim Umgang mit Spracherkennung offensichtlich eher vor dem Bildschirm liegt als hinter dem Bildschirm :-)

Will sagen: als Autor hat man es nicht immer leicht, druckreife Sätze zu formulieren, gerade wenn man (langsames) Tippen gewohnt ist und sozusagen während des Tippens die Gedanken verfertigt. Auch die Kommentare zeigen, dass zumindest bei Zeit-Lesern das Problem eher an dieser Stelle zu lokalisieren ist. Auch Diktieren will eben gelernt sein.

Wenn Autoren früher also damit gekämpft haben, dass die Hand zu langsam für die Gedanken war, so gilt jetzt:

Spracherkennungssoftware mag zwar hohes, nuschelfreies Diktiertempo, aber nicht immer kommt der kluge Kopf genügend schnell und klar hinterher.

Für die Spracherkennungs-Technik ein Kompliment! Die automatische Übertragung von Gedanken in den Computer wollen wir uns aber lieber nicht vorstellen. Irgendwo muss eine Grenze sein...

02 März 2010

Dragon Medical kommt auf das iPhone - in Amerika

Dragon Medical kommt auf das iPhone:

Eigentlich war es nur eine Frage der Zeit, bis die verschiedenen Konzepte zusammengebracht werden - Cloud Computing und der Einsatz von Smartphone anstelle eines Diktiergeräts. ScanSoft bringt uns der Markt wieder der Ideen näher, die ich schon seit längerer Zeitung hege, zu der mir aber bisher alle Möglichkeiten der Verwirklichung gefehlt haben - mobiles Diktat mit Spracherkennung, entweder um den Text sofort zu speichern oder zu versenden, oder um eine Sprachaufzeichnung an einen Server zu schicken und zuhause die Transkription zu erhalten.

Für den medizinischen Bereich wird dies in Amerika in den nächsten Monaten eingeführt. Ich freue mich darauf, wenn das auch in Deutschland Wirklichkeit wird...

Nuance-Produktbeschreibung

17 Februar 2010

Nuance kauft MacSpeech

Heute schon eine Firma übernommen? Nuance hat Macspeech, den Entwickler der Spracherkennung MacSpeech Dictate (früher iListen) aufgekauft. Die Erkennungsmaschine von Dragon ist ohnehin schon seit einiger Zeit in Dictate enthalten gewesen.

Für die Anwender von Dragon und MacSpeech Dictate ändert sich zunächst einmal nichts. Das Marketingsprech der Pressemitteilung deutet jedoch an, dass Macspeech Dictate in absehbarer Zeit als Dragon für Mac erhältlich sein wird.

Dragon- und Blackberry-Unterstützung von Grundig

Grundig bringt zum 15. Februar eine neue Version seiner Sprachverarbeitungssoftware auf den Markt: DigtaSoft 4.3. Diese unterstützt das neue Diktiermikrofon Digta SonicMic II, das Nachfolgegerät zum Digta SonicMic. Darüber hinaus können mit der neuen Version von DigtaSoft AMR-Dateien, zum Beispiel von Blackberrys und weiteren Mobiltelefonen, importiert und abgespielt werden. Ferner kann das SonicMic II damit so konfiguriert werden, dass die Funktionen von Dragon NaturallySpeaking über das Gerät gesteuert werden können.

Die aktuellen Software-Versionen gibt es teils kostenlos, teils als Demo unter http://www.grundig-gbs.com/de/download (Klick auf "PC-Software").

12 Februar 2010

Dragon Mind Dictation - neue iPhone-App liest Ihre Gedanken!

Muss ich hinzufügen, dass es sich hierbei nicht um eine reale Applikation handelt? Ich wünsche allen einen fröhlichen Rosenmontag!

URL: http://www.youtube.com/watch?v=h_DhRudJM-Q

11 Februar 2010

Neues Forum für Spracherkennung

Seit einigen Tagen gibt es ein neues Forum für Spracherkennung, welches nicht von Händlern, sondern von einem engagierten Anwender ins Leben gerufen wurde. Besonders nützlich ist die Rubrik "Was ich schon immer wissen wollte", in der einige der am häufigsten gestellten Fragen zur Spracherkennung behandelt werden. Wer kompetente Hilfe von Anwendern sucht (und die Liste der Teilnehmer ist zwar bis jetzt noch nicht besonders groß, aber schon sehr vielversprechend), ist hier gut bedient. Die Adresse:

http://dragon-spracherkennung.forumprofi.de

28 Januar 2010

Neues zum Thema Diktat auf dem BlackBerry

Zum Thema Diktat auf dem BlackBerry habe ich immer mal wieder etwas geschrieben. In den letzten Tagen sind 2 neue Produkte angekündigt worden, die dem BlackBerry zum Ersatz für ein Diktiergerät machen.

1. (und dies ist nicht wirklich neu) hat die Firma Brainworks schon seit längerem eine Software ProMobile im Programm, die dem BlackBerry zum Diktiergerät macht und sich auch in die Architektur eines BlackBerry-Enterprise Servers einbindet. Eine Meldung wert ist diese Software, weil sie sich auch in die aktuellen BlackBerry-Modelle einbindet, zum Beispiel das brandneue BlackBerry® Storm2™ und das BlackBerry® Bold™ 9700.

2. hat auch Philips inzwischen eine Software zum Diktat in den BlackBerry entwickelt. Zum Schreiben der Diktate wird zusätzlich die Philips-SpeechExec Software benötigt. Die Software gibt es zum Download unter www.speechshop.net; weitere Informationen auch unter http://www.dictation.philips.com/index.php?id=1809. Auch hier ist eine Einbindung in den BlackBerry Enterprise Server möglich.

Spenden für Haiti

Aus gegebenem Anlass heute eine Nachricht zu einem ganz anderen Thema:

Das Erdbeben in Haiti hat weltweit eine große Welle der Hilfsbereitschaft ausgelöst. Eine der einfachsten Möglichkeiten, selber zu einer Spende beizutragen, findet sich auf dieser Webseite:

http://www.care2.com/click-to-donate/haiti/

Nur ein Klick am Tag trägt dazu bei, dass die Sponsoren der Seite eine Spende für die Erdbebenopfer in Haiti tun. Dies ersetzt zwar nicht die eigene Spende, ergänzt sie aber. Ich bitte um zahlreiche Unterstützung - jeden Morgen ein Klick!

Das gespendete Geld geht an die international bekannte Organisation Oxfam, die damit die Wasserversorgung wieder aufbauen wird. Hier weitere Informationen.

22 Januar 2010

Re-Speaking beim Schweizer Fernsehen

Ein Einsatz für Spracherkennung ist das sogenannte Re-Speaking, das Live-Untertiteln von Fernsehsendungen mit Hilfe von Spracherkennung. Eine trainierte Sprecherin spricht alles nach, was der Sprecher sagt, so dass die Untertitel in Echtzeit erscheinen. Das ist nicht so einfach, wie es sich anhört - dieses "Echo-Diktat" erfordert Übung und Routine.

Übrigens ist der gesamte Beitrag untertitelt, damit auch Nicht-Schweizer etwas davon haben :-)

Übrigens benutzen auch RBB und WDR ein Dragon-System zum selben Zweck, und in Österreich werden Parlamentsdebatten per Spracherkennung untertitelt.

Neues von der Spracherkennung in Microsoft Windows

Unter A Deeper Look at Speech NUI Führt der Chef der Entwicklungsabteilung für Spracherkennung bei Microsoft, Rob Chambers, die Neuigkeiten vor, die die Windows-Spracherkennung derzeit bietet: Diktat und Steuerung von Windows 7, daneben aber auch Spracherkennung auf dem neuen Exchange Server 2010 und auf mobilen Plattformen. Die Demonstration beschränkt sich allerdings auf Windows 7.

Einige Sachen wurden gegenüber Windows Vista verbessert, so zum Beispiel die Korrekturfunktion vereinfacht. In das Korrekturfenster zu tippen scheint aber immer noch nicht möglich zu sein :-)

Mehrere Male werden Studien zur Benutzerfreundlichkeit erwähnt, die gegenüber der Spracherkennung in Windows Vista einige Veränderungen gebracht haben - schön, dass hier Aufwand getrieben wird, um Sprache zu einem möglichst natürlichen Medium der Bedienung eines Computers zu machen!

Was allerdings auffällt, ist, dass selbst der Guru von Microsoft am Ende Maus und Tastatur benutzt, um einige Webseiten aufzurufen - das würde doch per Sprache genauso gut gehen, wie er vorher vorführt. Chance vertan!

15 Januar 2010

SpeechMagic 7 kommt

In einer Pressemitteilung kündigt Nuance das Erscheinen der neuesten Version 7 seiner Spracherkennungsengine SpeechMagic, die im Herbst 2008 vom ursprünglichen Entwickler Philips übernommen wurde, an. Die Spracherkennung wurde noch stärker an die Bedürfnisse des medizinischen Marktes angepasst und soll zum Beispiel über eine neue API ermöglichen, dass Schaltflächen in medizinischen Informationssystemen direkt per Sprache angesprochen werden können. Auch sonst weisen die Neuerungen vor allen Dingen darauf hin, dass die Installation und Administration in großen Einrichtungen, also in Krankenhäusern, verbessert werden soll.

Eine andere interessante Neuerung ist die Möglichkeit, die tatsächliche Leistungsfähigkeit der Spracherkennung zu messen und damit zu beziffern, welche Arbeitsweise im Einzelfall die effizienteste ist (direktes Diktat in den Rechner oder sogar direkt in die Anwendung; Umsetzung auf einem Spracherkennungsserver, Abschrift durch eine Sekretärin oder Korrektur des spracherkannten Diktates durch eine Sekretärin).

SpeechMagic ist nicht einzeln als Produkt erhältlich, sondern immer nur integriert in die jeweilige Krankenhaus-Verwaltungssoftware. Hier sind jetzt also die einzelnen Anbieter gefragt, wie die Maschine konkret angepasst wird bzw. wie die Schnittstellen aussehen. Mit den ersten Integrationen ist im Laufe des Jahres zu rechnen.

Nuance positioniert damit SpeechMagic noch stärker als medizinische Spracherkennung im Krankenhausbereich, wohingegen Dragon Medical, die medizinische Variante von Dragon NaturallySpeaking, stärker auf niedergelassene Ärzte und kleine Abteilungen in Krankenhäusern ausgerichtet werden soll. Da Dragon Medical auf Dragon NaturallySpeaking aufsetzt, ist es von seiner Architektur eher für den Einzelplatz als für eine Netzwerk-Installation geeignet (was nicht heißt, dass dies unmöglich wäre). Hier kann Dragon seine Stärke, nämlich die Anpassung an die individuelle Arbeitsweise, voll ausspielen. Auch hier sind in nächster Zeit Veränderungen zu erwarten, mit denen die Produktpolitik im Bereich Medizin ein schärferes Profil gewinnen wird.

12 Januar 2010

Nuance übernimmt Spinvox

Nuance auf Einkaufstour: diesmal wird der britische Dienst Spinvox übernommen.

Wie meine Leser wissen, ist Spinvox vor allen Dingen dadurch hervorgetreten, dass es eine Mailbox als Dienst bereitstellt, die eine Nachricht in eine SMS umwandelt und auf das Handy sendet. Angeblich sollte dies automatisch geschehen, im letzten Jahr gab es dann allerdings Berichte, denen zufolge jede Nachricht noch einmal händisch korrigiert, wenn nicht gar vollständig abgeschrieben wurde.

Insofern können beide Unternehmen nur profitieren: Nuance bekommt einen Fuß in die Tür auf dem Markt der Mobilfunk-Anbieter (man munkelt über einen bevorstehenden Vertrag mit einem großen südamerikanischen Anbieter), Spinvox bekommt eine bessere Spracherkennung. Da ich den Dienst immer noch sehr gerne nutze, bin ich auf die konkreten Auswirkungen gespannt.

In der Zwischenzeit gibt es in Deutschland einen neuen Dienst, mit dem man SMS diktieren kann. In den letzten Tagen bin ich gleich zweimal darauf hingewiesen worden: www.ssms.com ist die Adresse, unter der man sich informieren kann. Die ersten SMS sind kostenfrei, danach gibt es ein Prepaid-Modell. Erfahrungsberichte demnächst hier.

11 Januar 2010

Literatur, Musik, Spracherkennung

... sind meine Hobbys. In diesem Zusammenhang möchte ich übrigens endlich einmal den wunderbaren Roman "The Time of our Singing" von Richard Powers empfehlen, ein amerikanischer Autor, der ebenfalls intensiv mit Spracherkennung arbeitet, die in diesem Beitrag nachzulesen ist.

Während ich mein Hobby Spracherkennung zum Beruf gemacht habe (oder war's umgekehrt?), hat auch mein musikalisches Hobby endlich Früchte getragen: die 1. CD des Vintage Jazz Trio, meiner Berliner Jazzband ist soeben erschienen und kann hier bestellt werden: http://www.raumer-records.de/Shopsystem/Vintage-Jazz-Trio/Devil-to-pay.html

Da ich inzwischen Berlin verlassen habe und mein Glück in Erkrath bei Düsseldorf suche, ist die CD für mich eher eine schöne Erinnerung als ein aktives Projekt - das Vintage Jazz Trio gibt es aber weiter und ist zur CD-Release-Party am 21. Januar 2010 in Berlin in der Kleinen Weltlaterne, der traditionsreichen Künstler- und Jazzkneipe in der Nestorstraße, zu hören (20:30 Uhr,3 € Eintritt).