19 Dezember 2008

Spracherkennung unter Linux als Open Source

Simon listens ist der Titel eines österreichischen Projekts, das unter Windows, aber auch unter Linux eine Open-Source-Spracherkennung zur Verfügung stellen will. Die erste Alpha-Version ist vor kurzem erschienen. Ein Video der Funktionsweise ist auf der Webseite abrufbar.

Bei Simon handelt es sich um eine einfach zu benutzende grafische Schnittstelle für die Spracherkennungs-Software Julius und das HTK-Toolkit. Die benötigten Wörterbücher holt Simon direkt aus dem Wiktionary, einem Wikipedia-Schwesterprojekt. Dateien importiert die Software im HADIFIX- oder HTK-Format. Simon trainiert die Sprache anhand einfacher Beispiele und erkennt so neue Wörter. Da Simon über das TCP/IP-Protokoll auf die Julius-Engine zugreift (die man separat startet), kann die Spracherkennung auf einem zentralen Server erfolgen.

Die Julius-Engine gibt es schon etwas länger, wobei sie als Erkenner zunächst sprachunabhängig entwickelt wurde, um Sprachmodelle beliebiger Sprachen aufzunehmen. Konkret gab es dort Entwicklungen für Japanisch und Englisch, beide noch nicht sehr weit fortgeschritten. Simon-Listens integriert nun ein deutsches Sprachmodell in die Engine, so dass auch Deutsch erkannt wird.

Simon Listens bezieht sich übrigens darauf, dass das Projekt ursprünglich angetreten ist, einem behinderten Jungen namens Simon den Zugang zum Computer zu ermöglichen. Unterstützer werden noch gesucht (mehr dazu hier). Gerade zur Weihnachtszeit doch eine schöne Sache!

(mit Informationen von http://www.linux-community.de/Internal/Nachrichten/Simon-freie-Spracherkennung-fuer-Linux

15 Dezember 2008

Sauber diktieren!

Dieser Beitrag passt sehr gut zu meinem letzten Eintrag: will ich ein ordentliches Ergebnis beim Diktieren, muss ich auch ordentlich diktieren.

"Dragon hält uns da den Spiegel vor und zeigt uns, wie wir denken und Material organisieren. Und anstatt frustriert oder verärgert zu sein über das, was ich auf dem Bildschirm lese, nehme ich es als Gelegenheit wahr, meine Fähigkeiten zu verfeinern, Texte zu verfassen und zu schreiben."


Den zitierten Aphorismus von Lichtenberg "Bücher sind wie Spiegel, und wenn Affen hinein schauen, blicken keine Menschen zurück" würde ich aber lieber etwas kundenfreundlicher formulieren. Wer wird schon gern als Affe bezeichnet? Also lieber so:

Optimieren Sie Ihren Input, dann optimieren Sie auch das Ergebnis.

(Dank an Rüdiger Wilke!)

13 Dezember 2008

Äh! (Nothing but speech)

Beim Kunden gestern machte ich einige interessante Erfahrungen. Zwei Ärzte sollten geschult werden,. Der eine gehörte zu der Fraktion der Diktanten, die an viele Wörter ein äh-Geräusch hängen bzw. zunächst unartikulerte Laute ausstoßen, bevor sie ein Wort sagen.

(Vielen ist das gar nicht bewußt. Für Spracherkennung ist es aber Gift, statt "der" etwas wie "nnder" und statt "Punkt" z.B. "Punktäh" zu sagen, was vom Drachen dann getreulich als "Inder" und "Punkte" geschrieben wird. Nicht immer liegt der Fehler hinter dem Bildschirm!)

Der andere sprach flüssig, zwischendurch entschlüpfte ihm aber auch das ein oder andere "äh" auf der Suche nach dem richtigen Wort.

Dragon schreib nun bei Arzt 1 ständig kleine Wörter wie "in", "der", "um" ins Diktat. Bei Arzt 2 wurden die gelegentlichen "äh" ignoriert. Warum? Nun, wohl weil letzterer das "äh" nicht mit einem Wort verschmolz, sondern als einzelnes "Wort" sprach. Hier greift die "Nothing-but-speech"-Option von Dragon, die Nebengeräusche ausfiltert.

Wenn die Nebengeräusche jedoch so dicht an ein Wort artikuliert werden, dass sie als Teil des Wortes (fehl-) erkannt werden, hat Dragon keine Chance. Hier hilft der Logopäde.

Mehr dazu auch hier.

03 Dezember 2008

Neues von der Medica

Wegen ausreichender Arbeitsbelastung sowie einer Operation am Weisheitszahn komme ich leider erst heute dazu, ein paar Neuigkeiten von der Medica 2008 in Düsseldorf zu berichten, wie inzwischen auch schon zwei Wochen her ist.

Das größte Ereignis sicherlich die Ankündigung von Nuance, man werde fortan im medizinischen Bereich die vor einigen Wochen von Philips aufgekaufte SpeechMagic (Dragon NaturallySpeaking erkannte an dieser Stelle "zwiespältig :-)-Lösung einsetzen.

(Die Pressemitteilung: http://www.nuance.de/news/20081119_medica.asp)

Aus Sicht des Herstellers ist dies nur logisch: man hat einen zweistelligen Millionenbetrag für die Philips-Spracherkennung ausgegeben und will diese dort nutzen, wo sie ihre Stärken hat, nämlich im medizinischen Geschäft, bei Workflow-Lösungen in einem Krankenhaus, wo ein Arzt zwar mit Spracherkennung digital diktieren soll, sich aber nicht weiter um die Korrektur und Bearbeitung der Diktate kümmern soll, sondern dies dem Schreibbüro überlässt. Hier bietet die jetzt neu benannte SpeechMagic Solution Builder-Lösung einen bekannten und eingeführten Workflow.

Angesichts der Tatsache, dass Dragon NaturallySpeaking auch im medizinischen Bereich ein gut eingeführtes Produkt ist, wird dies natürlich die Frage auf, was mit Dragon
passieren wird. Gerade auch meine eigene Firma, die 4voice AG, hat ja einen eigenen Workflow - bis vor nicht allzu langer Zeit in direkter Konkurrenz zur Philips-Lösung -, der genau dasselbe zu leisten verspricht, aber mit Dragon NaturallySpeaking-Spracherkennung (und natürlich einigen Extras, die Philips so nicht bietet - aber das ist ein anderes Thema).

Letztlich wird die 4voice AG aber von dieser Entwicklung sogar profitieren: als langjähriger Partner von Nuance können wir jetzt auch die Philips-Lösung anbieten, behalten aber unsere Kompetenz mit Dragon NaturallySpeaking weiter. Das bedeutet auch: wenn ein großer Workflow mit Philips-Lösung gefragt ist, können wir dies bedienen; in anderen Fällen können wir weiter unsere Lösungen mit Dragon NaturallySpeaking anbieten.

Zu erwarten steht außerdem die Dragon NaturallySpeaking Medical Edition 10, die allerdings auf der Messe noch nicht gezeigt wurde und für die auch noch kein Erscheinungstermin feststeht. Wenn diese erst mal da ist, hat Nuance zwei schlagkräftige Produkte - einen Workflow und ein Produkt für Ärzte, die lieber alleine arbeiten wollen, das sich aber auch in einem Workflow integrieren lässt.

Wie der Markt auf diese Entwicklung reagiert, wird sich zeigen: es gab genauso Rückmeldungen, die diesen Entwicklungen positiv entgegensehen, wie auch andere, die eine allzu große Marktkonzentration eines Herstellers eher negativ finden. Dies sind aber nur die ersten Eindrücke - in den nächsten Wochen und Monaten wird sich zeigen, wie es tatsächlich weitergeht.

Zum Schluss sei noch die erfreuliche Tatsache vermeldet, dass der Kontakt zum neuen Nuance- (und ehemaligen Kuhlmann-) Vertriebsteam sehr freundlich verlaufen ist, wo jetzt nicht mehr gegeneinander antreten! Für mich der schönste Aspekt der Messe.