26 August 2008

Dragon 10-Kaffeesatzleserei

Ein paar Neuerungen von Dragon 10 habe ich letztens schon genannt; eine Menge steht in den Werbemails, die Nuance im Moment verschickt - aber was brigts tatsächlich auf dem Feld der Erkennung?

Die angekündigte, um 20% verbesserte Erkennungsgenauigkeit geht wirklich an die Grenze des Wahrnehmbaren: wo DNS 9 10 Fehler macht, macht DNS 10 nur noch 8. Ob das so viel ausmacht? "Da aber schon Dragon 9 im IDealfall nur eines von hundert Wörtern missverstand, ist dies nicht sehr brisant" - schreibt Dorothee Wiegand in der aktuellen c´t, weiß darüber hinaus aber auch noch nichts Neues.

Für mich wäre viel spannender zu erfahrten, wie die neue Version mit undeutlicher Aussprache und Dialekten umgeht. Da gab es schon mal einen Sprung, als - man höre und staune - die Erkennungsgenauigkeit weiblicher Stimmen an die der Männer angeglichen wurde (war das in DNS 8?) Bei mir hat sich ein Kunde allen Ernstes darüber beschwert, dass Dragon am Abend schlechter erkenne als am Morgen - ob denn die Software müde würde? An ihm konnte es ja nicht liegen. Für mich werden aber genau hier die Schlachten der Zukunft geschlagen, und zumindest bei Nuance Deutschland ist man sich dessen bewusst. Auch das heißt aber nichts, bis das mal nach USA dringt...

Zum Thema Hardware, um Missverständnisse zu vermeiden: Die Mindestanforderungen sind nicht gestiegen, die empfohlenen Ressourcen haben sich mal eben verdoppelt. Wer daraus ableitet, DNS 10 habe keine höheren Systemansprüche als die Vorversion, beschönigt da wohl etwas. Wie es im Vergleich zu DNS 9 auf demselben Rechner aussieht, muss ich aber auch erst noch testen - mein Urlaub ist noch nicht vorbei, außerdem ist DNS 10 noch gar nicht erhältlich...

Stay tuned!

24 August 2008

Nuance und 4voice statten die nordrhein-westfälische Justiz aus

Nuance Pressemitteilungen Sind mir normalerweise keine Hinweise wert, in diesem Falle aber schon, weil hier eine Geschichte zum vorläufigen Abschluss kommt, die bereits seit meinem Eintritt bei der 4voice AG vor sich hin geköchelt hat: die Ausschreibung für die Justiz in Nordrhein-Westfalen. Eine Ausschreibung, die angefochten wurde, ein neues Ergebnis, die Auslieferung, Produkte, die nicht abgenommen worden und wieder zurückgegeben wurden - die Geschichte nahm kein Ende, und so ist es schon mit einer gewissen persönlichen Genugtuung verbunden, wenn Nordrhein-Westfalen sich jetzt doch wieder für den Anbieter entscheidet, der schon am Anfang eigentlich den Zuschlag erhalten sollte.

Soviel Stolz muss sein :-)

"Wie können sie jetzt Urlaub machen?" - weil doch DNS 10 da ist

"Wie können sie jetzt Urlaub machen?" - fragt mich einer meiner treuesten Leser und verweist auf die durch alle Newsticker gehende Agenturmeldung, dass Dragon NaturallySpeaking 10 jetzt erscheint.

Dabei ist noch gar nicht klar, wann es tatsächlich in die Läden kommt - nach meiner Information beginnt die Auslieferung Ende August. Nuance hat gar selbst noch die Version 9 auf der Website angekündigt.

Alles Neue habe ich aber schon vor meinem Urlaub onlinebestellkompatibel angekündigt. Wer also meine detaillierten Beschreibungen von Dragon NaturallySpeaking 10 lesen will, folge dem Link.

Der Fairness halber sei nicht unerwähnt, dass ich auch noch keine Vollversion 10 habe und mich daher auf Betas und Vorführungen verlassen muss, außerdem auf die Produktankündigungen des Herstellers.

Was auf jeden Fall cool wird, ist die Möglichkeit, in Befehle Variablen einzubauen, die nicht aus einer Liste stammen, sondern quasi frei sagbar sind. Dem Endanwender wird das v.a. an den Funktionen auffallen, die mit großem Aufwand angekündigt werden - der Möglichkeit, mit einem einzigen Sprachbefehl im Web zu suchen ("suche nach China-Restaurant in Berlin-Mitte"), und der Möglichkeit, ein Wort ohne vorheriges Markieren sofort zu formatieren ("schreib Dragon fett"). Dahinter steckt eine neue Technologie, die Variablen in Befehlen zulässt, welche nach Bedarf "gefüllt" werden können. Solche Variablen sollen demnächst auch in anderen Sprachbefehlen möglich sein, sicher weiß ich es von Textbausteinen, in denen man also beispielsweise einen kompletten Brief ablegen kann, bei der man bloß die Anrede als Variable markiert und dann per Sprache anspringt. Ob auch Skript-Befehle auf diese Weise möglich sein werden, wird sich zeigen - hier tun sich ungeahnte Möglichkeiten auf.

Gespannt bin ich darauf, welche Fehler und Ärgernisse der Version neun in Dragon NaturallySpeaking 10 ausgebügelt werden. Z.B. wird es möglich sein, einzustellen, welche Zahlen als Ziffer geschrieben werden sollen und welche nicht, so dass das lästige Formatieren im Vokabular oder aber korrigieren von Hand im Text oder der Befehl "schreib das als Zahl" weitestgehend der Vergangenheit angehören dürften. Wer, wie ein Arzt, eigentlich alle Zahlen als Ziffern braucht, stellt das einfach über ein Menü ein und fertig. Wie gut dann aber die Erkennungsgenauigkeit ist, muss auch die Praxis zeigen. Von der Beta-Version weiß ich, dass es hier noch Potenzial nach oben gab.

Andere Kleinigkeiten fallen mir kaum mehr auf, z.B. dass der Befehl "zum Absatzende" stillschweigend verschwunden ist. Vielleicht taucht er ja in der neuen Version wieder auf?

Stutzig machen mich die Systemvoraussetzungen, die mal wieder das Potential aktueller Hardware voll ausschöpfen (will sagen: auf älteren Rechnern die Grenze der Leistungsfähigkeit erreichen). Auch vor dem Hintergrund, dass Nuance die Spracherkennungstechnologie von Dragon NaturallySpeaking demnächst für Handys zur Verfügung stellen möchte, erscheint mir das nicht unbedingt zielführend. Ich bin sowieso gespannt, wohin diese Entwicklung noch geht - die Endgeräte werden immer leichter, Anwendungen werden im Netz zur Verfügung gestellt, aber meine Spracherkennung braucht (teilweise als letzte Anwendung) einen richtig leistungsstarken Prozessor und jede Menge Arbeitsspeicher. Hier bin ich sehr auf die nächsten Entwicklungen gespannt.

Das Kernstück, die Erkennungsgenauigkeit, kann ich natürlich ohne eine endgültige Version nicht beurteilen. Hier bin ich sehr gespannt, wenn mich das Paket erreicht, wie Dragon NaturallySpeaking 10 wohl im Vergleich zur Vorgängerversion abschneiden wird. Sie erfahren als erste davon - sobald ich aus dem Urlaub zurück bin!

08 August 2008

Ich bin dann mal weg.

When Your Computer Listens to You | New York Times Video

Mit diesem Beitrag verabschiede ich mich zunächst mal in den Urlaub - genau wie der freundliche Herr, der in dem Video zu sehen ist. Nur dass ich nicht nach Hawaii fliege, sondern nach Kreta. Das Video hat aber trotzdem alles mit dem Thema diese Blogs zu tun - aber das darf ich nicht sagen...

Ich melde mich dann bei Gelegenheit wieder mit meinen Netznotizen zu selbigem Thema!

05 August 2008

Linguatec kündigt neue Version seines Spracherkennungsprogramms Voice Pro an

Erster! Ich zitiere:

Der Münchner Sprachtechnologie-Experte Linguatec plant für Herbst 2008 die vollständig überarbeitete Neuauflage seines Spracherkennungsprogramms Voice Pro. Die Vorversion war 2004 Testsieger der Stiftung Warentest im Vergleich der Spracherkennungsprogramme.

Das Interesse an Spracherkennung ist immens. Kein Wunder – das Verfassen von Texten vielfältigster Art ist aus unserem beruflichen und privaten Alltag nicht wegzudenken, und wer würde nicht gerne „wie von Zauberhand“ schreiben können. Diktieren statt Tippen bedeutet eine spürbare Arbeitserleichterung und Entlastung für den Anwender. Auch Surfen und die Steuerung des Computers sind per Spracheingabe mühelos möglich.

Das Verblüffende an Spracherkennung ist die Geschwindigkeit, in der das Diktierte festgehalten wird. Nicht jeder kann von sich behaupten, so schnell zu tippen, wie er sprechen kann. Noch dazu sind beim Diktieren Rechtschreibfehler ausgeschlossen. In Kombination mit einer Erkennungsgenauigkeit von bis zu 99% bedeutet dies eine enorme Effizienzsteigerung für jede Schreibaufgabe.

Nach zwei Jahren intensiver Entwicklungsarbeit steht nun fest: Die neue Version der Spracherkennungssoftware Voice Pro kommt im Herbst auf den Markt. In einer engen Zusammenarbeit mit führenden Hochschulen in Deutschland, Österreich und der Schweiz wurde der Grundstock für eine neue Generation von Spracherkennung geschaffen. Besonderes Augenmerk legt die neue Version Voice Pro auf den Einsatz unter Windows Vista, eine deutlich verbesserte Erkennungsgenauigkeit und eine intuitive Bedienung.


Vista-Unterstützung war ja auch mal fällig, nicht wahr, Rike :-)

Ich bin gespannt, ob auch die Erkennungsmaschine mal überarbeitet wurde oder ob immer noch das alte ViaVoice vor sich hin werkelt. Ein Vorteil sind sicherlich die geringen Ansprüche, die die Software dann an den Rechner stellt. Wie es sich in der Praxis schlägt, werden wir nach Erscheinen feststellen.

Heute abend präsentiert Nuance in München übrigens auch neue Technologien. Obwohl in der Einladung von einem zehnfingrigen Drachen die Rede war, werde ich frühestens morgen erfahren, was es denn zu sehen gab und welche Wundertiere uns demnächst von dieser Seite ins Haus stehen, die dann bestimmt mächtig hungrig sind (nach GHz, RAM und so). Sicher weiß ich nur, dass ein sprachgesteuertes Auto zu sehen sein wird, weswegen das Event nicht im BMW-Tower stattfinden wird.

Test: Philips LFH 331 Ohrhörer-Mikrofon-Kombination

Ich habe mir testweise die Philips-Ohrhörer-Mikrophon-Kombination LFH 331 8zu sehen unter http://www.dictation.philips.com/index.php?id=53&CC=DE) für das digitale Diktiergerät DPM 9600 kommen lassen und gestern unter verschärften Bedingungen getestet - im doch recht starken Wind, an der Kreuzung Skalitzer Straße/Schlesische Straße in Berlin-Kreuzberg.

Vorgabe war festzustellen, ob das Gerät eine vernünftige Geräuschunterdrückung bietet.

Leider scheint es so zu sein, dass das Mikrophon keine spürbare Verbesserung bei der Aufnahme bringt. Dies mag am Wind liegen, der alles andere übertönt; aber auch was die Nebengeräusche durch Autos angeht, kann ich nicht wirklich eine qualitative Veränderung feststellen. Dies bezieht sich explizit auf die Spracherkennung eines aufgenommen Diktats, die Qualität des Diktats scheint mir subjektiv besser zu sein. Die Sprache selbst klingt klarer als durch das eingebaute Mikrophon des Diktiergerätes.

Das erste Fazit ist also, dass das Gerät durchaus dafür geeignet ist, in vertraulichen Situationen zu diktieren, in denen man nach Möglichkeit niemand mithören lassen will. Vor allem das abhören des Diktats geschieht für die Außenwelt geräuschlos; das Diktat selbst produziert natürlich immer noch gesprochene Sprache :-) Auch ein Diktat im Auto, bei dem ich die Hände weitgehend frei haben will, ist gut möglich; der Vorteil besteht halt darin, die Hände frei zu haben.

Um aber in einer lauten Umgebung Nebengeräusche herauszufiltern, würde ich ein anderes Gerät nehmen, also eines der Aufsteckmikrofone, die alle drei Anbieter im Programm haben.

So ist das eben - für jede Situation die passende Lösung. Leider nicht eine Lösung für alle Situationen...