30 Januar 2009

Loquendo Spracherkennung für Russisch

Loquendo ASR (Automatic Speech Recognition) jetzt auch für Russisch erhältlich - mit Zielgruppe Auto, Navigationssysteme usw.

Loquendo kannte man bisher eher als Anbieter von text-to-speech-Systemen, doch auch Spracherkennung für einige Sprachen, darunter jetzt auch Russisch, ist im Portfolio. Die Features klingen nicht schlecht, u.a. die Fähigkleit, multiple Befehle nacheinander zu geben, ohne Pause dazwischen; Unabhängigkeit vom Sprecher, hohe resistenz gegenüber Nebengeräuschen (im Auto essentiell). Es soll auch PC-taugliche Anwendungen geben, aber das große Geld ist damit natürlich nicht zu verdienen.

Mein alter Traum einer Diktiersoftware für Russisch ist daher immer noch in weiter Ferne :-(

27 Januar 2009

SVOX kauft Sprachverarbeitungssparte der Siemens AG

Zur Meldung: SVOX kauft Sprachverarbeitungssparte der Siemens AG: Expansion in Spracherkennung und Sprachdialog

Bei dieser Akquisition geht es nicht um Diktat, sondern v.a. um Anwendungssteuerung im Auto und im Handy: beide Firmen haben hier schon längere Zeit kooperiert. SVOX, die sich bisher eher im Bereich Text-to-speech hervorgetan haben, hat damit jetzt eine Spracherkennungsengine und ist in der Entwicklung von Dialogsystemen unabhängiger.

26 Januar 2009

iX-Artikel: Sprach- und Texterkennung heute

In der Computerfachzeitschrift iX findet sich ein umfassender und technisch recht avancierter Artikel zum aktuellen Stand der Texterkennung (OCR) und Spracherkennung im Computer:

"Wer immer noch Texte oder Audiokassetten abtippt, mag dafür gute Gründe haben. Vielleicht kennt er aber auch einfach nur nicht die neuesten Programme zur Text- und Spracherkennung. iX hat sich einige Angebote näher angesehen."


Getestet werden im Bereich Spracherkennung Dragon NaturallySpeaking 10, Linguatec Voice Pro und MacDictate. Interessanterweise bescheinigt der Tester keinem Programm eine deutliche Überlegenheit in der Erkennungsleistung, von den Features her hat Dragon aber die Nase vorn. VoicePro steht immer noch bei V. 11 und ist daher noch nicht Vista-fähig, obwohl schon im Sommer das Upgrade angekündigt wurde. MacDictate ist laut Test inzwischen auf Deutsch erhältlich, die Website des deutschen Vertriebs weiß davon allerdings noch nichts.

Besonders interessant, weil auch für den (technisch einigermaßen gebildeten) Anwender verständlich, ist eine 2 Seiten lange Beschreibung dessen, welche technischen Grundlagen der Spracherkennung zugrundeliegen. Zeitschriften, die sich an den interessierten Laien wenden, sparen dies meist aus (auch weil die zugrundeliegende Mathematik das Abiturniveau deutlich überschreitet). Wer also wissen möchte, wie seine Spracherkennung unter der Haube funktioniert, sollte mal einen Blick in die Zeitschrift werfen.

Hier die Zusammenfassung der Heise-Redaktion.

18 Januar 2009

Spracherkennung mit dem Logitech ClearChat Wireless

Dennis Deutschmann bloggt zum Thema Spracherkennung mit dem Logitech ClearChat Wireless.

Wenn's stimmt, was er schreibt, nämlich dass das schnurlose Headset für 99€ empf. VK mit Spracherkennung auf dem Netbook eine sehr gute Erkennung liefert, werden sich Plantronics und GN Netcom, deren Headsets das dreifache kosten, noch umschauen.

Ich versuche mal, selbst so eins zum Test zu erhalten. Und ein Netbook hätte ich auch gern... seufz... mit Spracherkennung...

17 Januar 2009

Nuance entwickelt jetzt mit IBM zusammen

Der neuesten Pressemitteilung von Nuance zufolge kooperiert man jetzt mit dem (außer Microsoft) letzten verbliebenen Entwickler von Spracherkennung, nämlich mit IBM. Spracherkennungslösungen von IBM und Nuance sollen vor allen Dingen im Bereich Callcenter und Embedded vorangetrieben werden.

Seit IBM die Entwicklung von ViaVoice praktisch eingestellt hat, haben sie dort sich auf diese beiden Bereiche konzentriert. Auch Nuance ist in diesem Bereich recht stark vertreten. Eine Kooperation wird also zwei traditionsreiche Entwicklungslinien zusammenfügen.

ViaVoice befindet sich schon längst im Vertrieb von Nuance und wird dort seit Jahren erfolgreich totgeschwiegen. Das aber hier mit einer neuen Version zu rechnen ist, ist auch nach dieser Kooperationsvereinbarung höchst unwahrscheinlich. Nur das kleine gallische Dorf linguatec scheint hier noch irgendwas in Planung zu haben - aber diese Planungen sind auch schon ein halbes Jahr alt, ohne dass ich bisher ein Produkt gesehen hätte -?

07 Januar 2009

Select-and-say

Select-and-Say ist ein wesentliches Feature von Dragon NaturallySpeaking, das im Wesentlichen bedeutet, dass jedes auf dem Bildschirm sichtbare Wort per Sprache ausgewählt und bearbeitet werden kann, egal ob es vorher diktiert oder getippt wurde. Dies Feature funktioniert nicht in allen Anwendungen, jedoch in allen gängigen Office-Programmen wie Microsoft Word, Microsoft Outlook, Microsoft Excel und zahlreichen anderen. Eine vollständige Liste findet sich in der Dragon NaturallySpeaking-Hilfe, wenn man "Select-and-Say" als Suchwort eingeht.

Für den konkreten Einsatz bedeutet Select-and-Say, dass innerhalb eines Diktates ein Wort oder eine Phrase per Sprachbefehl markiert und/oder korrigiert werden kann. Dabei ist es möglich, sich auch die Aufnahme (falls vorhanden) bis Diktates vorspielen zu lassen und auf diese Weise über die Korrekturfunktion von Dragon NaturallySpeaking das Sprecherprofil zu verbessern.

Ob eine Anwendung Select-and-Say unterstützt, lässt sich leicht daran erkennen, ob in der Dragon-Leiste ein grüner Punkt erscheint, oder ob dieser Punkt grau ist. Grün bedeutet, dass Select-and-Say in vollem Umfang funktioniert.

In Anwendungen, die Select-and-Say nicht unterstützen, steht diese Möglichkeit nur solange zur Verfügung, wie das Diktat im Arbeitsspeicher gespeichert ist, das heißt in der Regel bis zum nächsten Tastendruck oder Mausklick. Außerdem zeigt sich, dass in vielen Anwendungen einer Auswahl oder Korrektur der Sprache nicht passgenau möglich ist, Dragon NaturallySpeaking also nicht das Wort ganz genau markiert, sondern häufig ein Zeichen vorher oder hinterher mit einschließt oder weglässt. Dies äußert sich in verschiedenen Programmen unterschiedlich stark, so kann es sein, das in einigen Programmen ein Diktat überhaupt nicht möglich ist oder nur mit extremer Verzögerung; in anderen Programmen kann man fast wie gewohnt arbeiten, solange man keine Taste drückt und die Maus nicht betätigt. Dies hängt letztlich von den verwendeten Windows-Fensterklassen ab - wenn diese sich ähnlich verhalten wie die von Dragon NaturallySpeaking hundertprozentig unterstützten Fensterklassen, geht das Arbeiten mit Dragon NaturallySpeaking sehr flüssig.

In einigen Anwendungen kann Select-and-Say von Hand aktiviert werden. Dazu gibt es zwei - leider nicht mehr ganz aktuelle - Einträge in der Nuance Knowledge Base, die Nummer 3417 und die Nummer 4247, die über die Suchfunktion zu finden sind.

Anwendungen, die Select-and-Say nicht unterstützen, in Deutschland aber sehr populär sind und deswegen immer wieder zu Anfragen Anlass geben, sind zum Beispiel Open Office, Mozilla Firefox, Mozilla Thunderbird. Die Unterstützung für letztgenannte Programme beschränkt sich in Dragon NaturallySpeaking auf Sprachbefehle. Diktat mit voller Select-and-Say-Funktionalität ist jedoch in den Fenstern nicht möglich, wie immer wieder beklagt wird. Hier muss man gegebenenfalls das Diktierfenster zu Hilfe nehmen. Da alle diese Anwendungen aus der Open Source- und Linux-Welt stammen, und daher mit Standard-Windows-Fensterklassen nicht kompatibel sind, außerdem in Amerika bei weitem nicht so populär sind wie hier, ist in näherer Zukunft auch nicht mit einer vollen Select-and-Say-Unterstützung zu rechnen.

Gelegentlich kommt es vor, dass eine Select-and-Say-fähige Anwendung diese Fähigkeit verliert. In der Regel ist dann entweder nötig, das entsprechende Add-In wieder zu aktivieren, oder - im Falle von Microsoft Word - die Dokumentenvorlage normal.dot zu löschen. In schweren Fällen sind auch andere Eingriffe nötig, zum Beispiel das Löschen der ctfmon.exe. Der geneigte Leser findet eine Anleitung in der Nuance Knowledge Base unter der Nummer 3118.

Bugs in Dragon berichten

Wer Bugs in Dragon NaturallySpeaking findet, kann diese hier melden. Wichtig ist, so viel Information wie möglich zu liefern, damit sich das Problem reproduzieren lässt. Dafür hat man allerdings gerade mal 1.000 Zeichen Platz. Viel mehr Mühe geht drauf für eine Systembeschreibung, Eingabe der Seriennummer usw. Außerdem darf man zwar seine E-Mail angeben, erhält aber nach Absenden des Reports eine Meldung:

Thank you for your report to Nuance. We appreciate your effort in reporting this issue along with the details of how to re-create. We will review all reported bugs for possible resolution in a future release.

ISSUES SUBMITTED ON THIS FORM WILL NOT RECEIVE A RESPONSE.


Böse Zungen würden jetzt behaupten, viele Probleme seien schon so oft reproduziert und in diversen Foren gemeldet (sowie teils behoben) worden, dass Nuance einfach mal dort nachlesen sollte - aber vielleicht hilft es ja trotzdem... die Prozedur ist ansonsten dieselbe wie beim Problemformular unter http://epay.scansoft.com/de/, wo man aber wenigstens gelegentlich eine Antwort erhält.