24 Januar 2007

c't-Bericht: Spracherkennung

 "Die Spracheingabe von Windows Vista tritt gegen etablierte Diktiersysteme an" - so titelte die c't in ihrer Ausgabe 3/2007. Der vierseitige Bericht über die drei derzeit am Markt erhältlichen Spracherkennungssysteme - Dragon NaturallySpeaking Preferred, Linguatec VoicePro und die Spracherkennung von Windows Vista - gibt einen recht ausführlichen Überblick über den Nutzen der jeweiligen Systeme für Einzelanwender. Außerdem wird zum ersten Mal die Windows Vista-Spracherkennung wirklich ausführlich mit den bereits bekannten Systemen verglichen.

Ohne jetzt ins Detail gehen zu wollen, zeigt sich, dass Dragon NaturallySpeaking nach wie vor das überlegene System ist. Linguatec VoicePro ist dagegen technisch abgeschlagen, was daran liegt, dass IBM das Produkt nicht mehr wirklich weiterentwickelt. Der einzige Vorteil ist das mitgelieferte 
Headset (Sennheiser PC 25).

Windows Vista liegt in der Mitte - gelobt wird die Erkennungsrate (wie bekannt) und die Möglichkeit, den PC per Sprache zu steuern. Dieses wird sogar als die eigentlich herausragende Funktion der Spracherkennung in Windows Vista genannt, weil das Diktat in Nicht-Microsoft-Anwendungen nämlich schlicht und ergreifend nicht funktioniert. Auch werden viele Headsets nicht unterstützt - ein Fakt, auf den Michael Spehr bereits in seinem Test hingewiesen hat (siehe unten). Positiv hervorgehoben wird die Bedienung und die schlanke Oberfläche, gegen die die beiden anderen Programme "antiquiert" wirken.

Endlich wissen wir auch, dass einige andere Funktionen in Windows Vista nicht enthalten sind. So können keine Diktate vom Diktiergeräte umgesetzt werden, das Vokabular kann nicht exportiert werden und wird auch nur mit großen Mühen bearbeitet, einige schnelle Formatierungsfunktionen während des Diktierens fehlen ganz, und auch Makros können nicht definiert werden. Schließlich ist es auch nicht möglich, ein Diktat zwischenzuspeichern und später zu korrigieren. Selbstverständlich kann der Text gespeichert werden, die Aufnahme jedoch ist verloren - was bei Dragon NaturallySpeaking Preferred auch der Fall ist und der Professional-Version vorbehalten bleibt. Von den preiswerten Spracherkennung kann das nur Linguatec VoicePro. Da allerdings bei diesem Programm sämtliche Netzwerkfunktionen fehlen, ist es auch nicht wirklich als Alternative für einen professionellen Diktanten geeignet, der nicht viel Geld ausgeben möchte.

Und das ergänzt Michael Spehr:

nach längerem Arbeiten mit der Vista-Spracherkennung komme ich immer mehr zu dem Eindruck, dass sie nur Teil einer Sprachbedienung des Betriebssystems ist und damit a) sich an Behinderte richtet und b) was die Business-Funktionen betrifft, nur den Funktionsumfang einer Light-Version hat. Es ist wirklich kein Ersatz für den Drachen, inbesondere weil man bei der Korrektur nicht eben schnell einen Eigennamen via Tastatur eingeben kann. Tut man das, lernt das System nicht dazu. Begriffe mit Umlauten bekommt man im Buchstabiermodus nur ganz schlecht hin. Insofern kann man also nicht mit Dragon vergleichen. Korrektur durch eine Sekretärin: m.W. nein, Netzwerk: nein, Vokabular-Werkzeug: nur rudimentär.
Profis, bleibt dem Drachen treu!

23 Januar 2007

Elektronischer Dolmetscher in Albuquerque

Reaching Across the Language Barrier
- titelt das Speech Technology Magazine im November/Dezember 2006. Vorgestellt wird ein System, mit dem die Polizei von Albuquerque, New Mexico, mit dort auffällig gewordenen Personen kommuniziert, die nur spanisch und kein Englisch sprechen.

Es handelt sich um eine Kombination aus maschineller Übersetzung und Spracherkennung: der Polizist beziehungsweise die zu vernehmende Person spricht in den Computer, die spracherkannte Äußerung wird über ein Übersetzungsprogramm in die andere Sprache übertragen. Es zeigt sich, dass die Polizisten eine Erfolgsquote von 100% haben, ihre Kunden allerdings nur von ungefähr 70%. Das wird damit begründet, dass die Polizisten sowohl die Spracherkennung auf ihre Art zu sprechen trainieren konnten wie auch solche Äußerungen zu bilden gelernt haben, die von der maschinellen Übersetzung einfach übertragen werden können, während dies natürlich bei den Leuten, die vernommen werden, nicht der Fall ist - abgesehen davon, dass einige von ihnen natürlich wenig kooperationsfreudig sind.

Man mag zu dem Projekt stehen, wie man will, aber technisch zeigt es, dass ein automatischer Dolmetscher offensichtlich inzwischen wirklich praxistauglich ist. Allerdings wird auch ganz genau definiert, wofür er taugen muss: es geht nicht um grammatikalische Korrektheit, sondern einfach darum, den Inhalt einer Aussage verständlich in die Zielsprache zu übertragen. Somit misst sich der Erfolg an der gelungenen Kommunikation beziehungsweise der gelungenen Übertragung der Sprecherintention, nicht an irgendetwas anderem.

Nicht das schlechteste Kriterium - vor allen Dingen eines, was in der Praxis taugt, und von den Diskussionen über irgendwelche Prozentzahlen ablenkt. Es kommt halt immer darauf an, wozu man ein Werkzeug einsetzt.

Lieferant ist übrigens SpeechGear, Inc., das Produkt heißt Interact speech translation system. Wenn man sich anschaut, was die sonst noch haben, ist das entweder eine der heißesten Entwicklungsfirmen auf dem Sprachenmarkt oder der größte Produzent von Vaporware (oder warum kann ich nur die Hälfte der Produkte tatsächlich bestellen?) Zu den Partnern gehören u.a. PROMT und Nuance - das kann nicht ganz schlecht sein :-)

18 Januar 2007

Software-Konzern: Weltspitze im Gespräch mit dem Rechner - Wirtschaft - SPIEGEL ONLINE - Nachrichten

Spiegel Online über die Geschichte von Visioneer - Scansoft - Nuance, OCR, sprecherbhängige und -unabhängige Software. Wer sich für das Unternehmen hinter dem Drachen interessiert, erhält hier die Fakten schön aufgeführt, und auch die Absichten für die nächsten Jahre - u.a. die Hardware-Anforderungen zu senken. Da ist DNS 9 ja schon ein Schritt in die richtige Richtung :-)

Instrument der Kundenbindung

"Kommen Sie solide rein" - das hat mit diesem Blog nicht ganz geklappt. 
Kaum war der letzte Beitrag abgeschickt, wurde ich von Blogger abgemeldet - wegen Spamverdacht. Es gebe viele Blogs, die nur den Zweck verfolgten, Links auf kommerzielle Seiten zu setzen, damit die Ergebnisse von Suchmaschinen verfälschten usw. - und ich sei im Verdacht, genau dies zu tun. Ein Blick auf einen Kommentar zu meinem letzten Post zeigt tatsächlich, dass sich hier jemand eingeschlichen hat, der genau dies tat und jede Menge italienischer Porno-Links eingetragen hat - und ich muss drunter leiden :-( 

Heute morgen dann die Entwarnung: ich darf weiter posten, dieses Blog wurde als nicht-kommerziell oder zumindest als nicht-spammend eingestuft. Was es ja auch ist. Suchmaschinen-Marketing habe ich lange genug gemacht, um die Tricks zu kennen und zu wissen, welche man besser nicht anwendet, wenn man an langfristigem Erfolg interessiert ist. Und eine (inzwischen von mir entfernte) Linkliste zu dubiosen Seiten ist, wie man sieht, kein Mittel für lang anhaltenden Erfolg.

Jetzt will ich gar nicht leugnen, dass dieses Blog aus kommerziellen Interessen entstanden ist. Wenn jemand, der mit Spracherkennung Geld verdient, ein Blog über Spracherkennung macht, 
dann natürlich auch mit dem Hintergedanken, Kunden zu binden und evtl. neu zu werben. In der letzten Zeit ist dies allerdings für mich in den Hintergrund getreten; diese Site entwickelt sich mehr zu einem Kommunikationsweg mit anderen Anwendern, von denen einige auch mal Kunden waren. Ist das so okay?

Ein Kommentator wünscht sich mehr Tipps für Sprachbefehle. Bitte sehr:

"Schreib das als Zahl" wandelt die Zahlwörter von eins bis neun in Ziffern um, und zwar ALLE Zahlwörter in der letzten Äußerung. Beispiel:

- "Um Eierkuchen zu backen, brauche ich ein"
- "Schreib das als Zahl"
-> "Um Eierkuchen zu backen, brauche ich 1"
... "Ei und zwei"
- "Schreib das als Zahl"
-> "Ei und 2"
... "Esslöffel Mehl pro Person."

Das ist umständlich und langsam, also sprechen Sie den Satz mutig in einem Atemzug durch und dann erst den Befehl. Das funktioniert genauso gut:

- "Um Eierkuchen zu backen, brauche ich ein Ei und zwei Esslöffel Mehl pro Person."
- "Schreib das als Zahl"
-> "Um Eierkuchen zu backen, brauche ich 1 Ei und 2 Esslöffel Mehl pro Person."

Zahlenformatierung ist überhaupt ein weites Feld - demnächst mehr davon. Als Instrument der Kundenbindung lebt dieses Blog ja davon, dass Sie regelmäßig was zu lesen haben, da will man nicht all sein Pulver auf einmal verschießen...

02 Januar 2007

 "Kommen Sie solide rein!" und "Betrunken ist man erst, wenn man nicht mehr liegen kann, ohne sich festzuhalten" - zwischen diesen Ratschlägen spielte sich mein Übergang ins Neue Jahr ab. Ab heute bin ich also wieder solide und berichte weiter in unregelmäßigen Abständen aus der schönen Welt der Spracherkennung und des digitalen Diktierens.

Blogger ist inzwischen auf eine neue Version umgestiegen, so dass ich vor kurzem auch das Design des Blogs geändert habe. Leider ist das neue Blogger noch im Beta-Stadium, so dass es manchmal Probleme mit dem Layout, besonders mit den Zeilenumbrüchen, gibt. Das bitte ich zu entschuldigen.  (Sehen Sie, was ich meine? :-)

Was mich angeht, so dürfte sich inzwischen herumgesprochen haben, dass ich im November 2006 von abitz.com zur 4voice AG gewechselt bin. Dort mache ich technischen Vertrieb, d.h. kümmere mich darum, dass unsere 
Kunden auch wirklich das System erhalten, was sie brauchen. In den ersten zwei Monaten hieß das konkret:
reisen und installieren. War nicht so geplant, hat auch dazu geführt, dass die Beiträge hier seltener geworden sind, soll aber demnächst mal wieder anders werden. 

Auf jeden Fall habe ich für alle Anfragen ein offenes Ohr, auich wenn die Antwort manchmal etwas länger dauert. Ich gebe auch gern weiterhin Tipps "off the record", also ohne spezifisches Verkaufsinteresse. Allerdings muss ich auch sagen: Wenn ich nicht überzeugt wäre, dass 4voice tatsächlich eine sinnvolle Lösung für Spracherkennung in einem professionellen Umfeld mit mehreren Arbeitsplätzen, evtl. Korrekturplätzen usw., böte, wäre ich nicht gewechselt. Vielleicht schreibe ich ja demnächst mal was darüber, was wir besser machen als Nuance, bzw. wo wir dem Drachen auf die Sprünge helfen (mein Chef wirds mir danken :-).

Jetzt über den eigenen Tellerrand hinaus:

Im letzten Jahr hat im Bereich Spracherkennung v.a. Microsoft von sich reden gemacht. Die Spracherkennung in Windows Vista wird allgemein gelobt, auch wenn sie offenbar noch nie jemand wirklich im Einsatz hatte - auch ich nicht; meinen neuen Rechner habe ich ein paar Wochen vor der Vista-Einführung erhalten. Es gibt bei Microsoft jetzt eine neue Community, in der Vista Spracherkennung 
genauer beschrieben wird.

Auch Nuance hat mit Dragon NaturallySpeaking 9 eine neue Version auf den Markt gebracht, die die ohnehin gute Spracherkennung noch einmal verbessert hat, aber nichts wirklich revolutionär neues brachte. 
Dies ist aber auch nicht unbedingt zu erwarten, solange man das Haupteinsatzgebiet im Diktieren sieht. Hier ist die Technik weitgehend ausgereizt; es kann nur noch darum gehen, die Erkennung auch für den letzten Stotterer (no offence meant) noch zu optimieren.

Der Dritte im Bunde, IBM, hat sich aus dem Diktiergeschäft de facto verabschiedet. Nur Linguatec hört nicht auf, dem Eindringling Widerstand zu leisten aus alter Freundschaft ViaVoice weiterzuvertreiben, und hat in der Version 11 die dialektalen Varianten des Deutschen besser eingearbeitet. Somit ist vielleicht nicht jeder Stotterer, aber mancher Niederbayer jetzt mit Linguatec Voice Pro 11 besser bedient als mit dem Vorgänger.

Das Urteil der Jury lautet aber nach wie vor: Dragon ist der Platzhirsch. Uneinig ist man sich jedoch, wie die Vista-Spracherkennung wirken wird - ob MS "den Netscape macht", ob - wie ich befürchte - eine Reihe Heimanwender Spracherkennung ausprobiert und erfolglos wieder sein lässt (und damit allen Herstellern schadet), oder ob Vista der Spracherkennung zum Durchbruch verhelfen könnte. Ich sehe eine Chance v.a. in der Sprachsteuerung, die bei Dragon bisher unterschätzt wurde. Nicht, weil sie nicht möglich ist - im Gegenteil, mit der Dragon-eigenen Skriptsprache ließen sich auf Wunsch ganze Anwendungen schreiben. Aber viele Anwender kennen nicht einmal den Befehl "geh schlafen", oder wenigstens die Taste zum Ein- und Ausschalten des Mikros (die Plus-Taste am Nummernblock - jetzt wssen Sie es auch), sondern klicken tatsächlich brav mit der Maus auf das Symbol oben links in der Ecke.

Ach, wenn man wollte, wie man könnte! Dann würde ich allen meinen Kunden - sei es meinen alten Bekannten von abitz.com, sei es meinen neuen Profidiktierern aus dem 4voice-Kundenstamm - Sprachbefehle beibringen, dass der Cursor nur so tanzt. Fangen wir doch einfach zum neuen Jahr mal an:
"verbinde [Wörter]"
vereinigt zwei (oder mehr) Wörter zu einem - und setzt im Zweifel sogar ein korrektes Fugen-S! Probieren Sie es aus: 

"Das Neujahr Konzert der Berliner Philharmoniker"
verbinde Neujahr Konzert
"Das Neujahrskonzert der Berliner Philharmoniker"

Ein, wie der Berliner wünscht, gesundes Neues Jahr Ihnen allen, und Dank an alle Leser, Beiträger, Kommentatoren!