27 Juni 2006

heise online - Modell zur genauen Stimmanalyse entwickelt

Ein Physiker hat ein Modell zur genauen Stimmanalyse entwickelt. Damit soll es möglich sein, Stimmen eindeutig zu unterscheiden und Hintergrundgeräusche herauszufiltern.

Links zur Diskussion stehen beim Beitrag. Der interessanteste ist vermutlich http://www.heise.de/tr/artikel/74593. Ich zitiere:

„Wir erreichen beim Vergleich der Stimmen nahezu die Genauigkeit des menschlichen Gehörs“, sagt Rahman selbstbewusst.


Das klingt jetzt nicht gerade revolutionär, v.a. nicht als Beweismittel vor Gericht, wo die Methode schon eingesetzt wurde. Aber:

Und anders als eine Auswertung durch einen Phonetiker unterliege seine Methode keinem subjektiven Einfluss. Sie sei unabhängig von Sprache, Grammatik sowie Sprechrhythmus und brauche auch keine Proben mit dem gleichen Text; die Qualität von mitgeschnittenen Telefonaten reiche für aussagekräftige Ergebnisse.


Und wieder wollen wir uns um die Implikationen keine Gedanken machen :-(

22 Juni 2006

Die Nuance-Foren sind wieder da!

Das deutsche und englische Nuance-Forum für Dragon NaturallySpeaking ist wieder online und unter den bekannten URLs zu erreichen. Verändert hat sich anscheinend nichts, selbst die URL weist noch auf die uralte Lernout&Hauspie-Präsenz...

21 Juni 2006

Spracherkennung in Vista

Noch ein paar Links zum Thema Spracherkennung in Windows Vista:. Es mehren sich de Anzeichen, dass ach in der deutschen Version eine funktionstüchtige Spracherkennung enthalten ist. Irgendwie finde ich aber keine endgültige Bestätigung.

  • Microsoft selbst ist noch nicht ganz einig, was geht. Die deutsche Seite erwähnt Spracherkennung nicht. Auf Österreichisch ist Spracherkennung aber wohl definitiv integriert (Viele Grüße an Waltraud Voelter und Kurt Martin :-)

  • Windows Vista Speech Recognition Step-by-Step Guide (engl.):
    Dieses Dokument erläutert anhand eines einfachen Szenarios, wie sich mit Windows Vista Dokumente per Spracherkennung diktieren und editieren lassen. Aber wieder nur Englisch.

  • Der Vista-Beta-Test auf Orty.de hat nur Englisch.

  • Aber woanders sieht es besser aus. Ich zitiere das Forum auf www.traum-projekt.com:
    Hm, ich habe das [Vista] jetzt seit ein paar Tagen drauf und muss sagen, dass ich doch positiv überrascht bin.
    Besonders die integrierte Spracherkennung hat es mir angetan, diesen Text hier habe ich zum Beispiel nicht getippt sondern diktiert.
    Ansonsten: Das System kann ja Systemressourcen fressen wie kein Zweites. Ich habe ein Gigabyte Arbeitsspeicher und davon nur noch knapp 200 Megabyte zur Verfügung!


Übrigens: Entgegen einiger Presseberichte, die alle voneinander und aus Bill Gates' Keynote abschreiben und ansonsten weitgehend ahnungslos sind, wird in Vista nicht "erstmals" Spracherkennung eingeführt. Es gibt sie schon seit längerem in Office XP und Nachfolgern. Zum Schluss noch eine Quote eines ehemaligen Scansoft-Mitarbeiters aus dem Knowbrainer-Forum, von einem MS-Mitarbeiter geblogt:
"... I have to say that I am absolutely, unequivocally, and most definitely impressed with the latest version of MS speech. The difference is like night and day compared to any of the previous versions, including 2003. In addition, the current version compared to any of the previous versions is like the difference between DNS 2.0 and DNS 8.1. Microsoft is not only closing the gap between MS speech in DNS, it is very close to leapfrogging DNS."


Allerdings kommen auch Berichte, nach denen die Dragon-Spracherkennung der von Windows weiterhin überlegen ist - nicht unbedingt qualitativ, aber in der Unterstützung von Nicht-Microsoft-Anwendungen. Dazu habe ich schon etwas zitiert, und zwar aus dieser Quelle.

20 Juni 2006

Spracherkennung, Übersetzung, nur 50 € - was will man mehr?

Unter dem Titel Lost in Translation berichtet GMX bzw. ein affiliierter Pressedienst über eine neue Anwendung für, of all things, die Sony Playstation. Der Sony TalkMan ist ein elektronischer Dolmetscher - er analysiert eine gesprochene Eingabe (z.B. "Wo geht es zum Olympiastadion?") und liefert die Übersetzung per Sprachausgabe. Eigentlich eine coole Sache, wenn man es sich überlegt.

Und wenn es funktioniert. Und hier schlägt bei einem Preis von 50€ die Konsumenten-Falle zu, wie der Artikel ganz klar zeigt. Das Ding ist als Spiel positioniert, und dementsprechend wird es gewertet. Für 50€ gibt es im Spiele-Bereich aber sicherlich sehr viel mehr Gegenwert als bei diesem Gerät, das High-Tech m.o.w. verschleudert. Man fragt sich, ob ein höherer Preis nicht paradoxerweise ein weniger kritisches Publikum angezogen hätte, und ob Sony da nicht wieder einen Schnellschuss getan hat, der der Technologie mehr schadet als nutzt.

So hat die integrierte Spracherkennung nur ein sehr kleines Lexikon, was den Autor aber nicht weiter tangiert (von einem Lexikon hat er noch nichts gehört, sonst schriebe er "Dezibil" nicht so debil). Bei einer Anwendung dieser Art ist es erfahrungsgemäß ein Problem, wenn sie nur ausgewählte Sätze versteht. Schließlich will ich (d.h. der Kunde) mich ausdrücken, und nicht auf einen doch recht kleinen Fundus an Sätzen angewiesen sein. Das hat bei Büchern zwar nie geschadet, aber mit denen spricht man ja auch nicht.

Und hier treffen wir auf das alt bekannte Problem aller sprachgesteuerten Interfaces: Rede ich mit meinem Rechner, so vermenschliche ich ihn. Und daher erwarte ich eine menschliche Reaktion. Kommt nur eine maschinelle, so bin ich enttäuscht - egal wie großartig die Technik ist, und wie viel ich im Zweifelsfall damit anfangen kann.

(Insofern ist der Drache ein guter Mediator: ein Tier lebt und reagiert auf menschliche Sprache, man erwartet von ihm aber nicht die Reaktionen eines Menschen.)

Im Prinzip müsste jede Maschine dieser Art erst den Turing-Test bestehen, bevor sie auf juvenile Blogger, freie Journalisten und schließlich das zahlende Publikum losgelassen wird.

Nuance-Foren sind offline!

Da ich inzwischen wiederholt darauf angesprochen wurde: die Nuance-Foren, und zwar sowohl das deutsche wie auch das englische, sind im Moment nicht erreichbar. Angeblich werden sie zur Zeit technisch überarbeitet und werden demnächst wieder online sein. Diese Information stammt aus einem Forum, das in der Regel bessere Auskünfte liefert, wenn es auch vor allem auf amerikanische Benutzer zugeschnitten ist , nämlich dem Knowbrainer-Forum (siehe Link rechts).

Hier die relevante Diskussion, von mir selbst vom Zaun gebrochen.

19 Juni 2006

Talking PCs? Talk to the hand - ZDNet UK Insight

Wo wir gerade dabei sind: ZDNet UK hat einen ausführlichen Artikel über Sprachsynthese, Spracherkennung und sogar - mein anderes Thema - maschinelle Übersetzung auf Basis von Spracherkennung in kleinen Geräten. Enjoy!

Talking Windows: Exploring New Speech Recognition And Synthesis APIs In Windows Vista -- MSDN Magazine, January 2006

Talking Windows: Exploring New Speech Recognition And Synthesis APIs In Windows Vista -- MSDN Magazine, January 2006 ist vielleicht nicht mehr ganz frisch, aber da Vista näher rückt, auf jeden Fall interessant. Der Artikel beschreibt, welche Sprachausgabe- und -eingabefuntionen Windows Vista hat, und wie Entwickler sie nützen können.

Darf man dem Konwbrainer glauben (siehe meinen Post vom 14.6.), ist die Spracherkennungsqualität besser als Dragon 8. Ich habe mal die Variante für den Pocket PC getestet und war begestert. Diktieren ist dort natürlich nicht möglich, aber allein die Tatsache, alle Kontakte per Sprache aufrufen zu können, auch bei ungewöhnlichen Namen - Respekt.

Und wieder kein Wort, ob sich die Spracherkennung auf Englisch beschränkt. Hat jemand schon eine deutsche Beta heruntergeladen?

14 Juni 2006

Spracherkennung in Windows Vista

Rob's Rhapsody : Every single thing Windows Vista Speech Recognition is listening for

Windos Vista wird in der US-amerikanischen Version eine eingebaute Spracherkennung haben. Unter der angegebenen URL läst sich schon jetzt ein Befehlssatz ansehen.

Unter http://www.microsoft.com/technet/WindowsVista/library/c208e792-e591-455a-82d9-a98264324e0d.mspx findet sich die Microsoft-Beschreibung der Spracherkennung.

Das Knowbrainer-Forum hat ebenfalls etwas dazu zu sagen - u.a. dass die MS-Engine in ihrer jetzigen Beta-Form bereits bessere Ergebnisse erzielt als Dragon 8. Der Knowbrainer ist an der Entwicklung beteiligt und ergeht sich daher in dunklen Andeutungen, weil er nichts genaues sagen darf.

Eine Spracherkennung in MS Office, US-Englisch, gibt es schon seit Office XP. Sie enthält die ominöse ctfmon.exe, die auch vom deutschen Office gestartet wird und immer mal wieder für Konflikte mit Dragon sorgt. Die Frage, die mich interessiert, und die mir noch keiner beantworten konnte, ist:

Wird es diese Spracherkennung auch für Deutsch geben?

Wenn die Sprachsteuerung für den Pocket PC als Maßstab gelten kann, dann steht allen Dragon-Händlern eine harte Zeit bevor.

Kleine Ergänzung: Pleite gehen wir deshalb noch nicht. Hier eine Liste der unterstützten (und wichtiger, NICHT unterstützten Anwendungen:

  • Speech Recognition dictation will work in a limited set of applications that support a technology called the Text Services Framework. This set of applications includes:
    • Microsoft Word and Outlook

    • Virtually all applications that are part of Windows Vista


    Dictation will not work in many applications. These include, but are not limited to:

    • Microsoft PowerPoint

    • Excel

    • WordPerfect

    • Eudora

    • Lotus Notes
  • 06 Juni 2006

    Das sollte jeder Dragon-Nutzer kennen

    In den KnowBrainer Quick Tips hat der führende Experte aus den USA Hinweise zusammengestellt, wie sich bekannte Probleme in Dragon NaturallySpeaking beheben lassen, die Systemleistung insgesamt verbessern lässt, und vieles andere mehr. Empfohlene Lektüre, wie auch das Knowbrainer-Forum!