Digital diktieren: Netznotizen zur Spracherkennung: Juli 2008

22 Juli 2008

Fußschalter neu erfunden! (Belesenheit schützt vor Neuentdeckungen)

Michael Spehr macht mich aufmerksam auf einem Beitrag des hessischen Rundfunks, indem die Erfinder des Fußschalters für computergestützte Konstruktion von digitalen Diktaten erfunden werden - und Überraschung: es handelt sich um zwei Studenten aus Hessen. "Belesenheit schützt vor Neuentdeckungen" - pflegte mein verehrter Lehrer zu sagen.

Den Vorwurf brauchen wir den Erfindern gar nicht zu machen. Wie der Webseite der beiden Studenten zu entnehmen ist, sind sie sich durchaus dessen bewusst, dass es auch professionelle Diktiersysteme anderer Hersteller mit entsprechenden Fußschaltern gibt. Der Redakteur des hessischen Rundfunks scheint allerdings die nötigen Klicks nicht gemacht zu haben; er porträtiert die beiden tatsächlich so, als wäre ihr Gerät - welches übrigens mit einer einzigen Taste auskommt und daher für jede Sekretärin indiskutabel ist - tatsächlich der erste seiner Art für Computer.

Und weil ich im Gegensatz zum hessischen Rundfunk Webseiten gerne etwas genauer anschaue, erfahre ich bei der Gelegenheit, dass es tatsächlich die Firma NCH in Australien noch gibt, die irgendwann eine kostenlose Software zur Verfügung gestellt haben, mit der sich DSS-Dateien abspielen lassen - sehr zum Ärger der drei Großen, die nicht nur das Format erfunden haben, sondern auch eifrig Lizenzgebühren dafür kassieren.

Letztlich eine Bastellösung, die für Studenten sicherlich vollkommen ausreicht, aber kein professionelles Diktatmanagement ersetzen kann. Deshalb wird auf der Website auch das Diktiersystem von Olympus als professionelle Workflow-Lösung mit verkauft.

Als Fußnote:

Die Betreiber haben das Sonderangebot von Olympus, ein WS-110 digitaler Notetaker im Paket mit Dragon NaturallySpeaking "Recorder Edition", getestet, stellen den Test inklusive Korrekturen auf der Webseite zur Verfügung, und siehe da - die Spracherkennung schlägt sich mehr als tapfer! Wenn wir davon ausgehen, dass die meisten Wörter, die nicht erkannt wurden, nicht vorher zum Wortschatz hinzugefügt worden, wie sich das eigentlich gehören würde, ist die Umsetzung tatsächlich fast fehlerfrei.

21 Juli 2008

Vortrag: Spracherkennung für Übersetzer - jetzt erhältlich

Der Vortrag "Spracherkennung als Hilfsmittel für einen modernen Übersetzer-Arbeitsplatz", den Cornelia Soldat und ich am 24.06.2008 in der Humboldt-Universität zu Berlin gehalten haben, ist jetzt transkribiert und als Manuskript erhältlich. Interessenten senden bitte eine kurze Mail an
cornelia.soldat [at] cs-spracherkennung.de.

16 Juli 2008

Google Lets You Search for Text in Some Videos

Google lässt Sie in Videos nach Text suchen - schreibt das Blog www.blogscoped.com.

Was hier vorgestellt ist, ist eigentlich Audio Mining und als solches eine schon lange gehegte Begehrlichkeit: Große Mengen von gesprochenem Text werden per automatischer Spracherkennung verschriftlicht und nach bestimmten Schlüsselwörtern durchsucht. (Erinnert sich noch jemand an die Witze nach dem 11. September, als man am Telefon so Sätze wie "Ich bin laden, sprach der LKW-Fahrer" sagte, um den CIA einzuschalten?)

Google hat dies jetzt weitergeführt: YouTube-Videos können nach bestimmten Wörtern durchsucht werden und die Suchmaschine gibt das passende Video aus, komplett mit Markierung, wo der Suchbegriff zu hören ist. Verfügbar ist das im Moment für Videos der amerikanischen Präsidentschaftskandidaten; die direkte URL ist http://speech.clients.google.com/elections2008videosearch/gadget.

Nun ist nicht jede Technologie, die Google den Massen anbietet, unbedingt der Durchbruch, aber es freut uns doch, wieder ein Beispiel für funktionierende Spracherkennung zu sehen!

(Dank an Michael Spehr für den Hinweis)

15 Juli 2008

Tipp: Eigenschaften bearbeiten, um falsche Erkennungen auszuschalten

Wenig bekannt ist die Möglichkeit, Eigenschaften einzelner Wörter zu bearbeiten. Dazu werde ich in der nächsten Zeit einige Beiträge verfassen. Heute geht es darum, mit Hilfe der Eigenschaften eines Wortes die ärgerlichen Fehlerkennungen zu vermeiden, bei denen trotz hartnäckigem Training immer wieder das selbe falsche Wort hingeschrieben wird.

Wenn ein Wort konstant falsch verstanden wird und immer dieselbe Alternative auftaucht (z.B. PDS statt PDF), ist es verlockend, im Fenster "Vokabular bearbeiten" einfach "PDS" als gesprochene Form für "PDF" einzutragen. Jedoch kann das zu Verwirrungen in Dragons akustischem Modell führen, in dem u.a. die Informationen über die Aussprache einzelner Laute gespeichert werden. Besser ist es daher, im Fenster "Vokabular bearbeiten" unter "Eigenschaften" die gewünschte Form einzutragen. Dies berührt das akustische Modell nicht.

Unter "Vokabular bearbeiten" wählen Sie das Wort aus, was statt des richtigen Wortes erkannt wird, und klicken auf "Eigenschaften". Setzen Sie einen Haken vor "Alternative Form" und tragen Sie in das Feld daneben das Wort ein, welches geschrieben werden soll. Bestätigen Sie mit OK.

Denken Sie daran, dass jetzt immer das andere Wort erscheint, Sie also z.B. "PDS" nicht mehr diktieren können! Aber die gibt es ja sowieso nicht mehr...

14 Juli 2008

Vergleich: Diktiergeräte für Spracherkennung

Welches Diktiergerät eignet sich am besten für Spracherkennung? Um dieser Frage nachzugehen, habe ich einen identischen Text von circa 150 Wörtern Länge mit vier verschiedenen Diktiergeräten gelesen und jeweils von Dragon NaturallySpeaking 9.5 mit einem neuen, nicht auf das Diktiergerät trainierten Profil umsetzen lassen. Beim Diktat des Referenztextes mit einem Handmikrophon oder Headset habe ich in der Regel keinen Fehler (es handelt sich um einen Demo-Text aus dem Bereich Radiologie, den ich bei Präsentationen verwende).

Geräte, die sowohl das DSS-Format als auch das DSS pro-Format unterstützen, habe ich (nach Möglichkeit) mit beiden Formaten getestet.

Bei den getesteten Diktiergeräten handelt es sich um die derzeit aktuellen Modelle der führenden Hersteller:

- Olympus DS-4000
- Olympus DS-5000
- Philips Digital Pocket Memo 9600
- Grundig Digta 420

Jetzt die Überraschung: die Abweichungen waren minimal. Egal ob DSS oder DSS pro, egal welches Gerät - die Fehlerquote bewegte sich zwischen zwei und vier Fehlern. Interessanterweise war beim DSS pro-Format keine Verbesserung gegenüber dem DSS-Format feststellbar, obwohl beim Abhören der Diktate ein deutlicher Qualitätsunterschiede zu hören ist.

Die Frage bleibt, wie sich dieses Ergebnis bewerten lässt: sind vier Fehler auf 150 Wörter statistisch aussagekräftig oder nicht? Auf den ersten Blick handelt es sich natürlich um eine doppelt so hohe Fehlerquote; aber der Text ist zu kurz, um wirklich zu entscheiden, ob es sich um einen statistisch nicht aussagekräftigen Zufall handelt oder tatsächlich um eine deutlich schlechtere Qualität des Diktiergerätes. Hier wäre es interessant, alle Diktiergeräte einmal mit einem deutlich längeren Text zu testen. Das Olympus DS-5000, welches ich im Moment als mein Arbeitsgerät benutze, hat im kurzen Test vier Fehler gemacht; bei einem Diktat von 15 Minuten Länge aber nur sieben echte Erkennungsfehler provoziert.

Offensichtlich gilt also: die Geräte sind praktisch identisch, was die Leistung mit Spracherkennung angeht. Wichtiger ist der Stil beim Diktieren, die Nebengeräusche, wie konzentriert man ist. Und für die Entscheidung für oder gegen eines der Diktiergeräte bleibt nach wie vor eher der persönlich empfundene Komfort bei der Bedienung ausschlaggebend als die Qualität.

Fazit dieses Tests also: Diktiergeräte sind Gefühlssache :-)