30 Oktober 2007

Fernsehbeitrag: Ratgeber Technik - Computer zum Diktat! - Möglichkeiten und Grenzen aktueller Spracherkennungssoftware

Am 27.3. lief im Ersten der ARD Ratgeber Technik mit einem Beitrag über "Computer zum Diktat! - Möglichkeiten und Grenzen aktueller Spracherkennungssoftware".

Erste Reaktion: Können die sich eigentlich mal einen anderen Titel für solche Beiträge einfallen lassen? "Computer zum Diktat" ist ungefähr so originell wie "Lufthansa-Aktie im Sinkflug". Nächste Reaktion: Lach- und Sachgeschichten für Erwachsene. Wie Computer und Sekretärin im Boxring gegeneinander antreten, ist für einen öffentlich-rechtlichen Sender grenzwertig. Aber egal, schauen wir auf den Inhalt -

- und da zeigt sich, dass der Tester das Expertenwissen eines, nun ja, Journalisten an den Tag legt. No offence meant, aber offenbar hat er sich mal ein paar Tage oberflächlich mit Spracherkennung auseinandergesetzt und dabei mehr Energie in die Präsentation gesteckt als in die Recherche. Dem geübten Auge entgeht z.B. nicht, dass er für die ersten beiden Tests betont langsam diktiert, um den Rechner dann mit einem - seiner Meinung nach extrem schnellen - Diktat aus dem Konzept zu bringen.

Ich kann dazu nur sagen: Abgesehen davon, dass ich keine Schlagertexte diktiere, spreche ich normalerweise so schnell wie er im "Härtetest" und habe eine sehr gute Erkennung. Wenn man aber beim Ablesen des Trainingstextes langsam liest und auch sonst langsam diktiert, wird eine Spracherkennung beim schnellen Sprechen Schwierigkeiten haben müssen - wie übrigens auch umgekehrt. Wenn ich schnell vorlese und danach langsam diktiere, erkent mein Drache mich auch nur halb so gut. Aber wie heißt es in dem Teil des Trainingstextes, der nur von uns Schnellesern erreicht wird: "Das wichtigste ist eine deutliche und konstante Aussprache. Versuchen Sie, Ihre Gedanken zu ordnen, bevor Sie mit dem Diktieren beginnen" - ein Rat, der übrigens für alle Textproduzenten gilt :-)

Ein Test der Rechtschreibung ist völlig am Thema vorbei. Wenn ich Kunden beeindrucken will, lasse ich den Computer "schwierige Wörter" erkennen. Wenn ich zeigen wollte, was die Spracherkennung nicht kann, nehme ich "einfache", alltägliche Wörter, die ähnlich wie andere häufige Wörter klingen - "einen" vs."einem" zum Beispiel.

Spracherkennung macht systembedingt keine Tippfehler! Ich habe schon Schreibkräfte gesehen, die das Dragon-Wörterbuch zum Nachschlagen benutzen. Natürlich muss das Programm die Wörter kennen - aber das ist bei einer Sekretärin auch nicht anders.

Und jetzt grundsätzlich: "Mensch gegen Maschine"-Kämpfe, erst recht gegen Spitzenleister, sind so alt wie die mAschinen. Ich erinnere nur mal an John Henry. Und dass die Sekretärin mit "jahrelanger Erfahrung" von der Software eingeholt wird, weist doch eher darauf hin, dass sie so gut ist wie eine Sekretärin - Training vorausgesetzt, von Spracherkennung, Diktant und Sekretärin. Insofern ist das Fazit der Sendung nur zum Schein beruhigend - der Mensch hat gewonnen, weil die Versuchsanordnung auf ihn abgestimmt war.

Und der zitierte Praxistest (im Begleittext) ist auch wenig aussagekräftig: wer aus genau einem Beispiel eine Regel herleiten will, hat wenig von Statistik verstanden. Da muss man schon mehr analysieren - aber wer tut das schon? Zugegebenermaßen hat außer den Herstellern keiner ein Interesse daran, und die werden nur eindeutig für sie positive Daten veröffentlichen.

Mein Fazit zum Beitrag lautet: wer nur konsequent die falschen Kriterien anlegt, erhält das schlechte Ergebnis, das er erwartet. Aber was erwartet man von jemand, der die Spracherkennung unter Vista erst gar nicht ans Laufen bekommt?

(Dank an Ronny Jaekel u.a. für Input)

25 Oktober 2007

Spezialmikrofon: Ohrwurm II

Der Ohrwurm II von Ohrwurm Audio ist ein Kunstkopf-artiges Mikrophon(schwer zu erklären - lieber selbst mal anschauen!), welches speziell für Aufnahmen mit Videokameras entworfen wurde, es liefert aber einen so lupenreinen Klang, dass ich ihn am liebsten mit Spracherkennung ausprobieren würde. Zwei hörgerätegroße Teile setzt man sich auf die Ohren, eine 3,5 mm-Klinke in die Kamera, Soundkarte o.ä. - und ab gehts. Sehr schön die Klangbeispiele, von Musik im Wohnzimmer über die Antarktis bis zum Bremer Weihnachtsmarkt.

Aufmerksam gemacht auf das Gerät wurde ich von einem Kunden, der es sich bestellt hat und jetzt mit Spracherkennung ausprobieren will. Ich bin gespannt, wie die Rückmeldung ist. Für 71 € kann man ja eigentlich nicht viel verkehrt machen.

21 Oktober 2007

Bill Gates liebt Spracherkennung

Aus dem Blog Rob's Rhapsody : Bill Gates talks about Speech Recognition -- again!:

Bill Gates scheint Spracherkennung zu lieben - er hat in einem Interview mal wieder darauf hingewiesen, und was ich interessant finde, ist, dass er uns Anwender zwar für nur einen kleinen Prozentsatz, aber trotzdem eine signifikante Zahl hält:

When you sell a product to hundreds of millions of users, there are features that millions of users love that you can call an obscure feature because, percentage wise, it's not very many.


Im Interview geht es mal wieder um die Spracherkennung in Vista sowie das letztlich veröffentlichte Sprachinterface für Windwos Live - leider nur in Amerika, aber kann ja noch kommen.

Ich sags doch - Spracherkennung macht Spaß und bringt Nutzen.

17 Oktober 2007

FAZ, 16.10.2007: "Ein Muss für jeden Dragon-Nutzer"

Dieser Artikel aus der FAZ von gestern (Dienstag, 16.10.2007) berichtet derart positiv über die Spracherkennungslösungen von 4voice, dass ich seit gestern damit beschäftigt war, Anfragen und Bestellungen zu bearbeiten - nicht dass ich mich beschweren würde, aber so komme ich erst heute Abend dazu, meine treue Leserschaft auf den Artikel hinzuweisen.

Weil es die FAZ von gestern heute nicht mehr zu kaufen gibt, sende ich eine Kopie des Artikels gerne an alle, die bei mir anfragen. E-Mail-Adresse: stephan.kuepper [at] 4voice.de.

Einige Auszüge gefällig? "Die perfekte Diktier-Software für den Profi... wir waren von Anfang an begeistert... die 4voice-Software ist genau das, was wir immer gesucht haben".

Glücklicherweise beruhigt sich der Artikel zwischendurch ein wenig und nennt auch Gründe: zum Beispiel die Möglichkeit, die Spracherkennung mit einem Handmikrophon mit einem Schiebeschalter zu steuern (z.B. ein Olympus DR-2000 oder ein Philips SpeechMike Classic); die Verwendung der 4voice Local als Ersatz für DragonDictate und das Diktierfenster, jeweils mit wesentlich mehr Möglichkeiten; Hintergrunddiktat, Umsetzung von Diktaten von einem digitalen Diktiergerät per Drag & Drop und dergleichen.

Natürlich bin ich stolz auf einen derart positiven Artikel - einerseits weil er das Produkt lobt, das ich seit einem Jahr verkaufe, andererseits auch, weil der Kontakt zum Autor über diese Netznotizen zustandegekommen ist.

Link zum Produkt nicht vergessen: im Shop unter  Http://s100202421.einsundeinsshop.de/