11 Dezember 2007

Orégano!

Ein Autor von Kochbüchern wird das Wort "Oregano" mit größerer Wahrscheinlichkeit benutzen als ein Rechtsanwalt.

Wie oft habe ich diesen Satz schon während des Dragon-Trainings gehört und mich gefragt, wer Recht hat: die Mehrheit, die "Oregano" auf dem A betont, oder die Minderheit, die das E betont?

Als ich meine Nudelsosse würzte, beschloss ich, es nachzuprüfen, und siehe da, der Duden sagt eindeutig: Orégano, mit Betonung auf dem E.

Was nur zeigt, dass die Mehrheit (und ich) nicht immer Recht hat.

06 Dezember 2007

Artikel: Diesen Artikel hat ein Computer geschrieben - WELT ONLINE

Diesen Artikel hat ein Computer geschrieben - Nachrichten Webwelt - WELT ONLINE

- meinen Kommentar dazu hat auch ein Computer geschrieben, und ich habe ihn mit Spracherkennung diktiert. Im Unterschied zum Journalisten kann ich aber damit umgehen.

Wieder ein Artikel aus der Serie " Technik-Journalisten müssen sich ihren Lebensunterhalt irgendwie verdienen, auch wenn ihnen das Thema tendenziell fremd ist".

Wie langweilig.

27 November 2007

FAZ, 27.11.2007: Spracherkennung als Erfolgsgeschichte

Die FAZ berichtet heute über das derzeit wohl größte Spracherkennungsprojekt Deutschlands: die Ausstattung von ca. 900 Richtern im Lande Hessen mit Spracherkennung durch die 4voice AG.

Entstanden ist der Artikel bei einer Schulung, die ich vor ein paar Wochen gehalten habe. Bei diesen Schulungen werden Richter als Multiplikatoren ausgebildet, die dann in ihren Dienststellen das Training und die Schulung weiterer Richter durchführen sollen.

Dort nahm man kein Blatt vor den Mund: Spracherkennung soll die durch massiven Personalabbau extrem gestiegene Belastung der sog. Serviceeinheiten (d.h. Schreibbüros) reduzieren, die Richter möglichst viel der anfallenden Arbeiten selbst erledigen. Dass dies nicht überall auf Gegenliebe stößt, ist zu erwarten; bei dem Schulungstermin wurde denn auch massiv Kritik geübt.

Allerdings zeigte sich eben auch, dass eine gute Schulung notwendig ist, um Spracherkennung gewinnbringend einzusetzen. "Vokabular und Schulung sind entscheidend für die Akzeptanz" - heißt die Unterzeile, und man muss kein Dragon-Dienstleister sein, um das unterschreiben zu können. Denn dann...

stellt sich [...] ein Aha-Erlebnis ein: Schulungsleiter Stephan Küpper diktiert ganze Absätze fehlerfrei, ohne jede Schummelei. Wir haben viel gelernt an diesem Tage, obwohl Dragon bei uns seit Jahren im Einsatz ist. Und man sollte auf eine solche Schulung durch Profis nicht verzichten. Nun trauen sich etliche Teilnehmer, ihre positiven Erfahrungen zu schidern. Ein Richer ist mit Dragon sehr zufrieden und beschreibt den immensen Gewinn an Freiheit, und damit meint er die Unabhängigkeit von den Launen des Schreibbüros. Jetzt könne er bis zum Fristende an der Akte arbeiten.

Dies, so sei hinzugefügt, ist kein Einzelfall. Andere Richter loben, dass mit Spracherkennung die Akte nach dem Diktat tatsächlich abgeschlossen sei und nicht Wochen später noch einmal durchgesehen werden müsste - auch dies ein nicht zu unterschätzender Vorteil.

Schließlich zum Vokabular:

4voice hat für die einzelnen juristischen Spezialgebiete wie Arbeits- oder Familienrecht eigene Vokabulare von Linguisten mit bis zu 50.000 weiteren Einträgen herstellen lassen. Dazu wurden repräsentative Texte der Justizbehörden ausgewertet und beispielsweise alle Entscheidungen des Oberlandesgerichts Frankfurt in der Landesrechtsprechungsdatenbank komplett eingewiesen. Wer Dragon im Kaufhaus erwirbt und damit nur auf das Standardvokabular zurückgreifen kann, ist jedenfalls als Jurist falsch beraten. Auf die Feinheiten kommt es an: für einen Strafrichter oder Staatsanwalt sind Begriffe wie "Angeklagter" wichtiger als einen Zivilrichter, der mehr mit "Klägern" und "Beklagten" konfrontiert ist.

Wie immer: wer die FAZ nicht liest und heute nicht kaufen will, schreibe mir an stephan.kuepper [at] 4voice.de. Sie erhalten eine Kopie umgehend per E-Mail.

16 November 2007

Heiser!

Wirklich erstaunlich: während der ganzen Messe bin ich schwer erkältet und heiser. Trotzdem versteht Dragon mein Diktat so wie immer. Die Spracherkennung wird wirklich immer stabiler - ich bin mal wieder begeistert!

Was mich daran erinnert, dass ich vor kurzem einen chinesischen Arzt am Stand hatte, der sich einfach mein Mikrofon griff und losdiktierte - mit einer Genauigkeit, die so gut war wie meine, und trotz seines Akzents. Respekt!

Mondegreen (Wumbaba auf Englisch)

Heute morgen auf der Medica wollte ich meine Kollegen beeindrucken und ein wenig auf Englisch diktieren. Dies tue ich im wahren Leben nicht wirklich, habe aber für alle Fälle einen Benutzer angelegt.

Welcher Satz würde sich für diese Situation besser eignen als der Klassiker aus der Rocky Horror Picture Show: "I see you shiver with anticipation"? Spreche ich den Satz mit normaler Intonation aus, wird er wunderbar verstanden. Mit der herrlich zerdehnten Pause, die Tim Curry im Wort "antici - pation" macht, schreibt Dragon folgende köstliche Variante:
I see you shiver with aunties who patiently ...

Ist das nicht schön?

13 November 2007

Testbericht: Headsets in der c't

In der aktuellen c't, Heft 24/2007, befindet sich ein ausführlicher Test von Stereo-Headsets, eigentlich unter dem Gesichtspunkt Musik und Games, aber auch mit einer Sektion zum Thema Diktat. In den Test geht unter anderem der Audio-Assistent von Dragon NaturallySpeaking ein.

Überraschend gut bewertet wurden zwei Modelle, die mir bisher noch nicht aufgefallen waren: das Sony DR-260 USB zum Preis von 50 €, als einziges der getesteten Geräte mit einer Mikrophon-Lautstärkeregelung und einem Wert von 23 im Audio-Assistenten; sowie das Microsoft Lifechat LX-3000 zum Preis von nur 30 € und einem Wert im Audioassistenten von 22. Dies ist allerdings laut Test vom Sound "für Musik, Filme und Spiele ungeeignet".

Ich habe mich bis jetzt immer nur mit Mono-Headsets auseinander gesetzt, weil ich gerne ein Ohr während der Arbeit frei habe, um nötigenfalls auch mal telefonieren zu können, während ich hätte tragen. Wer aber beides sucht, Diktat und Musik, sollte sich den Test mal genauer ansehen.

Dass der Wert im Audio-Assistenten nicht alles ist, wissen meine geneigten Leser allerdings seit diesem Beitrag.

Tipps und Tricks: Wörter verteilen über das Custom-Verzeichnis

Wer mit mehreren Benutzern auf dem selben PC arbeitet, hat das Problem, dass er Wörter und Befehle von einem zum anderen Benutzer transferieren möchte. Zumindest geht es mir so: einige Sprachbefehle und zahlreiche Wörter (z.B. meinen Namen) benötige ich eigentlich in jedem Wortschatz, unabhängig davon, ob es mein Arbeits-Vokabular ist, ein medizinisches Vorführvokabular oder ein Testwortschatz.

Dragon NaturallySpeaking Professional 9 stellt ein Werkzeug bereit, welches sich Data Distribution Tool nennt. Man findet es im Programm-Menü unter "Start - alle Programme - Dragon NaturallySpeaking - Dragon NaturallySpeaking-Werkzeuge - Data Distribution Tool". Wer sich darein einarbeiten will, ist mit der Hilfe-Funktion ganz gut bedient. Wer technischer veranlagt ist, kann auch das NSAdmin-Werkzeug nutzen, was schon in älteren Versionen enthalten ist, allerdings nicht unbedingt den besten Ruf genießt.

Hier der Hinweis, wie man Befehle und Wortlisten auch ohne Data Distribution Tool ganz einfach verteilen kann:

Legen Sie folgendes Verzeichnis an:

C:\Dokumente und Einstellungen\All Users\Anwendungsdaten\Nuance\NaturallySpeaking9\Custom\deu

(Für Dragon NaturallySpeaking 9 unter Windows XP)

Exportieren Sie alle benutzerdefinierte Wörter in einer Wortliste im Format TXT in dieses Verzeichnis. Am einfachsten geht das in Dragon NaturallySpeaking über das Menü "Wörter - exportieren" oder über den Sprachbefehl "Wörter exportieren". Fortgeschrittene Benutzer können dort aber natürlich auch eine eigene Wortliste erstellen, die exportierte Wortliste bearbeiten und dergleichen mehr.

Wird jetzt ein neuer Benutzer geöffnet, werden die Wörter aus dieser Wortliste in das Vokabular des neuen Benutzers importiert und erscheinen dort mit einem roten Stern als vom Benutzer neu hinzugefügte Wörter. Natürlich funktioniert das auch, wenn sich mehrere Benutzer denselben PC teilen. So können zum Beispiel zwei Ärzte in einer Praxis die Wörter, die sie hinzufügen, an den jeweils anderen weitergeben.

Achtung: wer Fachvokabulare einsetzt, exportiert unter Umständen sämtliche Wörter eines Fachvokabulars, nämlich dann, wenn diese Wörter als benutzerdefiniert mit einem roten Stern gekennzeichnet wurden. Das ist natürlich wenig zielführend, zumal das Sprachmodell nicht mit exportiert wird und daher ein neuer Benutzer mit den Wörtern alleine nicht viel anfangen kann.

[Edit:] Das gleiche funktioniert auch mit Befehlen, allerdings nur bei neu angelegten Benutzern. Um Befehle von einem vorhandenen Nutzer zu einem anderen vorhandenen zu transferieren, muss das Data Distribution Tool benutzt werden.

Um Befehle eines Users für alle anderen, in der Zukunft noch zu erstellenden User bereitzustellen, gehen Sie so vor:

Gehen Sie in das Befehlcenter von Dragon NaturallySpeaking über "Extras - Befehlcenter" oder sagen Sie einfach "Befehlcenter öffnen". Unter "Verwalten" haben Sie eine Liste aller verfügbaren Befehle. Markieren Sie die, welche sie exportieren wollen, und exportieren Sie sie ebenfalls in dieses Verzeichnis im Format DAT.

Wenn man routinemäßig neu hinzugefügte Wörter in dieses Verzeichnis exportiert, hat man seine benutzerdefinierten Einträge immer auf dem neuesten Stand. Dabei kann man die vorhandene Wortliste einfach überschreiben - Dragon NaturallySpeaking exportiert immer alle benutzerdefinierte Wörter, auch wenn sie vorher über eine Liste hinzugefügt wurden.

30 Oktober 2007

Fernsehbeitrag: Ratgeber Technik - Computer zum Diktat! - Möglichkeiten und Grenzen aktueller Spracherkennungssoftware

Am 27.3. lief im Ersten der ARD Ratgeber Technik mit einem Beitrag über "Computer zum Diktat! - Möglichkeiten und Grenzen aktueller Spracherkennungssoftware".

Erste Reaktion: Können die sich eigentlich mal einen anderen Titel für solche Beiträge einfallen lassen? "Computer zum Diktat" ist ungefähr so originell wie "Lufthansa-Aktie im Sinkflug". Nächste Reaktion: Lach- und Sachgeschichten für Erwachsene. Wie Computer und Sekretärin im Boxring gegeneinander antreten, ist für einen öffentlich-rechtlichen Sender grenzwertig. Aber egal, schauen wir auf den Inhalt -

- und da zeigt sich, dass der Tester das Expertenwissen eines, nun ja, Journalisten an den Tag legt. No offence meant, aber offenbar hat er sich mal ein paar Tage oberflächlich mit Spracherkennung auseinandergesetzt und dabei mehr Energie in die Präsentation gesteckt als in die Recherche. Dem geübten Auge entgeht z.B. nicht, dass er für die ersten beiden Tests betont langsam diktiert, um den Rechner dann mit einem - seiner Meinung nach extrem schnellen - Diktat aus dem Konzept zu bringen.

Ich kann dazu nur sagen: Abgesehen davon, dass ich keine Schlagertexte diktiere, spreche ich normalerweise so schnell wie er im "Härtetest" und habe eine sehr gute Erkennung. Wenn man aber beim Ablesen des Trainingstextes langsam liest und auch sonst langsam diktiert, wird eine Spracherkennung beim schnellen Sprechen Schwierigkeiten haben müssen - wie übrigens auch umgekehrt. Wenn ich schnell vorlese und danach langsam diktiere, erkent mein Drache mich auch nur halb so gut. Aber wie heißt es in dem Teil des Trainingstextes, der nur von uns Schnellesern erreicht wird: "Das wichtigste ist eine deutliche und konstante Aussprache. Versuchen Sie, Ihre Gedanken zu ordnen, bevor Sie mit dem Diktieren beginnen" - ein Rat, der übrigens für alle Textproduzenten gilt :-)

Ein Test der Rechtschreibung ist völlig am Thema vorbei. Wenn ich Kunden beeindrucken will, lasse ich den Computer "schwierige Wörter" erkennen. Wenn ich zeigen wollte, was die Spracherkennung nicht kann, nehme ich "einfache", alltägliche Wörter, die ähnlich wie andere häufige Wörter klingen - "einen" vs."einem" zum Beispiel.

Spracherkennung macht systembedingt keine Tippfehler! Ich habe schon Schreibkräfte gesehen, die das Dragon-Wörterbuch zum Nachschlagen benutzen. Natürlich muss das Programm die Wörter kennen - aber das ist bei einer Sekretärin auch nicht anders.

Und jetzt grundsätzlich: "Mensch gegen Maschine"-Kämpfe, erst recht gegen Spitzenleister, sind so alt wie die mAschinen. Ich erinnere nur mal an John Henry. Und dass die Sekretärin mit "jahrelanger Erfahrung" von der Software eingeholt wird, weist doch eher darauf hin, dass sie so gut ist wie eine Sekretärin - Training vorausgesetzt, von Spracherkennung, Diktant und Sekretärin. Insofern ist das Fazit der Sendung nur zum Schein beruhigend - der Mensch hat gewonnen, weil die Versuchsanordnung auf ihn abgestimmt war.

Und der zitierte Praxistest (im Begleittext) ist auch wenig aussagekräftig: wer aus genau einem Beispiel eine Regel herleiten will, hat wenig von Statistik verstanden. Da muss man schon mehr analysieren - aber wer tut das schon? Zugegebenermaßen hat außer den Herstellern keiner ein Interesse daran, und die werden nur eindeutig für sie positive Daten veröffentlichen.

Mein Fazit zum Beitrag lautet: wer nur konsequent die falschen Kriterien anlegt, erhält das schlechte Ergebnis, das er erwartet. Aber was erwartet man von jemand, der die Spracherkennung unter Vista erst gar nicht ans Laufen bekommt?

(Dank an Ronny Jaekel u.a. für Input)

25 Oktober 2007

Spezialmikrofon: Ohrwurm II

Der Ohrwurm II von Ohrwurm Audio ist ein Kunstkopf-artiges Mikrophon(schwer zu erklären - lieber selbst mal anschauen!), welches speziell für Aufnahmen mit Videokameras entworfen wurde, es liefert aber einen so lupenreinen Klang, dass ich ihn am liebsten mit Spracherkennung ausprobieren würde. Zwei hörgerätegroße Teile setzt man sich auf die Ohren, eine 3,5 mm-Klinke in die Kamera, Soundkarte o.ä. - und ab gehts. Sehr schön die Klangbeispiele, von Musik im Wohnzimmer über die Antarktis bis zum Bremer Weihnachtsmarkt.

Aufmerksam gemacht auf das Gerät wurde ich von einem Kunden, der es sich bestellt hat und jetzt mit Spracherkennung ausprobieren will. Ich bin gespannt, wie die Rückmeldung ist. Für 71 € kann man ja eigentlich nicht viel verkehrt machen.

21 Oktober 2007

Bill Gates liebt Spracherkennung

Aus dem Blog Rob's Rhapsody : Bill Gates talks about Speech Recognition -- again!:

Bill Gates scheint Spracherkennung zu lieben - er hat in einem Interview mal wieder darauf hingewiesen, und was ich interessant finde, ist, dass er uns Anwender zwar für nur einen kleinen Prozentsatz, aber trotzdem eine signifikante Zahl hält:

When you sell a product to hundreds of millions of users, there are features that millions of users love that you can call an obscure feature because, percentage wise, it's not very many.


Im Interview geht es mal wieder um die Spracherkennung in Vista sowie das letztlich veröffentlichte Sprachinterface für Windwos Live - leider nur in Amerika, aber kann ja noch kommen.

Ich sags doch - Spracherkennung macht Spaß und bringt Nutzen.

17 Oktober 2007

FAZ, 16.10.2007: "Ein Muss für jeden Dragon-Nutzer"

Dieser Artikel aus der FAZ von gestern (Dienstag, 16.10.2007) berichtet derart positiv über die Spracherkennungslösungen von 4voice, dass ich seit gestern damit beschäftigt war, Anfragen und Bestellungen zu bearbeiten - nicht dass ich mich beschweren würde, aber so komme ich erst heute Abend dazu, meine treue Leserschaft auf den Artikel hinzuweisen.

Weil es die FAZ von gestern heute nicht mehr zu kaufen gibt, sende ich eine Kopie des Artikels gerne an alle, die bei mir anfragen. E-Mail-Adresse: stephan.kuepper [at] 4voice.de.

Einige Auszüge gefällig? "Die perfekte Diktier-Software für den Profi... wir waren von Anfang an begeistert... die 4voice-Software ist genau das, was wir immer gesucht haben".

Glücklicherweise beruhigt sich der Artikel zwischendurch ein wenig und nennt auch Gründe: zum Beispiel die Möglichkeit, die Spracherkennung mit einem Handmikrophon mit einem Schiebeschalter zu steuern (z.B. ein Olympus DR-2000 oder ein Philips SpeechMike Classic); die Verwendung der 4voice Local als Ersatz für DragonDictate und das Diktierfenster, jeweils mit wesentlich mehr Möglichkeiten; Hintergrunddiktat, Umsetzung von Diktaten von einem digitalen Diktiergerät per Drag & Drop und dergleichen.

Natürlich bin ich stolz auf einen derart positiven Artikel - einerseits weil er das Produkt lobt, das ich seit einem Jahr verkaufe, andererseits auch, weil der Kontakt zum Autor über diese Netznotizen zustandegekommen ist.

Link zum Produkt nicht vergessen: im Shop unter  Http://s100202421.einsundeinsshop.de/

25 September 2007

Diktieren im Auto

In der FAZ von heute werden verschiedene Möglichkeiten besprochen, im Auto mit dem Handy oder dem Diktiergerät zu diktieren und Diktate von unterwegs, zum Beispiel per E-Mail von einem Smartphone, ins Büro zu senden. Dazu gehört auch die Philips-Software, die ich vor ein paar Tagen hier besprochen habe.

Der Redakteur, der mehrfach zitierte Dr. Michael Spehr, macht eine ganz richtige Bemerkung: im Moment sind die Kosten für die Übertragung prohibitiv. Und bezüglich der Philips-Software stellt sich ebenfalls die Frage, inwieweit man 100 € zuzüglich Mehrwertsteuer für eine Software ausgeben soll, wenn man die Diktate genauso gut als Anhang an eine E-Mail senden kann - und dann auch die Möglichkeit hat, Diktate zu versenden, die nicht mit einem Philips-Diktiergerät aufgenommen worden. Zumal Philips empfiehlt, die Software auf die Speicherkarte zu installieren und nicht auf das Gerät. Das heißt, man muss auf jeden Fall Speicherkarten wechseln, was je nach Handy auch nicht unbedingt die reine Freude ist. (Selbst wenn man die Software auf das Handy installiert - wie ich es ohne Probleme getan habe - muss man ja immer noch die Diktate per Speicherkarte übertragen.)

Ausgereift ist noch keine dieser Methoden. Was fehlt, ist entweder eine vernünftige Diktiersoftware für das Handy, die sich auch so bedienen lässt, dass es Freude macht, oder eine preiswerte Übertragungsmöglichkeit. Also eigentlich ein Diktiergerät mit eingebautem UMTS :-) aber ob der Markt das hergibt?

21 September 2007

Hinweis: neues Anwenderforum bei OfficeAutomation Sander

Das OfficeAutomation Sander - Anwenderforum ersetzt in Bälde das alte, wenig praktisch zu bedienende, aber dafür sehr hilfreiche Forum bei Forum Romanum. Das alte Forum lohnt sich noch als Referenz, aber posten werde ich nur noch im neuen :-)

Erste Mitteilungen gibt es auch schon.

Problemlösung: NaturallySpeaking kann keine weiteren Sprachdateien speichern

Diese Meldung erscheint, wenn man längere Zeit intensiv diktiert hat, insbesondere beim Diktat nach Microsoft Word.

Hintergrund: Dragon NaturallySpeaking speichert, wie bekannt, auch das Diktat als Audio-Datei. Diese Datei wird nun im Laufe der Zeit sehr groß (Faustregel: eine Minute Diktat entspricht einem Megabyte). Der Standardwert, wie viel Diktat gespeichert wird, liegt bei 40 MB. Gemeiner Weise lügt Dragon NaturallySpeaking, weil der Rest der Meldung nämlich lautet, dass das Diktat fortgesetzt werden kann - dann die Meldung aber alle 2 Sekunden wieder erscheint.

Es gibt mehrere Möglichkeiten, dieses Problems Herr zu werden:

Im Menü "Optionen - Daten" setzt man den Standard-Wert bei "für die Wiedergabe reservierter Speicherplatz" von 40 MB auf (z.B.) 200 MB, wenn man nämlich Wert darauf legt, dass das Diktat gespeichert wird. Wenn man diese Funktion überhaupt nicht benötigt, setzt man den Wert auf Null. Dann werden lediglich die jeweils letzten 100 Äußerungen temporär gespeichert.

Praktischer Wert dieser Funktion: hat man ein längeres Word-Dokument diktiert und will erst dann korrigieren, wenn der erste Entwurf fertig ist, lernt Dragon NaturallySpeaking dann und nur dann hinzu, wenn die Audio-Informationen noch verfügbar sind. Wenn sie nicht mehr verfügbar sind, weil der verfügbare Speicherplatz auf null gesetzt wurde, hat Dragon auch keine Chance mehr zu lernen. Wenn man also während des Diktates direkt die Fehler korrigiert, benötigt man diese Option nicht.

18 September 2007

DNS-Tipp: Nummerierung und Aufzählungen

  • "Nummerieren" nummeriert eine Reihe von Absätzen.

  • "Aufzählungszeichen" setzt Aufzählungszeichen vor einer Reihe von Absätzen

Um die Formatierung vorzunehmen, einfach die entsprechenden Absätze markieren und den Befehl sagen. Funktioniert, sobald der erste Absatz diktiert wird, man sagt "nummerieren" oder "Aufzählungszeichen", und dieser sowie alle folgenden Absätze wird fortlaufend nummeriert beziehungsweise mit den Zeichen versehen.
  • Der Befehl "Nummerierung" vor einer Folge von Zahlen sorgt dafür, dass diese Zahlen als Ziffern geschrieben werden. Dieser Befehl ist praktisch zum Beispiel beim Diktat von Postleitzahlen oder Telefonnummern in DNS 9.5, wo diese nicht automatisch richtig formatiert werden.

Spracherkennung im Bezirksamt Neukölln

Mein heimisches Bezirksamt Berlin-Neukölln, konkret: das Jugendamt (mit dem ich bisher nur wegen Kindergärten und Hortplätzen zu tun hatte) arbeitet seit neuestem mit Spracherkennung. Die Ausstattung mit dem System stammt von meinen ehemaligen Kollegen abitz.com Multilingual Software - Glückwunsch, Kollegen!

Leider ist der Artikel der Berliner Zeitung schlecht recherchiert. Weder ist das Neuköllner Jugendamt die "bundesweit erste Behörde, die mit einem Computerprogramm für digitale Spracherkennung arbeitet" - das Justizministerium Baden-Württemberg arbeitet seit Jahren damit, und das Justizministerium Hessen wurde vor zwei Jahren von der 4voice AG damit ausgestattet; ganz zu schweigen von anderen Gerichten wie dem Landesarbeitsgericht Berlin, in dem ich auch mal die Finger im Spiel hatte.

Sehr hübsch auch der Satz "die Neuköllner Firma Abitz hat das digitale Spracherkennung entwickelt und während der vergangenen sieben Monate in die Computer installiert" - ein Satz, der nicht nur die völlige Unkenntnis des Autors über Computer, sondern auch seine Schwierigkeiten mit der deutschen Sprache demonstriert. Auch ist nicht ganz erklärlich, warum "alle Mitarbeiter zu Beginn ihrer Schulung 25 Minuten lang ein Märchen vorlesen" mussten. Wenn ich direkt in den Computer diktiere, lese ich zum Training 7 Minuten, und zwar kein Märchen. Wenn ich ein Diktiergerät benutzt, bin ich mit 15 Minuten auch fertig. Wollen wir es der Unkenntnis des Autors zu Grunde halten.

Testbericht: Philips LFH 751 Software zur Übertragung vom Diktiergerät auf das Handy und Weiterleitung per E-Mail/WLAN

Am Freitag ist die Philips LFH 751-Software bei mir eingetroffen. Mit dieser Software kann man die Karte, die auf einem Philips Pocket Memo-Diktiergerät erstellt wurden, von einem PDA per E-Mail versenden. Das heißt: um von unterwegs Diktate, die ich mit meinem Diktiergerät aufgenommen habe, zu verschicken, brauche ich kein Notebook mehr, sondern kann es mit dem PDA machen - vorausgesetzt, das Gerät ist E-Mail-fähig und hat einen SD-Karteneinschub. Auch eine Version für Windows Smartphones gibt es schon, für Blackberry folgt im Oktober.

Die Software wird geliefert auf einer Micro-SD Karte, mit einem Adapter, so dass man sie überhaupt erst in das Diktiergerät oder das Handy/den PDA einlegen kann. Bei der Installation ist es wichtig, zunächst das .NET-Framework auf den PDA zu installieren, dann erst die Philips-Software. Ich habe es natürlich zunächst mal umgekehrt gemacht, woraufhin die Installation nicht funktioniert hat. Das kommt davon, wenn man entgegen der Anweisung auf der Packung die Readme-Datei nicht liest :-)

Es empfiehlt sich, das Programm in den Hauptspeicher des Geräts zu installieren und nicht auf die Speicherkarte, es sei denn, man verwendet die Speicherkarte sowohl im Diktiergerät als auch für die Übertragung der Programme. Dann muss man aber immer diese Speicherkarte verwenden, was vermutlich wenig praxistauglich ist (hat da jemand echte Erfahrung mit?). Ist das Programm im Hauptspeicher installiert, kann ich eine beliebige Speicherkarte einlegen und die Diktate werden übertragen, sobald ich die Speicherkarte einstecke.

Übertragungsmöglichkeiten bestehen über E-Mail an einen vorkonfigurierten Empfänger, inklusive der Möglichkeit für cc und bcc. Eine andere Möglichkeit ist, über WLAN die Diktate in einem UNC-Pfad zu speichern. Da ich hier im Moment kein WLAN habe, konnte ich das nicht ausprobieren. Schließlich gibt es einen Automatik-Modus, in dem erst versucht wird, über WLAN zu speichern, wenn das nicht geht, werden die Diktate per E-Mail verschickt.

Übrigens funktioniert es nicht, Diktate auf einem Grundig- oder Olympus-Diktiergerät aufzuzeichnen und zu versenden. Es erscheint eine Fehlermeldung "Bitte nehmen Sie Ihre Diktate auf einem Philips Pocket Memo auf".

Interessanterweise verschwinden die Installationsdateien im CAB-Format nach der Installation von der SD Karte, so dass die Software nur noch vom PC aus installiert werden kann. In der entsprechenden PC-Installationsroutine ist das .NET-Framework mit enthalten.

Getestet habe ich auf einem XDA neo mit Windows Mobile 5. Die Software soll auf allen Geräten mit Windows Mobile 5 und 6 laufen, außerdem braucht man einen gültigen E-Mail-Account auf dem Gerät, um die Diktate zu versenden. Und natürlich sind die Diktate auch spracherkennungstauglich, wenn man sie vom PDA zum Beispiel direkt in den Eingangsordner einer Spracherkennung versendet.

Und der Preis? z.B. 99 € zzgl. MWst.
Philips SpeechExec Mobile PDA im 4voice-Shop.

10 September 2007

Ein neues Blog bei Microsoft zum Thema Sprache / Speech

Unter speech @ microsoft ist seit kurzem ein neues Blog online, in dem MS-Entwickler Sprachen rund um die Windows Vista-Spracherkennung beantworten. Die ersten Antworten sind schon da, u.a. zu den Sprachen, in denen die Spracherkennung erhältlich ist (darunter Deutsch), und eine Möglichkeit, zusätzliche Sprachen herunterzuladen - was den Effekt hat, dass man das ganze Windows in dieser Sprache lokalisiert. So ghet's natürlich auch, wenn man Spracherkennung als Eingabehilfe konzipiert und nicht als Diktiersystem.

06 September 2007

Wiedergabe bei der Korrektur nicht verfügbar

Gelegentlich kommt es vor, dass bei einer Korrektur im Buchstabierfenster die Wiedergabefunktion nicht verfügbar ist. Der Button "Wiedergabe" ist dann ausgegraut. Dies liegt daran, dass man in das Korrekturfenster mehrere Wörter aufgenommen hat, zwischen denen eine deutliche Sprechpause liegt, also eine Korrektur über die Grenzen von zwei Phrasen hinweg versucht.

Das kann Dragon NaturallySpeaking leider nicht. Das Ende einer Phrase und den Anfang der nächsten Phrase gleichzeitig ins Korrekturfenster laden überfordert den armen Drachen.

Markieren und Abspielen funktioniert hingegen problemlos, weil einfach die verschiedenen Phrasen nacheinander abgespielt werden. Wenn Sie also irgendwann nicht mehr wissen, was Sie gesagt haben, können Sie immer noch diese Wörter markieren und im Menü "Audio" - "Aufnahme wiedergeben" wählen.

Neue Tipps und Tricks

  • Der Befehl "Auslassungspunkte" fügt die berühmten ... ein.
  • Der Befehl "einzelnes Wort hinzufügen" öffnet ein Fenster, in das man ein neues Wort eingeben kann, welches dann zum Wortschatz hinzugefügt wird.
  • Der Befehl "als Ausdruck hinzufügen" fügt die Markierung - ein einzelnes Wort oder eine Wortgruppe mit bis zu 255 Zeichen - zum Wortschatz hinzu. Dieser Befehl ist unter anderem auch dann nützlich, wenn man neugebildete Komposita zum Wortschatz hinzufügen will - aber zum Thema "Komposita" schreibe ich demnächst mal ein bisschen mehr.
  • Ein Befehl "ein Zeichen nach rechts löschen" löscht das nachfolgende Zeichen, funktioniert also ähnlich wie die löschen-Taste. Ein Tastendruck ist einfacher? Schon, aber der Befehl funktioniert auch mit mehreren Wörtern und in beide Richtungen, also z.B. auch mit "drei Wörter nach links löschen".
  • einen Befehl "lösche [Wort oder Wörter]" gibt es leider nicht.
Das wäre mal eine Idee - so wie man jetzt schon ein Wort markieren oder korrigieren kann, kann man es mit einem einzigen Sprachbefehl auch löschen, ohne es vorher zu markieren. (Und das merkwürdige ist: neue Benutzer versuchen intuitiv genau diesen Befehl und sind ganz verwirrt, wenn er nicht funktioniert.) Hat jemand so einen Befehl mal selbst programmiert? Dann nehme ich ihn gerne entgegen. Und leitete ihn an Nuance weiter - vielleicht schaffen sie es ja in Version 13, ihn aufzunehmen.

15 August 2007

Solo Desktop Ansteckmikrophon

Nachdem ich über das Internet auf das Ansteckmikrophon Solo Desktop der Firma Revolabs aufmerksam geworden bin, habe ich mal einen Tag lang mit dem Gerät diktiert und möchte hier die Ergebnisse mitteilen.

In das Gerät selbst habe ich große Hoffnungen gesetzt: ein Mikrophon, das ungefähr so groß ist wie ein Lippenstift und am Kragen angesteckt werden kann. Die Übertragung erfolgt schnurlos zu einer Basisstation auf dem Schreibtisch. Diese wird über USB angeschlossen, die Verbindung geht automatisch, also ganz einfache Bedienung.

Schon im Internet wird davor gewarnt, dass das Mikrophon gegenüber Nebengeräusche nicht sehr tolerant ist. Da ich in meinem Büro meist alleine bin und niemand anders redet, kann ich schlecht beurteilen, wie sich das zum Beispiel in einer Arztpraxis verhält. Leise Nebengeräusche scheinen es nicht zu stören. Auch ein Staubsauger im Nebenzimmer macht nichts aus, wenn die Tür geschlossen ist.

Allerdings erreicht es beim Test nur 15 Punkte, und wie ich festgestellt habe, muss es tatsächlich am Kragen möglichst weit oben befestigt werden - schon wenn man es unterhalb des zweiten Knopfes am Hemd feststeckt, ist die Erkennungsgenauigkeit indiskutabel. Hierauf muss man also auf jeden Fall achten.

Am Mikrophon und an der Basisstation ist ein Stummschalter, so dass man es sowohl am Gerät selbst wie auch an der Basisstation einschalten und ausschalten kann. Natürlich kann man auch die entsprechende Taste an der Tastatur verwenden, die Dragon NaturallySpeaking einschaltet und ausschalten. Die beiden Tasten beeinflussen sich nicht, verhalten sich also wie Stummschalter an normalen Headsets. Man hat die Möglichkeit, entweder die Spracherkennung auszuschalten oder das Headset stumm zu schalten. Aus bekannten Gründen sollte man sich für einen der beiden Möglichkeiten entscheiden - ansonsten wird man früher oder später aus Versehen Sprache aufzeichnen, oder ein Diktat wird nicht geschrieben werden, weil aus Versehen das Headset nicht eingeschaltet wurde.

Die Erkennungsgenauigkeit ist besser, wenn man sich beim Diktieren zurücklehnt, beugt man sich vor, wird offensichtlich die Sprache nicht so gut aufgenommen (das liegt an der Charakteristik des Mikrophons). Außerdem sollte man darauf achten, dass das Mikrophon tatsächlich nach oben zeigt und nicht zur Seite. Die Unterschiede in der Erkennungsgenauigkeit sind eklatant. Wenn das Mikrophon richtig befestigt ist, ist die Erkennungsgenauigkeit ausgezeichnet. Das Diktat geht flüssig und wird praktisch fehlerfrei erkannt. Von dieser Seite kann ich das Mikrophon nur uneingeschränkt empfehlen.

Bewegungen beim Diktieren, also z.B. wenn man sich mit dem Stuhl dreht, den Kopf bewegt, aufsteht, läuft, stören den Diktierfluss anscheinend nicht besonders. Was die Möglichkeit angeht, beim Diktieren im Zimmer herum zu laufen - im Prinzip funktioniert es. Ich würde allerdings niemandem empfehlen, sich allzu weit vom Rechner zu entfernen, während er diktiert - einfach nur um die Sicherheit zu haben, dass tatsächlich das Diktat auch ankommt. Dies ist aber unabhängig vom Gerät und gilt auch für ein schnurloses Headset. Ein Versuch ergab übrigens, dass es nicht empfehlenswert ist, in die Küche zu gehen und dabei zu diktieren.

Noch ein paar technische Hinweise: es handelt sich bei dem Solo Desktop um ein reines Mikrophon ohne Lautsprecher. Ein Ohrhörer kann angesteckt werden, um ein Feed-back über das Diktat zum Beispiel während der Korrektur zu haben. Dann ist man aber schon wieder sehr nahe an einem schnurlosen Headset, was den Zweck des Gerätes nicht ganz trifft. Immerhin ist es gedacht als Ersatz für Leute, die nicht mit einem schnurlosen Headset auf den Kopf gesehen werden wollen - Ärzte in der Praxis oder in der Klinik sind da oft sehr empfindlich. Wenn man also nicht einen externen Lautsprecher benutzt, sollte man die Option "Diktat wiedergeben bei Korrektur" abschalten.

Durch seine Größe kann das Solo Desktop unauffällig getragen werden und muss deswegen auch nicht abgenommen werden, wenn man das Zimmer verlässt.. Wer in verschiedenen Zimmern arbeitet, kann nicht einfach von Raum zu Raum gehen und das Mikrophon verbindet sich dort automatisch mit der jeweiligen Basisstation.

Die Informationen von Hersteller zu dem Thema:

es ist möglich, ein Mikrofon an verschiedenen Basisstationen zu benutzen. Dazu muss das Mikrofon jedesmal mit der Basisstation verbunden werden. Dazu muss das Mikrofon durch langes Drücken der Mute Taste ausgeschaltet werden. Danach wird es in den sogenannten Pairing-Modus versetzt, indem die Mute Taste wieder gedrückt wird, bis die LED an der Oberseite erst grün, dann rot aufleuchtet. Nun muss innerhalb von 5 Sekunden die Mute Taste an der Basisstation gedrückt werden und darf nicht losgelassen werden. Die LED an der Basis leuchtet erst rot und nach ein paar Sekunden, wenn die Verbindung zum Mikrofon aufgebaut ist, beginnt sie rot zu blinken. Das Mikrofon blinkt dann im gleichen Rythmus wie die Basis. Die Geräte sind jetzt verbunden.

Es ist nicht möglich, mehrere Mikrofone gleichzeitig mit einer Basisstation zu verbinden. Wenn ein weiteres Mikrofon mit der Basis verbunden wird, ist das ursprüngliche Mikrofon nicht mehr dieser Basis zugewiesen.

Dies erscheint mir zu umständlich, als dass man wirklich empfehlen könnte, dasselbe Mikrophon an mehreren Rechnern zu benutzen. Hier dürfte besser sein, an jedem Rechner ein SpeechMike zu installieren oder, wenn es dann unbedingt schnurlos sein muss, an jedem Rechner ein Solo Desktop zu installieren, das man sich schnell an den Kragen klemmt.

Das Mikrophon wird aufgeladen, indem man es in die Basisstation stellt. Die Basisstation wird über USB mit dem Computer verbunden und erhält von dort den Strom. Um das Mikrophon aufzuladen, wenn der Computer ausgeschaltet ist, muss man die Basisstation mit einem Netzgerät verbinden, das einen Mini-USB-Stecker hat .

Hinweis vom Hersteller:

Man kann einen ganz normalen USB Adapter benutzen. Revolabs verwendet hier einen Adapter von eMicrophones.com. Der Preis liegt bei ca. 15 US Dollar. Sie können aber selbstverständlich auch einen beliebigen anderen Adapter verwenden.

Hier die Links zu weiteren Informationen:

Hersteller: http://www.revolabs.com/

Deutscher Vertrieb: http://www.prodytel.de/products/revolabs.html

Forumsdiskussion (englisch): http://www.knowbrainer.com/pubforum/index.cfm?page=viewForumTopic&topicId=2300

http://www.knowbrainer.com/pubforum/index.cfm?page=viewForumTopic&topicId=2123

Forumsdiskussion (deutsch): http://www.forumromanum.de/member/forum/forum.php?action=std_show&entryid=1100438854&USER=user_115572&threadid=2

Und was kostet der Spaß? Im 4voice-Shop z.B.
274 € zzgl. Mwst.

10 August 2007

HIGHLIGHT DER WOCHE! (Zit. Nuance)

Okay, aus ihrer Sicht vielleicht :-)

Das Dragon NaturallySpeaking-Video “Liebesbrief” wird an diesem Samstag in der MyVideo-Show auf Sat.1 um 18:00 Uhr ausgestrahlt. Viel Spaß beim Fernsehen!

Wer keine Zeit zum Fernsehen hat, findet es unter http://www.endlich-versteht-dich-jemand.de/video-tv-spots/index.htm.

Viel Spaß!

PS Das "Hilfe"-Video finde ich schöner.

01 August 2007

Berichte aus dem FAZ-Archiv

Drei aktuelle Testberichte aus dem Archiv der FAZ können jetzt kostenlos als PDF-Datei heruntergeladen werden (mit Dank an die Firma Philips, die diese als Werbematerial bereitstellt):

Vergleich von Eingabegeräten
Vorstellung und Test des Philips DPM 9600
Das Telefon als Diktiergerät

Ein neuer Bericht ist am vergangenen Dienstag, 24.7.2007, in der FAZ erschienen, als ich noch im Urlaub war und daher nicht sofort reagieren konnte. Hier geht es um eine Aktion von Nuance, die einige ihrer liebsten Benutzer angeschrieben haben (warum eigentlich nicht mich?) und sie gebeten haben, ihnen einmal einen Blick in ihr Diktierprofil zu gewähren. Online wurden Daten gesammelt, übertragen und ausgewertet, die Benutzer, die an der Aktion teilnahmen, erhielten von Nuance ein verbessertes Vokabular zugeschickt. Der Hersteller selbst verspricht sich durch die Auswertung von weiteren Profilen eine Verbesserung der Erkennungsgenauigkeit in der nächsten Version, Dragon NaturallySpeaking 10. Also eigentlich eine klassische Win-Win-Situation.

Personalisierung von Wortschätzen und Erstellung von ganzen Fachwortschätzen für bestimmte Bereiche - Medizin, Jura, Architektur und vieles andere mehr - war ja seit jeher eine Domäne der Dragon NaturallySpeaking-Fachhändler. Auch hierauf wird nicht versäumt hinzuweisen, mit lobender Erwähnung der 4voice AG, für die ich auch schon den einen oder anderen Fachwortschatz bearbeitet habe.

Den Artikel selbst darf ich aus Copyright-Gründen nicht hier veröffentlichen. Wer mich aber lieb darum bittet, und seinen Namen preisgibt, hat vielleicht eine Chance auf eine Kopie.

10 Juli 2007

Befehl: "Weiter bei" für Dragon NaturallySpeaking

Mit dem Befehl "Weiter bei [Wort/Wörter]" lässt sich in Dragon NaturallySpeaking unabhängig von „streich das" und irgendwelchen Markierungen gezielt der letzte Teil des Diktates löschen und nach einem bestimmten Wort weiter diktieren. Dragon NaturallySpeaking streicht dann alles, was hinter dem genannten Wort kommt, so dass man dort wieder neu ansetzen kann. Vom Gedanken her ähnlich wie ein schnelles Zurückspulen und Übersprechen beim Diktiergerät - die schnellste Methode, um eine Änderung der letzten Äußerung vorzunehmen.

Ausprobieren und noch komfortabler diktieren!

05 Juli 2007

Tastenkombinationen für Sonderzeichen in Dragon NaturallySpeaking

Einige Sonderzeichen sind im Wortschatz von Dragon NaturallySpeaking nicht enthalten, können aber nachgetragen werden. Dazu gibt man im Fenster „Vokabular bearbeiten“ das Zeichen über seinen ASCII-Code als geschriebene Form ein; unter „Gesprochene Form“ trägt man den Ausdruck ein, der das Zeichen aufrufen soll. Zur Eingabe die Alt-Taste gedrückt halten und den Zeichencode über den Nummernblock rechts eingeben!

Alt + 0132: Anfürungszeichen
Alt + 0147 Abführungszeichen
Alt + 0130: einfaches Anführungszeichen
Alt + 0146: einfaches Abführungszeichen
Alt + 0150: halber Geviertstrich
Alt + 0151: Geviertstrich
Alt + 0173: Geschützter Trennstrich (verhindert einen Zeilenumbruch zwischen zwei Wortteilen)
Alt + 0160: geschütztes Leerzeichen (verhindert einen Zeilenumbruch zwischen zwei Wörtern)

(Update:) Bei allen Sonderzeichen müssen die Eigenschaften so bearbeitet werden, dass die Zeichen korrekt ohne Leerstelle vor oder hinter dem Wort stehen. Dazu das Wort markieren, auf "Eigenschaften" klicken und dort je nachdem „keine vorhergehende Leerstelle", „keine nachfolgende Leerstelle" oder „keine vorhergehende oder nachfolgende Leerstelle" auswählen.

Das geschützte Leerzeichen kann ins Vokabular nur als Bestandteil eines feststehenden Ausdrucks aufgenommen werden. Das geschützte Leerzeichen selbst muss als Befehl abgelegt werden: in MS Word Strg+Umsch+Leertaste. Dazu wählt man „Extras – Neuen Befehl erstellen“, Befehlstyp: „Schritt für Schritt“, wählt „Einfügen – Systemtasten“ und gibt dort die Kombination Strg+Umsch+Leertaste ein. Mit „Speichern“ wird der neue Befehl gespeichert; um einen geschützten Leerschritt zu diktieren, muss man vor und nach dem Befehl eine kurze Sprechpause einlegen.

Mehr Sonderzeichen findet man z.B. in MS Word unter „Einfügen – Symbol“, dort „Ascii-dezimal“ wählen, um den Zeichencode des gewünschten Sonderzeichens anzuzeigen.

03 Juli 2007

Spracherkennung im ComputerClub 2

Der ComputerClub 2 hat in seiner Sendung vom 2.7.2007 einen Beitrag über Spracherkennung gesendet, bei dem Michael Spehr von der FAZ als Studiogast aus der Praxis erzählt. Auf der Website gibt es Links zum Download der gesamten Sendung, der Spracherkennungsbeitrag kommt bei ca. 10:00 Minuten und dauert ca. 8 Minuten. 

Themen sind Diktat, Erkennungsgenauigkeit und Diktierstil, Spracheingabe in Navigationssysteme, Sprachsteuerung des Computers; ein Schwerpunkt liegt auf Vista, auch wenn Dr. Spehr natürlich mit Dragon 9.5 arbeitet.

Hier ist das Sendungs-Archiv zur späteren Referenz.

24 Juni 2007

Supportanfragen übers Blog? - besser nicht

Tja, wie man merkt, ist ein Blog nicht unbedingt die erste Anlaufstelle für Supportanfragen - seit mich der Kommentar ganz unten erreicht hat, ist auch schon eine Woche ins Land gegangen. Immerhin hat sich zwischendurch ein Lösungsansatz ergeben - aber erst kommt der erhobene Zeigefinger Nr. 1:

Supportanfragen bitte grundsätzlich erst an den Fachhändler, dann an den Nuance-Support richten! Dabei bitte genau angeben, welche Version von Dragon, Service Pack, Betriebssystem, wann der Fehler auftaucht usw. machen.

Zeigefinger Nr. 2:

Wer unschuldige Blogger oder sonstige Quellen um Hilfe anzapft, der darf das unter seinem eigenen Namen! Ich hab langsam genug von Mr. Anonymus, meinem treuesten Kommentator - ich würde wirklich gern wissen, wer dies hier alles liest. (Okay, von Ihnen weiß ich's, von Ihnen und Ihnen auch - aber alle anderen, gebt euch zu erkennen!)

So, hier die wahrlich rudimentär formulierte Anfrage:

Anonym Hat gesagt…

Ich habe Natuarally Speaking 9 seit ca. 8 Monaten in Betrieb.Jetzt funknioniert es nicht mehr. Fehlermeldung: "kein Vokabular gealden" und " Programm läuft instabil......." bisher konnte mir noch niemand helfen.
Ich kann: Wenn Dragon sich noch starten lässt, dann unter "Benutzer verwalten" "Erweitert" wählen und Benutzer wiederherstellen.

Wenn Dragon sich nicht mehr starten lässt, gehen Sie in den Ordner C:\Dokumente und Einstellungen\All Users\Anwendungsdaten\Nuance\NaturallySpeaking9\Users\ 
und dort in den Ordner mit dem schadhaften Benutzer.
Benennen Sie den Ordner "current" um in "current_old" und kopieren Sie den Oerdner "backup" in einen neuen Ordner "current". Damit werden die hoffentlich noch intakten Daten von vor fünf Sitzungen 
wieder eingespielt; der Fehler verschwindet und die Rechtschreibung wird auch wieder besser. 

Wenn nicht, s. Zeigefinger 1!

13 Juni 2007

look, mum, no hands!

look, mum, no hands!
- heißt ein australisches Blog zum Thema Dragon NaturallySpeaking. Ich hatte auf eine verwandte Seele gehofft, aber leider ist der letzte Beitrag schon ein halbes Jahr alt.

Einige Hinweise sind recht interessant, müssten natürlich für eine deutsche Anwendung angepasst werden. Als Ideen-Pool gut geeignet.

10 Juni 2007

Nicht nur auf das Mikro kommt es an (FAS, 10.6.2007)

Dr. Michael Spehr hat in der heutigen Frankfurter Allgemeinen Sonntagszeitung eine ganze Seite, in der er verschiedene Eingabegeräte miteinander vergleicht und zu dem Ergebnis kommt, dass sich ein Olympus DR-2000 Handmikrofon, ein Philips DPM 9600-Diktiergerät und ein Plantronics CS-60 schnurloses Headset nichts tun, was die Erkennungsgenauigkeit mit Spracherkennung betrifft. Einzig ein kabelgebundenes USB-Headset wie das VXI Parrott TalkPro 100 sei überlegen, weil es bessere Nebengeräuschunterdrückung und einen stets gleichen Abstand zum Mund habe.

Dies deckt sich mit meinen Erfahrungen - um so mehr, als dass der Artikel mich zu diesem Thema freundlicherweise direkt zitiert:

"Das Eingabegerät ist weniger wichtig als ein guter Diktierstil. Selbst mit dem eingebauten Mikrofon des Notebook kann man zur Not diktieren. Allerdings kann ein gutes Mikrofon einen guten Diktanten noch besser machen."
Wer sich mit dem Gedanken trägt, ein neues Headset oder anderes Eingabegerät zu kaufen, sollte diesen Artikel (kostenpflichtiger Download) unbedingt zur Kenntnis nehmen - oder gleich den Fachhändler fragen.

07 Juni 2007

Standard-Schriftart in DragonPad

Die Standardschrift in DragonPad ist Arial, Größe 10. Natürlich kann man Text auch in anderen Schriften und Größen formatieren (probieren Sie mal, eine Passage zu markieren und dann zu sagen "mach das rot", Schriftgrad 24" u.ä. - das geht ganz intuitiv).

Der default font, also die Schrift, die DragonPad beim Start lädt, lässt sich aber nur ändern mit einem Eintrag in der Datei "options.ini" im Ordner C:\Dokumente und Einstellungen\All Users\Anwendungsdaten\Nuance\ NaturallySpeaking9\Users\[Dragon-Username]\current .

Fügen Sie hier zwei Zeilen hinzu, in denen Schriftart und Größe angegeben werden. Achtung: Die Schriftgröße wird in "Twips" gemessen - 20 twips sind ein Punkt, also muss die gewohnte Schriftgröße mal 20 genommen werden.

Um die Schrift z.B. auf Tahoma, 14, zu ändern, fügen Sie folgende Zeilen hinzu:

deu default font=tahoma
deu default font size=280

Im Gegensatz zu anderen Optionen bleibt diese auch erhalten, wenn man im Optionen-Menü Einstellungen ändert.

Nichtsdestotrotz wäre es schön, wenn man den Standardfont auch im Programm einstellen könnte. Dieses geht z.B. im Editor der verschiedenen 4voice-Varianten voice4medicine, voice4legal und voice4customer.

01 Juni 2007

Dragon-Anwenderforen

Das Anwenderforum von Nuance ist bekanntermaßen seit einigen Tagen nicht mehr Online, seit nämlich irgendjemand den Link zum Update für Windows Vista von Dragon NaturallySpeaking Professional dort veröffentlicht hat. laut Auskunft von Martin Held war das der Tropfen, der das Fass zum überlaufen brachte - es sind wohl in letzter Zeit schon mal des Öfteren missliebige Beiträge dort aufgetaucht. Persönlich kann ich mich an keinen erinnern, wenn auch immer mal wieder Kritik an unseren vielgeliebten Drachen zu hören war, aber ich muss jetzt auch mal kritisch anmerken, dass man sich bei Nuance ruhig mal an die eigene Nase fassen darf:

Das Forum wurde wohl anscheinend nur wenig gelesen, und die Beiträge ganz bestimmt nicht ernst genommen. Ansonsten während zahlreiche Mängel, die immer mal wieder aufgeführt und angemahnt werden, vielleicht inzwischen mal berufen worden. Auch ist nie irgendjemand vom Hersteller dort aktiv gewesen, um vielleicht noch eine Frage zu antworten, sondern es waren immer nur einige Händler und Anwender. Schließlich war die Bedienung unter aller Kritik. Es wurde ja nicht einmal der Name angezeigt, von dem ein Beitrag stammte.

Dieser exklusive Kreis muss sich jetzt eine neue Heimat suchen. Diese Seite hier ist zur Diskussion ja nicht wirklich geeignet, auch wenn von Zeit zu Zeit mal Kommentare kommen; daher habe ich noch einmal ein wenig recherchiert und für den deutschsprachigen Raum ein Forum gefunden, welches technisch auch nicht besser ist als das von Nuance, aber inhaltlich einiges mehr zu bieten hat:

Anwenderforum OfficeAutomation


Willi Sander, ebenfalls aus dem anderen Forum gut bekannt, gibt hier zahlreiche Hinweise und Hilfestellungen. Als altgedienter Dragon NaturallySpeaking-Händler kennt er sich sehr gut in der Software aus.

Wer es international mag, der sei verwiesen auf das Knowbrainer-Forum, das allerdings einiges von seinem Charme eingebüßt hat, nachdem es auf eine zeitgemäße Software aufgerüstet wurde. Zwei weitere Informationsquellen sind das Speech Recognition Wiki und das Voice Recognition Forum.

Das englischsprachige Forum von Nuance ist übrigens weiterhin aktiv. Ob es gelesen wird, weiß ich nicht - hier scheint das gleiche zu gelten wie beim Deutschen Forum.

31 Mai 2007

Sonntag die FAS kaufen

Am Sonntag wird (voraussichtlich) die Frankfurter Allgemeine Sonntagszeitung einen Artikel über Sinn und Unsinn hochwertiger (d.h. teurer) Eingabegeräte für Dragon veröffentlichen. Wer mit dem Gedanken spielt, sich 
ein neues Gerät anzuschaffen, sollte ihn vorher lesen.

Ich weiß schon, was drin vorkommt - und wer :-)

29 Mai 2007

Dragon NaturallySpeaking 9.5 - erste Erfahrungen

Dragon NaturallySpeaking 9.5 wurde soeben installiert, jetzt folgen die ersten Tests - und Sie sind live dabei!

Zuerst zur Installation:

Erst wird die heruntergeladene Datei in ein temporäres Verzeichnis entpackt, dann wird aus diesem Verzeichnis die Installation gestartet. Die entpacken Dateien sind übrigens exakt genauso groß wie die Datei, die heruntergeladen wurde.

Da es sich um Dragon NaturallySpeaking Professional handelt, sind Vokabulare, die mit der Medical Edition erstellt wurden, nicht kompatibel. Sprecher, die mit Dragon NaturallySpeaking 9 erstellt wurden, werden ansonsten problemlos übernommen.

Die erste Auffälligkeit, die ich geprüft habe, ist das Verhalten der Zahlen, das seit Dragon NaturallySpeaking 9.1 Schwierigkeiten bereitet. Normal ist, dass Dragon NaturallySpeaking alle Zahlen zwischen eins und neun als Wort schreibt. Normal sollte aber eigentlich auch sein, dass Zahlen Kombinationen wie Telefonnummern oder Postleitzahlen, die diktiert werden, automatisch als Ziffern geschrieben werden. Seit Dragon NaturallySpeaking 9.1 ist dem nicht mehr so, auch die Version 9.5 übernimmt diesen Fehler. Die einzige Lösung besteht darin, aus einer funktionierenden Dragon NaturallySpeaking 9.0-Installation ff. Dateien zu kopieren und in die entsprechenden Verzeichnisse von Dragon NaturallySpeaking 9.5 zu stellen:


C:\Dokumente und Einstellungen\All Users\Anwendungsdaten\Nuance\NaturallySpeaking9\Data\deu\itn\numrules.dat

C:\Dokumente und Einstellungen\All Users\Anwendungsdaten\Nuance\NaturallySpeaking9\Data\deu\itn\Numwords.dat

C:\Dokumente und Einstellungen\All Users\Anwendungsdaten\Nuance\NaturallySpeaking9\Data\deu\itn\Numlists.dat

C:\Dokumente und Einstellungen\All Users\Anwendungsdaten\Nuance\NaturallySpeaking9\Data\deu\dat\numbers.dat

Danach werden die Zahlen wieder wie gewohnt als Ziffern geschrieben, im Satzkontext allerdings weiterhin als Wörter (z.B. "Drei Männer gingen die Straße entlang).

Achtung: dies geschieht auf eigene Gefahr! Lieber vorher eine Sicherheitskopie der Dateien machen!

Wenn das erfolgt ist, schreibt Dragon NaturallySpeaking Telefonnummern wieder richtig:

089 - 244104445

Weitere Unregelmäßigkeiten habe ich bisher noch nicht festgestellt, nach weiteren Fehlerbehebungen habe ich noch nicht gesucht. Dies kommt dann in den nächsten Tagen an dieser Stelle.



25 Mai 2007

Dragon 9.5 Professional ist da ...

und kann unter www.nuance.de/vista heruntergeladen werden. Den diekten Link hat ja schon ein anonymer Kommentator gepostet, und diese Version ist auch die, die man als lizenzierter Kunde erhält.

Zur Installation braucht man eine gültige Seriennummer für NaturallySpeaking 9 - von daher nützt einem also die Datei alleine gar nichts, die außerdem mit 1,3 GB ganz schön heftig ausfällt.

Da ich ja im Besitz einer gültigen Seriennummer bin, werde ich mir die neue Version demnächst mal installieren und schauen, ob denn alles läuft, ob der Fehler mit den Zahlen beseitigt wurde, vielleicht sogar das Datum ordentlich erkannt wird, und ob auch Diktiergeräte wieder trainiert werden können - all das ist in 9.1 offen.

Als nächstes erwarten wir dann Dragon NaturallySpeaking Legal und Dragon NaturallySpeaking Medical.

21 Mai 2007

Zahlen, Zahlen, immer nur zahlen

Sofern die Zahlen 1-9 immer als Ziffern geschrieben werden sollen, ist dies auch dadurch zu erreichen, dass man Dragon für jede dieser Zahlen die entsprechende Ziffer als "alternative Schreibweise" bekannt macht. Dazu gehen Sie wie folgt vor:

1. Laden Sie bitte Ihren Sprecher/Ihr Vokabular und wählen Sie dann "Wörter - Anzeigen/bearbeiten"
2. Suchen Sie sich in der Liste der Wörter den Eintrag mit geschriebener Form "eins" und markieren Sie diese Eintrag durch Anklicken. Am schnellsten geht es vermutlich, wenn Sie im Eingabefeld "Geschriebene Form" das Wort "eins" tippen.
3. Klicken Sie dann auf "Eigenschaften".
4. Setzen Sie das Häkchen vor "Alternative Schreibweise" und geben Sie im Eingabefeld dahinter die entsprechende Ziffer (1) ein, wenn sie nicht ohnehin schon vorgeblendet wird.
5. Klicken Sie auf OK.

Nach genau dem selben Muster verfahren Sie nun bei den restlichen Ziffern. Führen Sie hierzu die Schritte 2-5 bei den weiteren Wörtern "zwei" bis "neun" und auch bei den groß geschriebenen Varianten "Eins" bis "Neun" durch. Zum Schluß schließen Sie bitte noch den Dialog "Vokabular bearbeiten" und erhalten nun jeweils die Ziffer hingeschrieben, wenn Sie eine Zahl zwischen 1 und 9 diktieren. Bitte denken Sie auch daran, dass Sie Ihr Sprecherprofil speichern müssen, um die soeben durchgeführten Änderungen zu sichern.

[Courtesy of Martin Müller]

So, das muss für die Zahlen reichen. Alles weitere in DNS 10 :-)

14 Mai 2007

Bitte Zahlen!

Nach Auskunft von Nuance ist es zwecklos, die Zahlen von 1-9 zu trainieren, damit sie als Ziffern geschrieben werden - seit DNS 7 sei dies nicht mehr möglich, da es keine getrennten Einträge mehr für "1" und "eins" usw. gibt.

Damit Dragon NaturallySpeaking die Zahlen von 1 bis 9 korrekt als Ziffern schreibt, ist es nötig, diese Ziffern mit dem Wort "Ziffer" auszusprechen, also "Ziffer 1", "Ziffer 2" und so weiter.

Will man den Ausdruck "Ziffer 1" diktieren (also z.B. ein Rechtsanwalt), sagt man das Wort "Ziffer" zweimal, also zum Beispiel diktieren: "Ziffer Ziffer 1", damit korrekt "Ziffer 1" geschrieben wird.

27 April 2007

Die Unterstützergruppe

"Die Unterstützergruppe" schrieb Dragon heute morgen statt meiner Unterschrift "Viele Grüße, Stephan Küpper". Das kommt davon, wenn man nach einem 16-Stunden-Tag noch nicht wach genug ist, um den Mund beim Sprechen zu öffnen - aber gleichzeitig der schmeichelhafteste Wumbaba, den ich je hatte!

25 April 2007

Umsteigen auf Firefox?

Allerdings - umsteigen könnte sich lohnen. Als alter Opera-Nutzer war ich ja immer dagegen, so Firefox zu wechseln - ich hatte ja alles. Was ich aber nicht hatte und was ich jetzt habe, ist eine komplette Steuerung mit Dragon NaturallySpeaking! Sogar einen Link kann ich per Sprache anwählen! Vom Diktat ganz zu schweigen.

Vielleicht sollte man doch mal den Standard wechseln. Nur schade, dass es zwei Tage dauert, bis man alle Einstellungen in Firefox so gemacht hat, wie man es von Opera gewöhnt ist - und man muss auch ständig irgendwelche Erweiterungen herunterladen. Dann ist er auch nicht mehr schneller.

Wumbaba!

Ich weiß, ich habe in letzter Zeit wenig geschrieben. Das liegt daran, dass ich so viel unterwegs war, dass ich kaum die Zeit hatte, meine Erlebnisse einmal zu veröffentlichen. Heute Abend gibt es daher auch nur zwei schöne Fehler beim erkennen von Eigennamen:

Aus "Rechtsanwälte Wehr und Schäfer" macht Dragon NaturallySpeaking "Rechtsanwälte mehr und schärfer".

[2. Fehler wurde auf Anfrage entfernt]

Noch etwas: die neueste Version von Blogger arbeitet offensichtlich nicht mehr anständig mit dem Opera-Browser zusammen. Schon in der letzten Version gab es Probleme, die Opera relativ schnell beheben konnte, aber Google ist halt immer einen Schritt voraus mit der Technik und baut neue Fehler ein. Ich prangere das an und diktiere hiermit in Firefox! (und siehe da - alles funktioniert hervorragend. Ich sollte vielleicht umsteigen.)

09 März 2007

Neues Diktiergerät: Philips Digital Pocket Memo 9600 mit DSS Pro

Das neue Philips Digital Pocket Memo 9600 ist das erste Diktiergerät, das den neuen DSS Pro-Standard unterstützt. Als wichtigstes Merkmal lassen sich mit diesem Standard Diktate verschlüsseln – wenn die Speicherkarte mal wegkommt, kann die Diktate keiner abhören.

Nimmt man das Gerät in die Hand, fälllt zuerst die angenehme Haptik auf, die sehr an das Olympus DS-4000 erinnert. Mit den alten Pocket Memos bin ich nie richtig warm geworden; das 9600 liegt dagegen gut in der Hand, das Metall fühlt sich sehr angenehm an und der Schiebeschalter ist sehr angenehm zu bedienen. Auch die fünf Tasten auf der Vorderseite sind intuitiv zu bedienen. Das Display, angeblich das größte auf dem Markt, zeigt nicht nur die üblichen Informationen an, sondern auch die Belegung des Schiebeschalters – die lässt sich nämlich anpassen an den Olympus-, Grundig- oder Philips-Standard. Das 9600 funktioniert dabei wie ein Olympus-Gerät, dessen Schalter oben zur Aufnahme einrastet. Das 9620 hat dagegen den bekannten Philips-Schiebeschalter, der - wie auch der von Grundig - nach oben und unten gefedert ist, d.h. in der obersten Position nicht einrastet. Meine Wahl ist klar - ich brauche die Aufnahmeposition ganz oben, sonst vertue ich mich ständig.

Ein ganz cooles Feature ist die als Zubehör erhältliche LAN-Docking Station, die die Übertragung von Diktaten ohne PC ermöglicht. Man steckt das Gerät ein, und das Diktat wird verschickt. Wie genau, schaue ich mir heute auf dem Nuance-Event näher an.

Nachtrag: Die LAN-Station war leider noch nicht vorhanden.

27 Februar 2007

Das Ende der Mythen

Wer noch einmal mit einer hohen Tonqualität im Dragon-Audioassistenten angibt, sehe zuerst dies an - erreicht vom Kollegen Martin Müller aus der 4voice-Entwicklung!



Das Grundig Digta 415 Diktiergerät gibt es im 4voice-Shop zu kaufen :-)

Aber Obacht - ein Diktat war nach diesem Ergebnis nicht mehr ordentlich möglich.

Warum? Weil die "Tonqualität" in Wirklichkeit das Verhältnis von Geräusch (d.h. Sprache) und Nebengeräusch angibt, und weil die Aufnahmequalität so schlecht war, dass erst gar keine Nebengeräusche empfangen wurden. Dragon regelt die Aufnahmelautstärke so weit runter, dass beim Diktat nichts mehr ankommt.

Bevor Sie aber jetzt Ihre Bestellung widerrufen - der Fehler lag an einer Einstellung des Diktiergerätes. Die Voice Activation war eingeschaltet, und damit kamen diese Resultate. Nach der Deaktivierung war der Wert wieder normal (zwischen 15 und 20).

Was lernt uns das? Ein hoher Wert im Audio-Assistenten ist kein zuverlässiger Indikator für eine hohe Tonqualität vom Eingabegerät (ich hatte mal 36 mit einem Grundig ProMic, und die Erkennungsrate war auch nicht besser als sonst). Er kann im Gegenteil sogar ein Hinweis auf eine Fehlfunktion sein.

Geben wir uns also weiterin mit unseren Durchschnittswerten zufrieden und verwenden wir unsere Energie lieber, wie es im Training heißt, auf eine klare und deutliche Aussprache beim Diktieren!

26 Februar 2007

Sprachbefehle für Fortgeschrittene

Control your computer by voice - wie das gehen kann, zeigt Sean Wenzel auf seiner Website. Nicht für den Durchschnitts-Diktanten geeignet, eher für Technikbegeisterte.

23 Februar 2007

Und noch einmal: Hinzufügen von Wörtern zum Vokabular

Unerwartet viel Rückmeldung gab es auf meine Entdeckung, wie sich die Optionen von Dragon NaturallySpeaking so einstellen lassen, dass eine Korrektur dann und nur dann ins Vokabular übernommen wird, wenn sie über das Buchstabierfenster vorgenommen wird.

Kollege Patrick Staisch stellte beim Test fest, dass jede Änderung, die über das Dialogfeld "Optionen" in Dragon NaturallySpeaking gemacht wird, dafür sorgt, dass die von Hand gemachten Änderungen der Datei options.ini verloren gehen. Dies kann ich bestätigen - es reicht sogar aus, einfach nur das Dialogfeld "Optionen" aufzurufen und mit Klick auf "Okay" wieder zu schließen - man muss noch nicht einmal etwas verändern.

David Peters, dem ich den ersten Hinweis auf das Verhalten von Dragon NaturallySpeaking verdanke, auch einfach im Text von Hand vorgenommene Änderungen ins Vokabular zu übernehmen, freut sich verständlicherweise über den Hinweis und ergänzt, dass es vollkommen normal ist, dass Dragon NaturallySpeaking sämtliche Änderungen in der Datei options.ini überschreibt, sobald man im Dialogfeld "Optionen" irgendetwas verändert. Man hat also die Wahl, entweder dieses Dialogfeld zu verwenden (und dann nicht auf einige Funktionen zurückgreifen zu können) oder aber immer nur die Datei zu editieren.

Fazit: die einmal gemachten Einstellungen sollte man sorgfältig wählen und dann nicht mehr verändern. Außerdem gilt hier wie immer: bevor man eine Systemdatei editiert, sollte man ein Back-up von ihr machen.

Und für die nächste Version wünschen wir uns dann, dass man solche doch recht wichtigen Änderungen nicht nur durch editieren einer Systemdateien machen kann, sondern - wie in anderen Programmen üblich - in der Benutzeroberfläche. Und weil es eine Spracherkennung ist, vielleicht sogar per Sprachbefehl.

So, dieser Beitrag markierte ein kleines Jubiläum: Netznotiz Nummer 100! Glückwünsche werden gerne entgegengenommen.

19 Februar 2007

Neues DSS Pro-Format

NTZ Online berichtet über das neue DSSPro-Format für digitale Sprachaufzeichnungen, welches von den 3 großen Herstallern Olympus, Philips und Grundig entwickelt wurde. Eine höhere Abtastrate von 16 kHz und eine eingebaute Verschlüsselung scheinen die wesentlichen Neuheiten dieses Formats zu sein. Letzteres war ja auch mal nötig, damit man Diktate auch wirklich sicher per Mail versenden kann; ersteres ist explizit dafür bestimmt, Spracherkennung zu verbessern. Jetzt müssen sich nur noch die Hersteller herablassen, DSSPro auch zu unterstützen - was bei Nuance nach meinem Wissen noch nicht geplant ist.

Ein Player soll demnächst kostenlos bei den Herstellern erhältlich sein; im Moment habe ich aber nur die alte Software gefunden (und selbst die Pressemitteilung ist noch nicht überall online - da wirds wohl mal wieder was dauern).

Wie merkwürdig ist das denn?

Heute Morgen habe ich einen anderen Windows-Benutzer geladen, und Dragon NaturallySpeaking funktioniert ohne Schwierigkeiten. Diesen Beitrag diktiere ich. Wenn mir irgendjemand sagen kann, warum das Diktat mit dem einen Windows-Benutzer geht und mit dem anderen Windows-Benutzer nicht geht, wäre ich ihm sehr dankbar. Übrigens ist mir der Drache gerade schon wieder abgestürzt, aber ein Neustart hat das gelöst.

Und jetzt der Tipp des Tages: Befehle lassen sich auf einfache Weise trainieren. Man muss dazu gar nicht das Befehlscenter öffnen - es reicht vollkommen, wenn man im Menü "Wörter - trainieren" den Befehl eintippt, der trainiert werden soll, und dann das Training durchführt. (Natürlich kann man den Befehl nicht einfach diktieren - er würde dann ja ausgeführt werden.)

Noch ein Tipp: Trainieren Sie das Wort oder den Befehl in diesem Fenster so häufig, bis der graue Punkt, der normalerweise zu sehen ist, einmal kurz Grün aufleuchtet. Besser zweimal. Auf diese Weise habe ich sogar den ansonsten sehr störrischen Befehl "nimm zwei" in den Griff bekommen.

16 Februar 2007

Jetzt brauche ich auch mal Hilfe

Seit neuestem erkennt DNS 9 Pro zwar noch meine Sprachbefehle, aber nicht mehr mein Diktat. Ich bin im Standardmodus, also liegt es nicht an einem offensichtlichen Einstellungsfehler; weil die Befehle funktionieren, auch nicht am Headset o.ä. Neuinstallation und neuer Benutzer haben nicht geholfen. Wer weiß was? Antworten bitte an stephan [at] soldatkuepper.de!

15 Februar 2007

Video: Spracherkennung bei PC Pro

Das Video ist zwar nicht mehr ganz neu, aber immer noch aktuell: PC Pro-Redakteur Ingo Böhme führt Dragon NaturallySpeaking 9 vor. Als Einführung geeignet für alle, die "mal sehen wollen, ob es funktioniert".

Nuance bewirbt jetzt Spracherkennung als Tool für Blogger -

- und ich bin auch dabei!

Ungefragt natürlich, und ohne mich selbst eingetragen zu haben. Wer sich einträgt, bekommt ein Dragon Standard geschenkt - als ob ich das nötig hätte.

Ich gestehe: Ich diktiere nicht alles in diesem Blog. Wenn Nuacne mal den Opera Web Browser unterstützen würde, sähe das womöglich anders aus.

Nachtrag: Automatisches Hinzufügen von Wörtern beeinflussen

Noch ein Nachtrag: Anscheinend hatte ich mich im letzten Beitrag nicht deutlich genug ausgedrückt - die Änderungen in der options.ini, die ich vorschlage, haben mit DNS Comfort nichts zu tun, sondern beziehen sich nur auf DNS 9. In DNS 8 kann man allerdings mit einem ähnlichen Eintrag in der Options.ini einiges an Unheil verhindern (einfach die beiden genannten Zeilen einkopieren).

DNS Comfort geht einen Schritt weiter und bietet eine Übersicht über die hinzugefügten Wörter an. Die Schönheit daran ist, dass man entscheiden kann, was man wirklich behalten möchte, und damit einen besseren Überblick über das Vokabular hat. Ob man es braucht, ist wohl (wie so oft) eine Frage der persönlichen Vorlieben.

Eine kostenlose Testversion gibt es unter http://www.fachvokabulare.de. Dort ist auch beschrieben, was DNS Comfort sonst noch kann.

12 Februar 2007

Automatisches Hinzufügen von Wörtern beeinflussen

Bug oder Feature?

Hier und hier hatte ich schon einmal davon berichtet, dass Dragon NaturallySpeaking auch Wörter, die über die Tastatur korrigiert werden, unaufgefordert zum Vokabular hinzufügt - in Dragon NaturallySpeaking 9 kann man dieses Verhalten jetzt wenigstens abstellen. Dazu nimmt man unter "Optionen - Korrektur" den Haken vor "Wörter automatisch zum Vokabular Hinzufügen" raus.

Nachteil: auch Wörter, die ich über das Buchstabierfenster neu eingegeben habe, werden dann nicht mehr ins Vokabular übernommen. Es besteht nur noch die Möglichkeit, neue Wörter über "Vokabular bearbeiten" hinzuzufügen - nicht sehr schön.

Willy Sander hat ein Werkzeug bereitgestellt, welches zumindest die gröbsten Fehler bei der Übernahme neuer Wörter ins Vokabular beseitigt, aber das eigentliche Problem nicht löst: ich will nicht, dass Dragon NaturallySpeaking irgendetwas, was ich mit der Tastatur eingebe, versehentlich in den Wortschatz aufnimmt. Ich will aber, dass alle meine Korrekturen aufgenommen werden.

Abhilfe schafft da ein Eintrag in der Datei options.ini, zu finden unter: C:\Dokumente und Einstellungen\All Users\Anwendungsdaten\Nuance\NaturallySpeaking9\Users\[Benutzername]\current. Nimmt man wie beschrieben den Haken raus, werden zwei neue Zeilen in diese Datei geschrieben:

Automatically Add Words=0
Add Words on Correction=0

Ändert man diese Zeilen zu:

Automatically Add Words=0
Add Words on Correction=1

So werden Wörter, die über das Buchstabierfenster eingegeben werden, ins Vokabular übernommen; Wörter, die während des Diktats eingetippt werden, aber nicht. Somit haben wir endlich das Verhalten, das - zumindest mir - logisch erscheint.

08 Februar 2007

Berliner Zeitung : Bitte sprich nicht mit mir, Windows Vista!

Berliner Zeitung : Bitte sprich nicht mit mir, Windows Vista! / Wenn der PC zu brabbeln anfängt,...

Der Vista-Spracherkennungs-Bug ist jetzt auch in der Tagespresse angekommen und wurde auch gleich vom Kunden thematisiert. Meine Meinung dazu: wer mit offenem Schiebedach unter einem Tabenschlag herfährt, soll sich nicht wundern, wenn ihm was auf den Kopf fällt...

Abgesehen davon legen all diese Beiträge eine bemerkenswerte Ignoranz an den Tag, was die Arbeit mit Spracherkennung angeht. Wenn ich nicht diktiere, schalte ich mein Mikrofon ab. Dasselbe bringe ich auch all meinen Kunden bei. Und zwar nicht aus Angst von "präparierten Dateien", sondern wegen ganz normalen Nebengeräusche.
Also:

Nach dem Sprechen Mikrofon ausschalten.
Vor dem Schreiben Gehirn einschalten.

Ganz einfach, oder?

07 Februar 2007

Wumbaba!

Habe ich in diesem Blog schon auf das Buch "Der weiße Neger Wumbaba" von Axel Haake, mit wunderbaren Bildern von Michael Sowa, hingewiesen? In seiner Kolumne in der Süddeutschen Zeitung sammelte Haake über längere Zeit lustige oder skurrile Verhörer, darunter auch die titelgebenden Person ("... und aus den Wiesen steiget / der weiße Neger Wumbaba).

Bei dem Thema stößt man sehr schnell auf www.kissthisguy.com, eine Site, die Verhörer in Popsongs sammelt. Dort heißen solche Verhörer "Mondegreens" (hier steht warum). Um die deutsche Sprache nicht mit einem ihr phonetisch wie orthoepisch fremden, ohnehin ausgedachten Fremdwort zu überlasten, schlage ich als deutsches Äquivalent, hierin Haake folgend, "Wumbaba" vor - wobei im Kontext dieses Blogs explizit der "Verhörer" einer beliebigen Spracherkennungssoftware gemient sein soll.

Und hier ist auch schon mein Wumbaba des Tages:

Start bei Systemstart Firewall deaktivieren
schreibt Dragon so:
Staatsanwältin statt einer Orgie aktivieren

Tusch! Weitere Einsendungen gern an mich oder anonym als Kommentar.

Warnung aus mal wieder gegebenem Anlass: Keine Spracherkennung der Welt produziert Fehlerkennungen, die "zufällig" einen Link zu einer Porno- oder sonstwie gearteten Spamseite produzieren. Solche Beiträge werden weiterhin gnadenlos gelöscht.
 

01 Februar 2007

Gemein: Vista's Spracherkennung führt Befehle aus!

Vista Speech Command exposes remote exploit - derart investigativen Journalismus treibt man bei ZDnet. Wenn die Sprachsteuerung von Vista eingeschaltet ist, ein Benutzer den 
Lautsprecher weit genug aufdreht, gleichzeitig sein Mikro eingeschaltet hat und dann eine präparierte 
Audiodatei mit Sprachbefehlen öffnet, kann es sein, dass diese Sprachbefehle über das Mikrofon 
aufgenommen werden und dann natürlich auch ausgeführt werden. Damit könnte man z.B. - ja was für Gemeinheiten ausführen? Mir fehlt da anscheinend die kriminelle Energie, mir etwas auszudenken, nicht aber dem Kollegen von ZDnet und PCmag, de dies zu einem ernstzunehmenden Sicherheitsrisiko hochschreiben. Wobei die beiden auch nicht so genau wissen, was eine solche Datei dem Rechner sagen sollte - dazu müsste man ja auch wissen, wozu Sprachbefehle standardmäßig überhaupt in der Lage sind.

Jedenfalls fordert man, dies Feature unbedingt abzustellen, ein Kommandowort vorzuschalten (als ob man das 
nicht in besagter Audiodatei speichern könnte), und PCmag versteigt sich sogar zu der Frage, "warum Microsoft überhaupt gestattet, dass Sprachbefehle für Vista vom eigenen Computer kommen dürfen." Ja woher soll das Mikrofon denn wissen, wer da redet?

Und jetzt der Schocker: Das geht auch mit Dragon Professional. Seit Jahren. Nur hat Dragon nicht so eine schlechte gute Presse wie Microsoft. Schicken Sie mir mal eine schöne Audiodatei, ich probier dann aus. was Sie mit meinem Rechner für Gemeinheiten planen.

(über Fefe's Blog mit Dank an R. Murschall und PC Mag mit Dank an R. Jaekel)

24 Januar 2007

c't-Bericht: Spracherkennung

 "Die Spracheingabe von Windows Vista tritt gegen etablierte Diktiersysteme an" - so titelte die c't in ihrer Ausgabe 3/2007. Der vierseitige Bericht über die drei derzeit am Markt erhältlichen Spracherkennungssysteme - Dragon NaturallySpeaking Preferred, Linguatec VoicePro und die Spracherkennung von Windows Vista - gibt einen recht ausführlichen Überblick über den Nutzen der jeweiligen Systeme für Einzelanwender. Außerdem wird zum ersten Mal die Windows Vista-Spracherkennung wirklich ausführlich mit den bereits bekannten Systemen verglichen.

Ohne jetzt ins Detail gehen zu wollen, zeigt sich, dass Dragon NaturallySpeaking nach wie vor das überlegene System ist. Linguatec VoicePro ist dagegen technisch abgeschlagen, was daran liegt, dass IBM das Produkt nicht mehr wirklich weiterentwickelt. Der einzige Vorteil ist das mitgelieferte 
Headset (Sennheiser PC 25).

Windows Vista liegt in der Mitte - gelobt wird die Erkennungsrate (wie bekannt) und die Möglichkeit, den PC per Sprache zu steuern. Dieses wird sogar als die eigentlich herausragende Funktion der Spracherkennung in Windows Vista genannt, weil das Diktat in Nicht-Microsoft-Anwendungen nämlich schlicht und ergreifend nicht funktioniert. Auch werden viele Headsets nicht unterstützt - ein Fakt, auf den Michael Spehr bereits in seinem Test hingewiesen hat (siehe unten). Positiv hervorgehoben wird die Bedienung und die schlanke Oberfläche, gegen die die beiden anderen Programme "antiquiert" wirken.

Endlich wissen wir auch, dass einige andere Funktionen in Windows Vista nicht enthalten sind. So können keine Diktate vom Diktiergeräte umgesetzt werden, das Vokabular kann nicht exportiert werden und wird auch nur mit großen Mühen bearbeitet, einige schnelle Formatierungsfunktionen während des Diktierens fehlen ganz, und auch Makros können nicht definiert werden. Schließlich ist es auch nicht möglich, ein Diktat zwischenzuspeichern und später zu korrigieren. Selbstverständlich kann der Text gespeichert werden, die Aufnahme jedoch ist verloren - was bei Dragon NaturallySpeaking Preferred auch der Fall ist und der Professional-Version vorbehalten bleibt. Von den preiswerten Spracherkennung kann das nur Linguatec VoicePro. Da allerdings bei diesem Programm sämtliche Netzwerkfunktionen fehlen, ist es auch nicht wirklich als Alternative für einen professionellen Diktanten geeignet, der nicht viel Geld ausgeben möchte.

Und das ergänzt Michael Spehr:

nach längerem Arbeiten mit der Vista-Spracherkennung komme ich immer mehr zu dem Eindruck, dass sie nur Teil einer Sprachbedienung des Betriebssystems ist und damit a) sich an Behinderte richtet und b) was die Business-Funktionen betrifft, nur den Funktionsumfang einer Light-Version hat. Es ist wirklich kein Ersatz für den Drachen, inbesondere weil man bei der Korrektur nicht eben schnell einen Eigennamen via Tastatur eingeben kann. Tut man das, lernt das System nicht dazu. Begriffe mit Umlauten bekommt man im Buchstabiermodus nur ganz schlecht hin. Insofern kann man also nicht mit Dragon vergleichen. Korrektur durch eine Sekretärin: m.W. nein, Netzwerk: nein, Vokabular-Werkzeug: nur rudimentär.
Profis, bleibt dem Drachen treu!

23 Januar 2007

Elektronischer Dolmetscher in Albuquerque

Reaching Across the Language Barrier
- titelt das Speech Technology Magazine im November/Dezember 2006. Vorgestellt wird ein System, mit dem die Polizei von Albuquerque, New Mexico, mit dort auffällig gewordenen Personen kommuniziert, die nur spanisch und kein Englisch sprechen.

Es handelt sich um eine Kombination aus maschineller Übersetzung und Spracherkennung: der Polizist beziehungsweise die zu vernehmende Person spricht in den Computer, die spracherkannte Äußerung wird über ein Übersetzungsprogramm in die andere Sprache übertragen. Es zeigt sich, dass die Polizisten eine Erfolgsquote von 100% haben, ihre Kunden allerdings nur von ungefähr 70%. Das wird damit begründet, dass die Polizisten sowohl die Spracherkennung auf ihre Art zu sprechen trainieren konnten wie auch solche Äußerungen zu bilden gelernt haben, die von der maschinellen Übersetzung einfach übertragen werden können, während dies natürlich bei den Leuten, die vernommen werden, nicht der Fall ist - abgesehen davon, dass einige von ihnen natürlich wenig kooperationsfreudig sind.

Man mag zu dem Projekt stehen, wie man will, aber technisch zeigt es, dass ein automatischer Dolmetscher offensichtlich inzwischen wirklich praxistauglich ist. Allerdings wird auch ganz genau definiert, wofür er taugen muss: es geht nicht um grammatikalische Korrektheit, sondern einfach darum, den Inhalt einer Aussage verständlich in die Zielsprache zu übertragen. Somit misst sich der Erfolg an der gelungenen Kommunikation beziehungsweise der gelungenen Übertragung der Sprecherintention, nicht an irgendetwas anderem.

Nicht das schlechteste Kriterium - vor allen Dingen eines, was in der Praxis taugt, und von den Diskussionen über irgendwelche Prozentzahlen ablenkt. Es kommt halt immer darauf an, wozu man ein Werkzeug einsetzt.

Lieferant ist übrigens SpeechGear, Inc., das Produkt heißt Interact speech translation system. Wenn man sich anschaut, was die sonst noch haben, ist das entweder eine der heißesten Entwicklungsfirmen auf dem Sprachenmarkt oder der größte Produzent von Vaporware (oder warum kann ich nur die Hälfte der Produkte tatsächlich bestellen?) Zu den Partnern gehören u.a. PROMT und Nuance - das kann nicht ganz schlecht sein :-)

18 Januar 2007

Software-Konzern: Weltspitze im Gespräch mit dem Rechner - Wirtschaft - SPIEGEL ONLINE - Nachrichten

Spiegel Online über die Geschichte von Visioneer - Scansoft - Nuance, OCR, sprecherbhängige und -unabhängige Software. Wer sich für das Unternehmen hinter dem Drachen interessiert, erhält hier die Fakten schön aufgeführt, und auch die Absichten für die nächsten Jahre - u.a. die Hardware-Anforderungen zu senken. Da ist DNS 9 ja schon ein Schritt in die richtige Richtung :-)

Instrument der Kundenbindung

"Kommen Sie solide rein" - das hat mit diesem Blog nicht ganz geklappt. 
Kaum war der letzte Beitrag abgeschickt, wurde ich von Blogger abgemeldet - wegen Spamverdacht. Es gebe viele Blogs, die nur den Zweck verfolgten, Links auf kommerzielle Seiten zu setzen, damit die Ergebnisse von Suchmaschinen verfälschten usw. - und ich sei im Verdacht, genau dies zu tun. Ein Blick auf einen Kommentar zu meinem letzten Post zeigt tatsächlich, dass sich hier jemand eingeschlichen hat, der genau dies tat und jede Menge italienischer Porno-Links eingetragen hat - und ich muss drunter leiden :-( 

Heute morgen dann die Entwarnung: ich darf weiter posten, dieses Blog wurde als nicht-kommerziell oder zumindest als nicht-spammend eingestuft. Was es ja auch ist. Suchmaschinen-Marketing habe ich lange genug gemacht, um die Tricks zu kennen und zu wissen, welche man besser nicht anwendet, wenn man an langfristigem Erfolg interessiert ist. Und eine (inzwischen von mir entfernte) Linkliste zu dubiosen Seiten ist, wie man sieht, kein Mittel für lang anhaltenden Erfolg.

Jetzt will ich gar nicht leugnen, dass dieses Blog aus kommerziellen Interessen entstanden ist. Wenn jemand, der mit Spracherkennung Geld verdient, ein Blog über Spracherkennung macht, 
dann natürlich auch mit dem Hintergedanken, Kunden zu binden und evtl. neu zu werben. In der letzten Zeit ist dies allerdings für mich in den Hintergrund getreten; diese Site entwickelt sich mehr zu einem Kommunikationsweg mit anderen Anwendern, von denen einige auch mal Kunden waren. Ist das so okay?

Ein Kommentator wünscht sich mehr Tipps für Sprachbefehle. Bitte sehr:

"Schreib das als Zahl" wandelt die Zahlwörter von eins bis neun in Ziffern um, und zwar ALLE Zahlwörter in der letzten Äußerung. Beispiel:

- "Um Eierkuchen zu backen, brauche ich ein"
- "Schreib das als Zahl"
-> "Um Eierkuchen zu backen, brauche ich 1"
... "Ei und zwei"
- "Schreib das als Zahl"
-> "Ei und 2"
... "Esslöffel Mehl pro Person."

Das ist umständlich und langsam, also sprechen Sie den Satz mutig in einem Atemzug durch und dann erst den Befehl. Das funktioniert genauso gut:

- "Um Eierkuchen zu backen, brauche ich ein Ei und zwei Esslöffel Mehl pro Person."
- "Schreib das als Zahl"
-> "Um Eierkuchen zu backen, brauche ich 1 Ei und 2 Esslöffel Mehl pro Person."

Zahlenformatierung ist überhaupt ein weites Feld - demnächst mehr davon. Als Instrument der Kundenbindung lebt dieses Blog ja davon, dass Sie regelmäßig was zu lesen haben, da will man nicht all sein Pulver auf einmal verschießen...

02 Januar 2007

 "Kommen Sie solide rein!" und "Betrunken ist man erst, wenn man nicht mehr liegen kann, ohne sich festzuhalten" - zwischen diesen Ratschlägen spielte sich mein Übergang ins Neue Jahr ab. Ab heute bin ich also wieder solide und berichte weiter in unregelmäßigen Abständen aus der schönen Welt der Spracherkennung und des digitalen Diktierens.

Blogger ist inzwischen auf eine neue Version umgestiegen, so dass ich vor kurzem auch das Design des Blogs geändert habe. Leider ist das neue Blogger noch im Beta-Stadium, so dass es manchmal Probleme mit dem Layout, besonders mit den Zeilenumbrüchen, gibt. Das bitte ich zu entschuldigen.  (Sehen Sie, was ich meine? :-)

Was mich angeht, so dürfte sich inzwischen herumgesprochen haben, dass ich im November 2006 von abitz.com zur 4voice AG gewechselt bin. Dort mache ich technischen Vertrieb, d.h. kümmere mich darum, dass unsere 
Kunden auch wirklich das System erhalten, was sie brauchen. In den ersten zwei Monaten hieß das konkret:
reisen und installieren. War nicht so geplant, hat auch dazu geführt, dass die Beiträge hier seltener geworden sind, soll aber demnächst mal wieder anders werden. 

Auf jeden Fall habe ich für alle Anfragen ein offenes Ohr, auich wenn die Antwort manchmal etwas länger dauert. Ich gebe auch gern weiterhin Tipps "off the record", also ohne spezifisches Verkaufsinteresse. Allerdings muss ich auch sagen: Wenn ich nicht überzeugt wäre, dass 4voice tatsächlich eine sinnvolle Lösung für Spracherkennung in einem professionellen Umfeld mit mehreren Arbeitsplätzen, evtl. Korrekturplätzen usw., böte, wäre ich nicht gewechselt. Vielleicht schreibe ich ja demnächst mal was darüber, was wir besser machen als Nuance, bzw. wo wir dem Drachen auf die Sprünge helfen (mein Chef wirds mir danken :-).

Jetzt über den eigenen Tellerrand hinaus:

Im letzten Jahr hat im Bereich Spracherkennung v.a. Microsoft von sich reden gemacht. Die Spracherkennung in Windows Vista wird allgemein gelobt, auch wenn sie offenbar noch nie jemand wirklich im Einsatz hatte - auch ich nicht; meinen neuen Rechner habe ich ein paar Wochen vor der Vista-Einführung erhalten. Es gibt bei Microsoft jetzt eine neue Community, in der Vista Spracherkennung 
genauer beschrieben wird.

Auch Nuance hat mit Dragon NaturallySpeaking 9 eine neue Version auf den Markt gebracht, die die ohnehin gute Spracherkennung noch einmal verbessert hat, aber nichts wirklich revolutionär neues brachte. 
Dies ist aber auch nicht unbedingt zu erwarten, solange man das Haupteinsatzgebiet im Diktieren sieht. Hier ist die Technik weitgehend ausgereizt; es kann nur noch darum gehen, die Erkennung auch für den letzten Stotterer (no offence meant) noch zu optimieren.

Der Dritte im Bunde, IBM, hat sich aus dem Diktiergeschäft de facto verabschiedet. Nur Linguatec hört nicht auf, dem Eindringling Widerstand zu leisten aus alter Freundschaft ViaVoice weiterzuvertreiben, und hat in der Version 11 die dialektalen Varianten des Deutschen besser eingearbeitet. Somit ist vielleicht nicht jeder Stotterer, aber mancher Niederbayer jetzt mit Linguatec Voice Pro 11 besser bedient als mit dem Vorgänger.

Das Urteil der Jury lautet aber nach wie vor: Dragon ist der Platzhirsch. Uneinig ist man sich jedoch, wie die Vista-Spracherkennung wirken wird - ob MS "den Netscape macht", ob - wie ich befürchte - eine Reihe Heimanwender Spracherkennung ausprobiert und erfolglos wieder sein lässt (und damit allen Herstellern schadet), oder ob Vista der Spracherkennung zum Durchbruch verhelfen könnte. Ich sehe eine Chance v.a. in der Sprachsteuerung, die bei Dragon bisher unterschätzt wurde. Nicht, weil sie nicht möglich ist - im Gegenteil, mit der Dragon-eigenen Skriptsprache ließen sich auf Wunsch ganze Anwendungen schreiben. Aber viele Anwender kennen nicht einmal den Befehl "geh schlafen", oder wenigstens die Taste zum Ein- und Ausschalten des Mikros (die Plus-Taste am Nummernblock - jetzt wssen Sie es auch), sondern klicken tatsächlich brav mit der Maus auf das Symbol oben links in der Ecke.

Ach, wenn man wollte, wie man könnte! Dann würde ich allen meinen Kunden - sei es meinen alten Bekannten von abitz.com, sei es meinen neuen Profidiktierern aus dem 4voice-Kundenstamm - Sprachbefehle beibringen, dass der Cursor nur so tanzt. Fangen wir doch einfach zum neuen Jahr mal an:
"verbinde [Wörter]"
vereinigt zwei (oder mehr) Wörter zu einem - und setzt im Zweifel sogar ein korrektes Fugen-S! Probieren Sie es aus: 

"Das Neujahr Konzert der Berliner Philharmoniker"
verbinde Neujahr Konzert
"Das Neujahrskonzert der Berliner Philharmoniker"

Ein, wie der Berliner wünscht, gesundes Neues Jahr Ihnen allen, und Dank an alle Leser, Beiträger, Kommentatoren!