01 September 2015

Neuigkeiten bei Nuance



1. Dragon Professional Individual

Dragon Professional Individual ist ein neues Produkt, das zwischen die Premium und Professional fällt. Es wendet sich an professionelle Einzelanwender, die Sprachbefehle einsetzen, Diktate automatisiert vom Diktiergerät umsetzen wollen, aber keine Netzwerkfunktionen brauchen, keinen Server zur Verfügung haben. Für Installationen in größeren Umgebungen mit einem Server und mehreren Anwendern ist diese Version nicht gedacht; hier wird Dragon Professional GROUP empfohlen (siehe unten).
Für jetzige Premium-Anwender gibt es Updates auf Professional Individual, Anwender der Dragon Professional oder Legal sollten auf die Professional GROUP warten.
·         Veröffentlichungstermin in Deutschland voraussichtlich 15. September; in Großbritannien und USA bereits angekündigt
·         Funktionsumfang liegt zwischen dem der Premium und der jetzigen Professional:
  • Sprachbefehle: Text und Grafik, Schritt-für-Schritt, Makrorecorder, Skriptbefehle
  • verbessertes Befehlscenter
  • verbessertes Lerncenter über „was kann ich sagen“
  • Definition von Worteigenschaften und Export benutzerdefinierter Wörter mit geänderten Eigenschaften als XML-Datei
  • Benutzer können mehrere Vokabulare haben
  • Autoumsetzung zur Umsetzung von digitalen Diktaten im Hintergrund
  • Integrationsmöglichkeit von Dragon Anywhere (siehe unten)
  • speichern von DRA-Dateien zur nachträglichen Korrektur
  • Möglichkeit der Transkription von Audioaufnahmen eines untrainierten Sprechers, zum Beispiel Podcasts, Mitschnitte von Vorträgen usw.
  • Keine Möglichkeit der Transkription von Interviews mit mehreren Partnern
  • keine Netzwerkfunktionen wie Roaming User und Datenverteilungsverzeichnis

2. Dragon Anywhere

Dragon Anywhere ist eine App für mobile Geräte (Smartphones und Tabletts), die unterwegs professionelles Diktat gestattet. Im Gegensatz zu Siri können unbegrenzt lange Texte diktiert werden; es ist möglich, den eigenen Wortschatz zu ergänzen und zu kontrollieren. Über eine Synchronisationsfunktion können die hinzugefügten Wörter mit einer Desktop-Version von Dragon synchronisiert werden, sofern diese Dragon Anywhere unterstützt.
  • Veröffentlichungstermin in den USA Ende September, in Deutschland voraussichtlich im nächsten Jahr
  • Diktat auf Mobilgeräten (iOS und Android)
  • Möglichkeit, benutzerdefinierte Wörter hinzuzufügen
  • Synchronisation mit Desktop-Versionen (zunächst Dragon Professional Individual und Dragon für Mac 5)
  • eigener Client zum Diktat mit Exportmöglichkeit nach Word und Evernote
  • Spracherkennung findet in der Cloud statt, wahrscheinlich auf amerikanischem Server
  • noch kein Vertriebsmodell für Deutschland entwickelt, soll aber über zertifizierte Partner vertrieben werden

3. Dragon für Mac 5

Der Nachfolger von DragonDictate 4 enthält einen Anschluss an Dragon Anywhere,
·         Veröffentlichungstermin in den USA September 2015, in Deutschland demnächst
  • Synchronisation mit Dragon Anywhere
  • verbesserte Unterstützung des eingebauten Mikrofons
  • Import und Export von Wortlisten
  • Unterstützung von Diktiergeräten
  • Steuerung des Computers per Sprache
  • Erstellung von Text und Grafikbefehlen
  • Erstellung von Steuerungsbefehlen
  • Unterstützung für Word 2016
  • transkribierte Dateien können als Microsoft Word-Dokumente gespeichert werden
  • verbessertes Interface

4. Dragon Professional GROUP


Für Firmenanwender wird Anfang 2016 Dragon Professional GROUP erscheinen, der Nachfolger der jetzigen Professional 13 mit erweiterten Verwaltungsmöglichkeiten im Netzwerk und der Unterstützung von Citrix-Umgebungen. Details sind noch nicht bekannt.

  • Nachfolger der Dragon Professional 13
  • auch als Legal-Version erhältlich
  • Roaming User
  • Möglichkeit zum Speichern von DRA-Dateien
  • Korrekturmodus
  • administrative Einstellungen
  • Remote Installation über MSI
  • Data Distribution Tool
  • Unterstützung von Remote Desktop-Verwendungen
  • Unterstützung für publizierte Anwendungen in Citrix virtualisierten Umgebungen
  • Synchronisation mit Dragon Anywhere im Unternehmen über das Nuance User Management Center
  • Nuance User Management Center (optionale Verwaltungskonsole) erlaubt die zentrale Verwaltung von Benutzern, Lizenzmanagement usw. 
  •  nur im Lizenzverfahren erhältlich, aber ab einem Anwender

Diese Informationen basieren auf den Informationen, die Nuance für die US-amerikanische und britische Version bereitgestellt hat. In Deutschland können einzelne Features von denen der englischen Versionen abweichen, alle Angaben sind daher ohne Gewähr.

09 Juni 2015

Dragon Medical Practice Edition 3 ist da

Soeben eingetroffen: die neue Dragon Medical Practice Edition 3. Auch Ärzten steht jetzt die hervorragende Erkennung und die stabile Laufleistung der neuesten Dragon-Engine zur Verfügung, die schon in Dragon NaturallySpeaking 13 hervorragende Dienste tat.
Natürlich hat die Dragon Medical Practice Edition 3 alle neuen Merkmale von Dragon NaturallySpeaking 13: eine komplett neu designte Dragon-Leiste, eine vereinfachte Benutzerführung beim Anlegen von Sprecherprofilen, endlich eine intuitive Verwaltung verschiedener Diktierquellen, und – ganz wichtig – uneingeschränkte benutzerdefinierte Befehle, also Sprachbefehle, die freies Diktat enthalten können. Damit bietet die Dragon Medical Practice Edition 3 (DMPE 3) einen noch schnelleren und besseren Einstieg in die Spracherkennung für Ärzte sowohl in der Praxis als auch in der Klinik. Das Diktat wird einfacher und genauer; die Bedienung passt sich besser den unterschiedlichen Ansprüchen an.
Darüber hinaus bietet die DMPE 3 aber auch zusätzliche Features, die besonders für Mediziner interessant sein dürften und in Dragon NaturallySpeaking Professional und Legal nicht enthalten sind:
  • Das Diktat in alle gängigen medizinischen Fachanwendungen wird unterstützt. Mithilfe des Diktierfenster kann auch in Fachanwendungen diktiert werden, die ansonsten nicht spracherkennungsfreundlich sind.
  • Das Diktierfenster kann transparent oder verborgen eingestellt werden. Damit ist ein Diktat auch dann möglich, wenn der Cursor in einer anderen Anwendung steht, z.B. Bilder befundet werden.
  • Optional kann das Diktierfenster auch zur Anwendung verankert werden und beim Diktat in nicht unterstützte Textfelder automatisch geöffnet werden.
  • Integration des Nuance PowerMic 2 ohne weitere Treiber
  • wenn ein medizinischer Wortschatz geladen ist, stehen zusätzliche Formatierungsmöglichkeiten zur Verfügung, z.B. für Wirbelkörper, Gradzahlen, alle möglichen Abkürzungen.
  • im Vokabular-Editor gibt es einen zusätzlichen Eintrag unter „Anzeige“: Wörter mit benutzerdefinierten Eigenschaften
  • Eine Exportmöglichkeit für Wörter mit benutzerdefinierten Worteigenschaften ermöglicht es, auch die Wörter in einer XML-Datei zu exportieren, die im Standard-Vokabular enthalten waren und deren Worteigenschaften vom Benutzer angepasst wurden. Dieses Feature wurde schon häufig vermisst und ist nun endlich erhältlich.
  • Im Befehlscenter gibt es ein zusätzliches Menü „Aufgabenliste“
  • Ist ein medizinischer Wortschatz geladen, werden jetzt endlich Zahlen und Daten zwischen 21 und 29 zuverlässig erkannt!
Folgende medizinische Fachwortschätze sind enthalten:
  • Chirurgie
  • Kardiologie
  • Medizin (Allgemeine und Innere Medizin)
  • Neurologie
  • Orthopädie
  • Psychiatrie
  • Radiologie
Außerdem gibt es einen allgemeinen deutschen Wortschatz, z.B. für das Diktat von Privatbriefen, oder auch um die Praxisverwaltung per Sprache erledigen zu können.
Die Systemvoraussetzungen für Dragon Medical Practice Edition 3 sind gegenüber der Version 2 praktisch gleich geblieben. Die DMPE 3 läuft auf jedem halbwegs modernen Rechner mit 4 GB Arbeitsspeicher oder mehr. Die Betriebssysteme Windows XP und Windows Vista werden jedoch nicht mehr unterstützt.
Hier finden Sie die Pressemitteilung von Nuance zum Release der DMPE 3!
Die Dragon Medical Practice Edition 3 ist exklusiv im zertifizierten Fachhandel erhältlich. Hier finden Sie eine Liste aller zertifizierten Händler.

17 Februar 2015

Fernseher hört mit

In den letzten Tagen machte eine Meldung die Runde durch diverse Medien: Samsung-Smart TVs haben einen Passus in den Allgemeinen Geschäftsbedingungen, in dem der Käufer zustimmt, dass seine Gespräche im Wohnzimmer von einer Spracherkennung verwertet und auf einem Server verarbeitet werden.

Die Reaktion, die dem Autor des ursprünglichen Tweets zuerst einfiel, war natürlich „1984“. So wurden dann auch in diversen Online-Medien die Artikel aufgemacht und kommentiert.

Die FAS hat in ihrer aktuellen Ausgabe einen Artikel, der das Problem sehr viel differenzierter anspricht – und z.B. sehr zu Recht darauf hinweist, dass die Spracherkennungsfunktion des Fernsehers überhaupt erst durch eine Taste oder ein Kodewort aktiviert werden muss, und dass viele Funktionen auf dem Fernseher selbst laufen, also überhaupt nicht an irgendwelche mysteriösen und deswegen gefährlichen Server übertragen werden müssen. Insofern können wir jetzt alle aufatmen und in unseren Wohnzimmern wieder persönliche Gespräche führen :-)

Im Zusammenhang mit dieser Meldung lässt sich außerdem wieder einmal ein weit verbreitetes Missverständnis feststellen, das symptomatisch für den Umgang mit Spracherkennung ist, nämlich die Annahme, sie habe etwas mit künstlicher Intelligenz zu tun.

"Der Clou sind vielmehr einige Extras, die ihre Nähe zu Apples kluger Sprachassistentin Siri nicht leugnen können. Wie Siri eine inhaltliche und semantische Analyse des Gesagten bietet, um mehr Variabilität bei Eingaben und Kommandos zu erlauben, soll auch der Fernseh-Spracherkenner ein persönlicher Assistent werden, etwa mit Dragon TV, das Nuance in Amerika anbietet."
Für die Anwendung selbst, also den Fernseher, der sich per Sprachbefehl steuern lässt, mag das sogar gelten. Die Spracherkennung ist aber an dieser Stelle nichts anderes als ein Frontend, das der Fernbedienung (hoffentlich) überlegen ist. Wer schon einmal auf dem Smart TV versucht hat, ein bestimmtes YouTube-Video zu finden, weiß was ich meine: man klickt sich mit Cursortasten durch ein Alphabet und braucht für die Eingabe länger, als das Video anschließend dauert. Hier ist Spracherkennung eine echte Alternative.

Was Spracherkennung aber von sich aus nicht leistet, ist das Verständnis dessen, was gesagt wird! Nach aktuellem Stand der Technik ist Spracherkennung ein rein statistischer Prozess, der einer Lautfolge die wahrscheinlichste Zeichenfolge zuordnet. Dass die Spracherkennung dabei nicht versteht, was gemeint ist, sollte jedem klar sein, der einen Erkennungsfehler einer Maschine mit einem menschlichen Verhörer vergleicht: der Mensch unterliegt immer der Annahme des in Konstanz, d.h. wir versuchen aus jeder Äußerung eine Bedeutung herauszufiltern. Deswegen würde ein Mensch, der ein Diktat transkribiert, das Wort „Verhörer“, selbst wenn es nicht kennt, niemals als „vor Hörer“ wiedergeben, wie meine Spracherkennung dies soeben getan hat. „Mit einem Menschen vor einem Hörer vergleichen“ wäre zwar inhaltlich absurd, aber zumindest grammatikalisch korrekt, und wenn wir ehrlich sind, können wir uns alle an genügend ähnliche Beispiele erinnern (siehe auch diese Posts über menschliche und maschinelle Verhörer). Die „inhaltliche und semantische Analyse des Gesagten“ ist vollkommen unabhängig davon, ob die Eingabe über ein Mikrofon oder eine Tastatur erfolgt. Damit der Computer die Frage „Wie alt ist meine Schwester?“ korrekt beantworten kann, kommt es nicht darauf an, dass er meine Sprache korrekt versteht, sondern dass er zumindest folgende Auskünfte gespeichert hat:

  1. Wer ist gemeint mit „ich“?
  2. Hat diese Person eine Schwester?
  3. Wann wurde diese geboren?
  4. Welches Datum ist heute, und wie ist die Differenz?

Dass es Maschinen gibt, die in der Lage sind, diese Frage zu beantworten, mag ein bezeichnendes Licht auf den Umgang mit unseren Daten werfen, hat aber mit Spracherkennung im wahrsten Sinne des Wortes nur an der Oberfläche zu tun. Spracherkennung ist eben kein Sprachverständnis!