Dragon NaturallySpeaking: Neue Erweiterung „Lifestyle SpeechPack“

In einem Newsletter von Nuance angekündigt ist soeben eine Erweiterung für Dragon NaturallySpeaking herausgekommen: Lifestyle SpeechPack. Die Erweiterung ergänzt die Spracherkennungssoftware mit Befehlen für folgende Programme

  • AudaCity
  • iTunes
  • Live messenger
  • Skype
  • Thunderbird
  • Yahoo messenger

Auf der deutschen Website von Nuance lässt sich die Erweiterung jedoch noch nicht finden (wahrscheinlich ein Anzeichen dafür, dass das Produkt bis jetzt nur auf Englisch erhältlich ist) im deutschen Onlineshop kann man die Erweiterung (mit englischer Beschreibung) jedoch um 18 Euro kaufen.

Der optimale PC für Spracherkennungssoftware

Welchen Computer für Dragon NaturallySpeaking 11?

Als einer der auf Spracherkennungssoftware angewiesen ist, möchte ich natürlich beim Kauf eines neuen Computers wissen, welche Faktoren für Genauigkeit und Geschwindigkeit von Spracherkennungssoftware (Dragon NaturallySpeaking 11) ausschlaggebend sind. So frage ich mich, soll es ein 4-Kern-Prozessor oder doch ein 6-Kern-Prozessor sein? Wie viel Arbeitsspeicher (RAM) ist nötig? Ist eine SSD ausschlaggebend?
Nachdem ich mich im Web für Antworten darauf auf die Suche gemacht habe, bin ich reichlich fündig geworden: vor alllem bei den KnowBrainer Speech Recognition-Foren. In ihnen findet man eine reichhaltige Quelle rund um das Thema und aufgrund von professionellen Spracherkennungssoftware-Nutzern bekommt man fundierte Auskünfte rund um alle Fragen zum Thema Spracherkennung (vor allem zu Dragon NaturallySpeaking). Die Foren sind sehr zu empfehlen.

Nun zu meiner speziellen Frage, der Auswirkung von Prozessor und Arbeitsspeicher auf Erkennungsgeschwindigkeit der Spracherkennungssoftware. Nach fundierter Antwort auf meine Frage im Forum (mein Thread ist hier nachzulesen), weiß ich nun so einiges mehr:
Beim Prozessor ist nicht vorrangig die Kern-Geschwindigkeit ausschlaggebend, sondern vielmehr der L2/L3-Cache. Spracherkennung ist ein linearer Prozess, somit ist der Einsatz von möglichst vielen Kernen nicht unbedingt von Vorteil (so erklärt es Benutzer „Chucker“, ein – wie es scheint – recht erfahrener Nutzer). Prozessoren wie die Core i7-Serie bei Intel oder die neuesten Prozessoren von AMD sind erst auf „multicore/multithreading processing“ optimiert, da sie auch L3-Cache besitzen (Dual Core Prozessoren besitzen diesen nicht). Der Level 3-Cache ist Zwischenspeicher für die vom Prozessor am häufigsten genutzten Prozesse und kennzeichnet sich vor allem dadurch aus, dass alle Kerne auf ihn zugreifen können – im Gegensatz zum Level 2-Cache, der nur vom jeweiligen Kern verwendet werden kann (…sofern ich das richtig verstanden habe…). Da der Prozessor-Cache um ein tausendfaches schneller als der Arbeitsspeicher abgegriffen werden kann, ist es von Bedeutung einen möglichst großen Level 3-Cache zu haben, da so der Prozessor schneller arbeiten kann. Mehr von Bedeutung ist der Zwischenspeicher – ob Prozessorcache oder RAM.
In Bezug auf Arbeitsspeicher (RAM) empfiehlt das Forum bei Verwendung von Windows 7 64 Bit mindestens 6 GB. Die 64 Bit-Version von Windows 7 ist ohnehin schon speicherhungrig, und Dragon NaturallySpeaking kann nur so schnell arbeiten, wie auch Windows 7 es kann. Mehr als 8 GB hält das Forum nicht vonnöten.

Weil ich es zu Beginn erwähnt habe: Eine SSD ist für Dragon NaturallySpeaking zu vernachlässigen, da sich eine Schreib/Lese-Geschwindigkeit der Festplatte nur beim Laden und Speichern des Benutzerprofils auswirkt, nicht aber während des Arbeitens/Erkennens.

Viel wichtiger – und das scheint überhaupt das Wichtigste zu sein – ist die Art der Sprechweise. Wie es ein Nutzer meint, ist die Erkennungsgenauigkeit und Geschwindigkeit zu 70 % von der eigenen Sprechweise abhängig, so ziemlich gleichgültig bei welcher Hardware. Das heißt soviel wie: deutlich sprechen, gut artikulieren, nicht murmeln, dialektfrei, nicht zu geschwind (aber auch nicht zu langsam – eben natürlich), in ganzen Sätzen (im Gegensatz zum Tippen also den vollständigen Satz schon vorher im Kopf haben). Aus eigener Erfahrung weiß ich, dass es ein anderer Schreibprozess ist, mit Spracherkennungssoftware zu arbeiten. Im Besonderen ist es wichtig, vor dem Diktat schon den ganzen Satz, oder zumindest den Teilsatz im Kopf zu haben, um so der Software die Möglichkeit zu geben, sich auch nach dem Kontext orientieren zu können (so wie es auch wir Menschen tun). Das Erkennen einzelner Wörter ist für die Spracherkennungssoftware bedeutend schwieriger.
Zu Beginn bedarf dies unter Umständen einiger Umstellung, zahlt sich im Endeffekt aber durch weniger Erkennungsfehler aus.

Der letzte wichtige Teil für erfolgreiche Spracherkennung ist die Verwendung eines geeigneten Mikrofons und vor allem auch eines hinreichenden Audiointerfaces. Die Wahl des Mikrofons ist sehr stark auch eine persönliche Entscheidung die sich vor allem nach Verwendung und Zweck ausrichtet. In den KnowBrainer-Foren werden hierzu ausreichend Tipps gegeben. Außerdem gibt es auch einen KnowBrainer-Store in dem Mikrofone und Interfaces direkt bezogen werden können (befindet sich allerdings in den USA).
Einen weiteren Spezialisten für Geräte rund um Spracherkennung habe ich aus Großbritannien gefunden, auf dessen Website (ITSpeaking) gibt es eine gute Auflistung an für Spracherkennung geeigneter Hardware.

Wer nicht allzu gut Englisch spricht, findet auch im deutschen Forum zur Spracherkennung mit Dragon NaturallySpeaking Antworten.


Diesen Beitrag habe ich mit Dragon Dictate 2.0 für Mac diktiert.

Neues Demo-Video zu Dragon Dictate 2.0 (Deutsch)

Auf Wunsch einiger Leser meines Blogs habe ich ein weiteres Demonstrationsvideo für die (relativ neue) Spracherkennungssoftware Dragon Dictate 2.0 gedreht.

Zu sehen ist das Video auf meinem Youtube-Kanal.

Das Video soll die Software bei alltäglicher Verwendung zeigen, ihre fast einwandfreie Erkennungsqualität sowie aber auch die Mankos bei der Befehlssteuerung und der neuen Maussteuerung. Auf einige Befehle reagiert die Software bei meiner Installation überhaupt nicht (wie zum Beispiel auf „Neues E-Mail erzeugen“) außerdem kann es gewaltig stören, wenn Huster/Räusperer oder kleine Nebengeräusche auch in Text umgewandel werden.

Im Falle dieses Videos kann ich sagen, leider hat die Software keine Fehler gemacht die nicht durch wiederholtes Diktat richtig gestellt werden konnten, sodass ich euch die Verbesserung mittels des Texterkennungsfensters zeigen hätte können. Auch wurde Dragon Dictate durch Ausbesserungen mittels Tastatur nie verwirrt, sodass auch diese manchmal vorkommenden Einfügefehler im Video nicht enthalten sind. Grundsätzlich fügt Dragon Dictate eher an falscher Stelle ein, je länger der diktierte Text wird. Es hilft somit, wenn nach längerem Diktat in ein neues Fenster diktiert wird.

Jedenfalls viel Spaß beim Anschauen!

 

Video Teil 1

 

Video Teil 2

Spracherkennung: Dragon Speech Recognition v 11 Demo

Hier ist ein offizielles Demo-Video von Nuance, dem Spracherkennungssoftware-Hersteller von Dragon NaturallySpeaking. Dieses Video ist zwar auf Englisch, die Software erkennt aber mindestens genauso gut auf Deutsch 😉

Die Software gibt es bei Amazon ab 50 Euro.

Wer am Computer nicht gerne tippt oder seine Hände entlasten will/muss, findet hier eine spitzenmäßige Unterstützung. Für alle Mac User gibt es von der gleichen Firma ein ähnliches Programm: Dragon Dictate.

Dragon Dictate für iPhone/iPad nun auch im österreichischen und schweizer App Store verfügbar

Endlich sind nun Schweizer und Österreicher bei der Verwendung von Dragon Dictation (und Dragon Search) für ihr iPhone/iPad nicht mehr ausgeschlossen. Die wunderbare Spracherkennungs-App, mit der sich beispielsweise SMS oder E-Mails diktieren lassen können, ist seit dem 18. Jänner auch im österreichischen und schweizer iTunes Store verfügbar.

Danke für den Hinweis an Clemens.

Dragon Dictate 2.0 für Mac – Ein Testbericht


Hier ein kleines Feedback zu neuen Version der Spracherkennung für Macs: Dragon Dictate 2.0 für Mac. Kann es die Macintosh-Spracherkennung mit der von Windows aufnehmen?

Dragon Dictate 2.0 ist der Nachfolger von MacSpeech Dictate 1.5, nachdem die Firma von Nuance übernommen wurde. Für Macintosh gibt es deutsche Spracherkennung noch nicht sehr lange, Nuance hat hingegen auf Windows-Systemen schon einige Erfahrung mit Dragon NaturallySpeaking.

Obwohl MacSpeech vom führenden und wesentlich erfahreneren Spracherkennungssoftwarehersteller Nuance übernommen wurde ist der Einfluss in dieser neuen Version noch nicht sehr zu spüren. Die Änderungen sind meines Erachtens positiv aber nicht wesentlich. Der neue Name verspricht also mehr als er hält.

Zu den wichtigsten Neuerungen zählt die Version 11 der Dragon-Spracherkennungs-Engine und ein Mausraster.

Die Version 11 der Spracherkennungs-Engine ist die neueste Version des Spracherkennungs-Kerns von Nuances Dragon NaturallySpeaking. Schon vor der Übernahme durch Nuance arbeiteten beide Firmen zusammen und integrierten den viel besseren Spracherkennungs-Kern von Dragon NaturallySpeaking in MacSpeech Dictate. Die neue Version ist jedenfalls spürbar besser und bringt die Spracherkennungsqualität auf ein höheres Level. Die Erkennung funktioniert bei mir tadellos und sehr sicher, was auch das Ausführen von Befehlen erleichtert. Bis auf Wörter die nicht im Wortschatz sind erkennt das Programm ausnahmslos gut, neue Wörter können aber sowohl während des Diktats, als auch generell durch Hinzufügen schon erstellter Dokumente ergänzt werden.

Die neue Möglichkeit die Maus zu steuern ist vielleicht die größte Neuerung, die Dragon Dictate 2.0 mit sich bringt. Schon weit vor der Übernahme wurde daran gearbeitet, nun ist es endlich soweit dass auch am Mac die Maus per Sprache gesteuert werden kann. Prinzipiell funktioniert das genauso wie beim Windows-Kompagnon Dragon NaturallySpeaking: Ein „Mausraster“ wird aufgerufen, das den Bildschirm in neun Felder teilt. Die Felder sind nummeriert, nach Aufrufen eines Feldes wird dieses wiederum in neun Felder geteilt. Das kann so lange fortgeführt werden, bis die Maus an gewünschter Stelle ist (Dragon Dictate blendet um genaues Platzieren zu ermöglichen sogar eine Lupe ein). Mit den entsprechenden Sprachbefehlen kann dann ein Klick, Doppelklick, Dreifachklick und Rechtsklick ausgeführt werden. Die Maus kann auch um 1-100 Punkte/Zentimeter/Zoll in eine Richtung bewegt werden, ziehen ist auch möglich.
Die Maussteuerung funktioniert großteils sehr gut und ergänzt somit die Steuerung des Macs per Sprache um nicht existierende Tastaturbefehle.

Ein Hinweis auf Unreife: Die laut der Liste der Neuerungen neue Korrektur-Lesen-Funktion hat bei mir deutschen Text englisch vorlesen versucht.

Insgesamt gesehen hat sich die Erkennungsqualität nochmals ordentlich verbessert und macht so die Spracherkennung brauchbarer. Allerdings gibt es bei Dragon Dictate 2.0 noch immer zwei wesentliche Nachteile gegenüber der Windows-Version Dragon NaturallySpeaking 11:

  1. Fehlende Stabilität beim Ausbessern von Erkennungsfehlern
  2. Dragon Dictate 2.0 verträgt es schlecht, wenn mit Maus und Tastatur während des Diktats Fehler ausgebessert werden, wobei die Korrektur mit Sprache oft nicht (mehr) möglich ist, da „Dictate nicht mehr synchron zum angezeigten Text arbeitet“ (dies ist bereits als bekanntes Problem gelistet). So kann es mitunter vorkommen, dass Text irgendwo eingefügt wird (oder gar Textteile überschrieben werden), anstatt dort wo der Cursor gesetzt wurde. Dragon Dictate hat wie auch schon die Vorgänger deswegen ein eigenes Diktat-Fenster, das stabiles Diktieren ermöglichen soll.

  3. Unlogische Sprachbefehle, die sich schwer merken lassen
  4. Wie ich schon bei MacSpeech Dictate kritisierte sind auch in dieser Version die Befehle unlogisch und nicht intuitiv zu verwenden (wenn man Dragon NaturallySpeaking kennt, weiß man wie einfach diese sein könnten). Beispiele: „wach auf“ weckt das Mikrofon aus dem Schlafmodus, ein „geh schlafen“ gibt es hingegen nicht. Fast alle Befehle sind im Infinitiv, der wichtigste Befehl jedoch („Lösche Passage“) ist dann plötzlich im Imperativ. Bei Dragon NaturallySpeaking lassen sich in Dialogfeldern alle Schaltflächen ansprechen indem man das sagt, was dort steht. Bei Dictate gibt es vordefinierte Befehle für O.K., Abbrechen, Nicht Sichern und Sichern. Alle anderen Schaltflächen lassen sich folglich nicht ansteuern.
    Für universelle Befehle wie „Drucken“, „Neues Dokument“ oder „Dokument sichern“ gibt es bei Macintosh so wunderbar universelle Tastenkombinationen (in diesem Fall Cmd-P, Cmd-N, Cmd-S), wieso können dafür auch nicht einfache Sprachbefehle vorhanden sein?

Sowohl Dragon Dictate 2.0 als auch Dragon NaturallySpeaking 11 können mit ausnahmslos guter Erkennungsqualität aufwarten und sind somit in jedem Fall schon eine große Hilfe beim Computerschreiben.

Dragon Dictate 2.0 gibt es um ca. 200 €, Dragon NaturallySpeaking 11 je nach Funktionsumfang ab ca. 90 € (Stand Dezember 2010). Amazon – wie immer mit besseren Angeboten – listet Preise bei 130 € für Dictate und (ab) 50 € für NaturallySpeaking.

Für ergänzende Fragen stehe ich jederzeit gerne per E-Mail zur Verfügung.

Dragon für Mac 2.0 unterstützt internes Mikrofon

Ich habe mir gerade die neueste Version der Spracherkennung für Macintosh installiert (Dragon für Mac 2.0), und siehe da, gleich erfreuliche Nachrichten: Das interne Mac-Mikrofon wird unterstützt! Also kein externes Mikrofon wird mehr benötigt, das macht es um vieles einfacher.
Mein spontaner Eindruck, nach einer halben Stunde ausprobieren der neuen Spracherkennungssoftwareversion ist folgender:

Die Erkennungsgenauigkeit ist umwerfen. Ich benutze das interne Mikrofon und mein Diktat wird absolut fehlerlos erkannt.

Um hier jedoch keine Unwahrheiten zu verbreiten werde ich die Schwachstellen des Programms, die verbesserungsbedürftgigen Bereiche also, so wie alle weiteren Details, erst nach einer längeren Zeit des Testens posten. Ein Testvideo folgt (hoffentlich) auch.

Deutsches Dragon Dictate 2.0 für Mac ab sofort erhältlich

Wie angekündigt ist die deutsche Version von Dragon Dictate 2.0 für Mac ab gestern, 15. Dezember 2010, erhältlich. Als Aktion kostet die Vollversion momentanen 169 Euro (MacSpeech Dictate kostete einst über 200 Euro!), für bestehende MacSpeech Dictate-Kunden gibt es das Update um 49 Euro und für bestehende Dragon NaturallySpeaking-Kunden gibt es Dragon Dictate 2.0 für Mac zum Sonderpreis von 99 Euro sowohl als Download als auch als Versandprodukt.

Zur Nuance-Website

Endlich: Deutsche Version von Dragon Dictate 2.0 für Mac angekündigt!

In einem Rundschreiben an Bestandskunden hat Application System Heidelberg gestern Abend die deutsche Version von Dragon Dictate 2.0 für Mac angekündigt. Das sind sehr erfreuliche Nachrichten – wie es scheint macht die neue Version einen großer Schritt vorwärts. Dragon Dictate 2.0 (seit Mitte September bereits in englischer Sprache erhältlich) ersetzt den Vorgänger MacSpeech Dictate 1.5 und bringt viele neue Funktionen. Das ist nun die erste Ausgabe, nach der Übernahme von MacSpeech durch Nuance Inc., darum auch die Namensänderung.

Die neue Version dieser Spracherkennungssoftware für Macs arbeitet mit der Sprach-Engine von Dragon NaturallySpeaking 11 und bringt wesentliche Funktionen wie die Steuerung der Maus (Mausraster, Mausbewegungen, Klicks) und neue Befehle zum Steuern und Durchsuchen des Macs. Für das Diktat gibt es neue, intuitivere Bearbeitungsbefehle und einen neuen Trainingsmodus. Außerdem kann nun Text vorgelesen werden und zwischen verschiedenen Mikrofonen gewechselt werden.

Application System Heidelberg nennt als voraussichtliches Erscheinungsdatum den 15. Dezember, der Preis für das Update ist mit 49 Euro angeführt, die Standard-Edition mit 199 Euro.

Möglicherweise holt die Spracherkennung für Macintosh zu denen von Windows nun ein großes Stück auf – ein dickes plus an Produktivität ist bereits vorhergesagt. Man darf gespannt bleiben.

Mit Microsoft Kinect Windows 7 steuern

Microsofts Projekt Kinect, ehemals „Projekt Natal“, hatte ich nun lange unter Beobachtung, immer mit dem Gedanken, dass das System für eine alternative Computersteuerung gute Ansätze zeige. Wie derStandard.at nun berichtet, beobachtet Microsoft die Hacks rund um das System mit Spannung.
Auch für die Steuerung des Mauscursors ist es nun so weit, die ersten Versuche mit der Xbox 360-Erweiterung Kinect den ganz normalen Windows-Desktop zu steuern (die Maus zu steuern) sind erfolgreich:

 

Das Video stammt von Wolfgang Herfurtner, Chef der deutschen Firma Evoluce (spezialisiert auf Multi-Touch und Gestensteuerung), der in seinem Blog die neuesten Erfolge zeigt.

Ein Betriebssystem wie Windows 7 ist freilich auf feinere Eingabemethoden als diese (noch) grobe Gestensteuerung ausgelegt. Wie einige Kommentatoren meinen ist Kinect noch nicht sehr feinfühlig, Bewegungen mit dem ganzen Arm sind notwendig. Das mag sehr mühsam erscheinen, für Menschen mit Behinderungen ist das aber weniger relevant, außerdem sagt uns die Ergonomie, je mehr Bewegung desto besser.