Archiv für Februar 2011
Dragon NaturallySpeaking: Neue Erweiterung „Lifestyle SpeechPack“
In einem Newsletter von Nuance angekündigt ist soeben eine Erweiterung für Dragon NaturallySpeaking herausgekommen: Lifestyle SpeechPack. Die Erweiterung ergänzt die Spracherkennungssoftware mit Befehlen für folgende Programme
- AudaCity
- iTunes
- Live messenger
- Skype
- Thunderbird
- Yahoo messenger
Auf der deutschen Website von Nuance lässt sich die Erweiterung jedoch noch nicht finden (wahrscheinlich ein Anzeichen dafür, dass das Produkt bis jetzt nur auf Englisch erhältlich ist) im deutschen Onlineshop kann man die Erweiterung (mit englischer Beschreibung) jedoch um 18 Euro kaufen.
Der optimale PC für Spracherkennungssoftware
Welchen Computer für Dragon NaturallySpeaking 11?
Als einer der auf Spracherkennungssoftware angewiesen ist, möchte ich natürlich beim Kauf eines neuen Computers wissen, welche Faktoren für Genauigkeit und Geschwindigkeit von Spracherkennungssoftware (Dragon NaturallySpeaking 11) ausschlaggebend sind. So frage ich mich, soll es ein 4-Kern-Prozessor oder doch ein 6-Kern-Prozessor sein? Wie viel Arbeitsspeicher (RAM) ist nötig? Ist eine SSD ausschlaggebend?
Nachdem ich mich im Web für Antworten darauf auf die Suche gemacht habe, bin ich reichlich fündig geworden: vor alllem bei den KnowBrainer Speech Recognition-Foren. In ihnen findet man eine reichhaltige Quelle rund um das Thema und aufgrund von professionellen Spracherkennungssoftware-Nutzern bekommt man fundierte Auskünfte rund um alle Fragen zum Thema Spracherkennung (vor allem zu Dragon NaturallySpeaking). Die Foren sind sehr zu empfehlen.
Nun zu meiner speziellen Frage, der Auswirkung von Prozessor und Arbeitsspeicher auf Erkennungsgeschwindigkeit der Spracherkennungssoftware. Nach fundierter Antwort auf meine Frage im Forum (mein Thread ist hier nachzulesen), weiß ich nun so einiges mehr:
Beim Prozessor ist nicht vorrangig die Kern-Geschwindigkeit ausschlaggebend, sondern vielmehr der L2/L3-Cache. Spracherkennung ist ein linearer Prozess, somit ist der Einsatz von möglichst vielen Kernen nicht unbedingt von Vorteil (so erklärt es Benutzer „Chucker“, ein – wie es scheint – recht erfahrener Nutzer). Prozessoren wie die Core i7-Serie bei Intel oder die neuesten Prozessoren von AMD sind erst auf „multicore/multithreading processing“ optimiert, da sie auch L3-Cache besitzen (Dual Core Prozessoren besitzen diesen nicht). Der Level 3-Cache ist Zwischenspeicher für die vom Prozessor am häufigsten genutzten Prozesse und kennzeichnet sich vor allem dadurch aus, dass alle Kerne auf ihn zugreifen können – im Gegensatz zum Level 2-Cache, der nur vom jeweiligen Kern verwendet werden kann (…sofern ich das richtig verstanden habe…). Da der Prozessor-Cache um ein tausendfaches schneller als der Arbeitsspeicher abgegriffen werden kann, ist es von Bedeutung einen möglichst großen Level 3-Cache zu haben, da so der Prozessor schneller arbeiten kann. Mehr von Bedeutung ist der Zwischenspeicher – ob Prozessorcache oder RAM.
In Bezug auf Arbeitsspeicher (RAM) empfiehlt das Forum bei Verwendung von Windows 7 64 Bit mindestens 6 GB. Die 64 Bit-Version von Windows 7 ist ohnehin schon speicherhungrig, und Dragon NaturallySpeaking kann nur so schnell arbeiten, wie auch Windows 7 es kann. Mehr als 8 GB hält das Forum nicht vonnöten.
Weil ich es zu Beginn erwähnt habe: Eine SSD ist für Dragon NaturallySpeaking zu vernachlässigen, da sich eine Schreib/Lese-Geschwindigkeit der Festplatte nur beim Laden und Speichern des Benutzerprofils auswirkt, nicht aber während des Arbeitens/Erkennens.
Viel wichtiger – und das scheint überhaupt das Wichtigste zu sein – ist die Art der Sprechweise. Wie es ein Nutzer meint, ist die Erkennungsgenauigkeit und Geschwindigkeit zu 70 % von der eigenen Sprechweise abhängig, so ziemlich gleichgültig bei welcher Hardware. Das heißt soviel wie: deutlich sprechen, gut artikulieren, nicht murmeln, dialektfrei, nicht zu geschwind (aber auch nicht zu langsam – eben natürlich), in ganzen Sätzen (im Gegensatz zum Tippen also den vollständigen Satz schon vorher im Kopf haben). Aus eigener Erfahrung weiß ich, dass es ein anderer Schreibprozess ist, mit Spracherkennungssoftware zu arbeiten. Im Besonderen ist es wichtig, vor dem Diktat schon den ganzen Satz, oder zumindest den Teilsatz im Kopf zu haben, um so der Software die Möglichkeit zu geben, sich auch nach dem Kontext orientieren zu können (so wie es auch wir Menschen tun). Das Erkennen einzelner Wörter ist für die Spracherkennungssoftware bedeutend schwieriger.
Zu Beginn bedarf dies unter Umständen einiger Umstellung, zahlt sich im Endeffekt aber durch weniger Erkennungsfehler aus.
Der letzte wichtige Teil für erfolgreiche Spracherkennung ist die Verwendung eines geeigneten Mikrofons und vor allem auch eines hinreichenden Audiointerfaces. Die Wahl des Mikrofons ist sehr stark auch eine persönliche Entscheidung die sich vor allem nach Verwendung und Zweck ausrichtet. In den KnowBrainer-Foren werden hierzu ausreichend Tipps gegeben. Außerdem gibt es auch einen KnowBrainer-Store in dem Mikrofone und Interfaces direkt bezogen werden können (befindet sich allerdings in den USA).
Einen weiteren Spezialisten für Geräte rund um Spracherkennung habe ich aus Großbritannien gefunden, auf dessen Website (ITSpeaking) gibt es eine gute Auflistung an für Spracherkennung geeigneter Hardware.
Wer nicht allzu gut Englisch spricht, findet auch im deutschen Forum zur Spracherkennung mit Dragon NaturallySpeaking Antworten.
—
Diesen Beitrag habe ich mit Dragon Dictate 2.0 für Mac diktiert.
Neues Demo-Video zu Dragon Dictate 2.0 (Deutsch)
Auf Wunsch einiger Leser meines Blogs habe ich ein weiteres Demonstrationsvideo für die (relativ neue) Spracherkennungssoftware Dragon Dictate 2.0 gedreht.
Zu sehen ist das Video auf meinem Youtube-Kanal.
Das Video soll die Software bei alltäglicher Verwendung zeigen, ihre fast einwandfreie Erkennungsqualität sowie aber auch die Mankos bei der Befehlssteuerung und der neuen Maussteuerung. Auf einige Befehle reagiert die Software bei meiner Installation überhaupt nicht (wie zum Beispiel auf „Neues E-Mail erzeugen“) außerdem kann es gewaltig stören, wenn Huster/Räusperer oder kleine Nebengeräusche auch in Text umgewandel werden.
Im Falle dieses Videos kann ich sagen, leider hat die Software keine Fehler gemacht die nicht durch wiederholtes Diktat richtig gestellt werden konnten, sodass ich euch die Verbesserung mittels des Texterkennungsfensters zeigen hätte können. Auch wurde Dragon Dictate durch Ausbesserungen mittels Tastatur nie verwirrt, sodass auch diese manchmal vorkommenden Einfügefehler im Video nicht enthalten sind. Grundsätzlich fügt Dragon Dictate eher an falscher Stelle ein, je länger der diktierte Text wird. Es hilft somit, wenn nach längerem Diktat in ein neues Fenster diktiert wird.
Jedenfalls viel Spaß beim Anschauen!