Kostenloses Update für Dragon NaturallySpeaking: Version 11.5
Für alle Benutzer von Dragon NaturallySpeaking 11 gibt es Ende Juni ein kostenfreies Update auf die neue Version 11.5.
Einige wesentliche Neuerungen sind:
- Verwendung des iPhones/iPod Touch als drahtloses Mikrofon
- Neue Befehle für Facebook und Twitter
- Bessere Befehle für Microsoft Office 2010
- Verbesserte Korrektur- und Bearbeitungsoptionen
Apple, das iPhone, und Spracherkennung
In einem Spiegel-Artikel zu lesen, gibt es in der nächsten Generation des iPhones höchstwahrscheinlich schon eine weitaus bessere Integration von Spracherkennung. Die Gerüchte gehen um, Apple verhandle mit Nuance bezüglich einer Zusammenarbeit. Jedenfalls sei gesagt, dass Spracherkennung wie auch schon durch Google und Android einem immer breiter werdenden Publikum zugänglich gemacht wird.
Dragon Dictate 2.0-Testbericht der FAZ
Stephan Küpper von Digital diktieren macht mich auf einen guten Testbericht über Dragon Dictate 2.0 der Frankfurter Allgemeinenzeitung aufmerksam. Der Redakteur Michael Spehr kommt auf so ziemlich das gleiche Resultat wie ich in meinem Testbericht.
Google Chrome bekommt Spracherkennung
Die neue Version 11 von Googles Browser Chrome hat eine neue Schnittstelle zur Erkennung von Sprache dazubekommen. Die “HTML 5 Speech Input API” soll Entwicklern von Erweiterungen für Chrome die Möglichkeit geben Spracherkennung nutzen zu können. Die Audiodaten werden dabei an Server von Google geschickt, dort in Text umgewandelt und wieder zurück gesendet.
Manche werden die immer besser werdende Spracherkennung Googles bereits von Android kennen. Einen Qualitätsvergleich zu Dragon NaturallySpeaking kann man natürlich nicht ziehen, allerdings gehen die Entwicklungen bei Google rasend schnell voran und die Spracherkennung ist jetzt schon nutzbar.
Das Handy per Gedanken steuern
Einen interessanten Artikel mit der Überschrift “Handybedienung per Hirnsignal” las ich im neuesten c’t. So haben Wissenschaftler der University of California in San Diego (UCSD) an dem Swartz Center for Computational Neuroscience eine Computer-Hirn-Schnittstelle geschaffen mit der Probanden auf einem Nokia N97 rein gedanklich Nummern anwählen konnten. Die 8000-mal verstärkten EEG-Signale, die von den Nutzern über ein Stirnband übertragen wurden verarbeitete eine eigens entwickelte Software für das Nokia-Handy. Genau wie bei Spracherkennungssoftware mussten die Testpersonen die Software zuerst trainieren: Sie bekamen die Ziffern in unterschiedlichen Bildwiederholfrequenzen vorgespielt (beispielsweise eine “eins” mit 9 Hz, eine “zwei” mit 9,25 Hz usw.), die unterschiedliche Reaktionen des Gehirns auf die Ziffern und verschiedenen Frequenzen speicherte dann die Software.
Nach erfolgreichem Training konnte das Wählen von Telefonnummern nun ausprobiert werden. Den Probanden wurde wiederum nacheinander jede Ziffer vorgespielt, der Computer registrierte nun, ob Ziffer/Bildwiederholrate-Kombination die gleichen Reaktionen auslöste wie beim Training. Um die Fehlerrate zu minimieren wurde die Eingabe der zehn Ziffern zweimal durchgeführt, dauerte deshalb auch nicht weniger als durchschnittlich 88,9 Sekunden. Sieben von zehn Probanden gelang es eine absolut fehlerfreie Eingabe zu machen, wobei die durchschnittliche Genauigkeit bei stolzen 95,9 % lag.
Die Wissenschaftler des UCSD-Instituts denken daran, die Schnittstelle für Patienten mit schweren Lähmungen oder auch als Kontrollorgan für die Konzentration bei Fahrern und Fluglotsen im Automobil oder Transportsektor nutzen zu können.
Die wissenschaftliche Publikation lässt sich unter sccn.ucsd.edu/~yute/publications/LNAI10.pdf nachlesen.
Anhand dieses Versuchs lässt sich erkennen, wie schwierig es ist Gehirnssignale in für den Computer verständliche Signale umzuwandeln. Im Gegensatz zur Augensteuerung oder Gesichtserkennung (beispielsweise integriert beim zukünftigen Windows 8-Betriebssystem), wo sich der Einsatz alternativer Eingabemethoden bereits im breiten Konsumentenbereich abzeichnet, ist eine Steuerung per Gedanken hingegen noch weit davon entfernt.
Die Entwicklung in diese Richtung bleiben aber weiterhin spannend.
Augensteuerung: Bald schon Wirklichkeit?
Ich habe schon einmal kurz etwas über Augensteuerung erwähnt, eine Technologie, die sich noch sehr im Entwicklungs- und Forschungsstadium befindet. Einen interessanten Hinweis hat nun auch der Benutzer jask im Spracherkennungsforum hinterlassen.
Den Computer (im Enduser-Bereich!) mit den Augen zu steuern, wäre ein großer Entwicklungsschritt. Ein solches System klingt wirklich nach einer interessanten Entwicklung: Man stelle sich vor, der Computer wüsste wohin man sieht… Diese Information könnte man gut nutzen, da sie auch die Interaktion mit dem Computer wesentlich beschleunigen würde.
Hier ein Video der Entwicklungsfirma Tobii Technology, die zusammen mit Levono einen Prototyp eines Laptops mit integrierter Augensteuerung entwickelt hat:
Ein Problem bleibt allerdings die fehlende Möglichkeit zum Ausführen des Mausklicks: Das gleiche Problem, das auch die Steuerung per Kopfbewegung nicht befriedigend lösen kann.
Dragon NaturallySpeaking: Neue Erweiterung “Lifestyle SpeechPack”
In einem Newsletter von Nuance angekündigt ist soeben eine Erweiterung für Dragon NaturallySpeaking herausgekommen: Lifestyle SpeechPack. Die Erweiterung ergänzt die Spracherkennungssoftware mit Befehlen für folgende Programme
- AudaCity
- iTunes
- Live messenger
- Skype
- Thunderbird
- Yahoo messenger
Auf der deutschen Website von Nuance lässt sich die Erweiterung jedoch noch nicht finden (wahrscheinlich ein Anzeichen dafür, dass das Produkt bis jetzt nur auf Englisch erhältlich ist) im deutschen Onlineshop kann man die Erweiterung (mit englischer Beschreibung) jedoch um 18 Euro kaufen.
Der optimale PC für Spracherkennungssoftware

Welchen Computer für Dragon NaturallySpeaking 11?
Als einer der auf Spracherkennungssoftware angewiesen ist, möchte ich natürlich beim Kauf eines neuen Computers wissen, welche Faktoren für Genauigkeit und Geschwindigkeit von Spracherkennungssoftware (Dragon NaturallySpeaking 11) ausschlaggebend sind. So frage ich mich, soll es ein 4-Kern-Prozessor oder doch ein 6-Kern-Prozessor sein? Wie viel Arbeitsspeicher (RAM) ist nötig? Ist eine SSD ausschlaggebend?
Nachdem ich mich im Web für Antworten darauf auf die Suche gemacht habe, bin ich reichlich fündig geworden: vor alllem bei den KnowBrainer Speech Recognition-Foren. In ihnen findet man eine reichhaltige Quelle rund um das Thema und aufgrund von professionellen Spracherkennungssoftware-Nutzern bekommt man fundierte Auskünfte rund um alle Fragen zum Thema Spracherkennung (vor allem zu Dragon NaturallySpeaking). Die Foren sind sehr zu empfehlen.
Nun zu meiner speziellen Frage, der Auswirkung von Prozessor und Arbeitsspeicher auf Erkennungsgeschwindigkeit der Spracherkennungssoftware. Nach fundierter Antwort auf meine Frage im Forum (mein Thread ist hier nachzulesen), weiß ich nun so einiges mehr:
Beim Prozessor ist nicht vorrangig die Kern-Geschwindigkeit ausschlaggebend, sondern vielmehr der L2/L3-Cache. Spracherkennung ist ein linearer Prozess, somit ist der Einsatz von möglichst vielen Kernen nicht unbedingt von Vorteil (so erklärt es Benutzer „Chucker“, ein – wie es scheint – recht erfahrener Nutzer). Prozessoren wie die Core i7-Serie bei Intel oder die neuesten Prozessoren von AMD sind erst auf “multicore/multithreading processing” optimiert, da sie auch L3-Cache besitzen (Dual Core Prozessoren besitzen diesen nicht). Der Level 3-Cache ist Zwischenspeicher für die vom Prozessor am häufigsten genutzten Prozesse und kennzeichnet sich vor allem dadurch aus, dass alle Kerne auf ihn zugreifen können – im Gegensatz zum Level 2-Cache, der nur vom jeweiligen Kern verwendet werden kann (…sofern ich das richtig verstanden habe…). Da der Prozessor-Cache um ein tausendfaches schneller als der Arbeitsspeicher abgegriffen werden kann, ist es von Bedeutung einen möglichst großen Level 3-Cache zu haben, da so der Prozessor schneller arbeiten kann. Mehr von Bedeutung ist der Zwischenspeicher – ob Prozessorcache oder RAM.
In Bezug auf Arbeitsspeicher (RAM) empfiehlt das Forum bei Verwendung von Windows 7 64 Bit mindestens 6 GB. Die 64 Bit-Version von Windows 7 ist ohnehin schon speicherhungrig, und Dragon NaturallySpeaking kann nur so schnell arbeiten, wie auch Windows 7 es kann. Mehr als 8 GB hält das Forum nicht vonnöten.
Weil ich es zu Beginn erwähnt habe: Eine SSD ist für Dragon NaturallySpeaking zu vernachlässigen, da sich eine Schreib/Lese-Geschwindigkeit der Festplatte nur beim Laden und Speichern des Benutzerprofils auswirkt, nicht aber während des Arbeitens/Erkennens.
Viel wichtiger – und das scheint überhaupt das Wichtigste zu sein – ist die Art der Sprechweise. Wie es ein Nutzer meint, ist die Erkennungsgenauigkeit und Geschwindigkeit zu 70 % von der eigenen Sprechweise abhängig, so ziemlich gleichgültig bei welcher Hardware. Das heißt soviel wie: deutlich sprechen, gut artikulieren, nicht murmeln, dialektfrei, nicht zu geschwind (aber auch nicht zu langsam – eben natürlich), in ganzen Sätzen (im Gegensatz zum Tippen also den vollständigen Satz schon vorher im Kopf haben). Aus eigener Erfahrung weiß ich, dass es ein anderer Schreibprozess ist, mit Spracherkennungssoftware zu arbeiten. Im Besonderen ist es wichtig, vor dem Diktat schon den ganzen Satz, oder zumindest den Teilsatz im Kopf zu haben, um so der Software die Möglichkeit zu geben, sich auch nach dem Kontext orientieren zu können (so wie es auch wir Menschen tun). Das Erkennen einzelner Wörter ist für die Spracherkennungssoftware bedeutend schwieriger.
Zu Beginn bedarf dies unter Umständen einiger Umstellung, zahlt sich im Endeffekt aber durch weniger Erkennungsfehler aus.
Der letzte wichtige Teil für erfolgreiche Spracherkennung ist die Verwendung eines geeigneten Mikrofons und vor allem auch eines hinreichenden Audiointerfaces. Die Wahl des Mikrofons ist sehr stark auch eine persönliche Entscheidung die sich vor allem nach Verwendung und Zweck ausrichtet. In den KnowBrainer-Foren werden hierzu ausreichend Tipps gegeben. Außerdem gibt es auch einen KnowBrainer-Store in dem Mikrofone und Interfaces direkt bezogen werden können (befindet sich allerdings in den USA).
Einen weiteren Spezialisten für Geräte rund um Spracherkennung habe ich aus Großbritannien gefunden, auf dessen Website (ITSpeaking) gibt es eine gute Auflistung an für Spracherkennung geeigneter Hardware.
Wer nicht allzu gut Englisch spricht, findet auch im deutschen Forum zur Spracherkennung mit Dragon NaturallySpeaking Antworten.
–
Diesen Beitrag habe ich mit Dragon Dictate 2.0 für Mac diktiert.
