Makros für die Windows 7 Spracherkennung

Microsoft stellt ein ganz wesentliches Tool zur Erweiterung der Windows Spracherkennung zur Verfügung. Die so genannten „Windows Speech Recognition Macros“ erweitern die Spracherkennung in sowohl Windows Vista als auch Windows 7. Das Tool – kurz: WSR Macros – macht es möglich, benutzerdefinierte Sprachbefehle hinzuzufügen.

Befehle können einerseits für bestimmte Textphrasen (beispielsweise die eigene E-Mail-Adresse, Postanschrift oder etwa häufig verwendete komplizierte Passwörter…), für Tastenkombinationen, zum Starten von Programmen (oder auch Kommandozeilen-Befehlen), oder – sofern man sich auskennt – mit XML erstellt werden.
Weiters kann man auch schon existierende Befehle um benutzerdefinierte Sprachkommandos erweitern.

Windows Spracherkennung-Erweiterung: WSR Macros

Die Erweiterung gibt es auf der Microsoft-Website zum Download. Als Systemanforderung gibt Microsoft das Betriebssystem Windows Vista an (sowohl 32 als auch 64 Bit), bei meinem Windows 7 lief die Erweiterung aber tadellos. Die Benutzeroberfläche des Tools ist in englischer Sprache, funktioniert aber genauso gut für die deutsche Spracherkennung (habe ich selbst ausprobiert).

Hilfe zur Einrichtung, Befehlsbeispiele und weitere Informationen finden sich auf code.msdn.microsoft.com/wsrmacros.

Handschrifterkennung: Inklet macht Trackpad des Mac zum Tablet

Vor kurzem stellte die Firma Ten One Design für den Mac ein Programm vor, welches das Trackpad zum Tablet umfunktioniert. Das Trackpad kann dann also zum Zeichnen als auch zur Handschrifterkennung genutzt werden. Dazu wird der Bereich des Trackpads eins zu eins auf dem Bildschirm abgebildet, um eine unverzerrte Zeichnung/Handschrift zu ermöglichen. Die Handschrifterkennung ist im Betriebssystem Macintosh integriert und kann unter den „Systemeinstellungen“ aktiviert werden. Das Programm funktioniert allerdings nur auf den neuesten MacBooks mit Multitouch und dem aktuellen Betriebssystem Snow Leopard.

Gemeinsam mit dem Programm Inklet kann der schon länger erhältliche Stift Pogo Sketch (siehe Abbildung) erworben werden. Die Software kostet 25 US-Dollar, kann aber auch als Demo-Version heruntergeladen werden. Im Bündel-Angebot kosten Stift und Software für alle Nicht-Amerikaner (inklusive Versandkosten) um die 60 $ – also circa 42 €.
Als Besitzer eines Pogo Sketch kann ich allerdings sagen, dass dieser äußerst unzureichend funktioniert, und nur nach festem Druck von Trackpads beziehungsweise dem iPhone/iPod Touch erkannt wird – zu den Tablets vom Wacom sind da natürlich Welten Unterschied.

Weitere Informationen, die Downloadmöglichkeit und außerdem Test-Videos finden sich auf der Herstellerwebsite.

ShoutOUT: Mobile Spracherkennung auch in Deutsch

Das Unternehmen Promtu stellte auf der CES 2010 eine neue Spracherkennung für Mobiltelefone vor. Das Programm ShoutOUT ist seit kurzem im amerikanischen AppStore für das iPhone erhältlich. Promtu entwickelt die Software auch für andere Handyhersteller wie Google Android, Blackberry um weitere.

Im Februar 2010 soll die Anwendung auch für Deutschland beziehungsweise für deutsche Sprache verfügbar werden. Andere Länder/Sprachen sind ebenso geplant.
Mit ShoutOUT können beispielsweise SMS diktiert werden. Die Anwendung überträgt die Sprachdateien an einen Server von Promtu, der dann den richtigen Text wieder ins SMS zurücksendet. Das soll die Geschwindigkeit und Produktivität erheblich erhöhen – wie Teletarif.de auch bestätigt.

Momentan ist die Software nur für das SMS-Schreiben verfügbar, weitere Anwendungen sollen aber folgen.

Link zur Anwendung im iTunes Store: bald auch in Deutschland.
Weitere Infos: shout-out.mobi

Gutes Mikrofon für Spracherkennung wichtig

Um bei der Verwendung von Spracherkennungssoftware gute Ergebnisse erzielen zu können, hängt es wesentlich davon ab, wie gut das Mikrofon ist, welches man benutzt. Auf der CES 2010 hat der Headsethersteller Plantronics ein neues Headset – scheinbar mit überragenden Qualitätsergebnissen – vorgestellt.

geardiary.com hat dazu einen Blog-Eintrag geschrieben.

Das Mikrofon wird ab Februar zu einem Preis von ab 39,99 $ im Handel sein.
Quelle: plantronics.com

Hillcrest Labs Loop Pointer: Die Freiluft-Maussteuerung

Der Loop Pointer von Hillcrest Labs ist ein Zeigegerät mit ähnlicher Idee der Steuerung wie bei der Wii. Das ringförmige Gerät wird freiluftig in alle Himmelsrichtungen bewegt, der Bewegungssensor macht daraus die Mausbewegung auf dem Bildschirm. Der Loop Pointer ist für TV-Geräte entworfen, um auf Medieninhalten navigieren zu können, lässt sich aber auch perfekt für den PC/Mac einsetzen.
Das Gerät hat zwei Maustasten und zusätzlich noch ein Scrollrad. Für 99 US-Dollar ist das Eingabegerät unter anderem über Amazon zu beziehen (allerdings nicht nach Europa…).

Bis jetzt leider nur in den USA lieferbar.

Herstellerwebsite: hillcrestlabs.com/loop
Testbericht: testberichte.de

Weitere Videos auf YouTube: A mouse for your TV, Hillcrest Loop Hands-On

Hillcrest Loop Hands-On

Die wichtigsten MacSpeech Dictate Befehle (Deutsch)

<-- Zurück zum Hauptartikel

 

Macspeech Dictate

 

Da die meisten Macspeech Dictate-Befehle auch nach längerer Verwendung nicht merkbar sind, und ich deshalb immer die ausgedruckten Listen neben mir liegen haben muss, habe ich die wichtigsten Befehle nun zusammengefasst. Im Hilfemenü des Programms können alle Befehls-Listen ausgedruckt werden, allerdings sind da viele Befehle völlig unnötig – wie oft verwendet man wohl den Mail-Befehl „Kleine Postfachsymbole verwenden“?

 

Druckversion

Modi
Mikrofon Schlafmodus Schaltet das Mikrofon in den Ruhezustand
Fortfahren/Mikrofon aktivieren Aktiviert das Mikrofon aus dem Ruhezustand
Diktatmodus einschalten Wechselt zum Diktat-Modus (Standardmodus)
Buchstabiermodus einschalten Wechselt zum Buchstabiermodus
Befehlsmodus einschalten Wechselt zum Befehlsmodus
Allgemein
Öffne/starte „Programmname“ Öffnet jedes Programm, das im Programme-Ordner abgelegt ist; bzw. wechselt zum Programm – sofern geöffnet
Beende „Programmname“ Beendet jedes Programm, das im Programme-Ordner abgelegt ist
Programm beenden Beendet das aktuelle Programm; entspricht Cmd-Q
Programm ausblenden Versteckt das aktuelle Programm; entspricht Cmd-H
Alles auswählen Wählt alles aus; entspricht Cmd-A
Auswahl kopieren Kopiert die Auswahl; entspricht Cmd-C
Zwischenablage einsetzen Entspricht Cmd-V
Letzte Aktion widerrufen Macht letzte Aktion rückgängig; entspricht Cmd-Z
Bearbeiten neu Erstellt ein neues Dokument; entspricht Cmd-N
Bearbeiten schließen Schließt das aktuelle Fenster; entspricht Cmd-W
Bearbeiten öffnen Entspricht Cmd-O
Bearbeiten drucken Druckt aktuelles Dokument; entspricht Cmd-P
Nächstes Eingabefeld Springt zum nächsten Eingabefeld und löscht dabei den Cache; entspricht im Wesentlichen dem Drücken der Tabulatortaste
Dialogfenster
Drücke Abbrechen Klickt auf die Schaltfläche „Abbrechen“
Drücke Nicht sichern/Sichern Klickt auf die Schaltfläche „Nicht sichern“/“Sichern“
Drücke OK/Verbinden Klickt auf die Schaltfläche „OK“ bzw. „Verbinden“
Wichtige Tasten
Drücke Enter Drückt die Eingabetaste (Enter-Taste)
Drücke Löschen Drückt die Rücktaste (Löschtaste)
Leertaste Drückt die Leertaste
Tabulatortaste Drückt die Tabulatortaste
Drücke Bild auf Drückt die Taste „Bild nach oben“
Drücke Bild ab Drückt die Taste „Bild nach unten“
Pfeiltaste links/rechts/runter/hoch Drückt die Pfeiltaste links, rechts, hinunter bzw. hinauf
Diktieren
Lösche Passage Löscht alles, was nach der letzten Sprechpause diktiert worden ist
Zum Textanfang/Textende bewegen Setzt die Einfügemarke an den Anfang bzw. ans Ende
Texterkennung-Fenster einblenden Blendet Alternativen ein und ermöglicht das Hinzufügen neuer Wörter
Verwende/Wähle 2 [usw.] Wählt die zweite Alternative des Texterkennungsfensters aus
Bearbeite/Editiere 2 [usw.] Bearbeitet die zweite Alternative des Texterkennungsfensters, somit können auch neue Wörter hinzugefügt werden
Dokument zwischenspeichern Liest den Inhalt des Fensters neu ein (nach Bearbeitungen mittels Tastatur nötig)
Mail
Alle neuen E-Mails empfangen Ruft neue Nachrichten aller Konten ab
Neue E-Mail erzeugen Erstellt eine neue E-Mail-Nachricht
E-Mail senden Sendet aktuelles E-Mail
E-Mail beantworten Öffnet ein Antwort-E-Mail der ausgewählten Nachricht
Nachricht weiterleiten Leitet die ausgewählte Nachricht weiter

Eine kleine Anmerkung zur Logik der Befehle: Warum wird einmal das Wort „E-Mail“, ein anderes mal das Wort „Nachricht“ verwendet? Warum darf ich „Leertaste“ sagen, aber nicht „Rücktaste“ oder „Löschtaste“? Wo bleibt die Kontinuität?

Handschrifterkennung bei Windows 7 als Tastaturersatz

Dem viel gerühmten Betriebssystem Windows 7 ist eine Handschrifterkennung beigelegt, die die eigene Handschrift erkennen und in Druckschrift umwandeln soll. Doch arbeitet die Erkennung genau genug, um als Tastaturersatz dienen zu können? Kann man auch mit schlecht leserlicher Handschrift schnell genug arbeiten, um die Handschrifterkennung verwenden zu können? Diesen Fragen bin ich im Test nachgegangen.

Als Eingabegerät habe ich das bereits getestete Bamboo-Tablet verwendet. Die Treiber werden unter Windows 7 automatisch und ohne Probleme installiert, es öffnet sich auch sofort das Eingabefenster, welches zur Eingabe dienen soll. Neben der Bildschirmtastatur findet sich hier auch die Fläche, in die handschriftlich geschrieben werden soll:

Eingabefläche für die Handschrift

Ein geschriebenes Wort wird sofort in Druckschrift umgewandelt. Ausbessern kann man mittels tippen auf das auszubessernde Wort, dann kann man Fehler überschreiben, Buchstaben mittels Durchstreichen löschen. Ein richtig erkannter Satz kann mittels der „Einfügen“-Schaltfläche in jedes x-beliebige Programm (z. B. Word) eingefügt werden, was ohne Probleme funktioniert. Die Bedienung des Eingabeprogramms läuft tadellos, ist durchdacht und durchgehend intuitiv gestaltet. Zusätzlich fungiert ein kleines Demo-Fenster als Art Hilfe und Tutorial zu Beginn, falls man Probleme hat.

Die Bildschirmtastatur von Windows 7

Zur Verbesserung der Handschrifterkennung kann und sollte man unter der Schaltfläche „Extras“/“Handschrifterkennung anpassen“ die eigene Handschrift trainieren.
Ich selbst habe 50 Sätze in meiner zugegebenermaßen recht unleserlichen Handschrift eingegeben – die teilweise schon von Menschen schwer zu entziffern ist. Funktioniert es beim Computer also besser? Diese Frage muss ich leider mit einem klaren Nein beantworten. Mit meiner durchschnittlichen Schreibgeschwindigkeit geschriebenen Sätze werden vom Computer gar nicht erkannt, er spukt stattdessen abenteuerliche Buchstabenkombinationen aus – obwohl ich ja 50 Sätze trainiert habe. Wenn ich langsam und bemüht deutlich schreibe, verbessert sich die Erkennung enorm, dennoch muss ich jedes dritte Wort ausbessern, da sich ein Fehler darin verbirgt. Und das nur bei Wörtern, die in der Datenbank sind – ein Fremdwort oder ungewöhnlicheres Wort muss man meist einzeln buchstabieren (beispielsweise englische Wörter). Ob die Handschrifterkennung mit längerer Verwendung besser wird bezweifle ich – dennoch: solange habe ich die Erkennung noch nicht getestet.
Um einen längeren Text zu verfassen, muss man jedenfalls über viel Geduld und ein wirklich ergonomisches Eingabegerät verfügen – sonst wird die Eingabe zur Qual.

Hat man bereits ein Schreibgerät wie ein Tablet zuhause liegen, sollte man die Handschrifterkennung von Windows 7 unbedingt einmal ausprobieren, vielleicht klappt es bei dem einen oder anderen ja besser. Zur Eingabe von Texten empfehle ich aber eindeutig die Verwendung einer Spracherkennungssoftware, da längere Texte mit dieser deutlich schneller zu verfassen sind, und (fast) keine physische Belastung darstellt.
Was außerdem sehr nützlich sein kann sind so genannte Stiftbewegungen (engl. „Pen Flicks“), mit denen man einige häufig verwendete Befehle über spezielle Bewegungsgesten eingeben kann.

So aktivierst du Gesten unter Windows 7: In das Suchfeld des Startmenüs gib „Stift“ ein, dann wähle den Systemsteuerungpunkt „Stift- und Fingereingabe“ aus. Im Tab „Bewegungen“ kannst du die Gesten aktivieren.

Dennoch funktionieren kommerzielle Handschrifterkennungsprogramme vielleicht noch besser: Eine Variante wäre das 40$ teure ritePen von Evernote Corporation. Zusätzlich zur Schrifterkennung unterstützt das Programm auch die Erkennung von Gesten, was unter Umständen äußerst nützlich sein kann. Bei ritePen kann außerdem über den ganzen Bildschirm geschrieben werden. Das Programm gibt auch als Demoversion zum Download, wo es schon viel besser abschneidet als die hauseigene Version von Windows 7: unbedingt ausprobieren!

Stand: November 2011

Peregrine glove – Konfiguration

Folgendes Video zeigt die Einrichtung der Berührungspunkte des Peregrine Glove mit der mitgelieferten Software unter Windows XP. Die Breite der Berührungsfläche kann sogar verändert werden. Ende Januar 2008 kommt der Handschuh auf den Markt.

Weitere Infos:
Peregrine Handschuhsteuerung

Testvideo zur Windows 7 Spracherkennung

Ein sehr informatives Video zur Spracherkennung von Windows 7 hat windowsblog.at herausgegeben, offensichtlich das beste Video auf der YouTube-Plattform.

Testbericht MacSpeech Dictate International Deutsch

<-- Zurück zum Hauptartikel

 

Der erste Eindruck

MacSpeech Dictate International Deutsch beweist eine sehr gute Erkennungsqualität. Die eingebaute Dragon-Engine macht sich hier bemerkbar. Schon nach dem kurzem Anfangstraining (circa 7 min) erkennt die Software nahezu alles – natürlich nur was im Wortschatz ist – problemlos.
Wie das Hinzufügen und Trainieren neuer Wörter funktioniert, habe ich noch nicht herausgefunden. Denn mit den Befehlen bei MacSpeech Dictate ist das so eine Sache: Sie sind überhaupt nicht logisch. Die Steuerungs-Befehle von Dragon NaturallySpeaking hatte ich in weniger Zeit erlernt, einfach weil sie logisch und natürlich sind.

Einige Beispiele als Gegenüberstellung:

Dragon NaturallySpeaking MacSpeech Dictate
Mach das rückgängig/Rückgängig machen Letzte Aktion widerrufen
Gehe ans Ende Zum Textende bewegen
Kopier das Auswahl kopieren
Füge das ein Zwischenablage einsetzen
Lösche das Lösche Passage

Die vordefinierten MacSpeech Dictate-Befehle sind sehr holprig und absolut nicht natürlich. Nicht einmal für die Mikrofonsteuerung (Mikrofon aktivieren/deaktivieren) gibt es zwei äquivalente Befehle. Um das Mikrofon in den Schlafmodus zu versetzen, muss ich sagen „Mikrofon Schlafmodus“, um es aufzuwecken „fortfahren/Mikrofon aufwecken/aufwachen/wieder zu hören/Mikrofon aktivieren“ – also nichts ähnliches. Um es nochmal mit Dragon NaturallySpeaking zu vergleichen, hier habe ich zwei simple Befehle: „wach auf“ und „geh schlafen“. Und ich könnte hier noch einige andere Beispiele aufführen.

Das absolut positive an MacSpeech Dictate ist die Möglichkeit, alle Sprachbefehle bearbeiten und auch neue hinzufügen zu können (bei Dragon NaturallySpeaking können Befehle nur ab der Professional-Version hinzugefügt werden). Ich kann also alle Befehle individuell verändern, sowohl den Ausdruck den ich sprechen soll, als auch das, was der Befehl ausführen soll. Wie ich sehe ist beispielsweise der Tastenkombination Command-W der Befehlsspruch „Bearbeiten schließen“ zugeordnet. Diesen könnte ich ändern auf „Fenster schließen“, was ja viel logischer ist.
Bei jedem Befehl der mir unklar erscheint, kann ich außerdem nachschauen, was dieser in Wirklichkeit tut. Vorausgesetzt ich verstehe einwenig AppleScript.

Ein Kritikpunkt der schon von vielen angesprochen wurde ist der Umgang mit dem Ausbessern von Diktaten. Sobald man mit Maus oder Tastatur nachhilft, ist die Spracherkennungssoftware verwirrt. Ausbessern mittels Sprache funktioniert dann so gut wie gar nicht mehr. Sogar das Diktieren verursacht dann manchmal Fehlfunktionen, wie beispielsweise das Einfügen scheinbar zufälliger Buchstaben. MacSpeech Dictate weist im Handbuch auf die Unverträglichkeit von Maus/Tastatur und Sprache ausdrücklich hin (die „goldene Regel“), dennoch könnte die Verträglichkeit viel besser sein und das Programm noch stabiler laufen als bisher (Dragon NaturallySpeaking toleriert Maus und Tastatur fast anstandslos).

Conclusio
Alles in allem kann ich die Spracherkennungssoftware MacSpeech Dictate aber jetzt schon auf jeden Fall empfehlen, schon allein wegen der hohen Erkennungsrate.
Über die Steuerung und die weiteren Fähigkeiten des Programms werde ich nach längerer Testzeit besser berichten können, dies war erstmal der erste Eindruck, ein Demonstrationsvideo folgt dann auch noch.

Herstellerwebseite: macspeech.com

<table border=“0″>
<tr>
<td width=“278″><strong>Dragon NaturallySpeaking</strong></td>
<td width=“199″><strong>MacSpeech Dictate</strong></td>
</tr>
<tr>
<td>Mach das rückgängig/Rückgängig machen</td>
<td>Letzte Aktion widerrufen</td>
</tr>
<tr>
<td>Gehe ans Ende</td>
<td>Zum Textende bewegen</td>
</tr>
<tr>
<td>Kopier das</td>
<td>Auswahl kopieren</td>
</tr>
<tr>
<td>Füge das ein</td>
<td>Zwischenablage einsetzen</td>
</tr>
<tr>
<td>Lösche das</td>
<td>Lösche Passage</td>
</tr>
</table>