Archiv für Mai 2011

Apple, das iPhone, und Spracherkennung

In einem Spiegel-Artikel zu lesen, gibt es in der nächsten Generation des iPhones höchstwahrscheinlich schon eine weitaus bessere Integration von Spracherkennung. Die Gerüchte gehen um, Apple verhandle mit Nuance bezüglich einer Zusammenarbeit. Jedenfalls sei gesagt, dass Spracherkennung wie auch schon durch Google und Android einem immer breiter werdenden Publikum zugänglich gemacht wird.

Dragon Dictate 2.0-Testbericht der FAZ

Stephan Küpper von Digital diktieren macht mich auf einen guten Testbericht über Dragon Dictate 2.0 der Frankfurter Allgemeinenzeitung aufmerksam. Der Redakteur Michael Spehr kommt auf so ziemlich das gleiche Resultat wie ich in meinem Testbericht.

Google Chrome bekommt Spracherkennung

Die neue Version 11 von Googles Browser Chrome hat eine neue Schnittstelle zur Erkennung von Sprache dazubekommen. Die „HTML 5 Speech Input API“ soll Entwicklern von Erweiterungen für Chrome die Möglichkeit geben Spracherkennung nutzen zu können. Die Audiodaten werden dabei an Server von Google geschickt, dort in Text umgewandelt und wieder zurück gesendet.

Manche werden die immer besser werdende Spracherkennung Googles bereits von Android kennen. Einen Qualitätsvergleich zu Dragon NaturallySpeaking kann man natürlich nicht ziehen, allerdings gehen die Entwicklungen bei Google rasend schnell voran und die Spracherkennung ist jetzt schon nutzbar.

Das Handy per Gedanken steuern

Einen interessanten Artikel mit der Überschrift „Handybedienung per Hirnsignal“ las ich im neuesten c’t. So haben Wissenschaftler der University of California in San Diego (UCSD) an dem Swartz Center for Computational Neuroscience eine Computer-Hirn-Schnittstelle geschaffen mit der Probanden auf einem Nokia N97 rein gedanklich Nummern anwählen konnten. Die 8000-mal verstärkten EEG-Signale, die von den Nutzern über ein Stirnband übertragen wurden verarbeitete eine eigens entwickelte Software für das Nokia-Handy. Genau wie bei Spracherkennungssoftware mussten die Testpersonen die Software zuerst trainieren: Sie bekamen die Ziffern in unterschiedlichen Bildwiederholfrequenzen vorgespielt (beispielsweise eine „eins“ mit 9 Hz, eine „zwei“ mit 9,25 Hz usw.), die unterschiedliche Reaktionen des Gehirns auf die Ziffern und verschiedenen Frequenzen speicherte dann die Software.
Nach erfolgreichem Training konnte das Wählen von Telefonnummern nun ausprobiert werden. Den Probanden wurde wiederum nacheinander jede Ziffer vorgespielt, der Computer registrierte nun, ob Ziffer/Bildwiederholrate-Kombination die gleichen Reaktionen auslöste wie beim Training. Um die Fehlerrate zu minimieren wurde die Eingabe der zehn Ziffern zweimal durchgeführt, dauerte deshalb auch nicht weniger als durchschnittlich 88,9 Sekunden. Sieben von zehn Probanden gelang es eine absolut fehlerfreie Eingabe zu machen, wobei die durchschnittliche Genauigkeit bei stolzen 95,9 % lag.
Die Wissenschaftler des UCSD-Instituts denken daran, die Schnittstelle für Patienten mit schweren Lähmungen oder auch als Kontrollorgan für die Konzentration bei Fahrern und Fluglotsen im Automobil oder Transportsektor nutzen zu können.

Die wissenschaftliche Publikation lässt sich unter  sccn.ucsd.edu/~yute/publications/LNAI10.pdf nachlesen.

Anhand dieses Versuchs lässt sich erkennen, wie schwierig es ist Gehirnssignale in für den Computer verständliche Signale umzuwandeln. Im Gegensatz zur Augensteuerung oder Gesichtserkennung (beispielsweise integriert beim zukünftigen Windows 8-Betriebssystem), wo sich der Einsatz alternativer Eingabemethoden bereits im breiten Konsumentenbereich abzeichnet, ist eine Steuerung per Gedanken hingegen noch weit davon entfernt.
Die Entwicklung in diese Richtung bleiben aber weiterhin spannend.