WebStandard: iOS Siri vs. Android vs. WP7: Wer hat die beste Spracherkennung?

derStandard.at hat in einem kurzen Video die Spracherkennungssysteme der Smartphone-Betriebssysteme iOS, Android und Windows Phone 7 getestet und verglichen: http://derstandard.at/1319182259730/InSite-Folge-11-iOS-Siri-vs-Android-vs-WP7-Wer-hat-die-beste-Spracherkennung?_blogGroup=1

Die intelligente Sprachsteuerung: Siri

Ab morgen gibt es in amerikanischen und deutschen Läden die nächste Version des Mobiltelefons von Apple, das iPhone 4S (ab 28. Oktober 2011 in Österreich erhältlich).

Eine der Hauptneuerungen des neuen iPhones ist die Möglichkeit das Gerät per Sprache zu steuern. Der neue Sprachassistent, genannt Siri (Apple kaufte die gleichnamige Firma im Jahr 2010) hat quasi eine eigene Intelligenz und versteht natürliche Sprachbefehle. Das heißt, es gibt (scheinbar) keinen festen Befehlssatz, den man im Handbuch nachschlagen muss, sondern man spricht zu seinem iPhone wie zu einer anderen Person. Siri antwortet beispielsweise auf „Ruf mir ein Taxi“ oder „Wie ist das Wetter in Berlin?“, führt aber auch Befehle wie „Schreib Matthäus, dass ich unterwegs bin“ oder „Stell den Timer auf 10 Minuten“ aus (die wahre „Intelligenz“ des Assistenten erfährt man dann bei Fragen wie „Was ist der Sinn des Lebens?“ oder „Tell me a joke“).

Siri lässt sich aber auch nutzen um komplette Texte für SMS oder E-Mails zu diktieren (!). Apple schreibt auf der Siri-Website:

Es nutzt fast alle integrierten Apps auf dem iPhone 4S, damit du deine Infos bekommst. Siri schreibt und sendet E-Mails und Nachrichten – und liest sie dir sogar vor. Es sucht im Internet nach Informationen, die du brauchst. Es spielt Songs, die du hören möchtest. Es macht Anrufe. Es plant Besprechungen. Es hilft dir, dich zu erinnern. Und es weckt dich. Siri kann dir fast alles sagen. Und es spricht auch mit dir.

Aufgrund der Komplexität und der benötigten Rechnerleistung findet sich Siri nur auf dem neuesten iPhone-Modell – Alternativen auf anderen Systemen: Technologien anderer Smartphone(software)hersteller, Google Voice Actions for Android.
Der Sprachassistent ist zwar noch in der Beta-Phase unterstützt aber bereits die Sprachen Englisch, Deutsch und Französisch.

Wie gut die Erkennung wirklich ist, wird erst die eigene Erfahrung zeigen. Eine andere Frage wird auch sein, wie gut das System unterwegs einsetzbar ist (When Is it OK to Talk to Your Phone? An Etiquette Guide to Mobile Voice Recognition).

Aber: Für Menschen, die Touchscreens nicht oder nur eingeschränkt benutzen können (beispielsweise aufgrund der gesundheitlichen Beeinträchtigung durch eine Sehnenscheidenentzündung) kann ein mobiles Spracherkennungssystem wie Siri unter Umständen eine immense Hilfe darstellen.

 

Interessant: Mitentwickler der Sprachtechnologie Siri ist möglicherweise Nuance, Hersteller der beiden Spracherkennungsprogramme Dragon NaturallySpeaking und Dragon Dictate für Mac, sowie der schon seit längerer Zeit existierenden iPhone-App Dragon Dictate für iPhone.

 

 

Auf Deutsch:

 

Weitere Links:
heise.de
dr-spehr.de

Neue Version: Dragon Dictate 2.5 für Mac

Ebenso wie das Update für Dragon NaturallySpeaking 11.5 für den PC, hat der Spracherkennungssoftware-Hersteller Nuance im August auch ein Update für Dragon Dictate für Mac herausgebracht. Die Version 2.5 ist nun die aktuellste und kann für alle Benutzer der Version 2.0 kostenfrei installiert werden.

Hier die wesentlichen Erneuerungen:

  • Wie für Dragon NaturallySpeaking gibt es nun auch die iPhone-App „Dragon Remote Microphone“, die das iPhone in ein drahtloses Mikrofon verwandelt
  • Erweiterte Unterstützung von Microsoft Word 2011: Nuance ermuntert hier sogar, Maus und Tastatur gleichzeitig zur Spracherkennung zu verwenden
  • Erweiterte Befehle um Nachrichten auf Facebook oder Twitter zu senden, neue Suchbefehle
  • Verbesserte Formatierung, Zahlenmodus, verbesserter Vokabeleditor, neue Trainingstexte… u. a.

Und eine Änderung, die mir persönlich sofort aufgefallen ist:

  • Statt des Befehls „Passage löschen“ wird nun „Lösch das“ verwendet (meiner Meinung nach eine sehr sinnvolle Angleichung an Dragon NaturallySpeaking, weitere kommen hoffentlich noch)

 

Quellen:
www.nuance.de/…/dictate-2-5-features
www.redakteur.eu/?p=70034
zdnet.de/news/41555214/nuance-bringt-dragon-dictate-fuer-mac-2-5.htm
www.macspeech.com/extensions/forums/topic.php?id=1579

Google Suche per Sprache

Google hat ein neues Feature gestartet, dass es einem erlaubt, wie schon am Handy seit längerem möglich, auch am Computer mit Sprache zu suchen. Die Sprachsuche ist nur mit Googles eigenem Browser Chrome verwendbar und auch nur auf der englischen Google-Seite anfindbar.

Nach Ausprobieren der Sprachsuche kann ich aber sagen, dass Google mit meiner österreichischen IP-Adresse automatisch auf deutsche Sprache wartet und diese auch erstaunlich gut erkennt. Die Sprachsuche funktioniert demnach auch auf Deutsch (möglicher Weise auch in anderen Sprachen), jedoch nur auf der englischen Google-Website.

Kostenloses Update für Dragon NaturallySpeaking: Version 11.5

Für alle Benutzer von Dragon NaturallySpeaking 11 gibt es Ende Juni ein kostenfreies Update auf die neue Version 11.5.

Einige wesentliche Neuerungen sind:

  • Verwendung des iPhones/iPod Touch als drahtloses Mikrofon
  • Neue Befehle für Facebook und Twitter
  • Bessere Befehle für Microsoft Office 2010
  • Verbesserte Korrektur- und Bearbeitungsoptionen

Weitere Infos

Apple, das iPhone, und Spracherkennung

In einem Spiegel-Artikel zu lesen, gibt es in der nächsten Generation des iPhones höchstwahrscheinlich schon eine weitaus bessere Integration von Spracherkennung. Die Gerüchte gehen um, Apple verhandle mit Nuance bezüglich einer Zusammenarbeit. Jedenfalls sei gesagt, dass Spracherkennung wie auch schon durch Google und Android einem immer breiter werdenden Publikum zugänglich gemacht wird.

Dragon Dictate 2.0-Testbericht der FAZ

Stephan Küpper von Digital diktieren macht mich auf einen guten Testbericht über Dragon Dictate 2.0 der Frankfurter Allgemeinenzeitung aufmerksam. Der Redakteur Michael Spehr kommt auf so ziemlich das gleiche Resultat wie ich in meinem Testbericht.

Google Chrome bekommt Spracherkennung

Die neue Version 11 von Googles Browser Chrome hat eine neue Schnittstelle zur Erkennung von Sprache dazubekommen. Die „HTML 5 Speech Input API“ soll Entwicklern von Erweiterungen für Chrome die Möglichkeit geben Spracherkennung nutzen zu können. Die Audiodaten werden dabei an Server von Google geschickt, dort in Text umgewandelt und wieder zurück gesendet.

Manche werden die immer besser werdende Spracherkennung Googles bereits von Android kennen. Einen Qualitätsvergleich zu Dragon NaturallySpeaking kann man natürlich nicht ziehen, allerdings gehen die Entwicklungen bei Google rasend schnell voran und die Spracherkennung ist jetzt schon nutzbar.

Das Handy per Gedanken steuern

Einen interessanten Artikel mit der Überschrift „Handybedienung per Hirnsignal“ las ich im neuesten c’t. So haben Wissenschaftler der University of California in San Diego (UCSD) an dem Swartz Center for Computational Neuroscience eine Computer-Hirn-Schnittstelle geschaffen mit der Probanden auf einem Nokia N97 rein gedanklich Nummern anwählen konnten. Die 8000-mal verstärkten EEG-Signale, die von den Nutzern über ein Stirnband übertragen wurden verarbeitete eine eigens entwickelte Software für das Nokia-Handy. Genau wie bei Spracherkennungssoftware mussten die Testpersonen die Software zuerst trainieren: Sie bekamen die Ziffern in unterschiedlichen Bildwiederholfrequenzen vorgespielt (beispielsweise eine „eins“ mit 9 Hz, eine „zwei“ mit 9,25 Hz usw.), die unterschiedliche Reaktionen des Gehirns auf die Ziffern und verschiedenen Frequenzen speicherte dann die Software.
Nach erfolgreichem Training konnte das Wählen von Telefonnummern nun ausprobiert werden. Den Probanden wurde wiederum nacheinander jede Ziffer vorgespielt, der Computer registrierte nun, ob Ziffer/Bildwiederholrate-Kombination die gleichen Reaktionen auslöste wie beim Training. Um die Fehlerrate zu minimieren wurde die Eingabe der zehn Ziffern zweimal durchgeführt, dauerte deshalb auch nicht weniger als durchschnittlich 88,9 Sekunden. Sieben von zehn Probanden gelang es eine absolut fehlerfreie Eingabe zu machen, wobei die durchschnittliche Genauigkeit bei stolzen 95,9 % lag.
Die Wissenschaftler des UCSD-Instituts denken daran, die Schnittstelle für Patienten mit schweren Lähmungen oder auch als Kontrollorgan für die Konzentration bei Fahrern und Fluglotsen im Automobil oder Transportsektor nutzen zu können.

Die wissenschaftliche Publikation lässt sich unter  sccn.ucsd.edu/~yute/publications/LNAI10.pdf nachlesen.

Anhand dieses Versuchs lässt sich erkennen, wie schwierig es ist Gehirnssignale in für den Computer verständliche Signale umzuwandeln. Im Gegensatz zur Augensteuerung oder Gesichtserkennung (beispielsweise integriert beim zukünftigen Windows 8-Betriebssystem), wo sich der Einsatz alternativer Eingabemethoden bereits im breiten Konsumentenbereich abzeichnet, ist eine Steuerung per Gedanken hingegen noch weit davon entfernt.
Die Entwicklung in diese Richtung bleiben aber weiterhin spannend.

Augensteuerung: Bald schon Wirklichkeit?

Ich habe schon einmal kurz etwas über Augensteuerung erwähnt, eine Technologie, die sich noch sehr im Entwicklungs- und Forschungsstadium befindet. Einen interessanten Hinweis hat nun auch der Benutzer jask im Spracherkennungsforum hinterlassen.

Den Computer (im Enduser-Bereich!) mit den Augen zu steuern, wäre ein großer Entwicklungsschritt. Ein solches System klingt wirklich nach einer interessanten Entwicklung: Man stelle sich vor, der Computer wüsste wohin man sieht… Diese Information könnte man gut nutzen, da sie auch die Interaktion mit dem Computer wesentlich beschleunigen würde.

Hier ein Video der Entwicklungsfirma Tobii Technology, die zusammen mit Levono einen Prototyp eines Laptops mit integrierter Augensteuerung entwickelt hat:

Ein Problem bleibt allerdings die fehlende Möglichkeit zum Ausführen des Mausklicks: Das gleiche Problem, das auch die Steuerung per Kopfbewegung nicht befriedigend lösen kann.