Im Rahmen eines Praxisprojektes habe ich mich die letzten Wochen etwas intensiver mit Sprachassistenten beschäftigt. Siri, Google Now, Alexa – die Grundfunktionen sind ähnlich: Sie stellen eine Frage oder geben einen Befehl, und der Assistent reagiert. In diesem Betrag diskutiere ich die Frage, wie Sprachassistenten unseren Alltag verändern, gehe auf fünf Aspekte ein, die aus meiner Sicht relevant sind und versuche daraus Herausforderungen für die Gestaltung (Programmierung) von Sprachassistenten abzuleiten.
Sprachassistenten werden unseren Alltag verändern
Zunächst mal ist das eine Spielerei. Ich selbst habe Siri auf meinem Handy nie wirklich genutzt. Und auch die Kommunikationsversuche mit Alexa, die ich einige Tage auf dem Schreibtische hatte, waren eher lustig als hilfreich. Musik per Sprache steuern, sich die wichtigsten Schlagzeilen vorlesen lassen, Infos zum Wetter erfragen, oder wann welcher Müll raus gestellt werden soll. Mit einem Sprachassistent ist mein Leben nicht wesentlich komfortabler, entspannter oder einfacher geworden.
Dennoch bin ich überzeugt, dass Sprachassistenten unseren Alltag in den nächsten Jahren verändern werden. Dabei habe ich weniger die Anwendung im eigenen Wohnzimmer im Blick, sondern professionelle Anwendungen im Bereich Verkauf, im Kunden(self)service und bei zahlreichen weiteren Dienstleistungen (von der Terminvereinbarung bis zur Auskunft beim Bürgerbüro).
Eine (gesprochene) Frage stellen und darauf eine Antwort erhalten, entspricht der natürlichen Kommunikation und ist deshalb viel bequemer als schreiben und lesen, oder gar eine Webseite oder Datenbank nach einer Antwort zu durchsuchen. Suchmaschinen und Wissensdatenbanken sind mittlerweile ziemlich gut darin, eine passende Antwort zu finden. Und vor allem lernt eine moderne Datenbank mit jeder Frage dazu: Ist noch keine passende Antwort vorhanden, kann diese von ExpertInnen oder anderen NutzerInnen eingepflegt werden. Der Schritt zum Sprachassistent ist dann vor allem eine Frage der Schnittstelle: Gesprochener Text muss in eine maschinenlesbare Form übersetzt werden, und die Antwort muss als Sprache ausgegeben werden.
Meine Versuche, mit der Entwicklungsdokumentation von Amazon zu Alexa, einigen Online-Kursen und Hilfeforen sowie einigen Tagen Zeit waren erfolgreich. Ich habe es geschafft, einen Test-Skill für Alexa zu programmieren, der auf einfache Fragen, einfache Antworten geben kann. Es ist nur eine Frage der Zeit, bis neben Homepage und Mobile App auch ein eigener Skill für Unternehmen, Organisationen und Dienstleister zum Standard gehören wird.
Psychologische Aspekte der Nutzung von Sprachassistenten
Bei meinen eigenen Versuchen mit Alexa sind mir einige Aspekte aufgefallen, die ich aus einer psychologischen Perspektive interessant finde. Auch wenn ich mich dabei exemplarisch auf Alexa beziehen, lassen sich die Aspekte auch auf andere Sprachassistenten übertragen, teilweise auch auf Software wie Siri oder Google Know.
Alexa wird personifiziert und als Gesprächspartner wahrgenommen.
Dass wir unserem Computer oder Handy menschliche Attribute oder Verhaltensweisen zuschreiben („Der will mich ärgern.“), haben Sie vielleicht schon bei sich selbst beobachtet. Bei Sprachassistenten scheint das noch schneller zu funktionieren. Ich habe mich selbst dabei beobachtet, Alexa anzuschauen, wenn ich eine Frage stelle – und auch bei ihrer Antwort in Richtung des Gerätes zu schauen.
Verstärkt wird das bei Geräten, die wie Amazon Echo Dot, kein eigenes Display haben. Die einzige Möglichkeit, direkt mit dem Gerät zu interagieren ist zunächst die gesproche Sprache. Für Detaileinstellungen benötige ich ein Smartphone oder einen Computer. Damit nehme ich Alexa im täglichen Gebrauch als Gesprächspartner und nicht mehr als technisches Gerät wahr.
Sprachassistenten werden dann gut funktionieren und von den Nutzenden akzeptiert werden, wenn es gelingt diese Illusion zumindest teilweise aufrecht zu erhalten.
Gesprochene Sprache ist ein natürliches Kommunikationsmittel.
Wenn ich Alexa aktivieren möchte, muss ich sie mit ihrem Namen ansprechen. Alexa berücksichtigt, was bisher gesprochen wurde, und versucht so meine Fragen im richtigen Kontext zu verstehen. Alexa fragt gezielt nach Informationen, die in einer Frage noch fehlen; Alexa fragt nach, wenn etwas unklar ist. Regeln und Normen menschlicher Kommunikation (z.B. Groundingprozesse) simuliert Alexa auf Basis immer ausgefeilterer Technologie erstaunlich gut. Deshalb fällt es leicht, sich mit Alexa zu unterhalten, und ist gleichzeitig schwierig: Dann, wenn die Technologie nicht so reagiert, wie das ein Mensch tun würde.
Die Herausforderung ist, die Regeln menschlicher Kommunikation bei der Gestaltung der Interaktion mit Sprachassistenten zu berücksichtigten und Abweichungen von Kommunikationsnormen transparent zu machen.
Wir verzeihen Fehler, wenn der Kontext klar ist.
In einigen Situationen – am Anfang eher in vielen Situationen – weiß Alexa keine Antwort. Entweder weil ich die notwendigen Skills noch nicht installiert habe (Skills statten Alexa mit zusätzlichen „Fähigkeiten“ aus, wie den örtlichen Müllkalender abzurufen, die aktuellen News der Tagesschau oder den motivierenden Spruch des Tages) oder eine Frage nicht so formuliere, dass Alexa sie versteht. Zunächst bin ich als Nutzer deshalb frustriert. Als ich verstanden habe, wie Alexa funktioniert, wie ich Fragen formulieren muss, wie ich neue Skills installiere, werde ich schnell zum „verständnisvollen“ Nutzer. Wenn der Kontext klar ist, ich Alexa einerseits als Gesprächspartner ernst nehme, anderseits ihre Grenzen kennen, bin ich relativ tolerant. Wenn Alexa auf die Frage „Was ist der Sinn des Lebens?“, keine wirklich Antwort weiß, regt mich das an, nach weiteren Easter Eggs zu suchen.
Sprachassistenten werden dann gut funktionieren, wenn das Gerät den Nutzenden klar macht, was es kann und was nicht, und eigene Fehler eingesteht und sich weiterentwickelt.
Sprache verändert sich.
Sprachassistenten können natürliche Sprache verstehen – zumindest werden sie immer besser darin. Voice UX, also die nutzerfreundliche Gestaltung von Sprach-Interfaces wird zu einem wichtigen Thema. Im Moment hängt der Erfolg der Kommunikation noch davon ab, die richtigen Schlüsselwörter („Intents“) zu nennen, also z.B. „Alexa, starte Müllkalender“ und die notwendigen Informationen („Slots“) zu nennen, z.B. Köln, Biomüll und morgen.
Eine spannende Frage ist aus meiner Sicht, wie die Art mit Maschinen zu kommunizieren unsere Sprache generell verändern wird. Es ist anzunehmen, dass sich mit dem zunehmenden Einsatz von Sprachassistenten Normen, Regeln und Verhaltensweisen im Bezug auf Kommunikation verändern werden (Bedanke ich bei Alexa für eine Auskunft?, Stelle ich mich vor, wenn ich mit Alexa rede?, Erzähle ich Alexa von meinem Tag?), aber auch die Sprache selbst sich weiterentwickelt, z.B. in dem wesentliche Infos an den Satzanfang gestellt werden.
Die Akzeptanz von Sprachassistenten ist dann hoch, wenn die Kommunikation sich „natürlich anfühlt“ und wir gleichzeitig lernen zu unterscheiden, ob wir es mit einem Menschen oder einer Maschine zu tun haben.
Die Schnittstelle zu anderen Medien muss gestaltet werden.
Die gesprochene Sprache von Alexa hört sich erstaunlich natürlich an. Dennoch fällt es mir schwer, bei längeren Texten konzentriert zuzuhören. Während ich bei einer kurzen Info, z.B. zum Wetter gerne vorlesen lasse, möchte ich ausführliche Infos lieber selbst lesen. Dann kann ich einen längeren Text überfliegen, Wichtiges genauer lesen, weniger Interessantes überspringen. Hier muss die Schnittstelle zwischen Sprachassistenten und anderen Medien gestaltet werden, z.B. in dem ich mir einen längeren Text dann auch auf einem Tablet anschauen kann, oder mir meine Buchungsbestätigung mit allen weiteren Infos auf das Handy geschickt wird. Noch relevanter wird dieser Aspekte, wenn die Kommunikation mit einer Maschine nahtlos in die Kommunikation mit einem echten Menschen übergeht, z.B. wenn ein Mitarbeiter aus dem Kundendienst meine Support-Anfrage übernimmt oder eine komplexe Buchung von einer echten Mitarbeiterin weiterbearbeitet wird.
Sprachassistenten müssen in bestehende Prozesse integriert werden, die Schnittstellen zu anderen Medien müssen gestaltet werden, damit sich aus Nutzersicht ein echter Mehrwert ergibt.
Fazit: Es lohnt sich, die Entwicklung von Sprachassistenten zu verfolgen.
Sprachassistenten sind ein wichtiger technologischer Trend. Bis jetzt gibt es noch wenig Forschung zu Sprachassistenten. Für den Erfolg sind neben technologischen Aspekten aus meiner Sicht auch die genannten psychologischen Aspekte relevant. Sprachassistenten werden dann erfolgreich sein, wenn bei der Gestaltung des Nutzerinterfaces (also der Art und Weise, wie ich als Nutzer mit dem Assistenten spreche) einerseits Grundregeln der menschlichen Kommunikation berücksichtigt und „imitiert werden“, anderseits aber erkennbar bleibt, dass es sich um ein technisches Gerät handelt und keinen Menschen.