Effektive UX-Evaluierung von Generativer AI

Wie können Unternehmen sicherstellen, dass ihre GenAI-Anwendungen nicht nur innovativ, sondern auch benutzerfreundlich sind? Der Schlüssel liegt in der sorgfältigen Evaluierung des Nutzererlebnisses – der User Experience (UX). Hier stellen wir verschiedene in Praxis und Theorie etablierte Fragebögen vor, die dazu dienen können, die UX von GenAI-Produkten zu messen. Die Ergebnisse einer solchen Evaluierung können wertvolle Hinweise auf den Erfolg der Einführung und etwaiges Optimierungspotential liefern. Da es sich bei den meisten GenAI-Anwendungen um Werkzeuge handelt, macht die Usability/Gebrauchstauglichkeit einen Großteil der UX aus und sollte somit bei der Evaluierung im Vordergrund stehen. Bei den vorgestellten Fragebögen handelt es sich um geschlossene Rating-Skalen.

Wir starten mit den klassischen Fragebögen aus dem Bereich UX und Usability, sie allesamt technologieagnostisch sind, das heißt, sich auf alle Arten von digitalen interaktiven Systemen anwenden lassen.

Der System Usability Scale (SUS) ist der bekannteste Fragebigen aus der UX-Forschung. Er ist mit 10 Items schnell und einfach anwendbar und umfasst verschieden Aspekte der Usability („Ich empfinde das System als unnötig komplex“) und Erlernbarkeit („Ich musste eine Menge Dinge lernen, bevor ich mit dem System arbeiten konnte“). Der SUS lässt sich zur Evaluation von GenAI einsetzen, bleibt allerdings agnostisch. Es existieren Benchmarks, wodurch sich die Ergebnisse gut mit der Norm vergleichen lassen.

Ein weiterer bekannter Fragebogen ist der UEQ (User Experience Questionnaire), der ein breites Spektrum von UX-Aspekten misst und sich besonders für detailliertere Untersuchungen der Benutzererfahrung eignet. Der UEQ bedient sich einem sogenannten semantischen Differential, welches Paare von Adjektiven gegenüberstellt. Der ursprüngliche Fragebogen enthält 6 Skalen zu je 4 Items, die sich auf GenAI anwenden lassen. Die erweitere Version des UEQ+ enthält 14 weitere Skalen, die individuell ausgewählt und zusammengestellt werden können. Hiervon eignen sich besonders die 3 Skalen, die ursprünglich zur Evaluation von Sprachassistenten genutzt wurden: Antwortverhalten (unangenehm – angenehm), Antwortqualität (unpassend – passend) und Verständnis (rätselhaft – erklärbar).

Der ebenfalls modular aufgebaute meCUE (Components of User Experience) erfasst UX mittels fünf Komponenten (10 Skalen, 34 Items). Diese sind jedoch nur begrenzt auf GenAI-System anwendbar. Die Skalen zur Nützlichkeit, Benutzbarkeit und Nutzungsintention eignen sich für eine Evaluation, jedoch sind insbesondere die Skalen zu Visueller Ästhetik, Status, Bindung und Produktloyalität unpassend für GenAI im Unternehmenskontext.

Auch der beliebte AttrakDiff ist auf die emotionale Reaktion der Nutzer fokussiert und ideal, um die affektive Dimension von GenAI-Anwendungen zu messen, da sich das Adjektiv-Format auf alle Arten von Technologien anwenden lässt. Das semantische Differential umfasst pragmatische Qualität (einfach – kompliziert), Stimulation (originell – konventionell), Identität (isolierend – verbindend) und Attraktivität (gut – schlecht).

Der Godspeed-Fragebogen hingegen ist nicht technologieagnostisch, sondern wurde im Robotik-Bereich entwickelt. Er beinhaltet die Skalen Anthropomorphismus (hat kein Bewusstsein – hat ein Bewusstsein), Belebtheit (apathisch – reagierend), Sympathie (unfreundlich – freundlich), Intelligenz (ungebildet – unterrichtet) und Sicherheit (ängstlich – entspannt). Auch hier sind die Skalen Belebtheit und Sicherheit weniger gut auf GenAI anzuwenden – die anderen können verwendet werden, um diese Qualitäten der KI zu messen.

Für Unternehmen, die ihre GenAI-Anwendungen optimieren wollen, ist die Auswahl des richtigen UX-Bewertungstools entscheidend. Bestehende UX-Fragebögen können eingesetzt werden, um verschiedene Aspekte der Erfahrung mit dem GenAI-System zu messen. Dennoch bestehen derzeit (noch) keine Fragebögen, die speziell für GenAI-Systeme entwickelt wurden.

Zufrieden (und glücklich): Auf der Suche nach einer Differenzierung der dritten Usability-Stufe

Die drei Stufen des Qualitätstreppchens der Usability sollten jedem Usability-Engineer und UXler bekannt sein: Effektivität, Effizienz und Zufriedenstellung, gemäß der DIN-Norm ISO 9241-11. Eigentlich ganz einfach, oder? Effektivität ist die Vollständigkeit und Genauigkeit der Zielerreichung. Effizienz der Aufwand zur Zielerreichung. Und Zufriedenstellung… wenn der Nutzer zufrieden ist. Also positiv eingestellt. Warte, positiv – ist das nicht UX? Frei von Beeinträchtigung? Vermindern Nutzungsbeeinträchtigungen nicht die Effizienz? „Zufrieden (und glücklich): Auf der Suche nach einer Differenzierung der dritten Usability-Stufe“ weiterlesen

Das neueste Interaktionsprinzip User Engagement (Benutzerbindung)

User Engagement (dt. Benutzer-Engagement) wurde 2019 offiziell als neues Usability-Dialogprinzip definiert. Dabei bleibt offen, ob diese Neuaufnahme wirklich gerechtfertigt und im Sinne unseres Verständnisses von Usability ist. Die sieben „Dialogprinzipien“ gehören seit ihrer Definition in der Norm ISO 9241-10 aus dem Jahr 1996 zum Begriffs- und Arbeitsrepertoire eines jeden Usability-Experten und UXler: Ursprünglich waren das Aufgabenangemessenheit, Selbstbeschreibungsfähigkeit, Erwartungskonformität, Fehlertoleranz, Steuerbarkeit, Individualisierbarkeit und Lernförderlichkeit. „Das neueste Interaktionsprinzip User Engagement (Benutzerbindung)“ weiterlesen

Pen & Paper Hackathon

Fragen Sie sich auch manchmal, was es nicht alles an verrückten Konferenzformaten (oder auch „Unkonferenzen“) gibt und dass Sie nicht so langsam die gesamte Bandbreite des Tagungsdesigns 2.0. kennen müssten – Cafés, Camps oder Jams… Oder wie in unserem Fall ein Hackathon.
Neulich – am 20./21. September 2018 – war ich nämlich zum ersten Mal mit einer meiner Kolleginnen auf einem Pen & Paper Hackathon. Dieser fand unter der Headline „Smart City Challenge“ statt und wurde ausgerichtet vom Digital Innovation Hub Düsseldorf. „Pen & Paper Hackathon“ weiterlesen

Schließen oder Abbruch? – Wenn ein X zum U wird

Nutzer werden oft ge- oder enttäuscht, wenn sie eine Seite oder Anwendung über das „X“ schließen möchten. Denn manchmal ist es bereits durch einen Klick auf das Icon zu spät und die Arbeit wurde ohne zu speichern gelöscht. Hier ist das richtige Design entscheidend, um dem Nutzer die Bedeutung klar zu machen und ihn nicht ins Unglück zu führen. „Schließen oder Abbruch? – Wenn ein X zum U wird“ weiterlesen

Wie gute UX unser Online Shopping beeinflusst

Bestimmte Dinge kaufen wir nicht im Internet, da wir sie vorher gerne anfassen und prüfen möchten. Dies betrifft frische Lebensmittel, aber auch Dinge, die uns längerfristig begleiten sollen und deshalb gut überlegt sein müssen. Das Interface und die Produktdarstellung im Online-Shops kann dabei untersttützen und den Einkauf darüberhinaus zu einem freudigen Erlebnis machen. „Wie gute UX unser Online Shopping beeinflusst“ weiterlesen