Effektive UX-Evaluierung von Generativer AI

„Wie können Unternehmen sicherstellen, dass ihre GenAI-Anwendungen nicht nur innovativ, sondern auch benutzerfreundlich sind? Der Schlüssel liegt in der sorgfältigen Evaluierung des Nutzererlebnisses – der User Experience (UX). Hier stellen wir verschiedene in Praxis und Theorie etablierte Fragebögen vor, die dazu dienen können, die UX von GenAI-Produkten zu messen. Die Ergebnisse einer solchen Evaluierung können wertvolle Hinweise auf den Erfolg der Einführung und etwaiges Optimierungspotential liefern. Da es sich bei den meisten GenAI-Anwendungen um Werkzeuge handelt, macht die Usability/Gebrauchstauglichkeit einen Großteil der UX aus und sollte somit bei der Evaluierung im Vordergrund stehen. Bei den vorgestellten Fragebögen handelt es sich um geschlossene Rating-Skalen.

Wir starten mit den klassischen Fragebögen aus dem Bereich UX und Usability, sie allesamt technologieagnostisch sind, das heißt, sich auf alle Arten von digitalen interaktiven Systemen anwenden lassen.

Der System Usability Scale (SUS) ist der bekannteste Fragebigen aus der UX-Forschung. Er ist mit 10 Items schnell und einfach anwendbar und umfasst verschieden Aspekte der Usability („Ich empfinde das System als unnötig komplex“) und Erlernbarkeit („Ich musste eine Menge Dinge lernen, bevor ich mit dem System arbeiten konnte“). Der SUS lässt sich zur Evaluation von GenAI einsetzen, bleibt allerdings agnostisch. Es existieren Benchmarks, wodurch sich die Ergebnisse gut mit der Norm vergleichen lassen.

Ein weiterer bekannter Fragebogen ist der UEQ (User Experience Questionnaire), der ein breites Spektrum von UX-Aspekten misst und sich besonders für detailliertere Untersuchungen der Benutzererfahrung eignet. Der UEQ bedient sich einem sogenannten semantischen Differential, welches Paare von Adjektiven gegenüberstellt. Der ursprüngliche Fragebogen enthält 6 Skalen zu je 4 Items, die sich auf GenAI anwenden lassen. Die erweitere Version des UEQ+ enthält 14 weitere Skalen, die individuell ausgewählt und zusammengestellt werden können. Hiervon eignen sich besonders die 3 Skalen, die ursprünglich zur Evaluation von Sprachassistenten genutzt wurden: Antwortverhalten (unangenehm – angenehm), Antwortqualität (unpassend – passend) und Verständnis (rätselhaft – erklärbar).

Der ebenfalls modular aufgebaute meCUE (Components of User Experience) erfasst UX mittels fünf Komponenten (10 Skalen, 34 Items). Diese sind jedoch nur begrenzt auf GenAI-System anwendbar. Die Skalen zur Nützlichkeit, Benutzbarkeit und Nutzungsintention eignen sich für eine Evaluation, jedoch sind insbesondere die Skalen zu Visueller Ästhetik, Status, Bindung und Produktloyalität unpassend für GenAI im Unternehmenskontext.

Auch der beliebte AttrakDiff ist auf die emotionale Reaktion der Nutzer fokussiert und ideal, um die affektive Dimension von GenAI-Anwendungen zu messen, da sich das Adjektiv-Format auf alle Arten von Technologien anwenden lässt. Das semantische Differential umfasst pragmatische Qualität (einfach – kompliziert), Stimulation (originell – konventionell), Identität (isolierend – verbindend) und Attraktivität (gut – schlecht).

Der Godspeed-Fragebogen hingegen ist nicht technologieagnostisch, sondern wurde im Robotik-Bereich entwickelt. Er beinhaltet die Skalen Anthropomorphismus (hat kein Bewusstsein – hat ein Bewusstsein), Belebtheit (apathisch – reagierend), Sympathie (unfreundlich – freundlich), Intelligenz (ungebildet – unterrichtet) und Sicherheit (ängstlich – entspannt). Auch hier sind die Skalen Belebtheit und Sicherheit weniger gut auf GenAI anzuwenden – die anderen können verwendet werden, um diese Qualitäten der KI zu messen.

Für Unternehmen, die ihre GenAI-Anwendungen optimieren wollen, ist die Auswahl des richtigen UX-Bewertungstools entscheidend. Bestehende UX-Fragebögen können eingesetzt werden, um verschiedene Aspekte der Erfahrung mit dem GenAI-System zu messen. Dennoch bestehen derzeit (noch) keine Fragebögen, die speziell für GenAI-Systeme entwickelt wurden.