„LLM-in-the-Loop“ – GenAI und die Sache mit der Usability

Durch den Erfolg von Large Language Models (LLMs) wie GPT werden diese zunehmend in verschiedene Anwendungen integriert. Der Schlüssel zum Erfolg solcher Systeme liegt dabei allerdings nicht nur in ihrer technologischen Leistungsfähigkeit, sondern vor allem in deren Nutzerfreundlichkeit. Denn ohne eine zur informellen Aufgabe der Nutzer passende Integration der LLMs kann es dazu kommen, dass diese von den Anwendungen enttäuscht sind, sobald der Neuheitseffekt nachlässt und diese nie wieder nutzen.

Einen einfachen GPT-3 Text-Prompt in einer Benutzeroberfläche einzubauen oder eine API-Anfrage bei jedem Tastendruck zu starten, verlegt die Last der Problemlösung auf die Nutzer. Dies kann zu einer enormen kognitiven Belastung führen, die dann oft durch Versuch und Irrtum bewältigt werden muss. Problematisch wird es z.B. dann, wenn die Anwendung zu wenig auf die informelle Aufgabenerledigung ausgerichtet ist und deshalb der Nutzer sich mit dem LLM in einer endlosen Schleife bewegt. Das kann z.B. dann der Fall sein, wenn die Sprache in der hinterlegten Datenbasis stark von der der Nutzer abweicht, und Mensch und Maschine deswegen an einander vorbei reden – etwa wenn z.B. Gesetzestexte als Basis für Beratungsdialoge mit juristisch Unkundigen zum Einsatz kommen.

Um ein „LLM-in-the-Loop“ erfolgreich zu verhindern, muss die informelle Aufgabenerledigung der potenziellen Nutzer vorab möglichst genau verstanden werden. Basierend auf diesen Erkenntnissen kann dann entschieden werden, an welchen Stellen z.B. ein Text-Prompt-basierter Dialog bei der Aufgabenerledigung sinnvoll eingesetzt werden kann oder ggf. andere Interaktionsformen im User Interface implementiert werden sollten. Die Evaluierung der Anwendung mit echten Nutzern deckt dann auf, an welchen Stellen die Aufgabenerledigung nicht reibungslos verläuft und aus welchen Gründen. Versteht z.B. der juristisch unkundige Nutzer die auf auf Gesetzestexten basierenden Aussagen der Anwendung nicht, muss diese an das Verständnis der potenziellen Nutzer antrainiert werden, damit die Dialoge zwischen Mensch und Maschine im Human-Machine-Teaming spontan reibungslos funktionieren.