Usability-Metriken

Zusammenfassung einen Diskussion auf sw-ergo news zum Thema Usability-Metriken im Juli 2003. Vielen Dank an Frank Leidermann, Gunter Dubrau (dubrau.de) und Ahmet Cakir (ergonomic.de), deren Beiträge ich hier ediert habe.

Fragestellung

In einem Projekt stellt sich die Frage nach quantitativen Messverfahren zur Usability. Mit Hilfe von entsprechenden Metriken soll für eine Standardapplikation innerhalb eines vorgegebenen Product Life Cycles die Verbesserung der Bedienbarkeit gemessen werden.

Die folgenden Abschnitte geben den Inhalt der Diskussion wieder.

  1. Das Problem der Messbarkeit
  2. Metriken
  3. Die Messung
  4. Statistische Auswertung
  5. Was kostet der Spass?
  6. Qalitative oder Quantitative Verfahren?
  7. Literatur

1 Das Problem der Messbarkeit

Das Problem der Messbarkeit lässt sich folgendermaßen kurz (vielleicht zu verkürzt ;-) beschreiben. Kleiner Dinge (z.B. Internaktionszeiten) sind einfach messbar, aber zu instabil mit zu hohen Schwankungen, deren Ursachen meist ganz woanders liegen. Globalere Dinge sind schwer messbar, dafür aber konstanter. Aber auch hier liegen die Ursachen für Schwankungen immer dort, wo man sie nicht vermutet.

--

Naturgemäß wünscht sich jeder einen Zollstock, mit dem er sein Produkt messen kann. Dazu muss man aber erst einmal das "Ding" identifizieren, das da vermessen werden soll. Leider ist dem bei Usability nicht so! Der Begriff ist zwar definiert (ISO 9241-11), die Definition weist aber eine große offene Flanke auf: Usability kann stets für einen bestimmten Nutzungskontext ermittelt werden. Wie man diesen aber ermittelt und berücksichtigt, beschreibt die Norm nicht allzu gut. Zudem haben Gurus wie Jacob Nielsen recht andere Vorstellungen von Usability.

Wenn man im Internet nach Messmethoden für Usability sucht, findet man meist so etwas: Usability umfasst die Begriffe Effizienz, Effektivität und Zufriedenheit." Die Bestimmung, d.h. die Operationalisierung dieser Begriffe in meßbare Indikatoren stößt in der Praxis auf Meß- und Bewertungsprobleme unterschiedlicher Schwere. Das Ausmaß der Probleme bei der Erfassung qualitativer Größen im Leistungs- und Nutzenbereich steigt mit den Anwendungen, die nicht zur Erledigung fest definierter Aufgaben oder Arbeitsabläufen dienen.

Da die Operationalisierbarkeit von Websites im Vergleich zu herkömmlichen Anwendungen also stark variiert, müssen dementsprechend auch unterschiedliche Verfahren und Methoden bei der Evaluation in Betracht gezogen werden. " (hier Uni Saarland, Informationswissenschaft)

Warum man keinen einfachen Zollstock hat, kann man in dem Forschungsbericht von Dzida et al. Gebrauchstauglichkeit von Software lesen. Dort sind auch unterschiedliche Methoden, die für das hier diskutierte Problem in Frage kämen, behandelt. Der Bericht behandelt zudem eine für ähnliche Zwecke entwickelte Methode. Sie können mit diesem Bericht anfangen. Vielleicht können Sie auch das Gewünschte darin finden.

Was man nicht finden wird, ist der Zollstock, der bei einem Meter Länge immer ein Meter anzeigt. Gummibandmaße zu finden, ist hingegen sehr leicht.

2 Metriken

Wie komme ich zu Metriken im Bereich Usability? Zeit? Erfolgsquote? GOMS? Fragebögen?

ErgoNorm

Ich würde ErgoNorm von Prümper empfehlen. Damit nähern Sie sich auch ungezwungen der EU-Norm 9241, was nur von Vorteil sein kann.

GOMS (goals, operators, methods, and strategies) / Keystroke-Analyse

Vor diesem Hintergrund ist wohl eine GOMS-Analyse eine mögliche Option. Allerdings betrachtet GOMS lediglich die theoretische Effizienz der Interaktion. Man kann zwar auch an Hand von Beobachtungen die wirklich "gelebten" Interaktionsschritte mit GOMS nach-modellieren – allerdings ist der Aufwand, sowohl organisatorisch als auch mental, sehr hoch.

GQM

Zum Thema, wie man von übergeordneten Zielen zu Metriken kommt: Da gibts den folgenden generischen Ansatz aus dem SW-Engineering: "Goal-Question-Metric (GQM)"

Prof. Rombach vom www.iese.fhg.de hat da einiges zu gemacht, aber meines Wissens nicht spezifisch für Usability...

3 Die Messung

Man muss immer dafür sorgen, dass man Vergleichswerte hat. Das heißt, idealerweise sollte das Prüfverfahren einmal fest definiert werden und dann nicht mehr verändert werden.

Sie solllten also für die Vorbereitung maximal Zeit einplanen (inkl. eines simulierten Beispieltests, in dem Sie bereits einen vollständigen Testbericht generieren). Deswegen auch die Empfehlung Prümper, da dieses Verfahren selbst auch schon getestet und anerkannt ist.

Anders gesagt - wird zwischen den einzelnen Lebenszyklen der Standard-Software des Prüfverfahren geändert, sind die Werte nicht mehr vergleichbar und frühere Test somit nutzlos.

4 Statistische Auswertung

Statistisch korrekte Werte werden Sie schwer bekommen. Ich kann Ihnen nur empfehlen, hier nicht unbedingt stat. korrekt arbeiten zu wollen, Sie verzweifeln ansonsten. Geben Sie die in stat. Dokumentationen geforderten Werte immer mit an. Versuchen Sie aber nie, stat. korrekt zu sein. Es wird Ihnen sehr oft passieren, dass Sie bei den Prüfverfahren auf stat. Korrektheit rausbekommen, dass Ihre Ergebnisse nicht signifikant oder valide sind, obwohl die graphischen Darstellungen sehr verlockend aussehen.

5 Was kostet der Spass?

Wie sieht es mit dem Budget aus? Man braucht wohl mehr Testpersonen als beim qualitativen Lab-Sessions, um aussagekräftige Daten zu bekommen. Jedoch wieviel mehr?

Für GOMS braucht man zur theoretischen (modelltypischen) Modellierung nur einen Experten im jeweiligen Fachgebiet. Will man mit GOMS die gelebte Arbeitsweise modellieren (z.B. als Vergleich zur modelltypischen), dann braucht man vielleicht 3 oder 4 Anwender.

Will man richtig Interaktionszeiten messen und diese mit den GOMS-Modellierungen vergleichen (Keystroke-Analyse), dann braucht man schon ca. 10 Leute und die entsprechende Technik (z.B. Noldus).

6 Quantitative oder Qualitative Verfahren?

Helfen mir quantitative Verfahren bei der Verbesserug der Benutzbarkeit? Bei qualitativen Verfahren kommen ja direkt Vorschläge zur Verbesserung heraus; bei quantitativen Verfahren hingegen nur ein schnöder Zahlenwert.

Sie können bei der Wichtung der Redesign-Prioritäten helfen und sind für das Marketing sehr interessant. Auch helfen ErgoNorm und GOMS dem Prüfer, die SW-Anwendung viel stärker zu durchdringen, inklusive den Anwendungs- und Entwicklungskontext. Somit bekommen die entsprechenden Redesign-Vorschläge eine viel höhere Qualität. Es erfolgt eine bessere Fokusierung auf die wirklich wichtigen Probleme.

7 Kommentierte Literaturliste

Jenny Preece widmet sich der Fragestellung in Human-Computer Interaction [Preece et al. 1994]. Allerdings können die 5 Seiten nicht wirklich erschöpfend gewesen sein.

Mayhew hat in ihrem Usability-Engineering Lifecycle [Mayhew] ein Kapitelchen über "Usability Goals" geschrieben, die ja auch quantitativ sein können. Geht aber auch nicht extrem in die Tiefe.

Überzeugt hat mich Jef Raskin, der in "The Humane Interface" [Raskin 2000] eine Lobrede auf GOMS hält, und zwar angewendet im Sinne einer vergleichenden quantitativen Methode.

Literatur

[Mayhew] Usability-Engineering Lifecycle
[Preece et al. 1994]

Preece, Jenny / Rogers, Yvonne / et al.: Human-Computer Interaction . Addison-Wesley, Wokingham, England, 1994

[Raskin 2000] Raskin, Jef: The Humane Interface – New Directions for Designing Interactive Systems. ACM Press, New York, 2000 amazon.de

à propos

Qualitatives und Quantitatives Usability Testing – ein Hybrider Ansatz – Mensch und Computer 2004

A Hybrid Approach for Qualitative and Quantitative Usability Studies – Mensch und Computer 2005

Eingehende Links

Bewertung der Gebrauchstauglichkeit mit Metriken 224KB von Prof. Dr. Rüdiger Liskowsky, 2004