Evaluierung der Datenqualität bei remotem Testing von Medical Apps

Software benötigt eine benutzerfreundliche Oberfläche. Um zu evaluieren, ob dies der Fall ist, existieren verschieden Möglichkeiten. Die meisten davon beziehen sich auf die Gebrauchstauglichkeit von Desktop Anwendung. Die Testung von mobilen Anwendungen (Apps) bleibt dahingehend weitestgehend unbeachtet. Meist wird die Gebrauchstauglichkeit von Applikationen im Usability Labor getestet.

Das Usability Labor birgt einige Nachteile. So ist die Testumgebung sehr präsent, da die Testperson die App bedient, während er /sie in einem fremden Raum ist und von dem Testleiter/ der Testleiterin beobachtet wird. Weiter wird sein / ihr komplettes Verhalten aufgezeichnet. Es werden nur die vordefinierten Aufgaben von der Testperson durchgeführt und die Sammlung der passenden Testpersonen ist aufwendig [1].

Eine Alternative, die bereits bei Websites im nicht medizinischen Kontext gängig ist, ist das remote, also ferngesteuerten, Testen [1, 2]. Hierfür besucht die Testperson die Website vom eigenen Endgerät, führt Aufgaben durch, wird möglicherweise durch die Webcam beobachtet und hält virtuell Kontakt zum Testleiter / zur Testleiterin. Die Quantität und Qualität der Funde im Usability Labor und beim remotem Testing ist vergleichbar (2, 4). 

Das remote Usabilitytesting für Apps ist momentan unüblich. Dabei hat es diverse Vorteile, wie beispielsweise die Verlängerung der Testphase [3]. Außerdem kann die App unter alltäglichen Bedingungen getestet werden und trotzdem können alle Leistungsmerkmale erfasst werden [5].

Nachteile wiederum sind die örtliche Trennung der beiden Parteien. Bei der Benutzung eines Smartphones ist die Beobachtung durch die Frontcamera zur Interpretation der Mimik wenig sinnvoll und der Datenschutz komplexer. Somit entfällt auch das oft verwendete Eye Tracking. Es muss also ein Weg gefunden werden, um sicher zu stellen, dass die Datenqualität angemessen ist. Diese Qualität bezieht sich nicht nur auf die Testdaten, sondern auch auf die Dateneingaben nach der Testphase, um die Zuverlässigkeit zu prüfen.

Hektische Eingaben, die meist in stressigen Situationen getätigt werden, sind oft Fehler behaftet. Auch eine schlechte Gebrauchstauglichkeit, bspw. das Suchen eines Buttons führt zu Stress.

Zwei physiologische Maße, von denen bekannt ist, dass sie mit Stress korrelieren, sind die Hautleitfähigkeit und die Herzfrequenz [5]. Die Hautleitfähigkeit (mehr Feuchtigkeit / Schweiß, erhöht die Leitfähigkeit) wird mit einem zusätzlichen Gerät gemessen. Ist also ungeeignet für das remote Testing da das Testszenario sehr präsent wird und es im Alltag ungeeignet.

Der Anstieg des Pulses und der Herzratenvariabilität sind ohne zusätzliche Hardware messbar. Die eingebaute Smartphone-Kamera kann als Pulsoximeter fungieren. Zwar ist dies, abhängig vom Smartphone ebenfalls unbequem und unüblich, jedoch können so die Dateneingaben in einen Kontext gesetzt werden.

Die Dauer der Eingabe ist ebenfalls hilfreich. Da beim remotem Testen verschieden (Button-)Events mit einem Timestamp versehen sind, ist dies einfach zu erfassen [3]. So können die erwartete Dauer einer Eingabe mit der tatsächlichen Eingabedauer verglichen werden.

Das eingebaute Acceleromter misst die Beschleunigung des Smartphones. Somit kann festgestellt werden, ob die Eingabe in Ruhe oder Bewegung passierte.

Eine Nachfrage beim der Testperson nach dem aktuellen Stresslevel ist subjektiv und fordert zusätzliche Eingaben, die wiederum keiner Qualitätsprüfung unterliegen.

Die „Think-aloud Methode“ eignet sich nur in selten Fällen für das remote Testen, da sie nicht alltagstauglich ist [1]. Falls sie dennoch angewendet wird, existieren verschiedene Softwarelösungen, die anhand der Stimme eine Aussage über den Stress tätigen können. 

Mit Hilfe von verschieden Messpunkten können somit Aussagen über die Datenqualität getätigt werden. Ein Anstieg des Pulses und der Herzratenvariablität, der per Smartphone Kamera gemessen werden, sowie hektische Bewegung des Smartphones, die das Accelerometer erfasst und der Vergleich der Eingabedauer mit den Erwartungswerten können ein Stresslevel ermitteln und somit die Eingaben in einen Kontext setzen.

Dies sollte möglichst automatisiert passieren. Diese Eingaben zusätzlich zur eigentlichen Testung zu prüfen, wäre ein erheblicher Mehraufwand. 

Literaturliste:

[1] Sauer, J, Muenzberg, A, Siewert, L, Hein, &, Roesch, N. (2019). Remote Testing of Usability in Medical Apps. 8th EAI International Conference, MobiHealth 2019, Dublin, Ireland, November 14-15, 2019, Proceedings, 3-17. ISSN: 1867-8211

[2] Brush, B, Ames, M & Davis, J (2004). A Comparison of Remote and Local Usability Studies for an Expert Interface, CHI Vienna, 1179-1182. doi: 10.1145/985921.986018

[3] Sauer, J, Muenzberg, A, Hein, &, Roesch, N. (2019). Simplify Testing of Mobile Medical Applications by Using Timestamps for Remote, Automated Evaluation. 2019 International Conference on Wireless and Mobile Computing, Networking and Communications (WiMob), 203-206. doi: 10.1109/WiMOB.2019.8923241

[4] Thompson, K, Rozanskim E & Haake, A. (2004) Here, There, Anywhere: Remote Usability-Testing That Works. Proceedings of the 5th Conference on Information Technology Education, SIGITE Salt Lake City, UT, USA, October 28-30, 2004, 132-127. doi: 10.1145/1029533.1029567

[5] Tullis, T, Albert ,B. (2008). Measuring the User Experience. Burlington, United States: Elsevier.