Beobachtungen, Bewertungen, Vergleiche. Das zeichnet „Social Scoring“ aus und ist in manchen Teilen Chinas längst Realität. Wir wollten den Besucher*innen unseres Barcamps an der TH Köln zeigen, wie beunruhigend es ist, nach intransparenten und nahezu willkürlichen Maßstäben bewertet zu werden – und das ganz ohne ihr Wissen.
Social Scoring war das große Thema des zweiten KI-TT-Barcamps im Studiengang Online-Redaktion: Menschen werden von Technologien oder Mitmenschen beobachtet und bewertet, meist ohne die Bewertungsmaßstäbe überhaupt zu kennen. Die Folgen von schlechten Scores sind finanzielle und soziale Nachteile bis hin zum sozialen Ausschluss. Nun gut, ganz so weit wollten wir es nicht treiben. Aber wir wollten den Besucher*innen schon ein mulmiges Gefühl geben. Es sollte unangenehm werden. Social Scoring hautnah sozusagen.
Die Strategie
Als erstes benötigten wir ein Bewertungssystem, das sich problemlos auf unseren Einsatzort „Barcamp“ anlegen ließ. Wir setzten uns also in unserem Projektseminar zusammen und sammelten Ideen: Was genau wollen wir beobachten? Wann bekommen unsere Gäste Plus- und wann Minuspunkte? Was ist die Konsequenz? Wie lang halten wir das Experiment geheim, und wie lösen wir es auf?
Das Resultat nach einigen Stunden Planung: Wir würden allen Besucher*innen am Eingang Nummern aushändigen; diese sollten sichtbar an der Kleidung getragen werden, so dass wir jede Person eindeutig einer Punkte-Liste zuordnen konnten. Für neugierige Fragen ließen wir uns die richtigen Ausreden einfallen, zum Beispiel: „Die Nummern sind Ihr Eintrittsticket. Dann wissen wir, wie viele Besucher da sind und dass Sie zu dieser Veranstaltung gehören.“
Eine Scoring-Tabelle war auch schnell erstellt: Pluspunkte sollte es geben, wenn Besucher aufmerksam und höflich waren, aber auch wenn sie Wasser tranken oder ihre Teller aufgegessen hatten. Minuspunkte hingegen konnten unsere unfreiwilligen Proband*innen sammeln, indem sie während der Vorträge redeten, mehr als drei Mal zum Buffet gingen oder zu den süßen Getränke-Alternativen sowie zum Kölsch griffen. Von uns und sechs weiteren eingeweihten Scorer*innen wurden die Barcamp-Gäste observiert und die Scoring-Listen im Stundentakt ausgewertet. Mit Hilfe des verwendeten Online-Punktesystems wurden schließlich zur „Halbzeit“ des Barcamps die ersten Besten- und Schlechtesten-Listen an die Wand geworfen – nicht unter echten Namen, aber wegen der gut sichtbaren Nummerierung trotzdem leicht zu identifizieren.
Verblüffung nach der (Teil-)Auflösung
Die Reaktionen waren wie gewünscht: Die Besucher*innen waren verwirrt, verblüfft und neugierig – allerdings auch ein wenig gestresst. Wie kommt mein Score zustande? Was haben „die“ alles gesehen, was nicht? Und natürlich die wichtigste Frage: „Was, ich wurde beobachtet?!“ Von unserer Seite gab es keine weiteren Erklärungen, aber ab jetzt eine Chance, den eigenen Score zu verbessern – und zwar mit Hilfe eines Glücksrads. Die Teilnehmer*innen konnten an dem Quiz-Stand mit etwas Glück und Wissen Pluspunkte für ihren nicht so ansehnlichen Score erspielen. Was wir nicht sagten: Auch am Glücksrad konnten zusätzliche Minuspunkte gesammelt werden – und der eigene Score dadurch im Ranking noch weiter nach unten rutschen.
Score verbessern am Glücksrad
Wie das funktionierte? Das Glücksrad unterteilte sich in 16 gleich große Felder. Neben den Feldern Quiz, Action und Alexa gab es zwei Felder, auf denen sofort entweder fünf Plus- oder drei Minuspunkte gesammelt wurden. Das trug natürlich nicht gerade dazu bei, dass unsere Gäste die Punktevergabe als fair und ohne Willkür empfanden… Blieb der Zeiger auf einem Quiz-Feld stehen, mussten die Teilnehmer eine Frage zum Thema KI beantworten. Traf der Zeiger auf ein Aktionsfeld, mussten Aufgaben gelöst werden, z.B. „Hole einer Person deiner Wahl ein Getränk vom Buffet“, „Gehe zum Barcamp-Stand Smart Farming und teste die App“ oder „Entscheide, ob du das Gummibärchen selbst isst oder verschenkst“. Bei Feldern der dritten Kategorie, Alexa, mussten die Mitspieler*innen eine Frage mit Hilfe der Sprachassistentin Alexa beantworten. Richtige Quiz-Antworten und erfolgreich erledigte Aktionen bedeuteten Pluspunkte für den eigenen Score, falsche Antworten und nicht ausgeführte Aufgaben natürlich im Gegenzug Minuspunkte.
Nach anfänglicher Zurückhaltung wagten sich die ersten Teilnehmer*innen an den Stand. Dass es sich hierbei hauptsächlich um unsere Proband*innen mit einem aktuell negativen Score handelte, war für uns keine große Überraschung. Schließlich wollte niemand gerne das Schlusslicht unseres Rankings bilden. So wurde das Glücksrad von immer mehr Besucher*innen gedreht. Vor allem die Quiz-Felder hatten an diesem Nachmittag eine besonders hohe Trefferquote – und die Quiz-Fragen waren teilweise gar nicht so einfach zu beantworten: „In welchem Jahr erschien der erste Chatbot?“ oder „In welcher Einheit wird die globale Datenmenge bemessen?“. Als kleine Hilfe gab es vorgegebene Antwortmöglichkeiten – wer Glück hatte, konnte also auch einfach richtig raten. Sichere Pluspunkte boten vor allem die Action-Felder: Ein Gummibärchen an Fremde zu verschenken, fällt zum Beispiel nicht sehr schwer, wenn es dafür Pluspunkte gibt. Neben vielen zufriedenen Gesichtern nach erfolgreicher Score-Verbesserung gab es jedoch auch einige Teilnehmer*innen, die mit zusätzlichen Minuspunkten eher enttäuscht zum nächsten Barcamp-Stand weitergezogen sind. Wofür genau sie die Strapazen des Glücksrads gerade auf sich genommen hatten, wussten unsere Proband*innen zu diesem Zeitpunkt immer noch nicht.
Punktestand und Bewertungskriterien zum Schluss
Zum Ende des Events schafften wir dann aber doch Klarheit. Die finalen Punkte waren für manche unserer Proband*innen ein Schock, für andere eine Erleichterung. Für uns waren die Reaktionen das Wichtigste am Experiment: Reaktionen auf die intransparente Situation, die ungleiche Behandlung der unfreiwilligen Teilnehmer*innen, die Bewertung nach nicht nachvollziehbaren Kriterien; Reaktionen auf den unvorhersehbaren Ausgang dieses Barcamps und auf vergleichbare Probleme in anderen (echten) Bewertungssystemen.
Wir zeigten also die finalen Scores unserer Gäste, und zwar wiederum nicht anonym, sondern über die persönlichen Nummern gut zu erkennen. Die Gäste mit den besten und schlechtesten Scores suchten wir im Publikum und sprachen sie direkt an: „Können Sie sich denken, wie ihr Score zustande gekommen ist?“
Die Gefragten zeigten sich ratlos, manche sogar etwas verlegen in Anbetracht der gewaltigen Anzahl an Minuspunkten. Damit hatten wir unser Ziel erreicht. Unsere Besucher*innen fühlten sich unwohl. Sie waren nach unseren Maßstäben bewertet worden, ohne davon zu wissen, und wurden nun einfach vor die Endergebnisse gestellt.
Doch wir wollten alles auflösen: nicht nur das Experiment, sondern auch das schlechte Gefühl unserer Gäste. Also erklärten wir, wie die Punkte zustande kamen, und schafften es damit, die Stimmung wieder aufzulockern. Wir erklärten außerdem, dass wir genau diese Reaktionen erreichen wollten, um auf die Probleme von Social-Scoring-Systemen aufmerksam zu machen.
Mission: accomplished.
Ein Experiment mit Gänsehaut-Momenten: Wir hatten es geschafft, mit einfachen Tricks unsere Gäste aus der Reserve zu locken und sie auf eine ganz persönliche Art und Weise mit dem Thema Social Scoring in Berührung kommen zu bringen.
Autorinnen: Jasmin Langenberg und Madeleine Winand