Wie funktionieren Empfehlungssysteme auf digitalen Plattformen?

Nur wenige Dinge sind für die Demokratie so wichtig wie der freie Informationsfluss. Wenn eine aufgeklärte Bürgerschaft für die Demokratie unerlässlich ist, wie Thomas Jefferson vorschlug, dann brauchen die Bürger eine Möglichkeit, auf dem Laufenden zu bleiben. Diese Rolle wurde in der Neuzeit größtenteils von der Presse gespielt – und insbesondere von den Redakteuren und Produzenten, die die Kontrolle darüber ausüben, welche Nachrichten veröffentlicht und ausgestrahlt werden.

Doch da sich der Informationsfluss verändert hat, haben sich die Verbreitung und der Konsum von Nachrichten zunehmend von den traditionellen Medien hin zu sozialen Medien und digitalen Plattformen verlagert. Über ein Viertel der Amerikaner erhält Nachrichten jetzt allein über YouTube und mehr als die Hälfte über soziale Medien. Während einst Redakteure darüber entschieden, welche Geschichten die größtmögliche Reichweite erzielen sollten, bestimmen heute Empfehlungssysteme, welche Inhalte Nutzer auf Online-Plattformen finden – und welche Informationen sich massenhaft verbreiten. Infolgedessen haben die diesen Plattformen zugrunde liegenden Empfehlungssysteme – und die darin enthaltenen Empfehlungsalgorithmen und trainierten Modelle – eine neue Bedeutung erlangt. Wenn genaue und zuverlässige Informationen das Lebenselixier der Demokratie sind, dienen Empfehlungssysteme zunehmend als ihr Herzstück.

Da Empfehlungssysteme eine zentrale Rolle in der Gesellschaft einnehmen, hat eine wachsende Zahl von Wissenschaftlern mögliche Zusammenhänge zwischen diesen Systemen und einer Reihe von Schäden dokumentiert – von der Verbreitung von Hassreden über ausländische Propaganda bis hin zu politischem Extremismus. Dennoch sind die Modelle selbst nach wie vor kaum verstanden, sowohl in der Öffentlichkeit als auch in den politischen Kreisen, die mit der Regulierung und Überwachung dieser Modelle beauftragt sind. Angesichts ihrer übergroßen Bedeutung und der Notwendigkeit einer fundierten Aufsicht zielt dieser Artikel darauf ab, Empfehlungssysteme zu entmystifizieren, indem er erläutert, wie sie sich entwickelt haben und wie moderne Empfehlungsalgorithmen und -modelle funktionieren. Ziel ist es, Forschern und politischen Entscheidungsträgern eine Grundlage zu bieten, auf deren Grundlage sie letztendlich fundierte Entscheidungen darüber treffen können, wie sie sie überwachen und steuern.

Angenommen, Sie betreiben eine Social-Media- oder digitale Plattform. Jedes Mal, wenn Ihre Benutzer Ihre App öffnen, möchten Sie ihnen innerhalb einer Sekunde überzeugende Inhalte zeigen. Wie würden Sie vorgehen, um diesen Inhalt an die Oberfläche zu bringen?

Der schnellste und effizienteste Ansatz besteht darin, Inhalte einfach nach Zeit zu sortieren. Da die meisten sozialen Netzwerke und digitalen Plattformen über einen großen Katalog an Inhalten verfügen, sind die neuesten oder „frischesten“ Inhalte mit größerer Wahrscheinlichkeit überzeugend als zufällig ausgewählte Inhalte. Daher ist es ein guter Anfang, einfach die aktuellsten Einträge in umgekehrter chronologischer Reihenfolge anzuzeigen. Als Bonus ist dieser Ansatz sowohl einfach zu implementieren als auch leicht zu verstehen – Ihre Benutzer haben immer ein klares Gefühl dafür, warum sie einen bestimmten Inhalt sehen, und ein genaues mentales Modell dafür, wie sich die App verhält. Während die Branche darüber hinausgegangen ist, haben umgekehrt-chronologische Empfehlungsalgorithmen die erste Generation von Social-Media-Feeds vorangetrieben und sind der Grund, warum die meisten Feeds auch heute noch als „Timelines“ bekannt sind.

Obwohl sie durch ihre Einfachheit ansprechend sind, haben rein umgekehrt chronologische Feeds einen großen Nachteil: Sie lassen sich nicht gut skalieren. Mit der Erweiterung der Plattformen wächst die Menge der von ihnen gehosteten Inhalte exponentiell, die Freizeit der Benutzer jedoch nicht. Der zuletzt hinzugefügte Inhalt wird daher als immer weniger effektiver Ersatz für den überzeugendsten Inhalt dienen. Schlimmer noch: Benutzer, die ein breites Publikum aufbauen möchten, werden die Plattform mit neuen Inhalten überschwemmen, um in den Feeds anderer Benutzer ganz oben zu bleiben. Dadurch wird Ihre App schnell auf die aktivsten Benutzer und nicht auf die interessantesten ausgerichtet. Weniger ansprechende Inhalte – oder sogar regelrechter Spam – werden beginnen, die Timelines der Benutzer zu überschwemmen.

Um dieses Problem zu lösen, könnten Sie hartcodierte Regeln erstellen, um den neuesten Inhalten Priorität einzuräumen. Sie könnten beispielsweise eine Regel schreiben, die besagt: Wenn Nicole Beiträge von Dia mehr als jeder andere Benutzer geliked hat, dann zeigen Sie Nicole Dias neuesten Beitrag von heute vor allem anderen. Oder Sie könnten eine Regel schreiben, die besagt: Wenn Nicole Videos mehr als jede andere Form von Inhalten mochte, dann sollte Nicol zuerst das zuletzt hinzugefügte Video ihrer Freunde gezeigt werden, und zwar vor allen anderen Inhalten. Durch das Mischen und Anpassen dieser manuellen Regeln können attribut- und kategoriebasierte Empfehlungsalgorithmen überzeugendere Inhalte zuverlässiger anzeigen als ein rein umgekehrt chronologischer Feed.

Der Rückgriff auf handcodierte Regeln hat jedoch auch Nachteile. Es zwingt Entwickler dazu, viele Annahmen darüber zu machen, woran Benutzer am meisten interessiert sein werden, von denen viele möglicherweise nicht wahr sind. Mögen Benutzer Videos immer mehr als Text? Und wenn ein Benutzer einen bestimmten Beitrag mag, möchte er dann immer mehr von seinem Autor sehen? Solange ein Empfehlungsalgorithmus rein handcodiert ist, orientieren sich die Algorithmen an den Annahmen der Entwickler darüber, was die Benutzer am meisten sehen möchten. Dieser Ansatz lässt sich auch nicht gut skalieren: Je mehr Regeln manuell hinzugefügt werden, desto inkrementell wird jede neue Regel wird weniger effektiv sein und die Wartung der Codebasis erschweren.

Ab einer bestimmten Größe besteht der beste Ansatz zur effizienten Darstellung überzeugender Inhalte darin, sich auf maschinelles Lernen zu verlassen. Durch die Nutzung früherer Benutzerdaten haben sich Deep-Learning-Empfehlungsalgorithmen – und die darauf trainierten Deep-Learning-Empfehlungsmodelle – als besonders effektiv erwiesen, wenn es darum geht, zu „lernen“, welche Inhalte Benutzer überzeugend finden, und diese für sie sichtbar zu machen. Heutzutage verlässt sich jede große Plattform auf eine Version von Deep Learning, um auszuwählen, welche Inhalte angezeigt werden sollen. Diese Ansätze haben jedoch ihren Preis: Während umgekehrt chronologische Algorithmen einfach zu implementieren und zu verstehen sind, sind groß angelegte Deep-Learning-Algorithmen komplex in der Implementierung und effektiv unmöglich zu verstehen und zu interpretieren.

Welcher Empfehlungsalgorithmus für Ihre Plattform am besten funktioniert, hängt von den Kompromissen zwischen Leistung, Kosten und Interpretierbarkeit ab oder davon, wie einfach es ist, herauszufinden, warum sich der Algorithmus auf eine bestimmte Weise verhält. Bei großen sozialen Netzwerken und digitalen Plattformen überwiegen die Leistungssteigerungen von Deep-Learning-Empfehlungsalgorithmen bei weitem sowohl die Kosten für deren Entwicklung als auch den damit verbundenen Rückgang der Interpretierbarkeit.

Während dieser Kompromiss die Wahrscheinlichkeit erhöhen kann, dass Benutzer weiterhin mit Inhalten auf der Plattform interagieren, hat er wichtige externe Auswirkungen für demokratische Gesellschaften. Allein in den Vereinigten Staaten haben Forscher dokumentiert, wie Empfehlungssysteme Benutzer eindeutig rechtsextremen Bewegungen sowie Verschwörungstheorien zu COVID-19 und dem Ausgang der Wahlen 2020 aussetzten. Trotz der Rolle, die Empfehlungssysteme bei der Verbreitung von Inhalten im Zusammenhang mit diesen Bewegungen und Narrativen spielten – die maßgeblich zur jüngsten politischen Gewalt beigetragen haben –, werden sie sowohl von politischen Entscheidungsträgern als auch von der Öffentlichkeit nach wie vor kaum verstanden. Zu verstehen, wie die Technologie funktioniert, ist daher ein wichtiger erster Schritt auf dem Weg zu einer „aufgeklärten Bürgerschaft“, die in der Lage ist, sie zu verwalten.

Obwohl die Details je nach Plattform leicht variieren, folgen groß angelegte Empfehlungssysteme im Allgemeinen denselben grundlegenden Schritten. Wie Abbildung 1 zeigt, erstellen Empfehlungssysteme in der Regel zunächst eine Bestandsaufnahme der verfügbaren Inhalte und filtern diese dann gemäß ihren Inhaltsmoderationsrichtlinien. Anschließend reduzieren sie die Bestandsaufnahme auf die Elemente, an denen Benutzer am wahrscheinlichsten interessiert sind.

In den letzten Jahren konzentrierten sich viele politische Diskussionen zur Minderung der mit digitalen Plattformen verbundenen Schäden auf den Schritt der Integrität – insbesondere auf die Inhaltsmoderationsrichtlinien, die bestimmen, ob ein Inhalt veröffentlicht oder geteilt werden kann –, aber es muss weitaus größere Aufmerksamkeit geschenkt werden zum Ranking-Schritt. Wenn Empfehlungssysteme tatsächlich erhebliche Auswirkungen auf alles haben, von der Wahlintegrität bis hin zur öffentlichen Gesundheit, dann ist auch der Prozess, nach dem Empfehlungssysteme Inhalte sortieren und einstufen, von großer Bedeutung. Durch ein besseres Verständnis des komplexen Systems hinter dem Content-Ranking können politische Entscheidungsträger deren Verwendung besser überwachen.

Obwohl Social-Media-Plattformen ihre Ranking-Algorithmen etwas anders gestalten als andere digitale Plattformen, verwenden im Allgemeinen fast alle großen Plattformen mittlerweile eine Variante der sogenannten „Zwei-Türme“-Architektur zum Ranking von Elementen.

Um zu sehen, was das in der Praxis bedeutet, stellen Sie sich vor, Sie hätten zwei verschiedene Tabellenkalkulationen. Die erste ist eine Tabelle, in der jede Zeile ein Benutzer und jede Spalte ein Benutzerattribut (z. B. Alter, Standort, Suchverlauf) ist. In der zweiten Tabelle ist jede Zeile ein Inhalt und jede Spalte ein Inhaltsattribut (z. B. Inhaltstyp, Titel, Anzahl der „Gefällt mir“-Angaben). Durch die Modellierung der Informationen in jeder Tabellenkalkulation in separaten Teilen eines tiefen neuronalen Netzwerks – einem Algorithmus, dessen Struktur (sehr) grob der Art und Weise ähnelt, wie sich Neuronen im Gehirn verbinden – lernt ein „Zwei-Türme“-Ansatz im Laufe der Zeit die Wahrscheinlichkeit, ob a Ein bestimmter Benutzer wird sich mit einem bestimmten Inhalt beschäftigen.

Obwohl sich dieser Ansatz als bemerkenswert erfolgreich erwiesen hat, müssen Plattformen mit einer großen Benutzerbasis und einem umfangreichen Inhaltskatalog letztendlich außerordentlich große Modelle trainieren. Eine Plattform mit einer Milliarde Benutzern und einer Billion Inhalten müsste beispielsweise ein Modell erlernen, das in der Lage ist, effizient auf 10^21 potenzielle Benutzer-Element-Paare zu verallgemeinern, eine Herausforderung, die umso entmutigender ist, als die meisten Benutzer dies nicht tun sich mit der überwiegenden Mehrheit der Inhalte beschäftigen. Daher müssen sie eine außerordentlich große Anzahl von Modellparametern oder „Neuronen“ in einem neuronalen Netzwerk umfassen, um bei so vielen verschiedenen Benutzer-Element-Paaren eine gute Leistung zu erzielen. Aus diesem Grund sind Empfehlungsalgorithmen viel umfangreicher als andere Formen des Deep Learning. Während GPT-3, ein leistungsstarkes großes Sprachmodell, das 2020 von OpenAI veröffentlicht wurde, 175 Milliarden Parameter oder „Neuronen“ in seinem tiefen neuronalen Netzwerk hatte, verfügt das Empfehlungsmodell, das den Newsfeed von Facebook antreibt, über 12 Billionen Parameter. Bei so vielen Parametern ist es praktisch unmöglich, das Verhalten des Modells allein durch die Untersuchung des trainierten Modells selbst zu verstehen und zu begründen.

Die Architektur moderner Empfehlungssysteme hat wichtige Auswirkungen auf politische Entscheidungsträger und die breite Öffentlichkeit, für technisch nicht versierte Zielgruppen sind sie jedoch möglicherweise nicht offensichtlich. Folgende Implikationen sind besonders wichtig:

Da die Architektur großer Empfehlungssysteme es schwierig macht, ihr Verhalten zu verstehen, ist es von entscheidender Bedeutung, bessere Möglichkeiten zur Bewertung ihres Verhaltens zu finden. Regulierungsbehörden, Forscher und die Technologiebranche können Maßnahmen ergreifen, um Modelle besser zu bewerten. Von der Zusammenarbeit zwischen Plattformforschern bis hin zu simulierten Umgebungen und anderen Techniken zum Schutz der Privatsphäre ist es möglich, mehr Klarheit über das Verhalten und die Auswirkungen von Empfehlungssystemen zu gewinnen, als uns derzeit zur Verfügung steht.

Da Empfehlungssysteme immer wichtiger werden, wird es immer wichtiger, diese Chancen zu nutzen. TikTok, eine virale Video-App, hat kürzlich Google im Internetverkehr in den Schatten gestellt, vor allem dank seines verbesserten Empfehlungssystems, das Inhalte aus der gesamten Nutzerbasis der App und nicht nur aus den Verbindungen eines Nutzers anzeigt. Als Reaktion darauf haben Social-Media-Plattformen wie Facebook und Twitter damit begonnen, das ursprünglich von ihren Empfehlungssystemen angezeigte „Inventar“ auf ähnliche Weise zu erweitern, um mehr Inhalte von der gesamten Plattform einzubeziehen. Mark Zuckerberg beispielsweise sagte kürzlich, dass er damit rechnet, dass bis 2023 mehr als 30 % der Elemente im Feed eines Nutzers auf Instagram und Facebook von Konten stammen werden, mit denen ein Nutzer weder befreundet noch denen er gefolgt ist. Da andere Plattformen beeilen, mitzuhalten, werden auch sie mit Sicherheit verstärkt auf rein empfohlene Inhalte setzen.

Im Gegenzug wird der potenzielle Einfluss von Empfehlungssystemen auf demokratische Gesellschaften nur noch zunehmen – ebenso wie die Bedeutung des Verständnisses ihrer Funktionsweise.

Chris Meseroleist Fellow für Außenpolitik an der Brookings Institution und Forschungsdirektor der Brookings Artificial Intelligence and Emerging Technology Initiative.

Facebook und Google unterstützen die Brookings Institution finanziell, eine gemeinnützige Organisation, die sich der strengen, unabhängigen und tiefgreifenden Politikforschung widmet.

Bestandsintegritätsprozesse Kandidatengenerierung. Ranking Neuranking Die Ergebnismetrik ist wichtig. Vieles Sie sind zu umfangreich, um sie zu erklären und zu interpretieren. Häufige Umschulungen und Modellaktualisierungen machen die Bewertung zu einer Herausforderung. Algorithmenauswirkungen können nicht allein durch Prüfung des zugrunde liegenden Codes und des trainierten Modells beurteilt werden. Chris Meserole