Früher hatte man eine Lieblingsbuchhandlung. Ausschlaggebend war oft die Empfehlung des Buchhändlers. Wenn man sich auf ihn verlassen konnte, sparte das viel Zeit, Geld und Ärger über minderwertige Werke. Für das alltägliche Gebrauchsbuch reichen jedoch inzwischen die Empfehlungen von Algorithmen. Eingebaut in den steten Datenfluss der Online-Buchhandlungen, errechnen sie einen Teil dessen, was ein guter Buchhändler leistet. Welche Bücher werden oft gekauft? Werden Autoren mehr als einmal beschafft? Welche Bücher werden kurz danach goutiert? Gibt es Zusammenhänge zwischen Kategorien, etwa Reiseführern und Elternliteratur?
Die Mechanismen der automatischen Empfehlungen sind zum Teil einfach nachvollziehbar - Kunden, die dieses Buch gekauft haben, haben auch noch diese und jene Bücher gekauft. Mit Hunderttausenden Suchanfragen und Einkäufen pro Tag lässt sich eine enorme Menge an Detailwissen über typische Zusammenhänge erstellen. Dazu werden zum Beispiel Statistiken über Stichwort-Cluster gebildet. Jemand, der sich für Sportbootführerscheinlehrbücher interessiert, hat mit einer gewissen Wahrscheinlichkeit auch Interesse an Segelbootbildbänden und Do-it-yourself-Büchern zur Bootspflege, vermutlich ebenso für Karten bestimmter Gewässer oder Seewege in Mitteleuropa. Oder gleich für Unterwasseranstrichfarben, Funkgeräte und Schwimmwesten.
Auf dem Weg zur völligen Automatisierung
Einen Teil der Einordnungen - in welche Gattung oder Sachgebiet ein Buch gehört und ob es gefallen hat oder nicht - erledigen noch Menschen. Käufer vergeben Sternchen, Verlage Bibliothekstichworte, und Mitarbeiter des Online-Buchladens sortieren die Werke. Doch die Rationalisierung schreitet auch hier voran, die automatische Eingliederung eines Werkes durch algorithmische Analyse des eigentlichen Textes ist nicht mehr fern.
Schon heute bewerben Verlage der seichteren Belletristik ihre Neuerscheinungen gern als „eine Mischung aus“ - gefolgt von den Namen einiger umsatzstarker Autoren. Es wird nicht mehr lange dauern, bis solche Analogien auf der Basis von semantischen Analysen und Statistiken gebildet werden. Natürlich werden die Ergebnisse nicht zu hundert Prozent korrekt sein, doch die Fehlerbereinigung erledigen dann die Benutzer per Hand. Auch durch die automatische Analyse von Kommentaren und Bewertungen lassen sich interessante Einsichten gewinnen. Durch Frequenz, Abstand und Klassifizierung von bewertenden Adjektiven und anderen Merkmalen kann eine über die Sternchen-Vergabe hinausgehende schriftliche Bewertung erschlossen werden. Der Textumfang und faszinierenderweise ein automatisch ermitteltes Scoring von Orthographie und Grammatik geben ebenso Auskunft über die Relevanz eines Kommentars wie die Wertungen der Benutzer bei der „Wie hilfreich war dieser Kommentar?“-Frage am Ende.
Die Urteilskraft lässt sich mit den Mitteln moderner Algorithmen nachbilden. Unvollständig, fehlerhaft, aber eben oft auch gut genug für den jeweiligen Zweck. Wenn der Buchladen eine bizarre Empfehlung gibt, kann man sie ignorieren. Der Algorithmus lernt aber ebenso wie ein guter Buchhändler, dass die Empfehlung offenbar unsinnig war, und ist beim nächsten Mal besser parameterisiert. Wenn die Empfehlung jedoch überraschend gut ist, interessant klingt und erworben wird, beschert sie dem Anbieter einen preiswert gewonnenen Umsatzzuwachs.
Wettrüsten der Formeln
Ein Gebiet, in dem die automatische Generierung von Empfehlungen schon zu einem Wettrüsten der Formeln und Verfahren geführt hat, ist die Musik. Eine Vielzahl von Start-ups hat in schneller Folge Musikportale gebaut, deren Kern jeweils eine eigene innovative Methode zur Errechnung von Hinweisen auf Songs oder Künstler ist, die dem Nutzer gefallen könnten. Die erfolgreichsten kombinieren algorithmische Methodik mit einer Auswertung des Verhaltens der Musikliebhaber. Erfasst wird zum einen die Struktur der Musik anhand von Rhythmus, Frequenzen, Tönen, Klangfarben. Hinzu kommen Einordnungen von Experten, in welches Genre und Subgenre ein Stück gehört, wie Stimmung, Tempo, Text und Instrumentierung einzusortieren sind.
Wer Whitney Houston mag, wird vielleicht auch Aretha Franklin oder Diana Ross mit Vergnügen hören. Als Nächstes wird ausgewertet, wie die mathematische Ähnlichkeit der Musikbibliotheken aller Nutzer des Systems zueinander aussieht. Daraus werden Typisierungen entwickelt, die automatische Rückschlüsse auf Vorlieben erlauben. Wer Metallica und die Wiener Symphoniker auf der Festplatte hat, wird wahrscheinlich die ersten Alben von „Apocalyptica“ zumindest interessant finden. Die nächste Verfeinerungsstufe kommt durch die direkte Beobachtung des Hörverhaltens: Welcher Song wird wie oft gehört, welche Lieder werden übersprungen, für welche Stücke werden welche Bewertungen abgegeben, was kommt neu in die Playlist, was fliegt raus? Derartige Informationen übermittelt zum Beispiel iTunes an Apple, wenn man die sogenannte „Genius“-Funktion aktiviert. Die genaue Arbeitsweise der Empfehlungsmaschinen wird genauso geheim gehalten wie die Art und Länge der Speicherung der anfallenden Nutzungsdaten.
Was Google alles weiß
Google ist der Altmeister der möglichst präzisen Analyse von Nutzerverhalten. Angefangen hat Googles Erfolg mit einem simplen Prinzip der Sortierung. Die Annahme war, dass Websites, zu denen viele andere Websites verlinken, vermutlich für den jeweiligen Suchbegriff hilfreicher sind als solche, zu denen nur wenige andere Seiten verweisen. Wenn sich viele Menschen die Mühe gemacht haben, zu einer bestimmten Seite zu verlinken, wird diese Seite wohl Interessantes bieten. Eine Erweiterung dieser Methode war, Links von bekannten maßgeblichen Quellen, wie etwa Zeitungen oder Online-Lexika, zu der jeweiligen Seite höher zu gewichten. Mittlerweile hat Google eine Vielzahl von hochkomplexen Methoden entwickelt, um aus dem Nutzerverhalten die vermutlich hilfreichsten Seiten für bestimmte Stichworte herauszufiltern. Diese werden dann auf die erste Seite der Suchergebnisliste plaziert, die Schaltung von Anzeigen für die dazu passenden Stichworte unter den Werbepartnern versteigert.
Eines der wichtigsten aktuellen Verfahren ist die Auswertung, welche der gefundenen Links der Benutzer tatsächlich anklickt. Das erfährt der Quasi-Monopolist über verborgene aktive Elemente in der Liste mit den Suchergebnissen, die jeden Klick zurück an Google melden. Sucht ein anderer Nutzer später nach gleichen oder eng verwandten Stichworten, werden die zuvor von anderen häufig angeklickten Links weiter nach oben in die Ergebnisliste sortiert. Die Information, welche Links vom Suchenden ausgewählt wurden, kann auch mit einem sogenannten Cookie verknüpft werden, die Google automatisch im Browser des Benutzers für zwei Jahre speichert. So entsteht nicht nur eine komplette Übersicht aller Suchanfragen, sondern auch eine Liste aufgrund von Google-Ergebnissen besuchter Seiten.
Verknüpfbar ist diese Liste mit den - von Google über neun Monate gespeicherten - Informationen über die IP-Adressen, von denen aus die Suche stattfand, sowie dem Betriebssystem und dem Webbrowser, die der Suchende verwendet. Diese werden personalisiert, den bisher aufgezeichneten Vorlieben und Reaktionen angepasst. Nach außen ist das vor allem daran sichtbar, dass zwei Benutzer, die nach den gleichen Stichworten suchen, mit hoher Wahrscheinlichkeit verschiedene Ergebnislisten bekommen, angepasst an ihre Suchgeschichte. Seit einigen Monaten wird bereits bei der Eingabe ins Suchfeld der jeweils bisher eingegebene Teil der Suchbegriffe zum Server übertragen und eine Liste mit so weit passenden Suchbegriffen generiert. Selbst wenn man es sich also beim Eingeben noch mal anders überlegt, weiß Google bereits, wonach man vielleicht suchen wollte, es dann aber doch nicht getan hat. Viele Nutzer geben gewohnheitsmäßig den Namen der gewünschten Seite in das Google-Suchfeld ein. Sie hinterlassen damit bei Google ihre vollständige Surfhistorie. Wer also, statt www.faz.net ins Adressfeld einzugeben, „FAZ“ ins Google-Feld des Browsers tippt, um dann den ersten gefundenen Link anzuklicken, teilt Google damit direkt mit, was er gleich lesen wird.
Semantische Analyse mit Wittgenstein
Tippt der Benutzer etwa „Frankfurter“ ein, liefert vielleicht der erste Listeneintrag nicht die gewünschte Zeitung, sondern eine Würstchenbude. Wenn offenbar kein sinnvolles Ergebnis in den ersten Einträgen erscheint, wird der Suchende seine Anfrage präzisieren. Google erstellt daraus entsprechende interne Verweise, baut sich ein eigenes Synonymwörterbuch nebst Thesaurus. Die Benutzer verfeinern es fortwährend. Heraus kommen dann die „Meinten Sie?“-Vorschläge, die auch häufige Tippfehler korrigieren, zum Beispiel die Suche nach „FZA“. Man weiß, dass Google ohne Verzögerung das richtige Wort hervorzaubert. Google schlägt aber oft auch eine leicht veränderte Kombination von Suchbegriffen vor, die für frühere Suchende zu einem offenbar sinnvollen Ergebnis führte. Zusätzlich wird der Aufenthaltsort des Suchenden in die Sortierung der Ergebnisse einbezogen.
Aber auch die Inhalte geben Hinweise. Ludwig Wittgensteins Erkenntnisse zur Bedeutung des Kontextes finden ihren Niederschlag in Sprachverarbeitungsalgorithmen. Die mathematische Abbildung der Distanz zwischen Wörtern und Wortgruppen im Text ermöglicht es, den Zusammenhang von Inhalten zu erkennen. Ob es bei einer Website, in denen die Worte „Fett“ und „Brot“ vorkommen, um ein Rezept oder um die Hip-Hop-Band „Fettes Brot“ geht, lässt sich am ehesten daran festmachen, ob im Rest der Seite Mehl, Hefe und Wasser nahe beieinander vorkommen. Ebenso in Betracht gezogen werden die Stichworte von „benachbarten“ Websites auf dem gleichen Server, zusätzlich die Struktur und das Layout der Seiten.
„Magie“ des Algorithmus
Die Frage ist, welche Tiefe und Zeitdauer von Information über unsere Vorlieben wirklich gespeichert werden müssen. Wie viel muss personalisiert oder mit ein wenig Aufwand personalisierbar sein? Was kann auch ohne große Einbuße an Nutzen anonym und rein statistisch verdatet werden? Können wir vielleicht auch mit ein bisschen weniger Suchgenauigkeit oder etwas wilderen Buchempfehlungen leben, wenn wir dafür etwas weniger Daten ausgeben? Gibt es vielleicht Dienste, auf die man verzichten kann, weil sie die möglichen Datenkosten nicht wert sind?
Einen Einblick in die genauen Modalitäten der Speicherung und Verknüpfung verweigern praktisch alle Unternehmen. Man kann nur aus der Beobachtung heraus Rückschlüsse ziehen, wie viel Wissen über uns bei diesem oder jenem Systembetreiber angehäuft wird. Ob nun Apple oder Amazon, Playstation oder Xbox - Online-Geräte, die jede Handlung des Nutzers nach Hause melden, sind der aktuelle Geschäftsmodell-Trend.
Das Kokettieren mit einer scheinbaren Magie der Algorithmen kommt dabei immer mehr in Mode. Ein auf algorithmischer Analyse von Online-Persönlichkeitstests beruhendes Dating-Portal wirbt mit „magischen Verbindungen“. Apples Musikempfehlungsdienst heißt ganz unbescheiden „Genius“, und Aktientipps werden mit Hilfe von „secret sauce“ errechnet. Die Undurchsichtigkeit führt dazu, dass das Erstaunen angesichts des guten „Verstehens“ der eigenen Wünsche in schleichendes Misstrauen umschlägt.
Datenspeicherung ohne Kontrolle
Eines der drastischsten Beispiele für alternativlose Quasi-Monopole ist Ebays Macht über den Gebrauchtwarenhandel. Die Kombination von Auswertung des Nutzerverhaltens mit dem hauseigenen Zahlungssystem PayPal führt zu einer bis dato ungekannten Informationsdichte über den Kunden. Die für solche Monopole notwendige Regulierung, insbesondere was die Datenspeicherung und -auswertung angeht, findet derzeit nicht statt.
Transparenz darüber, welche Daten wofür erfasst, für wie lange gespeichert und wie verknüpft werden, um welchen konkreten Nutzen zu erlangen, ist der erste notwendige Schritt. Diese Informationen müssen für den Datenspender ohne großen Aufwand zugänglich sein. Der vom Chaos Computer Club vorgeschlagene Datenbrief ist ein erster, praktikabler Vorschlag, um diese Transparenz herzustellen. Er befördert eine konkrete Vergleichbarkeit der tatsächlichen Datenkosten für Software und Dienstleistungen, die für jeden Einzelnen ganz privat entstehen. Der Nutzer wird in die Lage versetzt, seine Daten und sein Geld zu Firmen zu tragen, die damit sinnvoll und für ihn ganz persönlich adäquat umgehen. Eine wichtige Rolle bei der Transparentmachung könnte eine wirklich unabhängige Stiftung Datenschutz übernehmen. Eine Instanz, die einfache, gut verständliche Übersichten über die jeweiligen Privatsphärenrisiken erstellt, ist Voraussetzung für ein mündiges Urteil über das jeweilige Kosten-Nutzen-Verhältnis für den Einzelnen.
Die Kontrolle darüber, ob die Angaben zur Speicherung und Verwendung der Daten korrekt sind, muss zwangsläufig durch eine Instanz erfolgen, die auch über Sanktionsmöglichkeiten verfügt. Wenn die deutschen institutionellen Datenschützer in diese Rolle hineinwachsen sollen, bedarf es einer grundlegenden Verbesserung ihrer personellen und finanziellen Ausstattung und einer Loslösung aus der Unterordnung unter die Innenministerien. Sobald es eine weitgehende Transparenz gegenüber den Nutzern gibt und damit echte Marktmechanismen greifen, werden sich das Aufgabenbild und damit auch das derzeit eher verstaubte Image des Datenschutzes nachhaltig verändern.
Die Notwendigkeit unabhängiger Institutionen
Technische Kreativität ist vonnöten, um den Schutz der Privatsphäre in neue Geschäftsmodelle und Systeme hineinzudesignen. Der größte Teil der wirklich interessanten und nützlichen Erkenntnisse aus dem Nutzerverhalten lässt sich auch durch pseudonyme oder noch besser anonyme Methoden gewinnen. Oft reicht es sogar, wenn die Software meine Vorlieben vorwiegend lokal speichert, nur anonymisierte Zusammenfassungen mit dem Online-System austauscht und daraus ihre nützlichen Schlussfolgerungen zieht. Ganz nebenbei sinkt durch diese Art der Datenhaltung- und verarbeitung auch das Risiko von Datenskandalen.
Der Staat hat mit seinen ersten Auftritten in Digitalien - Stichworte wie Vorratsdatenspeicherung und Bundestrojaner kommen in den Sinn - kein Vertrauen geweckt. Es bedarf schon eines naiven Optimismus, um zu erwarten, dass der Gesetzgeber hier sensibel und trotzdem entschlossen agieren kann. Die Farce der letzten Datenschutznovelle ist ein Menetekel. Gegen die geballte Macht der Firmen, deren mittelbarer oder unmittelbarer Geschäftszweck die Hortung möglichst vieler Daten ist, halfen keine guten Vorsätze und Absichten. Wir täten gut daran, den Schwerpunkt auf die Herausbildung unabhängiger, vertrauenswürdiger Institutionen zu legen, die einfache, für jeden nachvollziehbare Prinzipien des adäquaten Umgangs mit Daten und Algorithmen entwickeln und durchsetzen.
Manipulation der Oeffentlichkeit durch Rechner ist schlimmer
fritz Teich (fazfazfaz123)
- 27.04.2010, 14:02 Uhr
Blauauge sei wachsam!
Horst Henn (glufa)
- 27.04.2010, 14:18 Uhr
Kritik II
fritz Teich (fazfazfaz123)
- 27.04.2010, 14:20 Uhr
Man muss nicht alles wissen, aber wissen wo es zu finden ist
Wolfgang Neuber (durchblick)
- 27.04.2010, 14:28 Uhr