30.08.2011 · Wie fühlen wir uns heute? Der Computer erkennt an unseren digitalen Notizen, wie es uns wirklich geht. Das interessiert die Werbekunden - und auch die Behörden.
Von Jörg WittkewitzJeden Moment schreiben Millionen von Menschen ihre Erinnerungen, Meinungen und Wünsche irgendwo ins Internet. Soziale Netzwerke, Blogs und Kommentarfelder strotzen nur so vor persönlichen Stellungnahmen. Einige pfiffige Dienstleister schicken Software-Agenten durchs Netz, um die Stimmungen der ungezählten Autoren zu analysieren. So soll eine Firma erfahren, wie Kunden ihre Produkte bewerten. Aber auch andere Anwendungen sind denkbar. Bekannt wurden Untersuchungen von Beiträgen zu Talkshows und Podiumsdiskussionen. Institutionen könnten einzelnen Personen anhand von Dokumenten bestimmte Einstellungsmuster unterstellen und so ermitteln, ob sie anonyme Inhalte geschrieben haben könnten. So eine Art Profiling wäre nicht nur für die Werbeindustrie hilfreich. Aber wie stellen die Informatiker das an?
Stimmung ist die halbe Grammatik
Die Computerlinguistik ist ein interdisziplinärer Forschungsansatz zwischen Informatik und Sprachwissenschaften. Dort wird über das Extrahieren von Kernaussagen aus umfangreichen Dokumenten geforscht. Auch die Analyse von Inhalten für automatisierte Zusammenfassungen von Zeitungsgartikeln nahm hier ihren Anfang. Dazu werden Texte zunächst zerlegt. Alle überflüssigen Stoppwörter wie Artikel, Konjunktionen und Präpositionen verschwinden, weil sie für die Textaussage überflüssig sind. Übrig bleiben die Substantive und Verben. Moderne Systeme können sogar die Morphologie von Wörtern analysieren, zum Beispiel alternative Wortformen wie „Baugerüst“, „Baustoffhandel“ oder „Bausachverständiger“ zum Wortstamm „bauen“. Gerade in Fachartikeln und bei umfassenden politischen Diskussionen sind Mehr-Wort-Begriffe und zusammengesetzte Wörter besonders wichtig. Zusätzlich wird auch die Position eines Worts im Satz ermittelt und schließlich der Satz selbst bewertet. Zwischenüberschriften und Titel bilden dann die Referenz für die einzelnen Elemente. Schon hat der Computer verstanden, worum es geht.
Die Königsdisziplin war bis jetzt die semantische Analyse. Auf dieser Stufe soll die Software in der Lage sein, die Bedeutung eines Texts zu erkennen. Denn Kontext entsteht erst dann, wenn ein fein granulierbares Zuordnen zu anderen Texten realisiert wird oder das automatische Einordnen in Themengebiete. Das nahe Ziel ist eine automatisierte Klassifikation von Inhalten aller Art. Das Fernziel ist eine direkte Verbindung von Menschen und ihren Meinungen über die direkte Umwelt. Königsdisziplin wäre die Vorhersage für Marktforscher und für forensische Zwecke der Sicherheitsbehörden. Das anspruchsvollste Werkzeug ist zurzeit die sentiment analysis oder Stimmungsanalyse.
Marktforschung in Echtzeit
Börsenbeobachter sind schon lange daran interessiert, welche Stimmungen in den Anlegermärkten herrschen, um so bestimmte Entwicklungen bei Aktien zu antizipieren. Es gilt als Gemeinplatz, dass die Psyche der Anleger mehr Einfluss auf die Aktienpreise hat als die manifesten Indikatoren der Analysten, die die Kennzahlen der Firmen durchleuchten. So wurde in den heiligen Hallen der Finanzwelt schon früh eine Beobachtung der Stimmungslage zum wichtigen Faktor von Kaufentscheidungen bei Aktien.
Dass nun auch jedes kleine Textfitzelchen im Web analysiert wird, um Marktforschung in Echtzeit zu betreiben, ist die nächste Stufe der Rakete, die Firmen wie Lexalytics oder Sentiment360 auf den nicht ganz unbekannten Planeten namens Kunde schicken. Aber auch Google oder Apple muss man unterstellen, dass sie nicht nur die Standorte der Handynutzer auslesen, sondern diese Daten auch gegenchecken mit dem Verhalten im Netz – zum Beispiel beim Herunterladen von Musik und Büchern. Warum also nicht auch deren Bewertung von Produkten mit ins Portfolio nehmen?
In den sozialen Medien des Web 2.0 spielt diese Analyse eine große Rolle, da dort echte Menschen über authentische Erlebnisse berichten. Das Geschnatter bei Twitter, Facebook und Google+ ist ein reich gedeckter Tisch für die Feldforschung über echte Stimmungen der Werbekunden.
Kaskaden von Hyperlinks
Nathan Gilliatt, Vizepräsident des amerikanischen Marketingdiensleisters Converseon, diskutiert das Thema als eine Art Stimmungsbarometer, bei dem Unternehmen filtern können, bei welchen Marken und Dienstleistungen die Kunden eher glücklich oder genervt sind. Es sind diese Filter, die die eigentliche Macht der vielen Monitoringdienste im Internet begründen. Diese Stimmungsanalyse war bisher eine Domäne des Bewertens von Inhalten ohne besonderen Bezug zu anderen Inhalten. Und da Meinungen auf Hotelbewertungsportalen oder bei Einkaufsratgebern selten vernetzt sind, galt diese Technologie dort als besonders hilfreich. Was aber wird aus den vielen Artikeln der Online-Magazine, der viel zitierten Blogs und der Webpräsenzen großer Zeitungen?
Google ist bekannt dafür, dass sie einen Artikel dann besonders hoch in den Ergebnissen listen, wenn viele andere Autoren auf ein Dokument verlinken und wenn es oft besprochen wird. Christopher Potts, Forscher an der amerikanischen Universität Stanford ist da schon eine Dimension weiter: Er betrachtet die zeitliche Entwicklung, in der sich Kaskaden von Hyperlinks, den digitalen Querverweisen zwischen Webseiten, entwickeln. Wurde früher nur die Tatsache erforscht, dass weitere Beiträge mit weiteren Hyperlinks auf einflussreiche Artikel folgen, so konnte Potts nun zeigen, wie die Stimmungen über einzelne Beiträge sich beeinflussen. Wie also fließen solche emotionalen Grundgrößen durch die digitale Welt der Blogs und sozialen Netzwerke?
Potts konnte zeigen, dass die Stimmung nachfolgender Beiträge immer der vorgegebenen Grundhaltung eines initialen Artikels emotional folgt. Die Bewertungen legte er in einem Stimmungsbereich von objektiv bis subjektiv jeweils mit der Polarität von negativ bis positiv fest. Man kann sogar anhand der Stimmung erkennen, an welcher Stufe in einer Kaskade von Folgeartikeln ein Text steht. Innerhalb eines solchen thematischen Seitenarms, den ein Meinungsführer mittlerer Größe oder eine Fachzeitung begründet, gibt es vier Stadien: ein typische Folgebeitrag im selben Sinn, extremes Aufheizen und extremes Abkühlen der Emotion bis hin zum letzten Stadium, der Rückkehr zur Einschätzung des ersten Artikels im Seitenarm.
Diese Entwicklung nennt Potts eine tiefe Kaskade. Flache Kaskaden sind typischerweise charakterisiert durch eine milde Form der emotionalen Unterstützung und flachen immer mehr ab bis zu gleichförmig objektiven Kommentaren und Folgebeiträgen von der Art „genau, das habe ich schon immer so gesagt“.
Das bleibt in der Sprachfamilie
Hier schaut der Forscher dem Volk aufs Maul. Noch ist den Politikern, Firmenlenkern und Werbeagenturen das Potential aber noch nicht klar. Wenn man den Werbegiganten Google mit seinem neuen sozialen Netzwerk betrachtet oder den Konkurrenten Facebook, dann wird offenbar, dass die Milliarden Datensätze, die dort stündlich gespeichert werden, deutlich mehr über unsere Kultur aussagen als die peinlich unterbelichteten Meinungsumfragen der Forschungsinstitute. Peinlich deswegen, weil Befragungen natürlich ihr Ergebnis allein durch die Fragestellung schon beeinflussen. Da sind Facebook und andere deutlich weiter: Sie betrachten und bewerten unser Verhalten direkt. Das heißt, dass sie auch unsere Stimmungen deutlich präziser bewerten und vorhersagen können als jede Umfrage.
Ob die Meinungsforschung diesen Vorsprung jemals aufholen kann, ist eigentlich nicht mehr in Frage zu stellen. Kein Institut hat die Mittel und den direkten Zugriff auf unser Verhalten in diesem Umfang. Ob es allerdings schlau ist, dass private Firmen ganzen Sprachfamilien mit hunderten Millionen von Menschen jede Sekunde aufs Maul schauen, ohne das unsere Gesellschaften etwas davon haben, sollte uns zu denken geben.
Da sind ein paar Millionen Google-Hilfen für sozialwissenschaftliche Forschungsprojekte fast ein Affront. Denn unsere Forscher dürfen die Datenbasis der Informationssammler nicht einsehen. Im schlimmsten Fall helfen sie bloß bei den letzten Zweifeln, die Google noch hat.