06. August 2007 Am Anfang war der "Page Rank". Die beiden Google-Gründer Larry Page und Sergey Brin hatten an der Stanford-Universität die Idee, die Bedeutung einer Internetseite nach der Zahl der Verweise von anderen Seiten zu bewerten. Je mehr Verweise von anderen wichtigen Seiten, desto wichtiger war die Seite selbst, und desto höher war die Plazierung auf der Trefferseite. "Das System war mit Abstand die beste Suchmaschine, die es damals gab. Deshalb bin ich zu Google gegangen", erinnert sich Craig Silverstein, Angestellter Nr. 1 und heute Technologiedirektor. "Ich konnte mir allerdings überhaupt nicht vorstellen, dass man damit Milliarden verdienen kann. Larry und Sergey wussten das von Anfang an", sagt Silverstein.
Viele Online-Händler bekommen Kunden von Google
Google ist heute weit mehr als eine Geldmaschine für seine Mitarbeiter und Aktionäre. Google ist die Lebensader des Internets. Viele Seiten existieren nur, weil sie sich mit dem Google-Werbeprogramm Absense finanzieren können. Noch wichtiger aber ist: Ob Online-Händler, Reiseanbieter, Produktvergleichsmaschine oder Medium - fast alle, die im Internet Geld verdienen, bekommen einen großen Teil ihrer Kunden oder Leser über Google.
Die Suchmaschine verteilt die Nutzer im Netz: Wer auf den Trefferlisten - oder in den rechts daneben plazierten Werbespalten - oben steht, bekommt die gewünschten Besuche der Internetnutzer. Wessen Seite bei Google nur auf einem hinteren Platz auftaucht, hat es schwer.
100 Millisekunden können entscheidend sein
Viele Internetunternehmen sind daher abhängig von Google und seiner Suchtechnik. Wie aber kommen die Suchergebnisse zustande, und wieso vertrauen 70 Prozent aller Internetnutzer auf der Welt der Suchmaschine aus dem Silicon Valley? "Eine gute Suchmaschine muss drei Dinge gut können: Das Web durchsuchen, aus den gefundenen Seiten einen guten Index bilden und die Ergebnisse schnell anzeigen können. Gerade der letzte Punkt ist wichtig: Wenn wir die Ergebnisse nicht in maximal einer halben Sekunde anzeigen, haben wir etwas falsch gemacht. Wenn wir langsamer sind, nutzen die Menschen die Suche sofort seltener. Ein paar Millisekunden können über Erfolg oder Misserfolg entscheiden. Deshalb bauen wir unsere Datencenter in der Nähe unserer Nutzer. Dadurch sparen wir 100 Millisekunden Zeit. Das kann schon entscheidend sein", sagt Googles Softwareingenieur Matt Cutts.
Tag und Nacht durchsuchen Google-Rechner das Netz und erstellen daraus einen Index. "Wir verwenden verschiedene Indizes. Der Hauptindex wird heute alle zehn bis vierzehn Tage neu erstellt. Daneben gibt es verschiedene andere Indizes, zum Beispiel für Nachrichtenseiten, die permanent neu erstellt werden, um die Aktualität zu gewährleisten. Entscheidend ist hier die Frische der Suchergebnisse", erklärt Cutts.
Reputation und Topicality sind entscheidend für die Plazierung
Kommt eine Suchanfrage eines Nutzers bei Google an, wird die Suchanfrage nicht nur an einen, sondern an Tausende Computer verschickt. Diese durchsuchen die indizierten Seiten gleichzeitig nach den gesuchten Wörtern. Wenn die Seiten mit den Fundstellen zurückkommen, muss Google eine Reihenfolge erstellen mit dem Ziel, die besten Suchergebnisse auch oben anzuzeigen. Über das "beste" Suchergebnis entscheidet der streng geheime Google-Algorithmus, der längst nicht mehr nur aus dem Page Rank, sondern inzwischen aus mehr als 200 Kriterien besteht.
Das erste Kriterium, nach dem Google die Seiten sortiert, ist die Reputation der Seite. Eine Suche nach "Gordon Brown" wird zum Beispiel einen Eintrag bei Wikipedia oder die Seite der Labour Party in Großbritannien als Seiten mit hoher Reputation ausweisen. Diese Reputation richtet sich vor allem nach dem ermittelten Page Rank. Aber daneben gibt es mehr als 200 weitere Kriterien, die Google Signale nennt. Dazu gehört, wie oft die Wörter Gordon und Brown auf der Seite vorkommen, ob die Wörter im Titel der Seite oder in der Internetadresse vorkommen, wie dicht sie beieinanderstehen oder wann die Seite zuletzt aktualisiert wurde. "Diese Signale werden von uns unter dem Begriff ,Topicality' zusammengefasst. Dabei geht es darum, welche Bedeutung der Suchbegriff auf der Seite einnimmt", erklärt Cutts. Je höher die Kombination aus Reputation einer Seite und Bedeutung des Suchbegriffes auf der Seite ist, desto weiter oben wird die Seite auf der Trefferliste aufgeführt. "
200 Kriterien müssen gewichtet werden
Das kann manchmal einen Zielkonflikt bedeuten: Ein Artikel in der ,New York Times', der ,Gordon Brown' einmal enthält, hat sicher eine hohe Reputation, aber nur einen geringen Topicality-Wert. Umgekehrt hat eine Seite, in der ein unbekannter Gordon-Brown-Gegner ausführlich aufführt, dass er seine Frisur nicht mag, einen hohen Topicality-Wert, aber sicher nur eine sehr geringe Reputation. Was der Nutzer also wirklich will, sind hohe Werte bei beiden Kriterien, also zum Beispiel ein Wikipedia-Eintrag", erklärt Cutts.
Die mehr als 200 Signale müssen dann noch gewichtet werden. Dazu nutzt Google sogenannte Classifier. "Ein Classifier, der zum Beispiel Page Rank und die Anzahl der Nennungen des Suchbegriffes auf der Seite je zur Hälfte gewichtet, könnte von einem Spammer sehr leicht ausgetrickst werden, indem er den Suchbegriff 5000 Mal auf seiner Seite nennt. Deshalb sind die Classifier komplizierter, um genau dieses Verhalten auszuschließen. Am Ende steht eine Signalnummer, die über die Reihenfolge auf der angezeigten Trefferseite entscheidet", sagt Cutts.
Die Trefferlisten sehen aber nicht immer gleich aus. Zum Beispiel sei die "Bank of America" ein gutes Suchergebnis, wenn jemand in Amerika das Wort Bank eingibt. In England müsse die Suche natürlich englische Banken anzeigen, sonst sei das Ergebnis nichts wert.
Ergebnisse können sich in Minuten ändern
"Das Suchergebnis kann sich auch innerhalb von Minuten ändern. Als die Bombenanschläge in Großbritannien passierten, mussten wir innerhalb weniger Minuten reagieren und mehr aktuelle Nachrichten und Blogeinträge unter den ersten zehn Suchtreffern einblenden, da die Nutzer natürlich in diesem Moment an aktuellen Informationen interessiert waren. Dabei hilft uns ein Instrument namens Google Trends. Es misst, wie häufig ein Suchbegriff in aller Welt eingegeben wird. Sobald die Suchwörter schnell ansteigen, reagiert das System darauf und streut mehr aktuelle Suchtreffer ein", sagt Cutts.
Parallel schicke Google die Anfrage zu einem Rechtschreibserver, der möglicherweise Vorschläge für eine andere Schreibweise macht. "Außerdem müssen wir auf semantische Verwandtschaften achten. Eine Seite könnte zum Beispiel das Wort Premierminister enthalten, aber nicht Gordon Brown. Wir müssen sicherstellen, dass damit ein und dieselbe Person gemeint ist", sagt Cutts.
Gute Mischung
Wichtig für Google sei auch die richtige Mischung der Treffer. "Wenn jemand das Suchwort ,iPhone' eingibt, könnten unter den ersten zwanzig Treffern nur Apple-Seiten vorkommen, wenn wir nur das Kriterium ,Topicality' berücksichtigen. Wir begrenzen aber die Zahl der Seiten von einer Internetadresse, damit der Nutzer eine gute Mischung bekommt. Das kann bedeuten: nur zwei offizielle Apple-Seiten, dann zwei relevante Besprechungen des Handys in Blogs, Nachrichten zum iPhone, Produkttests und noch die Seite eines Händlers, der das iPhone verkauft", sagt Cutts.
Das Suchergebnis lasse sich noch verbessern, wenn die persönliche Suche eingeschaltet ist. "Wenn ein Nutzer in der Vergangenheit häufig Nachrichten der ,New York Times' gelesen hat, bekommt er nun auch den Artikel zum iPhone aus der ,New York Times' als Treffer angezeigt."
Kampf gegen Suchmaschinen-Spammer
"Wir wissen aber noch nicht, ob die Menschen lieber ein Textdokument, ein Video, ein Bild oder eine Nachricht als Suchergebnis haben wollen. Deshalb versuchen wir automatisch, diese Vorlieben zu erkennen. Aber daran forschen wir gerade", sagt Cutts, verabschiedet sich und eilt in die nächste Besprechung. Er kämpft gerade gegen die Suchmaschinen-Spammer, die mit allerlei Tricks versuchen, die Google-Technik auszuhebeln, um auf den vorderen Plätzen bei Google zu landen.
Text: F.A.Z., 06.08.2007, Nr. 180 / Seite 19
Bildmaterial: F.A.Z., Google
Störfall Krümmel: Eine Zehntelsekunde zu wenig ![]()
Kreditvergabe: Deutschland will Eigenkapitalregel aufweichen
Heraeus Quarzglas baut 210 Stellen ab
| Name | Kurs | in % |
| DAX | 4.651,82 | −1,20% |
| Eurostoxx 50 | 2.343,88 | −1,37% |
| Dow Jones | 8.324,87 | +0,53% |
| MDAX | 5.609,43 | −1,62% |
| Nasdaq 100 | 1.441,01 | −0,36% |
| Nikkei225 | 9.680,87 | −1,38% |
| REX | 365,96 | +0,19% |
| SDAX | 2.808,59 | −1,57% |
| S&P500 | 898,72 | +0,26% |
| TecDAX | 611,93 | −1,06% |
| Bund Future | 121,88 € | +0,25% |
| EUR/USD | 1,3971 | −0,01% |
| Gold | 924,50 $ | −0,86% |
| Rohöl Brent Crude | 64,10 $ | −1,46% |