Home
http://www.faz.net/-gqm-va4v
HERAUSGEGEBEN VON WERNER D'INKA, BERTHOLD KOHLER, GÜNTHER NONNENMACHER, FRANK SCHIRRMACHER, HOLGER STELTZNER

Internet „Unser System kann den Inhalt einer Internetseite erkennen“

 ·  Eines Tages soll es eine Suchmaschine geben, die nicht nur Wörter findet, sondern Inhalte versteht. Im Interview mit der F.A.Z. spricht der Sprachwissenschaftler David Crystal über das Ergebnis von 15 Jahren Arbeit, das semantische Web und die Ignoranz von Google.

Artikel Bilder (1) Lesermeinungen (0)

David Crystal, einer der führenden Sprachwissenschaftler, Herausgeber der „Cambridge Encyclopedia of the English Language“ und für seine Verdienste um die englische Sprache zum Ritter geschlagen, hat ein System entwickelt, das den Inhalt einer Internetseite versteht und in Zusammenhängen einordnen kann. Das deutsche Online-Werbeunternehmen Ad Pepper wird die Technik auf der Online-Messe OMD erstmals zeigen, um Werbung im richtigen Kontext einblenden zu können. Doch Crystal hofft auf mehr: Eines Tages soll eine Suchmaschine entstehen, die nicht nur Wörter findet, sondern den Inhalt versteht.

Herr Crystal, viele Menschen haben sich bisher am semantischen Internet versucht, das den Sinn der Seiten erkennt und nicht nur Wörter findet. Ohne Erfolg. Was haben Sie anders gemacht?

Die Wurzeln unseres Ansatzes liegen mehr als 15 Jahre zurück, als ich gebeten wurde, die große Cambridge-Enzyklopädie herauszugeben. Als die Menge der Begriffe immer größer wurde, waren wir gezwungen, etwa 1000 Kategorien zu entwickeln, um die Datenmenge zu klassifizieren. Das war in der ersten Hälfte der neunziger Jahre und lange bevor es Google gab. Die zweite Hälfte der neunziger Jahre habe ich dann damit verbracht, die Klassifikation auf das Internet auszuweiten und viele kommerzielle Kategorien hinzuzufügen, die mit dem realen Leben zu tun haben. Am Ende hatten wir dann 2000 Kategorien, in die sich alle Begriffe einordnen ließen, und fertig war unsere „Sense Engine“, mit der sich der Inhalt einer Internetseite erkennen ließ. Im Jahr 2000 haben wir das Unternehmen Crystal Reference gegründet, und in den ersten fünf Jahren des neuen Jahrtausends haben wir die Klassifikation auf möglichst viele Anwendungsgebiete erweitert.

Wofür kann Ihre „Sense Engine“ genutzt werden?

Am Anfang hatten wir einige Ansätze im Auge: Einen Filter für eine Suchmaschine, um die Relevanz der Suchergebnisse zu erhöhen. Oder eine automatische Dokumentenklassifikation oder eben kontextabhängige Werbung, die eine Anzeige immer nur in einem gewünschten Umfeld plaziert. Zum Beispiel war eine Werbung für Messer auf einer CNN-Seite, die über einen Straßenkampf berichtete, sicher nicht gewollt. Die dumme Software hatte in dem Artikel einfach das Wort „Messer“ gefunden und die Werbung des Messerherstellers eingeblendet. Sensible Software wie unsere schaut sich aber alle Wörter auf der Seite an, findet heraus, dass sich der Artikel um Verbrechen dreht und dass besser Werbung für Rechtsanwälte eingeblendet werden sollte.

Sie sind Sprachwissenschaftler. Die Online-Werbung als Einsatzgebiet war doch bestimmt nicht Ihr erster Gedanke?

Wir waren uns nicht sicher, welche Anwendung die beste ist und welche der Markt nachfragen wird. Alles hing davon ab, welches Unternehmen uns aufkauft. Anfang 2006 wurden wir dann von Ad Pepper übernommen. Das Unternehmen ließ keinen Zweifel daran, in welche Richtung wir gehen sollten, nämlich die Online-Werbung. Seitdem entwickeln wir das ganze Konzept in diese Richtung. Daraus entstand das Produkt iSense, das garantiert, dass die Werbung nur auf den gewünschten Plätzen erscheint und gefährliche oder sensible Inhalteumfelder wie Kriminalität, Erotik oder extremistische Inhalte gemieden werden. Werbung wird auf den Seiten mit maximaler Relevanz eingeblendet und von unerwünschten Seiten ferngehalten.

Die Internetbranche investiert sehr viel Geld in Werbesysteme, um dem Nutzer die richtige Werbung einzublenden. Können Sie das besser?

So etwas kann nicht von einem Stück Software erledigt werden. Es ist nicht möglich, einen Computer zu programmieren, diese Aufgaben zu tun. Der einzige Weg, um das Niveau der gewünschten Vorhersehbarkeit zu erreichen, ist ein Team von Menschen, das die Klassifizierung der Begriffe entwickelt hat. In den vergangenen 15 Jahren ist unser Team durch ein gesamtes Wörterbuch gegangen und hat jedes Wort und seinen Sinn klassifiziert. Jetzt sind wir fertig. Jetzt können wir den Sinn einer Internetseite erkennen und die passende Werbung dazu einblenden. Auch in deutscher Sprache.

Wäre es nicht sinnvoller, Ihre Technik für eine Suchmaschine zu nutzen?

Als erste Anwendung hatten wir natürlich eine Internetsuchmaschine im Sinn. Aber die kommerzielle Realität war nun einmal anders. Ad Pepper hat natürlich streng darauf geachtet, dass wir unsere ganze Kraft auf kontextuelle Werbung konzentrieren. Ich hoffe aber immer noch, dass eines Tages, wenn das iSense- Produkt läuft und gutes Geld verdient, dass Ad Pepper auch die Suchmaschinenfunktion nutzt.

Haben Sie mit Suchmaschinenbetreibern über Ihre Erfindung gesprochen?

Doch, natürlich. Wir haben viel Zeit damit verbraucht, Google und Yahoo zu erklären, was wir tun und was wir können. Aber die hatten kein Interesse daran, weil sie schon zu viel Geld in ihre eigenen Systeme entwickelt hatten - obwohl sie wussten, dass sie nicht besonders gut funktionieren. Schauen Sie sich Youtube an. Dort gibt es Diskussionsforen, in denen die Menschen sehr genau sagen, für welche Themen sie sich interessieren. Daneben wird Werbung eingeblendet, meist von Google. Nur in einem von hundert Fällen passt die Werbung zu dem Thema, über das die Menschen hauptsächlich diskutieren.

Sind Sie glücklich über die Anwendung Ihrer langen Arbeit?

Als Linguist, der das Potential unseres Systems vor Augen hat, bin ich nicht glücklich. Ich hätte es lieber gesehen, unser System in viele verschiedene Richtungen zu entwickeln und uns nicht auf die Werbung zu konzentrieren. Aber es sollte halt nicht sein. Es ist eben sehr teuer, in alle Richtungen gleichzeitig zu marschieren. Wir mussten erkennen, dass wir jemanden benötigen, der unser System tatsächlich nutzt - und dafür zahlt. Ende 2005 hatten wir große Schwierigkeiten, den Betrieb finanziell aufrechtzuerhalten. Daher waren wir sehr froh, als Ad Pepper unsere Firma übernahm. Und ich hoffe weiter, dass Ad Pepper in ein oder zwei Jahren sich an die anderen Möglichkeiten erinnert und uns die Chance gibt, das zu entwickeln. Und das würde mich als Linguisten sehr, sehr glücklich machen.

Um Google anzugreifen?

Genau (lacht). Google hat gemerkt, dass sie sich in Richtung der Semantik bewegen müssen. Sie haben auch ein oder zwei Unternehmen übernommen, aber bisher habe ich bei Google keine Fortschritte in dieser Richtung feststellen können.

Google sagt, das semantische Internet funktioniere nicht.

Es funktioniert nicht bei Google, weil Google vollkommen auf Algorithmen vertraut, die den Menschen völlig außen vor lassen, die essentiell für unser System sind. Wir sind das einzige Unternehmen, das über diesen Datenbestand verfügt. Google hat sich nicht die Mühe gemacht, einen solchen Datenbestand aufzubauen, Yahoo übrigens auch nicht. Natürlich kann die semantische Suche dann nicht funktionieren. Google müsste nur unsere Daten nutzen, dann würden die Suchergebnisse sofort besser. Aber ich erwarte nicht, dass Google das einsieht. Sie schauen nicht nach der richtigen Lösung am richtigen Ort.

Wie beurteilen Sie die Arbeit von Tim Berners-Lee und dem W3C? Seit Jahren arbeitet Berners-Lee am semantischen Internet, aber noch funktioniert es nicht.

Ich sehe große Schwierigkeiten, ein semantisches Web zu implementieren, in der Art, wie es Tim vorhat. Es ist zwar ein sehr elegantes und attraktives Konzept. Aber die Beispiele, die zur Illustration genutzt wurden, sind alle sehr einfach. Die wahrhaft schwierigen Fragen des semantischen Webs, die in der Mehrheit sind, hat Tim noch nicht gelöst. Auch die Integration verschiedener Sprachen ist noch nicht gelöst.

In der Online-Werbung setzen viele Anbieter auf das „Behavioral Targeting“, das Werbung auf das jeweilige Nutzerinteresse abstimmt.

iSense ist ein System, um Seiten zu analysieren, um zu sichern, dass sie akkurat klassifiziert sind. Eine Erweiterung um „Behavioral Targeting“ ist aber ohne Schwierigkeiten möglich. Ich denke, dass sich Ad Pepper auch in diese Richtung entwickeln wird.

Das Internet wird multimedial; Seiten mit Videos und Bilder wachsen schnell. Wie gehen Sie damit um?

Das ist in der Tat ein Problem. Unser Ansatz basiert ganz klar auf Text. Wir müssen dann schauen, wo wir Textbeschreibungen der Fotos und Videos herbekommen.

Das Gespräch führte Holger Schmidt.

Quelle: F.A.Z., 24.09.2007, Nr. 222 / Seite 23
Hier können Sie die Rechte an diesem Artikel erwerben

  Weitersagen Kommentieren Merken Drucken
Weitersagen
Aktienkurse
Name Wert Änderung
  Nasdaq 100 --  --
  Facebook Inc. --  --
  Google --  --
  Apple --  --
  Zynga Inc. --  --

Protektionismus nach Brüsseler Art

Von Hendrik Kafsack, Brüssel

Die Europäische Kommission will Strafzölle auf Solarmodule aus China erheben. Zahlreiche Unternehmen warnen vor der Reaktion Chinas. Davon darf sich die EU nicht beeinflussen lassen – trotzdem sollten die Mitgliedsstaaten alles daran setzten, die Kommission von ihren Plänen abzubringen. Mehr 4 2

Wichtigste Werte
Name Wert Änderung
  F.A.Z.-Index --  --
  Dax --  --
  Dow Jones --  --
  Euro in Dollar --  --
  F.A.Z.-Anleih… --  --
  Gold --  --
  Rohöl Brent --  --
  Bund Future --  --