24.06.2003 · WWW-Erfinder Tim Berners-Lee wirbt für die Weiterentwicklung des Internet. An die Stelle des ungeordneten Datenchaos soll ein "semantisches Web" treten, in dem Maschinen die Inhalte besser verstehen sollen.
Das Internet enthält Daten von Menschen für Menschen. Im World Wide Web (WWW) sind riesige Mengen an Informationen veröffentlicht, die allerdings nur Menschen vernünftig einordnen können. Suchmaschinen können nur nach oberflächlichen Merkmalen, Zahlen- oder Zeichenkombinationen suchen - gewissermaßen eindimensional. Die nötigen Verknüpfungen müssen die Menschen erstellen, indem sie pfiffige Suchbegriffe auswählen oder die Ergebnisse nach ihren Bedürfnissen durchsuchen.
Das soll sich ändern, denn einen kühnen Vorstoß in ein neues, intelligenteres Web unternimmt das internationale World-Wide-Web-Konsortium (W3C), das für die Standards im Netz zuständig ist. Auf Vorträgen in München, Rom, London, Athen und Brüssel werben die W3C-Vordenker für das "semantische Web". In diesem World Wide Web der Zukunft gibt es keine ungeordneten Text- und Bilderhalden mehr, die von den Google-Robotern und anderen Suchmaschinen umgepflügt werden. Statt dessen sind alle wesentlichen Informationen einer Web-Seite mit Angaben zu ihrer Bedeutung versehen - daher die Bezeichnung semantisch (von griechisch "sem" für Bedeutung). Diese Angaben werden als Metadaten bezeichnet, als Informationen über Informationen. Mit Hilfe von Metadaten können Computerprogramme jenseits der Volltextsuche gezielt nach ganz bestimmten Informationen suchen, zum Beispiel nach Namen von Personen. Bisher aber läßt sich im Web bei der Buchstabenfolge "Kohl" nicht sagen, ob das Gemüse oder eine Person dieses Namens gemeint ist.
Berners-Lee mit neuen kreativen Ideen
Einer der Vordenker des semantischen Netzes ist der Erfinder uns Namensgeber des World Wide Web, Tim Berners-Lee. Er entwickelte in den 90er Jahren die Idee des Netzes mit Links und allem, was wir heute selbstverständlich benutzen. Jetzt will er mit dem semantischen Netz die Möglichkeiten des WWW erweitern: „Das Semantische Web besteht aus Informationen, die auch Maschinen bearbeiten können“. Das Web werde sein volles Potential erst dann erreichen, wenn es zu einer Umgebung wird, in der Daten nicht nur von Menschen, sondern auch von automatischen Werkzeugen getauscht und verarbeitet werden könnten, erklären Berners-Lee, der auch Direktor bei W3C ist, und der W3C-Experte Eric Miller in einem soeben veröffentlichten Beitrag mit dem Titel "Das semantische Web hebt ab".
In dem Artikel beschreiben die beiden auch, welche Schritte nötig sind, um Webseiten für Maschinen interpretierbar zu machen. Einer davon ist, Informationen, die zwar für Menschen Struktur bringen, für die Maschine aber nichts bedeuten, so zu kennzeichnen, daß die Maschine damit nicht belastet wird. Dazu gehören Layout-Merkmale wie Schriftart und Bilder. Solche Daten blähen den HTML-Code von Web-Seiten unnötig auf und Programme arbeiten langsamer, die im Internet automatisch nach bestimmten Daten suchen, diese erfassen und auswerten.
Verknüpfung der Daten mit Metadaten
Der weitere und entscheidende Schritt ist es, die Informationen der Webseite nicht nur als Worte zu verfassen und darauf zu hoffen, daß der menschliche Leser sie richtig interpretieren kann, sondern gezielt Metadaten mit den Daten zu verknüpfen. Erst wenn eine fünfstellige Zahl eindeutig als Postleitzahl gekennzeichnet ist, ist sie für ein Programm nicht mehr eine beliebige Ziffernfolge, sondern eine Information mit einer klaren Bedeutung.
Um dem Computer beizubringen, wie er solche Daten liest und versteht, sind drei Techniken, die weit über die gängige Programmiersprache für Webseiten, HTML, hinaus gehen und zusammengehörende Daten miteinander vernetzen, nötig. XML (Extensible Markup Language) definiert die Metadaten von Web-Dokumenten, URI (Uniform Resource Identifier) bestimmt auf eindeutige Weise den genauen Ort eines Dokuments im Netz, und RDF (Resource Description Framework) sorgt für die Zusammenführung der Daten. Alle drei Standards werden in W3C-Arbeitsgruppen festgelegt und in Zusammenarbeit mit IT-Unternehmen weiter entwickelt. Auch für das Projekt des semantischen Webs gibt es natürlich bereits eine Abkürzung: SWAD steht für `Semantic Web Advanced Development".
„Das Aufregendste ist das, was wir uns noch nicht vorstellen können“
Für den normalen Computernutzer sind diese Abkürzungen kryptisch und unverständlich. Das, was das semantische Netz bringt, ist jedoch einfach. Eine Suche, die nicht mehr nur nach puren Worten sucht, sondern Beziehungen zwischen den Suchbegriffen wie „arbeitet für“, „bietet an“, „bedeutet“ erstellt. Dadurch kann der Nutzer gezielter suchen, intelligente Software-Agenten können für ihn das Netz nach den gewünschten Informationen durchkämmen. Berners-Lee rechnet mit einer allgemeinen, wenn auch nur sehr allmählichen Ausbreitung des semantischen Webs. Viele der Anwendungen werden sich in den täglichen Gebrauch schleichen und ihn vereinfachen, ohne für den Nutzer direkt sichtbar zu sein. Berners-Lee und Miller jedenfalls sind voller Euphorie: `Das Aufregendste am semantischen Web ist nicht das, was wir uns alles damit vorstellen können, sondern das, was wir uns jetzt noch gar nicht vorstellen können."