Von Frank Pergande
14. Februar 2008 Mitten in der British Library, der Nationalbibliothek des Vereinigten Königreiches, werden derzeit in einem fensterlosen und klimatisierten Raum die Schätze des Hauses auf eine besondere Weise gehoben und für die Ewigkeit aufbereitet. Sie werden digitalisiert. Sie werden zu, wie die Fachleute sagen, digitalen Originalen. Es ist eine Arbeit, die Jahre in Anspruch nehmen wird. Denn 13 Millionen Bücher, Zeitungen und Zeitschriften sowie andere Druckerzeugnisse sind in dem 1998 eröffneten Neubau der Bibliothek in London St. Pancras gesammelt.
Die British Library gehört zu den größten und berühmtesten Bibliotheken der Welt. Sie kann sich mit Namen ihrer Benutzer schmücken, Marx und Lenin etwa oder Charles Dickens und Virginia Woolf. Seit 1911 muss von allen in Großbritannien veröffentlichten Büchern ein Exemplar an die Bibliothek gehen. Hunderttausend Bücher vor allem aus dem 19. Jahrhundert sollen in einem ersten Schritt in den nächsten zwei Jahren in einer Online-Bibliothek abgelegt und damit für jedermann zugänglich werden. Das sind unglaubliche 25 Millionen Seiten.
Als bibliophile Kostbarkeit erlebbar
Im Digitalisierungsstudio stehen fünf Scanner - vier Buchscanner und ein sogenannter Oberlichtscanner. Zwei weitere Scanner kommen demnächst noch hinzu. Gearbeitet wird in zwei Schichten, jeweils mit sechs Leuten. Die Mitarbeiter kommen nicht aus der Bibliothek selbst, sondern aus Hamburg. Sie gehören zu einem kleinen Softwareunternehmen, dessen Namen schon wie Globalisierung klingt: Content Conversion Specialists (CCS). Den Zuschlag für die Arbeiten in der British Library bekam CCS im Sommer dieses Jahres. Es ist ein Millionenauftrag. In einem Pilotprojekt hatten die Hamburger zuvor nachgewiesen, dass eine Million Buchseiten in drei Monaten digitalisiert werden können, und zwar in der erforderlichen hohen Qualität, die das Original wirklich ersetzen kann.
Nun heißt Digitalisierung in diesem Fall nicht einfach nur Einscannen, um so die Bücher, deren Zeit endlich ist, für einen denkbar langen Zeitraum elektronisch zu bewahren und künftig am Computer zu lesen. Das Original muss auch in seiner digitalisierten Form als bibliophile Kostbarkeit erlebbar sein - bis hin zur Papierqualität, aber auch den kleinen Fehlern, der Farbigkeit und den Feinheiten der Illustrationen oder den Buchstaben, die auf der Rückseite durchscheinen. Zugleich geht es darum, die Schätze besser und schneller zugänglich zu machen, etwa durch Themen- und Stichwortsuche. Die Bibliothek selbst erhofft sich von dem Vorhaben daneben eine Art Inventur. Sie kennt zwar ihre Bestände, oft aber nicht deren Zustand, wenn Bücher vielleicht jahrzehntelang von niemandem in die Hand genommen worden sind. Auch können bei dieser Gelegenheit viele Fehler getilgt werden, die sich im Laufe der Jahrzehnte eingeschlichen haben, etwa falsche bibliographische Angaben.
Wettlauf gegen den Zahn der Zeit
Partner der Londoner Bibliothek bei der Digitalisierung ist Microsoft. Auch Microsoft will den Schatz der British Library heben, aus Eigennutz für sein Portal live.com. So werden die Londoner Bestände tatsächlich beinahe für jedermann auf der Welt zugänglich, und der Lesesaal wird nur für jene noch nötig sein, die das Buch unbedingt in der Hand halten wollen. Natürlich sind es die Bibliothekare selbst, die jene Bücher aussuchen, die zuerst digitalisiert werden sollen. Derzeit suchen sie diese vor allem aus seltenen Beständen der British Library aus dem 18. und 19. Jahrhundert. Sie nennen sie Rara, Raritäten, bei denen die Digitalisierung oft schon ein Wettlauf gegen den Zahn der Zeit ist. Da die wertvollen Bücher die Britische Nationalbibliothek natürlich nicht verlassen dürfen, mussten die Hamburger ihre Technik und ihre Software im Herzen der Bibliothek aufbauen.
Bei jedem Buch wird zunächst geprüft, ob sein Zustand eine Digitalisierung überhaupt zulässt. Dann werden einzelne Chargen zusammengestellt und auf dem automatischen Transportweg der Bibliothek aus dem Büchermagazin, das sich bis zu vier Etagen unter der Erde erstreckt, zum Digitalisierungszentrum gebracht. Jedes Buch bekommt eine Codekarte, um so die Verbindung zur Datenbank der Bibliothek jederzeit zu halten. Daher kann kein Buch auf seiner mitunter wochenlangen Reise durch das Haus verlorengehen. Im Eingang zum Digitalisierungszentrum werden die Bücher mittels Scanner erfasst und dabei die bibliographischen Daten mit dem Buch verknüpft. Bei alledem wacht natürlich immer das menschliche Auge mit: In welchem Zustand ist das Buch? Hat es unaufgeschnittene Seiten? Ist die Bindung beschädigt, der Buchdeckel oder einzelne Seiten? Ist es zu klein oder zu groß für die automatische Digitalisierung?
Zusammenarbeit mir Rumänien
Schließlich kommen die Schätze auf den eigentlichen Buchscanner, wo sie nicht ganz waagerecht aufgeschlagen liegen, damit der Einband nicht unnötig belastet wird. Über dem Buch sind zwei im rechten Winkel befestigte Hochleistungskameras angeordnet, die wiederum mit zwei Computern je Scanner verbunden sind. Ein Roboterarm saugt die Seiten an und blättert um. Etliche der wertvollen Bücher enthalten Foldouts, also überdimensionierte, gefaltete Seiten, die den besonderen Wert des Buchs ausmachen und auch im digitalen Original erlebbar bleiben müssen. Die Foldouts werden auf besondere Weise mit einem hochempfindlichen Oberlicht-Scanner erfasst. Bei jedem dieser Schritte wacht weiterhin das menschliche Auge. Und am Computer wird bereits die Qualität der Bilder geprüft. Schließlich wandelt die von CCS entwickelte Software die Bilddaten in Text- und Strukturdaten um und versieht diese mit den Daten aus dem Bibliothekskatalog sowie technischen Produktionsdaten. Das war für die Hamburger die eigentliche Herausforderung für die von ihnen entwickelte Software.
Die digitalen Originale werden in zwei unterschiedlichen Formaten ausgeliefert. Microsoft lädt die digitalen Bücher als Bild- und Textdateien von den Servern der CCS herunter (im Bildformat JPEG2000 und mit nicht standardisierten Textfiles). Die British Library hingegen erhält über eine direkte Netzwerkverbindung im Haus die digitalen Bücher in einem Langzeitsicherungsformat (METS/ALTO-XML-Dateien) sowie von jedem Buch ein hochwertiges JPEG2000-Bild und eine PDF-Datei. Ungefähr zwei Wochen lang bleibt das Buch im Digitalisierungszentrum. In dieser Zeit wird einerseits die Qualität des digitalen Originals durch die British Library geprüft. Andererseits prüft CCS noch einmal - dank des globalen Netzes übrigens in der Niederlassung in Rumänien. Die Zusammenarbeit entstand vor einiger Zeit durch Kontakte mit Absolventen der Bukarester Universität, wo CCS inzwischen ein eigenes Forschungszentrum betreibt. In Ausnahmefällen muss abermals gescannt werden. Schließlich rollen die elektronisch erfassten Bücher zurück an ihren Regalplatz.
Wir sind Gewinner der Globalisierung
Möglich ist eine solche Digitalisierung nur durch ein enorm leistungsstarkes Rechenzentrum: Zwanzig schnelle Doppelkern-Prozessoren und eine flinke Netzwerkverbindung. Wir sind Gewinner der Globalisierung, sagt CCS-Geschäftsführer Richard Helle in Hamburg. Bis zu 260 Mitarbeiter sind derzeit international für CCS tätig. Das Unternehmen wurde vor dreißig Jahren gegründet, mit dem Ziel, Blinden mit dem Computer Bücher vorlesen zu lassen - inspiriert von Raymond Kurzweil, einem der Pioniere der optischen Texterkennung.
CCS vertrieb die ersten Scannersysteme, also Hardware. Als das Geschäftsmodell nicht mehr funktionierte, machten die Hamburger zwar etwas anderes, blieben aber in gewisser Weise beim Thema. Sie entwickelten eine Software, die es ermöglichte, Zeitungen vom Computer auswerten zu lassen. Eine Software, die, wie Heller sagt, sieht, liest und Strukturen versteht. Diese Software gilt inzwischen als eine vielfach erprobte, reife Technik, deren sich das Bundespresseamt genauso bedient wie der Hamburger Verlag Gruner und Jahr oder andere Kommunikationszentralen großer Unternehmen. Die Software wird ständig weiterentwickelt, etwa mit dem Ziel, irgendwann einen Medienspiegel auch auf seinen Blackberry oder das iPhone zu bekommen. Eine Weiterentwicklung ist eine Software, welche die automatische Auswertung von Radio und Fernsehen möglich macht.
Das Weltwissen würde sich vervielfachen
Von der Zeitungsauswertung war der Weg zur Digitalisierung von Büchern dann nicht mehr weit. Es gibt sogar einen direkten Zusammenhang. CCS ist zusammen mit vielen anderen Unternehmen beteiligt an einem amerikanischen Vorhaben unter Federführung der amerikanischen Library of Congress, dem National Digital Newspaper Program. Dabei werden sämtliche historischen amerikanischen Zeitungen digitalisiert und für jedermann durchsuchbar gemacht. Anders als etwa in Europa sind Historiker in den Vereinigten Staaten in vielen Fällen einzig auf diese Art der Geschichtsdokumentation angewiesen, um eine amerikanische Geschichte schreiben zu können. Die Hamburger arbeiten hier mit dem Online Computer Library Center, einem gemeinnützigen Zusammenschluss von Bibliotheksmitgliedern, und einer kalifornischen Universität zusammen. 2006 war CCS etwa damit beauftragt, innerhalb weniger Wochen die gesamte Ausgabe des Daily Mirror, der 1903 zum ersten Mal erschienen war, in eine Online-Bibliothek zu überführen - weit mehr als eine Million Seiten.
Überhaupt hält Geschäftsführer Heller den Markt für riesig, zumal die Sicherung von Buchbeständen durch Digitalisierung keineswegs nur von den Britten oder den Amerikanern als nationale Aufgabe verstanden wird. Im vergangenen Jahr etwa hat Norwegen beschlossen, sämtliche im Land je gedruckten Bücher, Zeitschriften und Journale zu digitalisieren, zur Freude der Hamburger mit Hilfe von CCS-Technik. Ähnliche Vorhaben gibt es in Finnland, Neuseeland, Singapur und an der Harvard-Universität - nicht aber in Deutschland. Keine Bibliothek auf der Welt ist bisher allerdings vollständig digitalisiert, bestenfalls nur Teilbestände. Gelänge die Vollständigkeit, so meint Heller, würde sich das Weltwissen auf einen Schlag vervielfachen.
Text: F.A.Z., 12.02.2008, Nr. 36 / Seite T5
Bildmaterial: CCS