Langzeitarchivierung von Internetressourcen

Langzeitarchivierung von Internetressourcen – Webarchiv als neues wissenschaftliches Forschungsinstrument

2010 hat die Webarchivierung in der Bayerischen Staatsbibliothek (BSB) mit einem hauseigenen Pilotprojekt begonnen. Die Langzeitarchivierung von Webseiten ermöglicht den unbeschränkten Zugang zu wissenschaftlichen Inhalten, die bereits aus dem aktuellen Web verschwunden sind oder nun in einer neuen, veränderten Form präsentiert werden. Entfernte Webseiten und einzelne Webseiteninhalte können damit jederzeit wieder mittels einer persistenten URL aufgerufen werden.

Als Forschungsinstrument sind Webarchive in Deutschland noch weitgehend unbekannt. Dabei könnten Webarchive aber zukunftsweisend für die wissenschaftliche Forschung sein, denn Webausschnitte werden hier in bestimmten zeitlichen Intervallen archiviert und können damit im direkten Vergleich der zeitlichen Ausschnitte einer Webseite Entwicklungen von wissenschaftlichen Diskursen besser nachzeichnen als andere Medien.

Workflow:

Seit dem 1. Januar 2013 läuft an der Bayerischen Staatsbibliothek ein DFG-Projekt zur Langzeitarchivierung von Webseiten, deren Erschließung ein Teilbereich der insgesamt fünf Virtuellen Fachbibliotheken (ViFas) der BSB ist. Allein in der Internetressourcendatenbank der ViFaMusik sind aktuell knapp 3000  Internetressourcen erfasst; davon wurden Anfang dieses Jahres zunächst 500 Webseiten für die Langzeitarchivierung händisch ausgewählt. Die Auswahl unterlag dabei bestimmten formalen Richtlinien und inhaltlichen Qualitätskriterien; ausgeschlossen sind deshalb u. a. einzelne PDF-Dokumente, Datenbanken oder Bibliothekskataloge; diese Kriterien sind so umgekehrt auch für die Internetressourcenerschließung zu berücksichtigen. Der Workflow gestaltet sich noch als recht aufwändig: Zur Archivierung der ausgewählten Webseiten muss vorab eine Genehmigungsanfrage an die Betreiber/Urheber der jeweiligen Webseite geschickt werden. Der positive Rücklauf auf die Genehmigungsanfragen liegt derzeit erfreulicher Weise bei etwa 20-30 %. Nach eingeholter Genehmigung erfolgt die Archivierung der Ressource, wobei jede archivierte Webseite eine eigene Archiv-URL enthält. Für den gesamten Workflow wird das Web Curator Tool (WCT) eingesetzt, eine open source Software, die von der British Library und der National Library in Neuseeland entwickelt wurde, sowie Heritrix, ein im WCT integrierter Crawler zur Archivierung der Websites.

Anwendung:

Die archivierten Webseiten sind für den Nutzer der ViFaMusik frei zugänglich. Bei bereits archivierten Ressourcen zeigt die Datenbank neben dem Link zur realen (aktuellen) Webseite auch die Archiv- URL an:

Abbildung_1

Der Klick auf die Archiv-URL führt zu einer chronologischen Übersicht aller archivierten „captures“ (Zeitschnitte). Eine Webseite wird alle 6 Monate archiviert.

Abbildung_2

Von hier aus gelangt man direkt zu den einzelnen archivierten Webseiten.

Auch im Bibliothekskatalog der BSB München (BSB-OPAC) werden die archivierten Webseiten erfasst. Dafür muss bei der erweiterten Suchmaske die Medienart „Online-Ressource“ ausgewählt werden.

Abbildung_3

Bislang konnten bereits etwa 130 Webseiten nach eingeholter Genehmigung archiviert werden. Zudem finden sich in der Datenbank auch noch diejenigen Internetressourcen, die im Zuge der genannten Pilotphase archiviert wurden. Ein Beispiel dafür ist die Webseite des Musikinformationszentrums (MIZ), zu der mittlerweile eine Sammlung von sieben verschiedenen Archivierungsausschnitten vorliegt. Der Zugang zur aktuellen Adresse lautet: www.miz.org. Die Maske mit der Übersicht der einzelnen Archivausschnitte ist über die Adresse

http://langzeitarchivierung.bib-bvb.de/content-aggregator/getIEs?system=BVB01&id=BV037422167

erreichbar. Ein weiteres Beispiel ist die Webseite des Digital Image Archiv of Medieval Music (DIAMM): www.diamm.ac.uk. Die einzelnen Archivausschnitte sind über http://langzeitarchivierung.bib-bvb.de/content-aggregator/getIEs?system=BVB01&id=BV039803263

einsehbar.

Aussichten:

Nach erfolgreicher Durchführung der Langzeitarchivierung der ersten ausgewählten Webseiten wird nach und nach die Archivierung aller Internetressourcen aus der ViFaMusik-Datenbank folgen, die den Kriterien der Langzeitarchivierung entsprechen. Der Workflow in der BSB soll dabei zunehmend automatisiert werden. Kernaufgabe des laufenden DFG-Projekts ist die Entwicklung eines Konzepts für ein Servicemodell, mit dem die an der BSB bereits aufgebaute Infrastruktur ausgebaut und von anderen Institutionen nachgenutzt werden kann, sodass die Archivierung wissenschaftlicher Webseiten nicht nur wie bislang eine Ausnahme vereinzelten Institutionen bleibt, sondern flächenübergreifend der Wissenschaft ein wichtiges und frei zugängliches Instrument zur Hand geben kann.

Marion Beyer

Dieser Beitrag wurde unter Allgemein veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s