Print logo

Webarchivierung im Archiv für Christlich-Soziale Politik

Das Internet ist ein wichtiger Bestandteil der parteipolitischen Arbeit. Debatten, Wahlkämpfe und andere Formen der Interaktion zwischen Partei und Wählern finden nicht mehr ausschließlich auf den konventionellen Wegen statt, sondern haben sich ins Internet verlagert. Das Diskussionsforum in einem Blog ergänzt oder ersetzt die Kommunikation zwischen Wahlkandidat und Bürger an einem klassischen Wahlstand einer Partei in der Fußgängerzone. Parteien und Politiker sind im Netz aktiv, folglich stellt sich den Archiven der Politischen Stiftungen die Aufgabe, auch diese Quellengattung für die Allgemeinheit und die wissenschaftliche Forschung zu archivieren. Die Aufgabe eines Webarchivs allgemein ist das dauerhafte Aufbewahren von ausgesuchten Websites, Netzpublikationen und multimedialen Webinhalten, mit dem Ziel, sie möglichst vollständig für Öffentlichkeit und Wissenschaft zu archivieren und die Daten verfügbar und benutzbar zu erhalten. Denn ist die Seite mit ihren Inhalten aus dem „Live-Web“ verschwunden, bietet ein Webarchiv den letzten möglichen Zugang.

Die Archivierung von ganzen Webauftritten und Websites beinhaltet aber nicht nur die Sicherung von Inhalten, die nicht mehr im „Live-Web“ zu finden sind. Das Ziel ist, Internetseiten mit all ihren Inhalten, in allen Ebenen, mit ihrem Layout und mit sämtlichen multimedialen Funktionalitäten (Flashes, Bilder, Animationen und Links) zu archivieren. Die dauerhafte Speicherung der Webseiten erfordert auch besondere Strategien bezüglich einer Langzeitarchivierung von digitalen Daten, von Dateiformaten und Datenträgern und die Einrichtung von technischer Infrastruktur, die es ermöglicht gespeicherte Seiten auch nach Jahrzehnten in vollem Umfang zugänglich zu machen.

Unabdingbare Voraussetzung zur Durchführung einer Spiegelung ist stets die Genehmigung und Zustimmung des Rechteinhabers an der Website. Aufgrund der jeweils völlig unterschiedlichen, aber stets hoch komplexen Rechtesituation bei und an den in eine Seite eingebundenen Inhalten wie Fotos, Videos, Graphiken ist es derzeit den Archiven nicht möglich, die gespiegelten Seiten im Netz für eine Nutzung anzubieten. Interessierte Nutzer können die archivierten Internetspiegelungen jedoch vor Ort im Archiv einsehen.

Technische Anforderungen und Methoden der Webarchivierung

Das World Wide Web mit all seinen vielfältigen Inhalten ist nicht statisch. Webseiten werden online gestellt und laufend verändert. Die technischen Komponenten für die Webarchivierung müssen diesem Prozess ständig angepasst werden, um die relevanten Webseiten möglichst vollständig zu erfassen. Die Dynamik der Websites und der technischen Weiterentwicklung im World Wide Web erlauben nur ein „Hinterherhinken“ bei der Archivierung, einstweilen muss hier mit Datenverlust gerechnet werden.

Die Archivierung erfolgt mit der Methode der Spiegelung, die einen Kopiervorgang einer Website zu einem bestimmten Zeitpunkt darstellt. Das Archiv für Christlich-Soziale Politik hat dafür von 2000 bis 2003 die Software des Adobe Acrobat Writer und anschließend bis 2007 des Offline Explorer Pro der Firma Metaproducts eingesetzt. Seit 2008 wird die Spiegelung mit dem Offline Web Archiv (OWA) der Firma OIA durchgeführt. Ein Webcrawler kopiert die Daten von einer ausgewählten Website in eine Datenbank. Parallel dazu werden die neu erfassten Daten mit bereits vorhandenen Informationen auf Redundanzen überprüft. Der benötigte Speicherplatz wird durch dieses Verfahren in Grenzen gehalten und der Spiegelungsprozess zusätzlich beschleunigt. Es werden auch Videos, externe Links, Flashes und Animationen aller Art gespiegelt. Die Spiegelungssoftware ermöglicht neben dem manuellen Start einer Spiegelung auch eine termingesteuerte automatische Durchführung. Der Zeitplan kann individuell eingerichtet werden.

Es folgt eine abschließende Kontrolle durch eine Archivmitarbeiterin. Sollte die gespiegelte Website Fehler aufweisen, kann sie entweder komplett oder auf die defekten Links beschränkt (inkrementell) nachgespiegelt werden. Häufigste Ursachen für eine notwendige Nachspiegelung sind fehlende Bilder, Videos, Flashs, Animationen oder eingebettete Links. Wiederkehrende Fehler können durch den gezielten Ausschluss von URLs innerhalb einer Website verhindert werden. Anschließend werden die gespiegelten Seiten in der Datenbank des OWA dauerhaft archiviert und über eine Schnittstelle mit der Archivdatenbank verbunden. In der Archivdatenbank erfolgt die Verzeichnung und Erschließung der gespiegelten Website. Dazu werden eine Reihe von Metadaten geliefert, wie die Angaben über Provenienz, Übernahmezeitpunkt, den verwendeten Webcrawler, notwendige Nachspiegelungen und deren Ursache bzw. Ergebnisse, den Umfang der erfassten Daten und Anlass der Spiegelung. 

Die Archivierung der Sozialen Medien (Facebook, Twitter und Co.) ist aufgrund ihrer noch größeren Dynamik und vielfältigeren Inhalte eine technische Herausforderung.