Inhalt
Die Archivierbarkeit von Websites wird generell und Crawler-übergreifend von verschiedenen Faktoren ganz entscheidend beeinflusst.
grundlegend:
- Der Webserver darf den Bot (Crawler) des Internet Archivs nicht blockieren. Diesem muss vollständiger, lesender Zugriff auf alle öffentlichen Inhalte gewährt werden. Der Bot identifiziert sich wie folgt:
archive.org_bot
(special_archiver welcher rotobts.txt ignoriert)
Weitere Informationen zu User Agents u.a. können beim BSZ erfragt werden.
positiver Effekt:
- Vorhandensein einer robots.txt
- Vorhandensein einer sitemap.xml und ihre Nennung in robots.txt
- Valide Hyperlinks und stabile Weiterleitungen
- fixe URLs für jede Seite
- alle zentralen Inhalte innerhalb derselben Domain
negativer Effekt:
- anhand von Datenbankabfragen generierte Inhalte / "on-the-fly" generierte Inhalte
- cloudbasierte Angebote und Toolboxes wie Wix
- responsives Design, insbesondere bei der Auslieferung von Grafiken
- proprietäre Anwendungen für die Präsentation
- dynamische Skripte, JavaScript
- großflächige Cookie-Banner oder Cookie-Banner, welche den Seiteninhalt vollständig verdecken oder die Navigierbarkeit der Seite verhindern
- ohne Cookies: Sperrung von Inhalten oder Funktionalitäten
- Inhalten vorgelagerte Authentifizierungsaufforderungen
Weitere Anregungen finden Sie hier.
Überblick
Inhalte