Die Archivierbarkeit von Websites wird generell und Crawler-übergreifend von verschiedenen Faktoren ganz entscheidend beeinflusst.

grundlegend:

  • Der Webserver darf den Bot (Crawler) des Internet Archivs nicht blockieren. Diesem muss vollständiger, lesender Zugriff auf alle öffentlichen Inhalte gewährt werden. Der Bot identifiziert sich wie folgt:

    archive.org_bot
    (special_archiver welcher rotobts.txt ignoriert)

    Weitere Informationen zu User Agents u.a. können beim BSZ erfragt werden.

positiver Effekt:

  • Vorhandensein einer robots.txt
  • Vorhandensein einer sitemap.xml und ihre Nennung in robots.txt
  • Valide Hyperlinks und stabile Weiterleitungen
  • fixe URLs für jede Seite
  • alle zentralen Inhalte innerhalb derselben Domain

negativer Effekt:

  • anhand von Datenbankabfragen generierte Inhalte / "on-the-fly" generierte Inhalte
  • cloudbasierte Angebote und Toolboxes wie Wix
  • responsives Design, insbesondere bei der Auslieferung von Grafiken
  • proprietäre Anwendungen für die Präsentation
  • dynamische Skripte, JavaScript
  • großflächige Cookie-Banner oder Cookie-Banner, welche den Seiteninhalt vollständig verdecken oder die Navigierbarkeit der Seite verhindern
  • ohne Cookies: Sperrung von Inhalten oder Funktionalitäten
  • Inhalten vorgelagerte Authentifizierungsaufforderungen

Weitere Anregungen finden Sie hier.

  • Keine Stichwörter