Benutzer-Werkzeuge

Webseiten-Werkzeuge


v-team:katalogisierung:normdaten:gnd:import

Automatische Aktualisierung der GND im SWB

Abholungsintervall:
Mo-Fr 07:00 - 20:00 Uhr alle 5 Minuten
Mo-Fr 20:15 Uhr kompletter Tag

Allgemeine Beschreibung

Die Daten der GND werden an Arbeitstagen (Mo-Fr) zwischen 07:00 Uhr und 20:00 Uhr im Rhythmus von 5 Minuten unter Benutzung des OAI-Protokolls aus der DNB abgeholt.
Aus technische Gründen ist es derzeit möglich, dass Daten verloren gehen können, die kurz vor dem Abholzeitpunkt in der DNB angelegt oder geändert werden, aber in deren Index zum Abholzeitpunkt noch nicht vorhanden sind. Um diese Indexierungsverzögerung zu umgehen wird der Anfangszeitpunkt der Abholung um 30 Sekunden vor den Endezeitpunkt der letzten Abholung gelegt.

Da auch mit dieser Methode möglicherweise – z.B. durch Verbindungsprobleme – nicht alle Daten erfasst werden, wird an jedem Arbeitstag abends 20:15 Uhr der komplette Datenbestand seit der letzten täglichen Abholung nochmals abgeholt. Eine Dublettengenerierung wird durch nachfolgende Programme verhindert. Die erste Abholung Montags setzt zum Zeitpunkt der letzten Abholung am Freitag (minus 30 Sekunden, s.o.) wieder auf. Das gilt für die 5-minütliche als auch für die (arbeits-)tägliche Abholung.

Nachdem die Daten vorliegen, werden sie auf das Katalogisierungssystems übertragen und mit dessen Methoden (Match&Merge, Relate) eingespielt, das kann je nach Datenmenge mehrere Minuten dauern. Durch das Abholungsintervall und die Zeit des eigentlichen Imports incl. Nachbearbeitung und Indexierung sind die Daten für die Katalogisierer in der Regel nach 6-8 Minuten über die WinIBW benutzbar .

Sollten in der GND z.B. über das Wochenende oder in der Nacht Massenänderungen oder Dateneinspielungen durchgeführt werden, dauert sowohl das erste Abholen als auch die Weiterverarbeitung z.T. wesentlich länger. D.h. z.B. Montags um 07:00 Uhr werden neu eingegebene GND-Daten unter Umständen erst mit größerer Verzögerung ins SWB-Katalogisierungssystem übernommen!

Umgehung eines Datenverlusts

Die o.g. Möglichkeit eines Datenverlusts wird durch das Vorverlegung des Abholzeitpunkts (z.Zt. 30 Sekunden) verhindert.

Beispiel:
Entstehung eines Datenverlusts, wenn der Abholzeitpunkt nicht vorverlegt würde:

  1. OAI-Aufruf Nr. 1 um 9:35:00 Uhr
    Abholung der Daten von 9:30:00 bis 9:35:00 Uhr
  2. Anlegen eines GND-Eintrags in der DNB um 9:39:50 Uhr,
    Beginn der Indexierung dieses Eintrags
  3. OAI-Aufruf Nr. 2 um 9:40:00 Uhr
    Abholung der Daten von 9:35:00 bis 9:40:00 Uhr
    der neu angelegte Datensatz ist noch nicht indexiert und daher in der Abholung nicht enthalten
  4. 9:40:05 Uhr: Indexierung des neuen Eintrags ist abgeschlossen,
    dieser steht ab jetzt mit dem Anlegedatum 9:39:50 Uhr zur Verfügung
  5. OAI-Aufruf Nr. 3 um 9:45 Uhr
    Abholung der Daten von 9:40:00 bis 9:45:00 Uhr
    Der neu angelegte Datensatz hat das Anlegedatum 9:39:50 Uhr und ist nicht enthalten ⇒ Datenverlust!


Mit der Vorverlegung des Abholungszeitpunkts um 30 Sekunden auf 9:39:30 wird dieser Datensatz gefunden und geliefert.

Technik

Technisch ist die Abholung mit einem Perl-Script auf einem Debian Rechner realisiert, das auf die Module
HTTP::OAI (Packet libhttp-oai-perl in debian)
und
Net::SFTP::Foreign (Packet libnet-sftp-foreign-perl in debian)
zurückgreift.

zurück zur GND-Startseite


Ansprechpartner im BSZ: Team Verbundsystem

/data/wiki/data/pages/v-team/katalogisierung/normdaten/gnd/import.txt · Zuletzt geändert: 04-09-2014 09:17 von V-Team

Informationssicherheit | Datenschutz | Impressum