Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.
Kommentar: schönere Struktur

Die Inventarnummer-Analyse-Pipeline erzeugt einen Report im XML-Format, mit dem sich mache manche wahrscheinlichen Duplikate in den Inventarnummern, sowie einige weitere Artefakte in der Inventarnummerverwendung aufspüren lassen. Für eine brauchbare Ansicht sollte die Datei in einem Browser geöffnet werden, hier z.B. in Firefox (sieht in Chrome sehr ähnlich aus):

...

Die Fehlermeldung "Mit dieser XML-Datei sind anscheinend keine Style-Informationen verknüpft. Nachfolgend wird die Baum-Ansicht des Dokuments angezeigt." ist erwartet: Die Baumansicht ist bereits recht übersichtlich, und eine formatierte Ansicht mit gleicher Funktionalität nicht ohne weiteres realisierbar.

Inhalt

Ausführung

Die Inventarnummer-Analyse-Pipeline muss mit den korrekten Werten für das jeweilige Museum ausgeführt werden, entsprechend den jeweiligen Regeln zu zu Bildung der reduzierten Inventarnummern der Dateinamenskonvention für die Medienbereitstellung.

ZeichenkategorieKonfigurationsparameterBeschreibungim Beispiel verwendet
TrennzeichenexpoSync.invnr.replaceZeichen, die in der Inventarnummer durch Bindestrich ersetzt werden
  • Leerzeichen
  • Bindestrich
  • Schrägstrich /
  • Punkt
entfernte ZeichenexpoSync.invnr.removeZeichen, die in der Inventarnummer restlos entfernt werden
  • Apostroph '
verbotene Zeichen

expoSync.invnr.ignore

Zeichen, die nicht gemeldet werden, weil deren Präsenz in einer Inventarnummer diese explizit als nicht für Zuordnung geeignet markiert.

Alle anderen Zeichen werden im Report als unerwartetes Sonderzeichen gemeldet.

  • Raute #

Dies geschieht entweder in der Job-Konfiguration für regelmäßige Jobs , oder nach Auswahl der Pipeline, wenn die Pipeline manuell ausgeführt wird. In letzterem letzteren Fall bitte die Email-Adressen leer lassen und den Report direkt herunterladen.

Meldungen

Duplikate

Hier werden alle Inventarnummern angezeigt, die nach den angegebenen Regeln auf dieselbe reduzierte Inventarnummer gemappt werden. Bilder für diese Inventarnummern können nicht automatisch verknüpft werden, weil nicht klar ist, auf welche der beiden Inventarnummern die reduzierte Inventarnummer zu mappen ist. Hier mit den Trennzeichen: Leerzeichen, Schrägstrich /, Leerzeichen, sowie als entferntes Zeichen.

...

Dieser Bereich findet aber auch manche doppelte Inventarnummern. Hier sind H 62/001/10.1 und H 62/001.10.1, sowie G 53/021.w und G 53/021 w, wahrscheinlich zwei Einträge für das gleiche Objekt, d.h., diese Datensätze sollten genauer überprüft werden. Wenn es sich um zwei verschiedene Objekte handelt , oder wenn die Inventarnummern so strukturiert sind, dass es sich um semantisch verschiedene Nummern handelt, müssen die Regeln zu Bildung der reduzierten Inventarnummern entsprechend angepasst werden.

D 44/019 o und D 44/019 o' illustrieren einen anderen Fall: Apostroph ' wurde als entferntes Zeichen angegeben, weil einige doppelte Inventarnummern nach dem mathematischen Schema a, a' benannt wurden. Damit hier d-44-019-o nicht D 44/019 o zugeordnet wird, obwohl eventuell D 44/019 o' richtig wäre, werden beide Inventarnummern absichtlich auf dieselbe reduzierte Inventarnummer reduziert. Dadurch wir wird die automatische Zuordnung verhindert und es muss manuell das korrekte Objekt ausgewählt werden.

Solche Duplikate können nicht versteckt werden. Der Eintrag im Report lässt sich zusammenklappen (d-44-019-m im Beispiel), aber er lässt sich nicht ganz entfernen. Deshalb wird empfohlen, Objekte mit doppelter Inventarnummer nach dem Schema "A 123 #1", "A 123 #2", "A 123 #3" umzubenennen (siehe Dateinamenskonvention für die Medienbereitstellung). Das Beispiel hatte doppelte Inventarnummern nach Schema "A 123 #1", aber da Raute # als verbotenes Zeichen angegeben wurde, werden diese nicht gemeldet. Sie können stattdessen sehr einfach in imdas pro gefunden werden.

Wenn zwei Inventarnummern exakt gleich aussehen, ist eine zusätzliche Recherche notwendig. Sie können nicht exakt gleich sein; , das würde imdas pro nicht zulassen . Winige (wenn die automatische Inventarnummernkontrolle aktiviert ist). Einige wenige Zeichen werden im Browser nicht oder nicht richtig angezeigt, so dass es Sinn machen sinnvoll sein kann, die Datei in einem Texteditor (z.B. Notepad++, nicht der Windows-Editor Notepad) zu öffnen und nach der Inventarnummer zu suchen. Leerzeichen am Ende einer Inventarnummer (wie in einem Museum von einem Volontär eingegebenpraktiziert, um die automatische Inventarnummernkontrolle zu überlisten) sind z.B. auch sehr schwer zu erkennen und in einem Texteditor mit fester Zeichenbreite leichter zu sehen.

� in der reduzierten Inventarnummer ist ein nicht erlaubtes Zeichen und sollte unter Sonderzeichen nochmals aufgelistet werden. Die Ausnahme sind die expliziten Verbotenen Zeichen; diese tauchen in der reduzierten Inventarnummer ebenfalls als � auf.

Sonderzeichen

Sonderzeichen können aus den verschiedensten Gründen in der Inventarnummern vorkommen und können harmlos sein oder unerwünscht. Aus Sicht der Medienbereitstellung verhindern sie jedenfalls aber die Zuordnung eines Medienobjekts zu eine einem Museumsobjekt mit dieser Inventarnummer.

...

Hier wird das Plus-Zeichen offensichtlich für "NM01-710a und NM01-710b" sowie für "NM01-K134 und NM01-K135" benutzt. Im ersten Fall wäre (in diesem Museum) "NM01-710 a-b" korrekt, und der Datensazu Datensatz sollte korrigiert werden. Für den zweiten Fall muss entschieden werden, wie solche Kombinations-Objekte benannt werden. Z.B. könnten sie als "NM01-K134; NM01-K135" erstellt (und Semicolon ; als Trennzeichen hinzugefügt), oder so wie vorhanden representiert repräsentiert (und Plus + als Trennzeichen hinzugefügt) werden.

...

Hier würde z.B. eine Kollision erzeugt, wenn der Unterstrich _ zu den Trennzeichen hinzugefügt würde. Als Entferntes Zeichen würde er keine Kollision erzeugen. Nachdem "I_1810 b" und "I/1810 b" aber vermutlich dasselbe Objekt sind, wäre es hier sinnvoller, beide als Objekte mit doppelter Inventarnummer zu kennzeichnen (oder direkt eines davon zu entfernen, wenn offensichtlich).

Der Suffix "_2" könnte ebenfalls auf doppelte Inventarnummern hindeuten, oder einfach Teil des Inventarnummerschemas sein. Da es keine "_1" Objekte gibt, handelt es sich vermutlich um Duplikate, aber der Report versucht nicht, solche semantischen Entscheidungen zu treffen.

Klammern

Klammern werden meist in Paaren gemeldet, da von Menschen zumeist in Paaren benutzt. Ein typischer Fall ist "(?)" bei unsicheren oder unlesbaren Inventarnummern:

...

Bei Klammern werden in der Regel keine "was Was-wäre-wenn"-Duplikate gefunden, weil der Report nur einzelne Zeichen betrachtet. Egal welches einzelne Zeichen von "(", "?" und ")" ersetzt wird, wären "ST 675 (?)" und "ST 675" wären aber immer noch verschieden ("ST 765 ?)", "ST 765 ()" sowie "ST 765 (?"). Hier lohnt es sich also, den Report nochmal zu erzeugen, diesmal mit allen drei Zeichen als Entfernte Zeichen. Eventuelle Kollisionen werden dann ganz oben unter <duplicates> angezeigt.

Die Entstehung von "2008()029" ist kryptisch. Das Beispiel ist hier zur Illustration, dass nicht alle Anomalien in den Inventarnummern rational erscheinen müssen.

Doppelte Leerzeichen

Diese spezielle Regel sucht nach Inventarnummern, die 2 Leerzeichen nacheinander enthalten, oder mit Leerzeichen beginnen oder enden. Diese sind normalerweise kein Problem für die Medienbereitstellung: Durch die üblichen Regeln werden doppelte Leerzeichen zu einem einfachen "-"; Leerzeichen am Anfang oder Ende werden ganz entfernt. Leerzeichen an unerwarteten Stellen erzeugen aber visuell erhebliche Verwirrung und werden daher gemeldet.

Image Added

Diese Inventarnummern sollten fast immer korrigiert werden. Doppelte Leerzeichen sind im Report leider komplett unsichtbar (sie sind in der Datei drin, aber Browser zeigen sie nicht an) und man kann sie auch nur als einzelnes Leerzeichen rauskopieren. Deshalb wird zusätzlich eine "Suchhilfe" ausgegeben, in der die Leerzeichen durch "_" (Unterstrich; Platzhalter für ein beliebiges einzelnes Zeichen in der imdas-Suche) ersetzt sind. Diese illustrieren, wo die Leerzeichen sind, und lassen sich direkt kopieren zur Suche nach den "Übeltätern". Allerdings werden u.U. auch andere, unproblematische Datensätze gefunden, z.B. findet das obige "SA_02229_L_" natürlich auch "SA 02229-LC".

False Positives

Typisches Beispiel für harmlose Meldungen sind das "ö" in "löschen", oder andere Sonderzeichen in Objekten, die offensichtlich gelöscht werden sollen:

...

Wenn Trennzeichen in einer für Menschen unsinnigen Form benutzt werden, findet der Report das nur, wenn das zu Duplikaten bei der reduzierten Inventarnummer führt.

...

Es ist deshalb empfehlenswert, Duplikate so zu markieren, dass sie offensichtlich erkennbar sind. Die Verwendung von #1, #2, #3 in der Dateinamenskonvention für die Medienbereitstellung, zusammen mit # als Verbotenes Zeichen, macht den Report nützlicher und Duplikate leichter zu finden.

Unsinnige aber eindeutige Inventarnummern

Der Report kennt nicht die lokalen Inventarnummer-Konventionen im Museum und überprüft sie auch nicht.

Er findet also in der Regel keine unsinnigen Inventarnummern, bzw. die Verwendung des Inventarnummern-Feldes für Werte, die keine Inventarnummern sind. Z.B. würde "Schrank 4" (vermutlich der Standort, nicht die Inventarnummer) einem Menschen sofort auffallen, wenn alle anderen Inventarnummern der Form "X 1234 / 42" folgen. Da "schrank-4" aber eindeutig ist, wird nichts gemeldet.