Inhalt
Das Relevance Ranking in BOSS basiert auf zwei Dingen:
a) dem (Solr-)Index und wie dort indexiert wurde
b) der Art wie BOSS diesen Index anspricht.
Beides ist hochkonfigurierbar.
a) Solr-Index
BOSS benutzt verschiedene (Solr)-Indexe:
- Gemeinsamen Verbünde Index (GVI)
- K10plus-Zentral (VZG)
- finc (UB Leipzig)
- Ebsco Discovery Service (EDS)
- Summon (ExLibris/Proquest)
- Primo Central (ExLibris/ProQuest)
Bei jedem Index können die suchbaren Felder anders heißen und anders indexiert sein.
b) BOSS-Ranking für den GVI
- Häufigkeit des Terms in einem Feld
Das Grundprinzip ist die Häufigkeit, mit der ein Suchterm in einem Record-Feld vorkommt. Je häufiger der Term in einem Feld vorkommt, desto höher wird der Record gerankt. - Seltenheit des Terms im gesamten Index
Das zweite Prinzip ist die Frage, wie oft der Suchterm im gesamten Index vorkommt. Das Wort "Pädagogik" ist ein relativ häufiger Term bei FIS Bildung und ein relativ seltener Term beim Verbundkatalog. Somit wird ein "Pädagogik"-Treffer in FIS Bildung nicht so hoch gerankt, wie in den OPAC-Daten. - Länge des Feldes
Je kürzer der Inhalt eines Feldes ist, desto wichtiger wird ein Treffer dort. D.h. dass ein Treffer im Abstract nicht so hoch gerankt wird wie ein Treffer im Titel. Ein Treffer in einem langen Titel weniger hoch als in einem kurzen Titel - Unterschiedliche Gewichtung verschiedener Felder
Jedes Feld besitzt eine eigene Gewichtung. Je nach Gewichtung geht ein Treffer in einem Feld mit einem höheren oder weniger hohen score ins Ranking ein. (s.u.) - Stemming/Trunkierung
Es greift in einigen Feldern ein Stemming (=Stammformreduktion), in anderen Feldern (z.B. Autor) nicht. Durch nicht-Stemming oder Stemming kann entweder relativ scharf und genau oder breit und ungenau gesucht werden, je nach Konfiguration. Stemming ähnelt oft einer Trunkierungssuche. Wir haben die Einstellungen in der letzten Zeit deutlich nachgeschärft. Gestemmte Felder haben eine geringere Gewichtung als Ungestemmte. - Phrasensuche ("onephrase")
Phrasen sind durch Gänsefüsschen eingeschlossene Suchterme. Sie müssen alle und in genau dieser Reihenfolge in einem Indexfeld vorkommen, damit sie gefunden werden.
Auch wenn keine Gänsefüsschen eingegeben werden, sucht BOSS doch oft automatisch sowohl mit, als auch ohne Phrasensuche, wobei dann ein Treffer aus der Phrasensuche einen höheren Ranking-Score erhält. - Boosting
Wir haben ein Aktualitätsboosting und ein Boosting der SWB-Daten.
Gewichtung der Felder
Jede Suche in einem Feld der BOSS-Oberfläche führt zu einer Suche in mehreren Solr-Feldern, die in unterschiedlichen Indexen unterschiedlich gewichtet werden und somit den Ranking-Score unterschiedlich stark beeinflussen.
Bei der Suche in "Alle Felder" (die Defaulteinstellung) sehen die Gewichtungen so aus:
title_unstemmed:
- [onephrase, 300]
- [and, 250]
author_norm:
- [onephrase, 300]
- [and, 250]
author_unstemmed:
- [onephrase, 150]
- [and, 100]
subject_worktitle_facet:
- [and, 100]
subject_topic_facet:
- [onephrase, 500]
subject_geogname_facet:
- [and, 100]
- [onephrase, 150]
subject_persname_facet:
- [and, 100]
- [onephrase, 150]
subject_corpname_facet:
- [and, 100]
- [onephrase, 150]
subject_meetname_facet:
- [and, 100]
- [onephrase, 150]
subject_genre_facet:
- [onephrase, 300]
subject_chrono_facet:
- [onephrase, 100]
subject_all_unstemmed:
- [and, 100]
- [onephrase, 150]
subject_all_norm:
- [and, 70]
- [onephrase, 100]
musical_presentation:
- [and, 100]
- [onephrase, 150]
musical_cast:
- [and, 100]
- [onephrase, 150]
allfields:
- [and, 10]
publisher:
- [and, 50]
summary:
- [and, 10]
issn:
- [onephrase, ~]
isbn:
- [onephrase, ~]
isbn_related:
- [onephrase, ~]
other_id:
- [otherid, 300]
0:
0:
- OR
- 50
title_short:
- [onephrase, 750]
title_full_unstemmed:
- [onephrase, 600]
- [and, 500]
title_full:
- [onephrase, 400]
title:
- [onephrase, 300]
- [and, 250]
title_alt:
- [and, 200]
title_new:
- [and, 100]
series:
- [and, 50]
series2:
- [and, 30]
author:
- [onephrase, 300]
- [and, 250]
author_fuller:
- [onephrase, 150]
- [and, 125]
author2:
- [and, 50]
author_additional:
- [and, 50]
publisher:
- [and, 20]
contents:
- [and, 10]
topic_unstemmed:
- [onephrase, 550]
- [and, 500]
geographic:
- [onephrase, 300]
genre:
- [onephrase, 300]
spelling:
- [and, 10]
allfields:
- [and, 10]
fulltext_unstemmed:
- [and, 10]
fulltext:
- [and, ~]
description:
- [and, ~]
isbn:
- [onephrase, ~]
issn:
- [onephrase, ~]
0:
0:
- OR
- 50
title_sort:
- [onephrase, 500]
title_short:
- [onephrase, 1000]
title_full_unstemmed:
- [onephrase, 1000]
- [and, 500]
title_full:
- [onephrase, 400]
title:
- [onephrase, 300]
- [and, 250]
title_alt:
- [and, 200]
title_new:
- [and, 100]
title_orig:
- [onephrase, 500]
- [and, 400]
series:
- [onephrase, 300]
- [and, 100]
series2:
- [and, 30]
series_orig:
- [onephrase, 200]
- [and, 100]
author:
- [onephrase, 500]
- [and, 250]
author_fuller:
- [onephrase, 150]
- [and, 125]
author_ref:
- [onephrase, 250]
- [and, 250]
- [or, 250]
author_orig:
- [onephrase, 500]
- [and, 250]
author2_orig:
- [and, 50]
author_corporate_orig:
- [onephrase, 500]
- [and, 400]
author_corporate2_orig:
- [and, 50]
author_corporate:
- [onephrase, 500]
- [and, 400]
author2:
- [and, 50]
author_additional:
- [and, 50]
author_corporate2:
- [and, 50]
contents:
- [and, 10]
topic_unstemmed:
- [onephrase, 55]
- [and, 50]
topic:
- [onephrase, 50]
topic_ref:
- [onephrase, 10]
- [and, 5]
- [or, 5]
topic_id:
- [onephrase, 50]
- [and, 25]
allfields:
- [or, ~]
fulltext:
- [or, ~]
rvk_label:
- [onephrase, 500]
- [and, 250]
- [or, 250]
isbn:
- [onephrase, 500]
issn:
- [onephrase, 500]
ismn:
- [onephrase, 500]
imprint:
- [onephrase, 500]
Überblick
Inhalte