Inhalt
Das Relevance Ranking in BOSS basiert auf zwei Dingen:
a) dem Solr-Index und wie dort indexiert wurde
b) der Art wie BOSS diesen Index anspricht.
Beides ist hochkonfigurierbar.
BOSS-Ranking:
- Das Grundprinzip ist die Häufigkeit, mit der ein Suchterm in einem Record-Feld vorkommt. Je häufiger der Term in einem Feld vorkommt, desto höher wird der Record gerankt.
- Das zweite Prinzip ist die Frage, wie oft der Suchterm im gesamten Index vorkommt. Das Wort "Pädagogik" ist ein relativ häufiger Term bei FIS Bildung und ein relativ seltener Term beim Verbundkatalog. Somit wird ein "Bildung"-Treffer in FIS Bildung nicht so hoch gerankt, wie in den OPAC-Daten.
- Je kürzer der Inhalt eines Feldes ist, desto wichtiger wird ein Treffer dort. D.h. dass ein Treffer im Abstract nicht so hoch gerankt wird wie ein Treffer im Titel. Ein Treffer in einem langen Titel weniger hoch als in einem kurzen Titel
- Jedes Feld besitzt eine eigene Gewichtung. Je nach Gewichtung geht ein Treffer in einem Feld mit einem höheren oder weniger hohen score ins Ranking ein. (s.u.)
- Es greift in einigen Feldern ein Stemming (=Stammformreduktion), in anderen Feldern (z.B. Autor) nicht. Durch nicht-Stemming oder Stemming kann entweder relativ scharf und genau oder breit und ungenau gesucht werden, je nach Konfiguration. Letzteres ähnelt oft einer Trunkierungssuche. Wir haben die Einstellungen in der letzten Zeit deutlich nachgeschärft.
- Auch wenn keine Gänsefüsschen eingegeben werden, suchen wir doch oft automatisch sowohl mit als auch ohne Phrasensuche, wobei dann ein Treffer aus der Phrasensuche einen höheren Ranking-Score erhält.
- Wir haben ein Aktualitätsboosting und ein Boosting der SWB-Daten.
Gewichtung der Felder
Jede Suche in einem Feld der BOSS-Oberfläche führt zu einer Suche in mehreren Solr-Feldern, die unterschiedlich gewichtet werden und somit den Ranking-Score unterschiedlich stark beeinflussen.
Bei der Suche in "Alle Felder" sehen die Gewichtungen so aus:
- title_slim^400
- author_norm^300
- author_unstemmed^50
- subject_worktitle^50
- subject_topic^50
- subject_geogname^100
- subject_genre^50
- subject_persname^100
- subject_corpname^100
- subject_meetname^100
- subject_chrono^100
- subject_all_unstemmed^50
- publish_date^200
- publisher^50
- # allfields_unstemmed^10 → hier nur bei HSFU eingeschaltet
- summary^10
- issn^500
- isbn^500
- isbn_related^400
Folgende Prinzipien greifen bei der Konfiguration der Gewichtung
- Typischerweise längere Felder (summary) haben eine geringere Gewichtung als kürzere Felder (title, author)
- IDs (issn, isbn, ...) haben hohe Gewichtungen
- Schlagworte (subject_*) haben eine höhere Gewichtung als andere Felder (publisher)
Überblick
Inhalte