Über das Bestimmen und Erhöhen der Effektivität von
Online-Recherchessystemen - Einige Thesen
 

Autor:  Dr.phil. Eberhardt Gering,  Informationswissenschaftler, Potsdam und Berlin
Quelle: Nachrichten für Dokumentation  Heft 1 / 1994, S. 31-38  [1]
Bearbeitungen: Dezember 2002 und Januar 2006
 

Zum Verzeichnis informationswissenschaftlicher Beiträge
.

Thesenüberblick
.
Leitthese
These 1   Stattfindender Technologiewandel
These 2   Bedeutsame neue Lösungen für Online-Recherchen
These 3   Nichteignung des Vollständigkeitskoeffizienten
These 4   Wege zur Lösung des Dilemmas
These 5   Notwendigkeit vollständiger Datenbanktransparenz
These 6   Dynamische Rechercheform
These 7   Ermitteln des Transparenzgrades
These 8   Das verdunkelte Informationswarenhaus
These 9   Das hellerleuchtete Informationswarenhaus
These 10 Wissenschaftsmetrische Datenbankanalysen
These 11 Forderungen an Hard- und Software
These 12 Neues Bild des Rechercheurs

Abbildungen
Eigene Publikationen

.

.
Leitthese
 
Für das Suchen von Informationen, wie überhaupt für jegliche Art von Suche, existieren aus der Sicht des Suchenden  (des Rechercheurs) zwei zueinander konträre Grundkonstellationen.

Bei der ersten Konstellation vermag der Rechercheur den zu durchsuchenden Datenbestand  1/  kaum oder gar nicht zu überschauen. Für den Zugang zum Datenbestand öffnen sich ihm nur kleine „Fenster“, die entsprechend eingeengte Suchmöglichkeiten bieten, was vielleicht am besten mit dem Bonmot vom „Zeitunglesen durchs Schlüsselloch" charakterisiert werden kann. Relevanz in bezug auf die Suchfrage kann bestenfalls vermutet werden, der Sucherfolg ist jedoch ungewiß. Ein erzieltes Suchergebnis läßt sich hinsichtlich dessen, was der Datenbestand außerdem noch zur Suchfrage enthält, schwer beurteilen.

In der zweiten, aus Nutzersicht optimalen Konstellation wird dem Rechercheur in jeder Phase des Suchvorganges ein vollständiger und hinreichend differenzierter Überblick über den Datenbestand dargeboten. Die Gewißheit über Erfolg oder Zwecklosigkeit einer Suche in diesem Datenbestand bzw. in Teilbeständen ist von vornherein groß. Die Suchergebnisse lassen eine hohe Treffsicher- heit und Vollständigkeit erwarten.

Die Praxis der Informationsrecherche kennt zahlreiche Abstufungen zwischen diesen beiden grund- legenden Konstellationen. Hinsichtlich der Online-Recherchesysteme ist allerdings festzustellen, daß sie zur Zeit eher zur ersten als zur zweiten Konstellation tendieren. Zwar sind Bemühungen unverkennbar, die Datenbestände besser durchschaubar zu machen, jedoch ist auch in solchen Fällen der erreichte Stand noch weit von der aus Sicht des Rechercheurs wünschenswerten zweiten Grundkonstellation entfernt.

Nachstehende Thesen sollen das Gesagte verdeutlichen und zur Überwindung des gegenwärtigen Zustandes beitragen.

 
1/ Der Datenbestand eines Systems ist die Menge der gespeicherten Dateneinheiten, auf die innerhalb des Systems zugegriffen  werden kann. Unter Dateneinheiten werden in den vorliegenden Thesen Dokumentennachweise und Faktennachweise verstanden.
[vgl.: Terminologie der Information und Dokumentation / Red.: U.Neveling und G.Wersig. - München:
Verlag Dokumentation, 1975]
Zum Thesenüberblick




.

.
These 1 - Stattfindender Technologiewandel
 
Das Verständnis vom Informationsrechercheprozeß unterliegt, bedingt durch die Veränderungen in der Recherchetechnologie, einem deutlichen Wandel.
Die Technologie autonomer, stationärer Informationsrecherchesysteme (IRS) mit relativ kleinen Datenbeständen wird immer mehr durch die Technologie des Online-Zugriffs zu externen Datenbasen großen Umfangs ersetzt, natürlich ohne die autonomen IRS ganz zu verdrängen.
Unter Informationsrecherche wird demzufolge immer häufiger das Recherchieren in externen Datenbanken (Online-Recherche bzw. Online Retrieval) verstanden.  2/
Die aussagestärksten quantitativen Merkmale von IRS -  Umfang der durchsuchbaren Datenbestände (Nachweismenge), Geschwindigkeit des Auffindens relevanter Informationen (Suchgeschwindigkeit) - haben sich im Laufe der Entwicklung von Online-Datenbanken um Größenordnungen verschoben. Typisch sind derzeit Datenbestände mit  Millionen von Nachweisen und mit Suchzeiten, die im Sekundenbereich liegen.

Ungeachtet des vorgenannten Technologiewandels haben sich die methodischen Grundlagen der Informationsrecherche (IR) in der Praxis noch zu wenig auf die veränderte Situation eingestellt.
Ein Beispiel für diese Stagnation ist das, in der vorliegenden Form schon seit Jahrzehnten  bekannte, Instrumentarium der logischen und mathematischen Recherche-Operatoren. Nach wie vor gelten  für viele Recherchesprachen nur die drei logischen Grundoperatoren Konjunktion (UND), Alternative (einschließendes ODER) und Negation (NICHT bzw. UND NICHT). Die Realisierung der beiden anderen ODER-Formen der Aussagenlogik - Kontravalenz und Exklusion - ist, falls überhaupt vorgesehen, nur über mehrgliedrige Kombinationen der drei genannten Grundoperatoren möglich. Keine Hinweise gibt es auf die für das Recherchieren gleichfalls nützlichen logischen Funktionen der Implikation und der Replikation. 12/

 
2/   Der Terminus "Datenbank" wird hier synonym mit „Datenbase“ und  „Datenbestand“ benutzt.
 
12/  Unter Verwendung der Suchbegriffe A und B gelten folgende Relevanzbedingungen:
Alternative  Es muß mindestens A oder mindestens B auftreten. Gemeinsames Auftreten ist erlaubt.
Kontravalenz Es muß entweder A oder B auftreten. Gemeinsames Auftreten ist verboten.
Exklusion Es darf höchstens A oder höchstens B auftreten. Gemeinsames Auftreten ist verboten, gemeinsames Fehlen ist erlaubt. 
Implikation Immer wenn A auftritt, muß auch B auftreten. B darf auch allein auftreten.  Gemeinsames Fehlen ist erlaubt.
Replikation Nur wenn A auftritt, darf auch B auftreten. A darf auch allein auftreten.      Gemeinsames Fehlen ist erlaubt. 
Zum Thesenüberblick



.
.
These 2 - Bedeutsame neue Lösungen für Online-Recherchen
.
 
Im Zusammenhang mit dem Technologiewandel wurden auf dem Gebiet der methodischen Grundlagen der Informationsrecherche (IR) für einzelne Fragen bedeutsame Lösungen entwickelt.
Zu den bemerkenswertesten Schritten in dieser Richtung gehört die Ausdehnung des Prinzips der inversen Listen (siehe Abbildung 1) auf eine große Zahl von Datenkategorien. 3/  In früheren IRS waren inverse Listen (Indexlisten) hauptsächlich ein Instrument für den unmittelbaren, rechnerinternen Suchvorgang. Sie blieben zumeist auf Deskriptorenlisten beschränkt und waren dem Benutzer des IRS nicht direkt zugänglich. Spätestens mit dem Online-Retrieval sind die inversen Listen aus ihrer Hintergrundrolle herausgetreten. Sie werden für eine Vielzahl von Nachweisfeldern angelegt und übernehmen, zusätzlich zu ihrer früheren Aufgabe, jetzt schon im Vorfeld des Suchvorganges eine nutzerorientierende und nutzerberatende Funktion. Damit ist ein neues, den Mensch-Maschine-Dialog förderndes Qualitätsmerkmal der IR auf den Plan getreten.

Auch die bei der Online-Recherche häufig verfügbaren Abstandsoperatoren, welche sehr zur Ge- nauigkeit des Recherche-Ergebnisses beitragen, stellen für das Recherchieren in Textfeldern bzw. in Volltexten eine wertvolle Weiterentwicklung der Recherchemethode dar 4/. 
Zur Anwendung von Abstandsoperatoren siehe das unten stehende Beispiel aus der Praxis.

 
3/ Eine Datenkategorie (synonym zu „Beschreibungsmerkmal“ oder „Beschreibungselement“) ist das Datenelement, welches den durch die Daten repräsentierten Sachverhalt beschreibt und damit die Vergleichbarkeit von Dateneinheiten ermöglicht.   [vgl.: Terminologie der Information und Dokumentation, a.a.O.]

4/ Korrespondierend mit dieser Entwicklung traten die Syntaxanzeiger  ( Funktions- und Verbindungsanzeiger ), die den vorwiegend deskriptororientierten Suchprozessen früherer IRS entsprachen,  in den Hintergrund oder verschwanden völlig aus den IRS.

.
Zum Thesenüberblick
.
.
Recherche mit Abstandsoperatoren
Beispiel aus der STN-Datenbank Chemical Abstracts (CA)
Ausgangs-Suchwortkompositum: "thin film"
Zwischen-
wörter
Fund-
stellen
Fundstellenbeispiel 
(in Fundstelle enthaltener Ausdruck)
0
81.523
thin film
1
10.207
thin aluminium film
2
2.605
thin light-reflecting film
3
1.260
thin amorphous Nb-Si film
4
638
thin stripe structured YBa2Cu307-x film
5
411
thin epitaxial (BiYPr)3(FeGA)5O12 film
6
263
thin zinc selenide-manganese selenide solid solution film
.
 
Mit dem Abstandsoperator  (exakter: Wortabstandsoperator) wird der Maximalwert n für die Zahl von Zwischenwörtern festgelegt, die zwischen den beiden Wörtern eines Suchwort- Kompositums auftreten dürfen. Je größer der Wortabstand, um so mehr Nachweise werden in der Regel gefunden, da die Suchbedingung n</= max. lautet. Das heißt, es werden stets auch diejenigen Nachweise in die Gesamt-Fundmenge einbezogen, bei denen der Wortabstand im Suchwortkompositum kleiner als das festgelegte Maximum ist. In Spalte 2 der obigen Tabelle wird nur der jeweilige Zuwachs an Fundstellen ausgewiesen. Insgesamt wurden mit der oben angeführten Recherche  bei maximal 6 Zwischenwörtern ( n </= 6 ) über 15.000 Nachweise mehr gefunden als bei einer Recherche ohne Abstandsoperator. Vgl. [2], S.511
Zum Thesenüberblick



.
.
These 3 - Nichteignung des Vollständigkeitskoeffizienten
 
Die neue technologische Situation und die verschiedenen Verbesserungen der Recherchemethode haben bisher noch nicht dazu geführt, auch neue Maßstäbe an das Bewerten der Effektivität von Informationsrecherchen anzulegen.
Als Hauptkennziffern der Effektivitätsbewertung gelten unverändert, so wie bei den früheren, bedeutend leistungsschwächeren IRS, der Genauigkeitskoeffizient (engl. precision ratio) und der Vollständigkeitskoeffizient (engl. recall ratio).  5/  Die Praxis zeigt indessen, daß zwar die Genauigkeit einer Recherche durch den Rechercheur ziemlich exakt bestimmbar ist, jedoch über die Vollständigkeit eines Recherche-Ergebnisses in der Regel nur eine vage Aussage getroffen werden kann. Diese Vagheit erhöht sich mit wachsender Größe des Datenbestandes beträchtlich.  Der Grund ist in dem erheblichen, nichtautomatisierbaren Arbeitsaufwand zu suchen, der schon bei kleineren Datenbeständen für das Ermitteln der Vollständigkeitsrate geleistet werden muß. 6/  Die Bestimmung des Vollständigkeitskoeffizienten wird deshalb in der Praxis zumeist nur als eine formale Möglichkeit und nicht als eine tatsächlich ausführbare Tätigkeit angesehen.
Es ist notwendig, hieraus konsequent den Schluß zu ziehen, daß der Vollständigkeitskoeffizient für das Bestimmen der Effektivität von Informationsrecherchen, die in großen IRS durchgeführt werden, ungeeignet ist.
Es wäre allerdings nicht vertretbar, die Messung der Effektivität eines IRS auf das Messen der Recherchegenauigkeit zu beschränken, weil dann der Datenbestand als Gesamtheit gesehen außer Betracht bliebe. Die Effektivitätsbestimmung großer IRS befindet sich damit in einem klassischen Dilemma. 
5/ Genauigkeitskoeffizient G=  a / b
    Vollständigkeitskoeffizient V = a / c
    Dabei gilt:
    a - Zahl der relevanten Nachweise im Recherche-Ergebnis
    b - Summe der im Recherche-Ergebnis enthaltenen relevanten und irrelevanten Nachweise. 
    c - Zahl der insgesamt im Datenbestand enthaltenen relevanten Nachweise.

6/ Eine Methode zur Ermittlung angenäherter Vollständigkeitswerte bei beliebig großen Datenbeständen besteht darin, aus der Gesamtmenge aller Informationsnachweise dieses Bestandes ( Grundgesamtheit ) eine repräsentative Stichprobe zu ziehen, darin auf intellektuellem Wege die bezüglich der Suchfrage tatsächlich relevanten Nachweise zu ermitteln und aus dem Stichprobenwert auf die Menge aller relevanten Nachweise in der Grundgesamtheit  zu schließen.

 

Zum Thesenüberblick



.
.
These 4 - Wege zur Lösung des Dilemmas
 
Das Dilemma, in dem sich die Methode der Effektivitätsbestimmung befindet, hat zwei unmittelbare Auswirkungen. Erstens hemmt es wegen der fehlenden Effektivitäts-Vergleichsgrößen den weiteren Zuwachs der Effektivität von Online-Recherchen. Da Effektivitätskriterien aber nicht nur Maßstab für das Bewerten vollzogener Recherchen, sondern zugleich Zielvorgaben für die Weiterentwicklung der IRS sind, birgt das beschriebene Dilemma zweitens die Gefahr in sich, daß die Gestaltung von Online-Recherchesystemen ihre eigenen Wege geht, ohne die Anwenderbedürfnisse hinreichend zu berücksichtigen.

Vergleicht man die gegenwärtige Situation mit den eingangs genannten Grundkonstellationen, so ist festzustellen, daß mit den bisherigen Verbesserungen der Recherchemethode im Grunde genommen nur Korrekturen an der ersten und immer weniger effektiven Konstellation erfolgten. Der fällige Übergang zur zweiten, den Anwenderbedürfnissen tatsächlich gerecht werdenden  Konstellation wurde damit noch nicht bewirkt.

Als Folge davon gerät die Online-Recherchemethode in zunehmenden Widerspruch zur wachsenden Vielfalt der Online-Informationsangebote. Die Lösung dieses Widerspruchs muß in zwei, sich wechselseitig bedingenden Richtungen gesucht werden:
 1. im Herbeiführen wirklicher Transparenz, das heißt Durchschaubarkeit der Datenbanken; 
 2. in einem neuen Herangehen an die Recherche als einem dynamischen  und nicht wie bisher 
     vorwiegend statisch geprägten Vorgang.

Zum Thesenüberblick



.
These 5 - Notwendigkeit vollständiger Datenbanktransparenz
 
Datenbanktransparenz bedeutet Durchschaubarkeit des Datenbestandes in bezug auf die Arten, Beziehungen und Häufigkeiten seiner hauptsächlichen Strukturelemente.

Wesentliche Strukturelemente eines Datenbestandes sind:
  1. die im Datenbestand vorhandenen Klassen und Unterklassen von Informationsobjekten 
      ( Informationsnachweisen und anderen Datenobjekten ) und die Zahl der Objekte pro Klasse
      bzw. Unterklasse; Tabelle 1
  2. die Namen derjenigen Merkmale (Merkmalsnamen), mit denen die Objekte einer bestimmten 
      Objektklasse beschrieben werden, und   die Zahl der in dieser Objektklasse zu den einzelnen 
      Merkmalen vorliegenden unterschiedlichen Ausprägungen (Merkmalsaussagen); Tabelle 2
  3. die Mengen (Aufzählungen) sämtlicher Merkmalsaussagen, die pro Merkmal einer bestimmten 
      Objektklasse vorliegen, sowie die Häufigkeit des Auftretens der einzelnen Merkmalsaussagen 
     ( Anzahl der Objekte, die zu einem bestimmten Merkmal die gleiche Aussage besitzen ). Tabelle 3

Transparenz eines Datenbestand wird durch Offenlegung der Datenbestandsstrukturen herbeigeführt. Offenlegen heißt, alle Strukturkomponenten auf Anforderung bzw. im menügeführten Dialog ins Blickfeld des Rechercheurs zu rücken. Die Darbietung der Strukturen muß hauptsächlich zwei Bedingungen erfüllen:
 1. Komplexe Zusammenhänge erkennen lassen, indem unterschiedliche Strukturelemente 
     gleichzeitig angezeigt werden. 
 2. Übersichtlich, leicht zu erfassen sowie redundanzarm sein.

Primär müssen diejenigen Strukturelemente offengelegt werden, aus denen die in der Datenbank vertretenen Sachgebiete ( Informationsgebiete ) erkannt werden können.
Zur Wahrung der Übersichtlichkeit muß es möglich sein, in logischer bzw. semantischer Beziehung zueinander stehende Merkmalsausaussagen gruppenweise zusammenzufassen. 7/
Der Rechercheur muß in jeder Phase der Recherche die Möglichkeit haben, die jeweils benötigten Strukturkomponenten oder Teile davon aufzurufen, beliebige Merkmalskombinationen vorzunehmen 8/  sowie die Häufigkeiten des Auftretens der einzelnen Merkmalsaussagen bzw. Merkmalskombinationen in seine Entscheidung über die Weiterführung der Recherche einzubeziehen.

Folgende Funktionen sollten dem Rechercheur außerdem zur Verfügung stehen:
 1. Übernehmen von ausgewählten Merkmalsaussagen und Aussagenkombinationen in ein 
     gesondertes Bildschirmfenster (siehe Abbildung 2);
 2. Ausgeben von Strukturangaben in Diagrammform, um eine hochverdichtete, leicht
     überschaubare Darstellung der Datenbestandsstruktur bzw. ihrer Teile zu gewährleisten
     ( siehe Abbildung 3 ).

Zusammengefaßt:
Datenbanktransparenz ist dann und nur dann gegeben, wenn es dem Rechercheur jederzeit und auf einfache Weise möglich ist, jeden gewünschten Einblick in die Bestandsstruktur der aufgerufenen Datenbank zu erhalten.

7/  Zusammenfassungen von Merkmalsausprägungen sind immer dann erforderlich, wenn die Vielzahl von Ausprägungen eines bestimmten Merkmals bei deren einzelner Aufführung eine übersichtliche Darstellung erschweren oder verhindern würde ( Beispiel: Liste der Controlled Terms ).
8/ Die vom Rechercheur vorgenommenen Merkmalskombinationen sind noch keine Recherche im engeren Sinne. Sie erfolgen im Vorfeld der Recherche und dienen der Orientierung des Rechercheurs über die einzuschlagende Richtung der Suche.
.
.
Zum Thesenüberblick

.
Tabelle 1     Beispiel für Objektklassen und -unterklassen
Klasse / Unterklasse von Informationsobjekten
Objektanzahl
Bibliographischer Nachweis
1.341.630
Bibliographischer Nachweis mit Abstract 
1.240.081
Bibliographischer Nachweis ohne Abstract
 101.549
Patentnachweis
175.496
Patentnachweis mit Graphik 
30.433
Patentnachweis ohne Graphik
145.063
.....
.....
Zurück zu These 5
.
Tabelle 2   Beispiel für die Merkmalsnamen in der Objektklasse "Bibliographischer Nachweis"
Merkmalsname
Anzahl Merkmalsaussagen
 Author 
12.340
Controlled Terms 
     10.865
Country of Publication
85 
Document Type 
21
Language
40
Publication Year 
43
.....
.....
Zurück zu These 5
.
Tabelle 3  Beispiel für Merkmalsaussagen zum Merkmal "Language" 
 in der Objektklasse "Bibliographischer Nachweis"
Merkmalsaussagen
Nummer
Bezeichnung
Häufigkeit
S1
Chinese
28.951
S2
Czech
15.530
S3
Dutch
8.490 
S4
English
3.815.696 
S5
French
79.019 
S6
German
159.538
S7
Hungarian
 8.919
.....
.....
.....
Analoge Listen bzw. Listenausschnitte wie in Tabelle 3 können bei STN - Datenbanken mit Hilfe des Expand-Befehls angezeigt werden. Vgl. dazu Abbildung 1 ( These 2 ).
Zurück zu These 5
.
Zum Thesenüberblick

.
These 6 - Dynamische Rechercheform
 
Datenbanktransparenz ermöglicht eine neue, dynamische Form der Informationsrecherche. Die dynamische Rechercheform unterscheidet sich deutlich von der bisher dominierenden Sichtweise, welche den Rechercheauftrag und das ihm zugrunde liegende Informationsbedürfnis als etwas Konstantes, Statisches auffaßt, dem das Recherche-Ergebnis so exakt wie möglich entsprechen muß. Diese Auffassung beinhaltet die Vorstellung, daß der Informationssuchende seinen Informationsauftrag tatsächlich so präzise zu formulieren vermag, wie der Rechercheur ihn zum Ansteuern eines ebenso präzisen Recherche-Ergebnisses benötigt. Kann man das voraussetzen, so sind  unter statischem Aspekt durchzuführende Recherchen auch weiterhin zweckmäßig. 

Ein dynamisches Vorgehen bei der Recherche schließt gleichfalls den gegebenen Suchauftrag vollständig in den Ablauf der Recherche ein. Dynamisches Vorgehen bedeutet darüber hinaus jedoch, in der von der Gesamtheit des Datenbestandes repräsentierten Informationslandschaft auf schöpferische Art weitere Umschau zu halten und die Suchfrage immer wieder den dabei gewonnenen neuen Einblicken anzupassen.

Das konkrete, die Recherche auslösende Informationsbedürfnis wird bei der dynamischen Recherchemethode als eine Vorgabe aufgefaßt, auf deren Grundlage der Rechercheur zunächst die inhaltliche Struktur des Datenbestandes analysiert. Diese Strukturanalyse läßt erstens  erkennen, ob Teile des Datenbestandes der Recherchevorgabe entsprechen. Zweitens macht sie diejenigen 
Datenbestandsteile sichtbar, die im näheren oder auch im weiteren Umfeld der Thematik des Suchauftrages angesiedelt sind. Dementsprechend werden vom Rechercheur zusätzliche, zur ursprünglichen Vorgabe in engerer oder weitergefaßter Beziehung stehende Suchfragen formuliert und in die Recherche einbezogen.
Durch Wiederholung der Strukturanalyse des Datenbestandes können im Verlauf der Recherche immer neue Modifizierungen der Vorgabe erfolgen.

Mit der dynamischen Form der Suche ist es dem Rechercheur möglich, gestützt auf die Kenntnis der Datenbestandsstruktur die gesamte, zuvor nur bruchstückhaft erkennbare Vielfalt des Angebotes an Informationen auszuschöpfen, den ursprünglichen Informationsauftrag durch neue, von der Struktur des Gesamtbestandes abgeleitete Aspekte zu bereichern und so das Recherche-Ergebnis tatsächlich optimal zu gestalten.

.
Zum Thesenüberblick



.
These 7 - Ermitteln des Transparenzgrades
 
Transparenz des Datenbestands (oder der Datenbestände eines größeren Systems) sowie die darauf beruhende Möglichkeit zur dynamischen Recherche sind Grundvoraussetzungen für eine hohe Recherche-Effektivität. Transparenz ist ein qualitatives Merkmal, sie kann nicht im Sinne einer Quantität gemessen werden.
Das  Ermitteln des Transparenzgrades eines Datenbestandes ist demzufolge an Qualitätskriterien gebunden. Komponenten entsprechender Kriterien sind darin zu sehen,  wie differenziert die verschiedenen Strukturelemente ausgewiesen sind und wie vielfältig die Verbindungen zwischen ihnen hergestellt werden können.  9/
Für das Bestimmen der Effektivität einer nach der dynamischen Methode durchgeführten Recherche muß neben dem Transparenzgrad auch der bereits beschriebene Genauigkeitskoeffizient herangezogen werden. Aus der Streuung der Genauigkeitswerte der verschiedenen Recherche- Ergebnisse einer dynamischen Suche lassen sich zusätzlich Rückschlüsse auf den Transparenzgrad des Datenbestandes ziehen.

Die Bedeutung des Vollständigkeitskoeffizienten geht für Recherchen, die nach der dynamischen Suchmethode durchgeführt werden, stark zurück. Es kann davon ausgegangen werden, daß bei gründlicher Nutzung der Möglichkeiten, die mit Datenbanktransparenz und dynamischer Suche bestehen, in der Regel eine hohe Vollständigkeit des Recherche-Ergebnisses erzielt wird.

9/ Um Qualitätskriterien zur Beschreibung des Transparenzgrades eines Datenbestandes genauer festlegen zu können, sind gegenwärtig noch nicht verfügbare praktische Erfahrungen im Umgang mit transparenten Beständen notwendig.
.
Zum Thesenüberblick



.
These 8 - Das verdunkelte Informationswarenhaus
 
Gegenwärtige Online-Datenbanken verfügen häufig nur in sehr eingeschränktem Maß über die 
für dynamische Recherchen erforderliche Transparenz. Die Angebote zum Offenlegen der Strukturen des jeweiligen Datenbestandes sind zumeist unzulänglich. Das trifft auch dann zu, wenn die Retrievalsprache das Arbeiten mit inversen Listen erlaubt. In der Regel lassen sich nur kurze Ausschnitte aus diesen Listen anzeigen, ein gleichzeitiges Aufrufen mehrerer Listen ist nicht möglich. Diese Eindimensionalität und die zumeist formale, alphabetische Ordnung der Listeneinträge schließen ein Betrachten komplexerer Datenbestandsstrukturen, wie es für die dynamische Suche notwendig ist, von vornherein aus.

Andererseits sind alle Daten, die ein Offenlegen der Strukturen des Datenbestandes ermöglichen würden, schon implizit in den gespeicherten Informationsmengen der Datenbasen enthalten. Durch zweckmäßiges Aufbereiten und Bereithalten dieser Daten wäre es bereits jetzt möglich, die Struk- turen der Datenbestände in einer Form sichtbar zu machen, die annähernd ( wenn auch noch nicht vollständig ) den Anforderungen dynamischer Recherchen gerecht würde.

Gegenwärtige Formen der Datenbankrecherche lassen sich vergleichen mit dem Vorwärtstasten in den Gängen eines völlig verdunkelten Warenhauses, von dessen Warenbeständen jeweils nur ein kleiner Teil durch Betätigen eines Lichtschalters sichtbar gemacht werden kann, während der übrige und weitaus größte Teil der Bestände weiter im Dunkel verbleibt. Für Recherchen dieser Art trifft das in der Leitthese schon genannte Bonmot vom "Zeitunglesen durchs Schlüsselloch" zu.

Die Situation läßt sich auch mit Hilfe einer Metapher vom Glücksspiel verdeutlichen: "Online-Recherchen ähneln zum Teil dem Lottospiel. Beides sind Geschäfte mit der Ungewißheit, mit Träumen und Hoffnungen. Bei der Vermarktung von beiden werden Anekdoten vom großen Los und vom kleinen Einsatz erzählt. In der Tat verkaufen Hosts nicht Informationen, sondern nur die Chance, sich zu informieren." 11/

11/  vgl.: P.V. Drotos in Heft 2 / 1993 der Zeitschrift cogito, S. 5-8
.
Zum Thesenüberblick

.
These 9 - Das hellerleuchtete Informationswarenhaus
 
Neben dem gezielten Suchen gibt es beim Recherchieren in einer transparenten Datenbank noch weitere Möglichkeiten, sich mit dem Bestand an Daten bzw. Informationen vertraut zu machen. Man kann diese Vorgehensweisen mit den verschiedenen Formen des "Stöberns" (engl.: browsing) in einem Hypertext vergleichen. Hierzu gehören:
- das gerichtete Browsing mit Mitnahmeeffekt - dieser Effekt tritt ein, wenn man beim Suchen
  nach bestimmten Informationen auf thematisch verwandte Informationen trifft, nach denen zwar
  nicht gezielt gesucht wurde, die aber interessant und einschlägig sind;
- das gerichtete Browsing mit „Serendipity“-Effekt - auf der Suche nach einer bestimmten
  Information interessiert eine andere entdeckte Information derart, daß über deren aktueller
  Dominanz das ursprüngliche Ziel irrelevant oder vergessen wird (das englische Wort "serendipity"
  bedeutet soviel wie "Spürsinn" oder "mehr Glück als Verstand");
- das ungerichtete Browsing- das ist der Fall, wenn der Suchende sich zwar bewußt ist, daß er zum
  Lösen eines bestimmten Problems   Informationen benötigt, jedoch noch nicht genau weiß, welche
  Informationen er suchen muß;
- das assoziative Browsing- es wird nicht mehr gezielt nach Informationen gesucht, der Rechercheur 
  läßt sich vielmehr vom Reizangebot an Informationen treiben ( in der Regel solange, bis
  ein Zustand des Desinteresses eintritt ). 10/

Durch das Offenlegen der Struktur des Datenbestandes erhält die betreffende Datenbasis für den Rechercheur quasi den Charakter eines hellerleuchteten, ausgesprochen kundenfreundlichen Warenhauses, dessen reichhaltiges Sortiment anspruchsgerecht geordnet ist und zu dessen Stellflächen der Suchende durch ein perfektes Netz von Hinweisinformationen auf den jeweils kürzesten Wegen geführt wird. 
Bei einem System dieser Art ist es nur natürlich, daß der Suchende auf seinem Weg zu der gesuchten Ware ( sprich Information ), oder auch bei derem Nichtvorhandensein,  auf verschiedene andere Waren ( Informationen ) stößt, die entweder der gesuchten Ware ( Information ) äquivalent sind oder neue, ursprünglich nicht ins Bewußtsein gerückte Interessen ansprechen. Die oben genannten Formen des Browsing werden zu einem wirkungsvollen Instrument der Datenbankrecherche. 
Nahezu problemlos ist es bei einem so geführten „Warenhaus“ bzw. Datenbestand, sich sehr schnell eine Übersicht über das komplette Sortiment einer Warengruppe bzw. Warenhausabteilung zu verschaffen oder rasch und gezielt zu einer anderen interessierenden Abteilung zu wechseln.
 

10/ Vgl. Hypertext: Ein nicht-lineares Medium zwischen Buch und Wissensbank / Rainer Kuhlen. - Berlin u.a.O.: Springer-Verlag, 1991. - S.126-132
Zum Thesenüberblick



.
These 10 - Wissenschaftsmetrische Datenbestandsanalysen
 
Transparente Datenbanken ermöglichen es auch, wissenschaftsmetrische Datenbestandsanalysen in neuen Größenordnungen durchzuführen. Mittels mathematisch-statistischer Verfahren können hierbei aus Häufigkeiten von Merkmalsaussagen neue Erkenntnisse über Knotenpunkte im wissenschaftlichen Publikationsprozeß, über die Entwicklung des Publikationsgeschehens unter chronologischen, territorialen, institutionellen und sachgebietsorientierten Aspekten und über weitere Erscheinungen gewonnen werden ( siehe [2] ).
Unsicherheiten bezüglich der wirklichen Größen der Grundgesamtheiten an wissenschaftlichen Veröffentlichungen zu bestimmten Sachgebieten ( die Größe der Grundgesamtheit ist einer der Basiswerte für die statistische Analyse ) lassen sich durch Vergleichen der wissenschaftsmetrischen Angaben, die aus unterschiedlichen, aber thematisch weitgehend übereinstimmenden  Datenbeständen erzielt werden können, bedeutend verringern.
Zum Thesenüberblick



.
These 11 - Forderungen an Hard- und Software
 
Das Arbeiten mit transparenten Datenbanken stellt im Vergleich zur gegenwärtigen Technologie höhere Ansprüche an die beim Datenbanknutzer eingesetzte Hard- und Software. Die derzeit noch häufig verwendeten 12- und 14-Zoll-Bildschirme mit ihrer typischen Einfenstertechnologie ermöglichen es nicht, mehrere inverse Listen bzw. Listenausschnitte gleichzeitig anzuzeigen, Kombinationen von Listeneinträgen vorzunehmen usw.
Entsprechende Paralleldarstellungen sind nur auf der Basis einer Mehrfenstertechnologie möglich, wofür sowohl größere Bildschirme (19-Zoll-Bildschirmdiagonale oder mehr) als auch höherentwickelte Kommunikations- und Retrievalsoftware benötigt werden. Dazu kommt noch, daß unter Online-Bedingungen die Mehrfachfenstertechnologie nur mit Übertragungsgeschwindigkeiten, die deutlich über den gegenwärtig zumeist verfügbaren 9600 Bit/s liegen, zufriedenstellend zu verwirklichen sein wird.

Um Datenbankstrukturen zusätzlich mittels Diagrammtechnik, das heißt graphisch darstellen zu können, müssen beim Datenbankanbieter entsprechende, vom Rechercheur jederzeit aktivierbare Software-Routinen implementiert sein. Auch die farbige Darstellung der Diagramme sollte wegen des besonderen Informationswertes der Farbe möglich werden (vgl. These 5 und Abbildung 2).

 

Zum Thesenüberblick



.
These 12 - Neues Bild des Rechercheurs
 
Mit einer neuen, auf Datenbanktransparenz beruhenden Form des Recherchierens wird sich auch das Bild des Rechercheurs verändern. Recherchen werden dann mehr und mehr vom Informationsnutzer selbst durchgeführt werden können.
Die Funktion des Informationsvermittlers dürfte sich stärker auf komplexe Dienstleistungen, bei denen Datenbankrecherchen ein wichtiger Bestandteil sind, verlagern.

Die reale Möglichkeit selbständigen Arbeitens der Nutzer mit den Datenbanken bzw. -beständen  wird sich allerdings nur verwirklichen lassen, wenn neben dem Einführen der beschriebenen Technologien alle potentiellen Datenbank-Rechercheure durch qualifizierte Schulungsmaßnahmen frühzeitig und systematisch an den Prozeß der Online-Recherche herangeführt werden.


Zum Thesenüberblick
 
Zum Verzeichnis der Informationswissenschaftlichen Arbeiten

 
 
.
 
Abbildungen


Abbildung 1      Beispiel einer inversen Liste zum Merkmal SPRACHE
.
****  START OF FIELD  ****
E1 
E2 
E3 
E4 
E5
E6 
E7 
E8 
E9 
E10 
E11 
E12 
E13 
E14 
E15 
E16 
E17 
E18 
E19 
E20
E21 
E22 
E23 
E24 
E25 
E26 
E27 
E28 
E29 
E30 
E31 
E32 
E33 
E34 
E35 
E36 
E37 
E38 
E39 
E40 
   136
    12
     1 
  2615
     7 
 28951 
  4168 
 15530 
  1382 
   8490 
3815696
      8 
      2 
    746 
    130 
  79019
 159538
    138 
     62 
      1 
   8919 
      2 
  18818
  85613
   6084 
        1 
      9 
   4695 
   2495 
  19576
    740
   6534 
 170445
     47
   3243 
   1654 
  12359
   3059 
    146 
   1429 
  AFRIKAANS/LA
  ARABIC/LA
  ARMENIAN/LA
   BULGARIAN/LA
  BYELORUSSIAN/LA
  CHINESE/LA
  CROATIAN/LA
  CZECH/LA
  DANISH/LA
  DUTCH/LA
  ENGLISH/LA
  ESPERANTO/LA
  ESTONIAN/LA
  FINNISH/LA
  FLEMISH/LA
  FRENCH/LA
  GERMAN/LA
  GREEK/LA
  HEBREW/LA
  HINDI/LA
  HUNGARIAN/LA
  INDONESIAN/LA
  ITALIAN/LA
  JAPANESE/LA
  KOREAN/LA
  LATIN/LA
  LATVIAN/LA
  MULTILINGUAL/LA
  NORWEGIAN/LA
  POLISH/LA
  PORTUGUESE/LA
  ROMANIAN/LA
  RUSSIAN/LA
  SERBIAN/LA
  SLOVAK/LA
  SLOVENIAN/LA
  SPANISH/LA
  SWEDISH/LA
  TURKISH/LA
  UKRAINIAN/LA
****  END OF FIELD  ****
Quelle: Datenbank INSPEC, Host STN, Stand vom Juli 1993
Die Liste wurde mit dem Befehl EXPAND der Retrievalsprache MESSENGER erzeugt.


zurück zu These 2

Zum Thesenüberblick


 



 

.
Abbildung 2    Bildschirm mit Mehrfensterdarstellung (Beispiel-Schema)
.
OBJEKTKLASSEN K
K1     ..............
UK11   ...........
UK12   ...........
K2     .............
......................
 mit UNTERKLASSEN UK
  ARBEITSFENSTER
  zum Kombinieren ausgewählter Merkmalsaussagen,
  Auslösen der Suche, 
  Anzeigen der Fundstellenzahl 
  u.a.
   a
MERKMALSNAMEN  M
zu Objektklasse K.. / UK ..

M2 ...................
M2 ...................

.
   M3 .................... 
   M4 ....................
  .....  ....................
 a  
MERKMALSAUSSAGEN 
Merkmal M1
..........
..........
..........
MERKMALSAUSSAGEN 
Merkmal M2
..........
..........
..........
MERKMALSAUSSAGEN
Merkmal M3
..........
..........
..........
 
MERKMALSAUSSAGEN
Merkmal M4
..........
..........
..........
DIAGRAMM der 
Aussagenhäufigkeiten
zum
Merkmal M1

 

DIAGRAMM der 
Aussagenhäufigkeiten
zum
Merkmal M2
DIAGRAMM der 
Aussagenhäufigkeiten
zum
Merkmal M3

 

DIAGRAMM der 
Aussagenhäufigkeiten
zum
Merkmal M4
Zurück zu These 5

 Zurück zu These 11

Zum Thesenüberblick

 


Abbildung 3 Grafik der Häufigkeitsverteilung von Merkmalsaussagen zum Merkmal "Sprache" [3]


Objektklasse: Bibliographische Nachweise
Merkmal: Sprache (Language)

 

 
 
Sprache
Häufigkeit
Auszug aus Indexliste "Sprachen"
Chinese
28.951
Quelle: STN-Datenbank INSPEC
French
79.019
Stand Juli 1993
German
159.538
Italian
18.818
Japanese
85.613
Russian
170.445
.............
......
English
3.815.696
 
Die Häufigkeit der englischen Sprache konnte wegen der überdurch- schnittlichen Größe nicht ins Diagramm aufgenommen werden.
 

Zurück zu These 5
 

Zum Thesenüberblick
.
.

 
 
 
 
 

.
 
Eigene Publikationen
 
[1]
Gering, Eberhardt:
Über das Bestimmen und Erhöhen der Effektivität von Online-Recherchesystemen: Einige Thesen
In: nfd Nachrichten für Dokumentation, Zeitschrift für Informationswissenschaft und -praxis. -  Heft 1 / 1994, S. 31-37
[2]
Gering, Eberhardt:
Online-Datenbankanalysen zum Beobachten von Forschungsaktivitäten: Praktische Ergebnisse und Erfahrungen(Vortrag auf dem Deutschen Dokumentartag 1995 in Potsdam)
In: Deutscher Dokumentartag 1995, Proceedings. - Deutsche Gesellschaft für Dokumentation. - Frankfurt am Main 1995. - S.507-517
[3]
Gering, Eberhardt:
Über das Bestimmen und Erhöhen der Effektivität von Online-Recherchesystemen: Einige Thesen (Vortrag auf dem Deutschen Dokumentartag 1993 in Jena)
In: Deutscher Dokumentartag 1993, Proceedings. -  Deutsche Gesellschaft für Dokumentation. - Frankfurt am Main 1993. - S.177-187
Zurück zu These 10

Zum Thesenüberblick

Zum Verzeichnis der Informationswissenschaftlichen Arbeiten


 


Bearbeitungen:   Dezember 2002; Januar 2006

Letzte Design-Kontrolle: 17. September 2009