Dr.phil. Eberhardt Gering
Formalisierung des Erschließens von Sachverhaltsinformationen 
aus gesellschaftswissenschaftlichen Texten

Vortrag auf dem 14. Oberhofer Kolloquium über Information und Dokumentation 
vom 26. bis 28. November 1985 

   
Gliederung
1. Problemsituation
2. Beiträge zur Problemlösung
3. Abgeleitete Aufgabenstellungen
x Literatur
x Autoreninformation

Zur Themenübersicht Informationswissenschaft



   
1. Problemsituation
Die Informationsbedürfnisse vieler Fachwissenschaftler richten sich häufig als erstes auf  direkte Informationen über konkrete Objekte und Sachverhalte, das heißt auf Sachverhaltsinformationen ihres Forschungsgebietes. Um seitens der Informationseinrichtungen oder des Informationsnutzers diesen Bedürfnissen gerecht zu werden, müssen die relevanten Informationen in der Regel aus mehr oder weniger umfangreichen Quellen erschlossen und in verwendbare Formen umgewandelt werden. 

Beim Erschließen von Sachverhaltsinformationen aus Informationsquellen ( hier Dokumententexten ) geht es zunächst um eine an den Zielstellungen des jeweiligen Informationssystems oder an den Vorhaben des Nutzers orientierte Auswahl von Textpassagen ( vom einzelnen Aussagesatz bis zu ganzen Textabschnitten ). 
Die Beziehung der entnommenen Textpassagen zum Gesamttext wird durch paralleles  Erfassen der auf bibliographische Mindestangaben reduzierten Dokumenteninformationen  gesichert.

Das Durchsuchen eines Textes nach relevanten Passagen und Einzelaussagen ist an ein bestimmtes, im Bewußtsein des Informationserschließenden ( des Textrezipienten ) vorhandenes Suchmuster gebunden. Einfache Suchmuster enthalten die Begriffe von wenigen, deutlich bestimmten Objekten oder Objektklassen bzw. die auf bestimmte Objekte bezogenen Abbilder einfach strukturierter Sachverhalte. Das gilt z.B. für das Durchsuchen von philosophischen Abhandlungen nach
 
 

  • Namen bestimmter Philosophen und den mit diesen Namen verknüpften Aussagen ( Suchmuster = Begriffe von Einzelobjekten );
  • Namen von Philosophen und den mit diesen Namen verbundenen Aussagen ( Suchmuster = Begriff einer Objektklasse );
  • Aussagen über Beziehungen zwischen bestimmten Philosophen ( Suchmuster = Aussage über einen bestimmten Sachverhalt ).

Such- bzw. Auswahlprozesse dieser Art sind zum Beispiel erforderlich, wenn es um Aufbau oder Ergänzung von Personen-, Institutionen- oder Erzeugnisdateien geht. Auch die Suche nach Klassen von bestimmten Zeichenfolgen , z.B. Folgen von Ziffern oder von Großbuchstaben /1, S. 203/ mit dem Ziel des Extrahierens dadurch signalisierter spezieller Fakteninformationen kann zu den auf einfachen  Suchmustern beruhenden Auswahlprozessen gezählt werden.

Ein wesentliches Merkmal der meisten dieser Suchmuster ist es, daß sie direkt in der natürlichen Sprache  der Dokumententexte  ( der Objektsprache ) formulierbar sind. 

Bedeutend komplizierter ist das Erschließen von relevanten Sachverhaltsinformationen, wenn die Suchmuster in einer Metasprache ausgedrückt werden. Das ist beispielsweise der Fall, wenn ganz allgemein gefordert wird, aus den Texten solche Aussagen zu erschließen, die über die von den Autoren gewonnenen neuen Erkenntnisse, angewandten Methoden, aufgezeigten Widersprüche u.ä. informieren. 
 

Das Durchsuchen philosophischer Texte nach neuen Begriffsdefinitionen oder nach  sich widersprechenden Auffassungen unterschiedlicher philosophischer Schulen, wären konkrete Beispiele für die Anwendung metasprachlich formulierter Suchmuster.
Die auf metasprachlichen Suchmustern beruhende Informationserschließung erfordert ein verstehendes Durcharbeiten der Dokumententexte. Das ist mit hohen Anforderungen an die intellektuelle Leistungsfähigkeit des Informationsspezialisten verbunden Es geht dabei nicht nur um einen Erkenntnisvorgang, sondern auch um einen kommunikativen Prozeß, zu dem das Aufdecken der kommunikativen Absichten des Textautors ebenso gehört wie das Berücksichtigen der beim Informationserschließenden bestehenden kommunikativen Situation ( z.B. für wofür oder für wen die Informationen erforderlich sind ).
Das wachsende Bedürfnis nach verschiedensten Fonds mit aktuellen, wissenschaftlich zuverlässigen Sachverhaltsinformationen steht gegenwärtig noch im Widerspruch zu den Möglichkeiten für das Realisieren solcher Leistungen, insbesondere infolge des Mangels an Spezialisten für die Erschließungstätigkeit. 
Ein Lösungsweg wird häufig in der Automatisierung der Erschließungsprozesse gesehen, zumal für bestimmte Anwendungsfälle bereits entsprechende Technologien vorliegen./1/, /2/  Es ist jedoch erforderlich, die gegenwärtigen Grenzen der Automatisierbarkeit  des Erschließens von Sachverhaltsinformationen deutlich zu machen, um Erwartungen, für deren Erfüllung einfach noch keine Lösungen in Sicht sind, zu vermeiden. 
In diese Kategorie des (noch) nicht Automatisierbaren gehören die meisten der mit metasprachlichen Suchmustern durchzuführenden Erschließungsprozesse.
Zur Gliederung


   
2. Beiträge zur Problemlösung
Zur Lösung des oben genannten Widerspruchs ist es erforderlich, neben der Vervollkommnung des Automatisierens einfacherer Erschließungsarbeiten, diejenigen Erschließungstätigkeiten zu intensivieren, die nach wie vor dem Menschen vorbehalten sind. Das ist durch eine generelle Anhebung des Niveaus der Organisiertheit der Informationserschließung erreichbar, indem möglichst viele Teile des Erschließungsprozesses in routinemäßig vollziehbare Tätigkeiten umgewandelt werden. Mittels entsprechender Formalisierung auch der noch nicht automatisierbaren Teilprozesse läßt sich das Durchsuchen von Texten und das Herausziehen relevanter Textteile beschleunigen und letztendlich eine höhere Produktivität beim Erschließen von SVI aus Texten erzielen.
   
Formalisierung geistiger Arbeitsprozesse bedeutet ganz allgemein, den Ablauf dieser Prozesse auf der Grundlage fester Regeln zu gestalten, das heißt auf wiederkehrende, gleichartige Tätigkeiten dieselben Regeln anzuwenden. Solche Regeln können sowohl selbständig als auch in Form eines Algorithmus  
(Menge miteinander verbundener Regeln, die in einer vorgegebenen Schrittfolge abgearbeitet werden) Verwendung finden.
   
Auf das Formalisieren von Erschließungsprozessen wirkt sich erschwerend aus, daß die auszuwertenden wissenschaftlichen Texte hinsichtlich des inhaltlichen Aufbaus und der formalen Gliederung sehr vielgestaltig sind. Es ist offensichtlich nicht möglich, einen Lösungsansatz zu entwickeln, der für alle Dokumentenarten gleichermaßen gültig wäre. Vielmehr müssen für die einzelnen Arten jeweils spezifische Wege zur Formalisierung des Gewinnens von Sachverhaltsinformationen gesucht werden. Ausgangspunkt dafür muß eine Typologie von Texten sein, die sich auf die Erkenntnisse der Textlinguistik ( eine Teildisziplin der Sprachwissenschaft ) stützt. Hauptkriterien für die Differenzierung von Texten im Rahmen einer solchen Typologie sind vor allem textexterne Faktoren wie Kommunikationsbereich, Kommunikationssituation und kommunikative Zielsetzung eines Textes, da insbesondere diese Faktoren die Eigentümlichkeit der inhaltlichen und sprachlichen Textgestaltung bewirken. 
Die Autoren von /3/unterscheiden fünf Kommunikationsbereichemit informativer Spezifik : 
  • Alltag, Amtsverkehr, Wissenschaft, Ideologie und Kunst. 

  • Diesen Bereichen entspricht in der obersten Ebene eine Gliederung der Texte nach funktionalem Inhaltstyp in 
    alltägliche, amtliche, wissenschaftliche, publizistische und künstlerische Texte
  • Innerhalb eines Kommunikationsbereiches erfolgt eine weitere Untergliederung in der Stufenfolge „Textart – Textgenre ( oder Textsorte ) – Texttyp – konkretes Textexemplar“

  •  
  • Beispielsweise werden innerhalb des Kommunikationsbereiches  „Amtsverkehr“ als Textartendiplomatische, gesetzgebende und verwaltungsamtliche Dokumente unterschieden. 

  •  
  • Durch Berücksichtigung der unterschiedlichen Kommunikationsziele lassen sich innerhalb einer Textart spezielle Textgenres ( synonym Redegenre, Textsorte; vergleichbar mit Dokumentenart ) bestimmen.
Ein in /3/genanntes Beispiel ist das Textgenre „Kommuniqué“ innerhalb der Textart „diplomatische Dokumente“. Weitere Untersetzung nach engeren Kommunikationszielen führt zu den durch die gesellschaftliche Praxis bestimmten Varianten eines Textgenres – den Texttypen.  Als solche Varianten des Textgenres „Kommuniqué“ sind die Texttypen „Kommuniqué-Bericht“ und „Kommuniqué-Mitteilung“ aufzufassen.
Diese Beispiele machen sichtbar, daß eine auf das Erschließen von Sachverhaltsinformationen  anwendbare Texttypologie nicht nur wissenschaftliche, sondern auch bestimmte amtliche und publizistische Texte einschließen muß. 
Die Hauptmenge der zu berücksichtigenden Dokumentenarten – nach Quelle /4/mehr als 100 Textgenres fachspezifischer Ausprägung – wird jedoch den Bereichen der Wissenschaft und der Technik zu entnehmen sein.

Eine umfassende und wissenschaftlich fundierte Texttypologie wird gezielte Untersuchungen ermöglichen, ob bestimmte, für eine einzelne Dokumentenart aufgestellte Regeln der Informationserschließung sich auch auf andere Textgenres anwenden lassen und welche Spezifika andererseits nur für jeweils eine Dokumentenart gültig sind.

Um Regeln für das Erschließen von Sachverhaltsinformationen aufstellen zu können, muß bei jedem Textgenre zunächst davon ausgegangen werden, daß der Text eines konkreten Dokumentes „ein ganzheitliches, zusammenhängendes, dem Sinn nach abgeschlossenes, strukturiertes, autonomes und kommunikativ ausgerichtetes Produkt der Sprache“ darstellt. /5/  Das bedeutet auch, daß jede Aussage innerhalb eines Textes mehr oder weniger stark kontextabhängig ist. Methoden des formalisierten Erschließens müssen daher vor allem die semantischen Beziehungen im Gesamttext, zwischen einzelnen Textabschnitten und zwischen einzelnen Sätzen in Betracht ziehen.

Es ist unter diesem Aspekt zweckmäßig, den Erschließungsprozeß in drei Etappen zu untergliedern:
(1) das Eingrenzen der unter den Bedingungen des jeweiligen Informationssystems am meisten interessierenden Textkomponenten;
(2) das Extrahieren der als SVI benötigten Textfragmente oder Sätze aus den eingegrenzten Textkomponenten (unter Beachtung der Kontextbeziehungen);
(3) das Bearbeiten der extrahierten Textteile (Vereinfachen, Kürzen, Hinzufügen metasprachlicher Bestandteile) mit dem Ziel der Gewinnung qualitätsgerechter SVI. /6, S.53/
   
Zweifellos stellt das Eingrenzen relevanter Textkomponenten besondere intellektuelle Anforderungen an den als Textrezipient fungierenden Informationsspezialisten. Hilfestellungen können dabei bestimmte, auf den Text als Ganzes gerichtete Arbeitsverfahren von Rezeptionshandlungen geben. Nach /7/werden diesbezüglich Verfahren zum
  • Erfassen der Textbedeutung,
  • richtigen Verstehen des Textinhalts,
  • Zerlegen des Textinhalts in Teilinhalte,
  • Erfassen des Gedankenganges und
  • Entnehmen der Hauptinformation
  • unterschieden. Welche dieser hauptsächlich für Unterrichtszwecke vorgesehenen Verfahren auf das Erschließen von Sachverhaltsinformationen in wissenschaftlichen Informationsprozessen übertragbar sind, bedarf genauerer Untersuchungen.
    Wesentliche Unterstützung beim Eingrenzen relevanter Textabschnitte können Textmuster geben, die jeweils für eine bestimmte Klasse von Texten (Textgenre oder Textart) Gültigkeit besitzen und die inhaltliche Struktur von Texten dieser Klasse in verallgemeinerter Form darstellen. Sie verdeutlichen die logische Folge und die Wechselbeziehungen der Hauptkomponenten eines Textes der betreffenden Klasse, wie sie mit einer bestimmten Wahrscheinlichkeit im konkreten Text zu erwarten sind. 
    Mit dem Textmuster korrespondierende inhaltliche und formale Textgliederungsmittel ermöglichen es, interessierende Inhaltskomponenten in einem auszuwerten Text relativ schnell aufzufinden und zu markieren.
    Obwohl noch keine geschlossene Theorie der Textmuster existiert, konnte auf empirischem Wege bereits eine Reihe derartiger Muster ermittelt werden. Eines davon gilt für "Beschreibungen experimenteller Ergebnisse" und weist folgende Textkomponenten entsprechender Fachtexte aus:
      • Themenbeschreibung, 
      • Ausgangspunkte für Themenbearbeitung, 
      • Herangehen an die Themenbearbeitung, 
      • Ausgangshypothese, 
      • Schrittfolge der Bearbeitung, 
      • Ergebnisdokumentation, 
      • Ergebnisbeschreibung, 
      • weiterführende Themen.  /8/
    Analoge, aus einer Analyse von 200 Artikeln zur Informatik abgeleitete Ergebnisse werden in /9/ nachgewiesen. Weitere als Beiträge zur Theorie und Praxis von Textmustern anzusehende Aussagen sind in /3/ und /5/ enthalten.

    Das Auffinden der in einem Textmuster aufgeführten Komponenten im konkreten Text wird durch sprachliche Indikatoren ( grammatische, syntaktische, semantische Merkmale ) erleichtert.
    Spezielle Indikatoren, welche auf Beziehungen zwischen Sätzen bzw. Textabschnitten hinweisen, können auch das auf das Eingrenzen bestimmter Textabschnitte folgende Extrahieren relevanter Aussagesätze aus den eingegrenzten Textabschnitten unterstützen.

    In der letzten Etappe des Erschließungsprozesses, dem Bearbeiten, werden die extrahierten Textbestandteile so verändert, daß sie, bei Wahrung des vollen Informationsgehaltes, die für Sachverhaltsinformationen  erforderlichen Qualitätsmerkmale besitzen. Eine wesentliche Aufgabe ist hierbei das Hinzufügen bestimmter Zusatzinformationen unter Verwendung metasprachlich formulierter kurzer Standardaussagen. /6, S. 55-59, 62/

    Zur Gliederung


       
       
    3. Abgeleitete Aufgabenstellungen
    Es kann nicht ohne weiteres davon ausgegangen werden, daß zu den beschriebenen und im Komplex anzuwendenden Methoden bereits die für den Prozeß der Informationserschließung notwendigen Algorithmen verfügbar sind. Die einschlägigen textlinguistischen Untersuchungen, denen diese und andere Methoden zu entnehmen sind, erfolgten bisher kaum unter dem Aspekt wissenschaftlicher Dokumentation und Informationt. Um so mehr ist es jetzt notwendig, durch zielstrebiges interdisziplinäres Zusammenwirken von Informationswissenschaftlern und Textlinguisten praktikable Lösungen für das Formalisieren der Informationserschließung zu entwickeln. Die textlinguistischen Forschungen, die in diesem Beitrag nur punktuell angedeutet werden können, bilden dafür eine wertvolle Vorleistung. 

    Zu den Aufgaben, die in dieser Gemeinschaftsarbeit als nächstes gelöst werden sollten, gehört insbesondere die Ausarbeitung einer Typologie aller für die Informationserschließung in Betracht kommenden Dokumentenarten (unter Verwendung der dazu bereits vorhandenen Übersichten). Darauf aufbauend müssen Untersuchungen mit dem Ziel erfolgen, für Dokumentenarten, die am häufigsten als Quelle von Sachverhaltsinformationen dienen, die charakteristischen Textmuster aufzudecken sowie Indikatoren zu fixieren, die das Auffinden einzelner Komponenten dieser Textmuster in konkreten Texten erleichtern. 

    Diese und weitere Untersuchungen müssen von möglichst breit angelegten praktischen Erprobungen der gewonnenen theoretischen Erkenntnisse  begleitet werden, um bei der angestrebten Formalisierung des Erschließens von Sachverhaltsinformationen praxisreife Resultate zu erreichen.

       
    Zur Gliederung

     
      
    Literaturverzeichnis
    .
    /1/ Extraktion faktographischer Angaben / B. Scheller. – In: Dokumentation / Information. – Ilmenau (1979) 45. – S. 202-204
    /2/ MOSAIC – A Method of Automatic Extraction of Technical Terms in Texts. – In: The Prague Bulletin of Mathematical Linguistics. – Prag (1982)37. – S. 5-27  (englisch)
     MOSAIC – eine Methode des automatischen Extrahierens technischer Termini aus Texten
    /3/ Das Redegenre Kommuniqué und sein kompositorischer Aufbau / N.W. Bessmertnaja; S.M. Mankovskaja. – In: Textlinguistik. – Dresden (1983)10. – S. 23-33
    /4/  Textsorten und Texttypen in der Wissenschaftssprache / G. Weise. – In: Aus dem philosophischen Leben der DDR. – Berlin 19(1983)8/3. – S.182-183
    /5/ Strukturell-semantische und kompositorische Besonderheiten des Textes / G. Artemcuk; V. Buchbinder. – In: Textlinguistik. – Dresden (1983)10. – S. 1-7
    /6/ Probleme der Bereitstellung von Sachverhaltsinformationen zur Leitung gesellschaftswissenschaftlicher Forschungsprozesse und Möglichkeiten des Einsatzes eines Frage-Antwort-Systems / E. Gering. – 1982. – 153 Bl. Berlin, Humboldt-Universität, Dissertation A
    /7/ Rezeptionsaufgaben und Rezeptionsverfahren / B. Bieberle. – In: Wissenschaftliche Zeitschrift der Pädagogischen Hochschule „Clara Zetkin“ Leipzig. – Leipzig (1984)III. – S. 11-12
    /8/ Rezultaty eksperimenta po avtomaticeskomu izvleceniju vyderzek i problemy ispol´zovanija szatyh tekstov v avtomatizirovannyh informacionnyh sistemah / J. Janos. – In: Mezdunar. forum inform. dokum. – Moskva (1978)1. – S. 13-16 (russisch)
    Resultate eines Experiments zur automatischen Gewinnung von Auszügen und Probleme der Nutzung komprimierter Texte in automatisierten Informationssystemen
    /9/ Vyjavlenie aspektov soderzanija dokumentov s pomo^sju formalnyh tekstovyh priznakov / N.I. Gendina. – In: Naucno-tehniceskaja informacija. Ser. 2. – Moskva (1979)4. – S. 7-12 (russisch)
    Das Herausheben der Inhaltsaspekte von Dokumenten mittels formaler Textmerkmale

    Zur Gliederung



       
    Autoreninformation
    Veröffentlichung der Erstfassung in: Dokumentation / Information. – Schriftenreihe des Instituts für Informationswissenschaft, Erfindungswesen und Recht der Technischen Hochschule Ilmenau, Heft 65. – Ilmenau 1985. – S. 26-34
    Aufbereitung für das World Wide Web: September 2005
    Inhaltliche Bearbeitung: Juni 2009

    Zur Themenübersicht Informationswissenschaft