Table Of ContenteXamen.press
eXamen.pressisteineReihe,dieTheorieund
PraxisausallenBereichenderInformatikfür
dieHochschulausbildung vermittelt.
Hermann Helbig
Wissensverarbeitung
und die Semantik
der Natürlichen Sprache
Wissensrepräsentation mit MultiNet
2. überarbeitete Auflage
123
Prof.Dr.HermannHelbig
FernUniversitätHagen
PraktischeInformatikVII
IntelligenteInformations-und
Kommunikations-Systeme
58084Hagen
DiesesBucherschieninder1.AuflageunterdemTitel„DiesemantischeStrukturnatürlicherSprache.
WissensrepräsentationmitMultiNet“imSpringer-VerlagBerlinHeidelberginderReihe
Springer-Lehrbuch.
ISBN 978-3-540-76276-8 e-ISBN 978-3-540-76278-2
DOI10.1007/978-3-540-76278-2
ISSN1614-5216
BibliografischeInformationderDeutschenNationalbibliothek
DieDeutscheBibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie;
detailliertebibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar.
©2008Springer-VerlagBerlinHeidelberg
DiesesWerkisturheberrechtlichgeschützt.DiedadurchbegründetenRechte,insbesonderediederÜber-
setzung,desNachdrucks,desVortrags,derEntnahmevonAbbildungenundTabellen,derFunksendung,
derMikroverfilmungoderderVervielfältigungaufanderenWegenundderSpeicherunginDatenver-
arbeitungsanlagen,bleiben,auchbeinurauszugsweiserVerwertung,vorbehalten.EineVervielfältigung
diesesWerkesodervonTeilendiesesWerkesistauchimEinzelfallnurindenGrenzendergesetzlichen
BestimmungendesUrheberrechtsgesetzesderBundesrepublikDeutschlandvom9.September1965in
derjeweilsgeltendenFassungzulässig.Sieistgrundsätzlichvergütungspflichtig.Zuwiderhandlungen
unterliegendenStrafbestimmungendesUrheberrechtsgesetzes.
DieWiedergabevonGebrauchsnamen,Handelsnamen,Warenbezeichnungenusw.indiesemWerkbe-
rechtigtauchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinneder
Warenzeichen-undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenunddahervonjedermann
benutztwerdendürften.
Einbandgestaltung:KünkelLopkaWerbeagentur,Heidelberg
GedrucktaufsäurefreiemPapier
987654321
springer.com
Vorwort zur ersten Auflage
DienatürlicheSprachedesMenschenistnichtnurseinwichtigstesKommuni-
kationsmittel, sondernsiedientauchzurFixierungundWeitergabekultureller
Errungenschaften über Generationen hinweg. In den letzten Jahrzehnten ist
die Flut an digital verfügbaren natürlichsprachlichen Informationen geradezu
sprunghaft angestiegen. Diese Tendenz wird sich mit der Globalisierung der
Informationsgesellschaft und der wachsenden Bedeutung der nationalen und
internationalen Computernetzeweiterfortsetzen. AusdiesemGrundebesitzen
dietheoretischeDurchdringungunddieautomatischeBeherrschungnatürlich-
sprachlicherKommunikationsprozesse eineentscheidende Bedeutung.Derse-
mantischen Repräsentation natürlichsprachlich gegebenen Wissens kommt in
diesem Prozeß eine zentrale Rolle zu, da sie alle Komponenten der Verarbei-
tung der natürlichen Sprache miteinander verbindet. Das betrifft das Sprach-
verstehen (dieAnalyse)ebensowiedasvernünftige Schließenübersprachlich
gegebenen Wissensbeständen oderdieErzeugung sprachlicher Ausdrücke.
Das vorliegende Buch stellt einen Formalismus zur semantischen Reprä-
sentation natürlichsprachlicher Informationen vor, der sowohl in den geistes-
wissenschaftlichen Disziplinen,z.B.inderLinguistik,derKognitivenPsycho-
logie oder der Sprachphilosophie, als auch in der automatischen Sprachver-
arbeitung (ASV), d.h. in der Computerlinguistik oder der Künstlichen Intelli-
genz,alsParadigmaderWissensrepräsentation eingesetztwerdenkann.Damit
soll gleichzeitig ein Beitrag geleistet werden, diese vielfach noch getrennt ar-
beitenden Disziplinen einander anzunähern. Es ist geradezu symptomatisch,
daß viele der hier genannten Probleme in den einzelnen Wissenschaftszwei-
gen – insbesondere in der Linguistik, in der Psychologie oder in der Künstli-
chen Intelligenz – unter den mannigfaltigsten Gesichtspunkten bereits unter-
sucht worden sind, ohne daß diese Ergebnisse gegenseitig voll zur Kenntnis
genommen wurden. Das liegt zum Teil auch daran, daß eine äußerst umfang-
reiche Literatur entstanden ist, wobei die einzelnen Resultate auf dem Boden
verschiedenster „Schulen“ oder eingebettet in schwer ineinander übersetzba-
re terminologische Systeme beschrieben sind. Eine Ergebnisübernahme oder
auch nur die Vergleichbarkeit der Ergebnisse ist dadurch äußerst erschwert.
VI Vorwort
Fragen der rechentechnischen Nutzbarkeit werden in den meisten geisteswis-
senschaftlichen Disziplinen überhaupt nicht oder bestenfalls nur am Rande
in Betracht gezogen. Letzteres kann bei dem Anliegen dieser Arbeiten auch
nicht erwartet werden. Trotzdem bildet das in ihnen enthaltene umfangreiche
theoretische Hintergrundwissen eineunerläßliche Basisauchfürdieautomati-
scheSprachverarbeitung. DieindieserArbeitbeschriebenen Darstellungsmit-
telfürdieWissensrepräsentation inderGestaltvonmehrschichtigen erweiter-
tensemantischen Netzen(kurz: MultiNet)bieten einen allgemein verwendba-
ren Formalismus zur Behandlung der semantischen Probleme der natürlichen
Sprache, der gegenüber der klassischen Prädikatenlogik wesentliche Vorteile
besitzt. Die genannten Darstellungsmittel werden an der FernUniversität Ha-
gen als gemeinsame Grundlage für alle Aspekte der automatischen Sprach-
verarbeitung (sowohl praktischer als auch theoretischer Art) eingesetzt und
ständig imRahmenderEntwicklung Natürlichsprachlicher Auskunftssysteme
bzw.Natürlichsprachlicher Interfaces praktisch erprobtundweiterentwickelt.
Das Buch beschreibt in erster Linie ein System oder eine Sprache zur se-
mantischen Wissensrepräsentation und stellt nicht so sehr den logischen For-
malismus in den Vordergrund, der mitdieser Sprache arbeitet. Trotzdem wird
immerwiederaufdieinferentielle Ausdruckskraft derDarstellungsmittel hin-
gewiesen,dieihnenimRahmeneineroperationalen SemantikineinemFrage-
Antwort-Spiel(FAS)zukommt.DennerstimGesamtzusammenhangeinessol-
chen FASerhalten sieihrevolle Bedeutung. Durchunterschiedliche Wahlder
Axiome und Inferenzregeln, die mit konkreten Relationen bzw. Funktionen
verbunden werden, lassen sich aber durchaus verschiedene logische Ausprä-
gungen einer Wissensbasis erzielen, die mit den gleichen Darstellungsmitteln
aufgebaut ist.
DasBuchbestehtauszweiTeilen:
• In Teil I werden grundlegende Probleme der semantischen Repräsentati-
onvonWissenbzw.dersemantischen Interpretation natürlichsprachlicher
Phänomene behandelt. Als formale Sprache werden hierfür die in Teil II
beschriebenen Ausdrucksmittel eingesetzt.
• TeilIIenthälteinesystematische Zusammenstellung desgesamtenReper-
toiresvonDarstellungsmitteln, diejeweilsnacheinemeinheitlichen Sche-
mabeschrieben werden.
Es ist am günstigsten, sich zunächst anhand des Teils IIeinen Überblick über
die Darstellungsmittel zu verschaffen und dann mit der Lektüre von Teil I zu
beginnen. Dabei kann man Teil II als Nachschlagewerk für die Definition der
Darstellungsmittel verwenden.IndiesemSinneergänzensichdiebeidenTeile
Vorwort VII
gegenseitig. Zur Erleichterung der Lesbarkeit wurde ein für beide Teile ge-
meinsamerAnhangmitfolgender Gliederungangefügt:
AnhangA: VerzeichnisderimBuchverwendetenAbkürzungen;
AnhangB: Relationen undFunktionen inlexikographischer Reihenfolge mit
Angabe von Definitions- bzw. Wertebereichen und einer mnemonischen
Kurzbezeichnung;
AnhangC: Zusammenstellung der semantischen Muster („Templates“), die
als Aussagetypen formuliert sind und ergänzend zu den Fragemustern in
Teil II, Abschn. 18 die Bedeutung der Relationen sowie die gewählte Ar-
gumentreihenfolge verdeutlichen;
AnhangD: Angabe der Default-Werte für die Zuordnung einer Relation R
zum immanenten bzw. situativen Wissen eines Knotens N (abhängig da-
von,obNerstesoderzweitesArgumentvonRist);
AnhangE: Auswahl typischer Axiome, die einen Hinweis auf die inferenti-
elleAusdruckskraft derDarstellungsmittel geben.
Für die praktische Nutzung der hier vorgestellten Wissensrepräsentations-
methoden sei der Hinweisgegeben, daß diese durch Software-Werkzeuge un-
terstützt werden (so durch eine Werkbank für den Knowledge Engineer, s.
Abschn. 14.2, und durch eine Werkbank für den Computerlexikographen, s.
Abschn.14.4).AußerdemstehteinSystemzursyntaktisch-semantischen Ana-
lyse zur Verfügung, das automatisch natürlichsprachliche Ausdrücke in ihre
Bedeutungsdarstellung, d.h. in mehrschichtige erweiterte semantische Netze,
übersetzt(s.Abschn.14.3).MultiNetwurdeundwirdbisherinfolgendenPro-
jekteneingesetzt undeinerständigen Evaluierung unterzogen:
• imNRW-Verbundprojekt „VirtuelleWissensfabrik“(alsformalsprachliche
Schnittstelle zwischenUser-ClientundBilddatenbank)
• imDFG-Projekt„NLIfürZ39.50“(Natürlichsprachliches InterfacefürIn-
ternet-Protokolle)
• im hochschulinternen Projekt „Interaktives KI-Labor“ (für den Einsatz in
derLehrealszentraler Wissensrepräsentationsformalismus)
NatürlichistesunserWunsch, daßdiehiervorgestellten Wissensrepräsen-
tationsmethoden eine möglichst große Verbreitung finden und auch als Ba-
sisfürdenAustausch wissenschaftlicher Ergebnisse eingesetzt werden1.Aber
selbst wenn sich ein anderer von der wissenschaftlichen Gemeinschaft ak-
zeptierterFormalismuszursemantischenRepräsentationnatürlichsprachlicher
1ManstellesichalleindenNutzenvor,dendieASVausdenexistierendenWörterbüchernzur
Valenzund Distributionvon Verben,Nomen und Adjektivenziehen könnte (s.z.B.[128],
[276],[277]),wenndieseaufderBasiseinesrechentechnischbrauchbaren,semantischori-
entiertenFormalismus,wieihnMultiNetdarstellt,beschriebenwordenwären.
VIII Vorwort
Informationen durchsetzen sollte, würde eine solche gemeinsame Semantik-
orientierte ”Interlingua” sowohl die Geisteswissenschaften, die sich mit der
menschlichenSprachebefassen,alsauchdieKIundinsbesonderedieautoma-
tischeSprachverarbeitung einengroßenSchrittvoranbringen. Dennnuraufei-
nersolchenBasiswürdendieErgebnisseeffektivvoneinerDisziplinindiean-
dereübertragbar unddurchihrenEinsatzintechnisch realisierbaren Systemen
validierbar. Zur Überwindung der augenblicklich vorherrschenden Diversität
derEinzeldarstellungen unddermangelnden Formalisierung invielensprach-
wissenschaftlichen Untersuchungen solldasBuchbeitragen.
MeinDankgiltallenKollegen,dieinmehrjähriger Zusammenarbeitdurch
konstruktive Hinweiseunddurch Anwendungbzw.Überprüfung derhiervor-
gestellten Konzepte in Forschungsprojekten der KI und der ASV wesentlich
zumderzeitigenArbeitsstandbeigetragenhaben.Insbesonderewarendieoben
erwähntenSoftware-WerkzeugeundautomatischenÜbersetzungssystemeeine
wesentliche Voraussetzung zur Überschreitung einer gewissen quantitativen
Barriere. Bedanken möchte ich mich indiesem Zusammenhang vor allem bei
meinen derzeitigen bzw. ehemaligen Mitarbeitern S. Hartrumpf, C. Herold,
C. Gnörlich, A. Mertens, R. Osswald und M. Schulz, deren unermüdliche
Diskussionsbereitschaft der Entwicklung von MultiNet wesentliche Impulse
gegeben hat. Sven Hartrumpf und Rainer Osswald haben sich vor allem um
die Verbindung zwischen automatischer Sprachverarbeitung und Computer-
lexikon auf der einen Seite und Wissensrepräsentation auf der anderen Seite
verdientgemacht,undCarstenGnörlichhatdieSoftware-Werkzeugezurrech-
nergestützten Arbeit mit MultiNet-Wissensbasen entwickelt. Durch Untersu-
chung semantischer Spezialprobleme, durch Beiträge zur Axiomatik der Dar-
stellungsmittelunddurchdenEinsatzvonMultiNetinanwendungsorientierten
Diskursbereichen haben B. Aldag und mehrere Studenten bzw. Diplomanden
wertvolle Anregungen gegeben, während Ch. Doppelbauer, M. Wörmann so-
wie S. Marthen die Arbeiten am MultiNet-Paradigma technisch begleitet ha-
ben. Von den an der praktischen Erprobung der Darstellungsmittel beteiligten
StudentenmöchteichbesondersD.Staudt,S.HakemiundR.Standerahervor-
heben,dieaufderBasisvonMultiNetbzw.dendaraufaufbauendenSoftware-
Werkzeugen TausendevonLexemenerfaßtundformalbeschrieben haben.
DemSpringer-Verlag,insbesondereHerrnDr.HansWössner,dankeichfür
dieguteZusammenarbeit beiderEntstehung desBuches.
Hagen,Dezember2000 HermannHelbig
Vorwort zur zweiten Auflage
Das Wissensrepräsentationsparadigma der Mehrschichtigen Erweiterten Se-
mantischen Netze (kurz: MultiNet) hat sich bereits seit mehr als einem Jahr-
zehntinForschungundLehrebewährtundwirdseitdemErscheinenderengli-
schenVersiondiesesBuches[134]auchimfremdsprachigenRaumeingesetzt.
ImbesonderenMaßehatdieWeiterentwicklungdestechnologischen Supports
für MultiNet und die intensive Erprobung dieses Wissensrepräsentationspara-
digmas in vielen Anwendungen, vor allem durch die Mitarbeiter und Studen-
ten des Lehrgebietes „Intelligente Informations- und Kommunikationssyste-
me“ (IICS) der FernUniversität in Hagen, zur Reifung des gesamten, sich um
dasMultiNet-ParadigmarankendenKomplexesvonSystemenundRessourcen
beigetragen. In diesem Zusammenhang ist vor allem der quantitative Aspekt
zu erwähnen, da MultiNet inzwischen zur semantischen Wissensverarbeitung
über sehrgroßen Textbeständen sowiezum Aufbauvongroßen Wissensbasen
undlexikalischenRessourcenverwendetwird.ZurBewältigungdieserAufga-
bensindvorallemfolgende Beiträgehervorzuheben:
SoftwareTools/technologischer Support
•WeiterentwicklungdesNatLink-ParserszurÜbersetzungnatürlichsprach-
licherSätzeundTexteinMultiNet-AusdrückedurchIntegrationvontiefen
semantischen und flachen statistischen Methoden durch Sven Hartrumpf
(Weiterentwicklung von NatLink zum WOCADI-Parser [114]). Anwen-
dung und Validierung dieses Parsers über sehr großen Textkorpora mit
MillionenvonSätzen(s.u.);
• Ausbau der Werkbank MWR für den Knowledge Engineer um weite-
reFunktionalitäten vorallem zurWissensakquisition, zumAufbau großer
Wissensbasen, zur logischen Frage-Beantwortung und zur Textgenerie-
rungdurchIngoGlöckner[88];
• Weiterentwicklung der Werkbank für den Computerlexikographen und
Ausbau des Computerlexikons HaGenLex zu einem der größten seman-
tischorientiertenComputerlexikadurchRainerOsswaldundvielestuden-
X Vorwort
tische Mitarbeiter [119]. Beginn der Übertragung von HaGenLex in die
englische Sprache.
NeuereAnwendungen
• Verwendung von MultiNet als semantische Interlingua im intelligen-
ten, semantisch orientierten Information Retrieval System IRSAW(DFG-
ProjektIRSAW;Johannes Leveling[183])
• MultiNet als Bedeutungsrepräsentation für Texte und Fragen im Frage-
Antwort-System InSicht(SvenHartrumpf[116]);
•MultiNetalsinternerWissensrepräsentations-FormalismusundalsLehr-
gegenstand im Virtuellen Informatik-Labor VILAB (BMBF-Projekt ME-
DIN,RainerLütticke[198]);
•EntwicklungeinesInferenzsystemsfürMultiNet-Wissensbasen mitMil-
lionen von Fakten und Zehntausenden von Axiomen (DFG-Projekt Log-
Answer,IngoGlöckner[88]);
•EinsatzvonMultiNetalsLogikspracheimAntwort-Validierungs-System
MAVE(IngoGlöckner, [92]);
•Schaffungderenglischsprachigen VersionvonHaGenLexunddesWO-
CADI-Parsers im Rahmen des EU-Projekts BenToWeb (Rainer Osswald,
SvenHartrumpf[187]);
•MultiNetalsRepräsentationssprachedersemantischenEbeneimSystem
DeLite, das zur Überprüfung des barrierefreien Zugangs zum Web dient
(EU-ProjektBenToWeb,TimvorderBrück[118,304]);
Evaluierungen
• [intern] MultiNet wird seit vielen Jahren am IICS in Forschungspro-
jekten, in angewandten Systemen (s.o.) und in der Lehre im Rahmen von
Kursen, Praktika und virtuellen Labors eingesetzt und so immer wieder
aufFehlerfreiheit undKonsistenz getestet.
•[extern]DieLeistungen derangewandten SystemeIRSAW,InSichtund
MAVE (s.o.) und damit MultiNet als Wissensrepräsentationssystem wer-
den regelmäßig im Rahmen der europäischen Initiativen CLEF(dort spe-
ziell in den Tracks: QA, GeoCLEF, AVE) ausgewertet und auf ihre Lei-
stungsfähigkeit überprüft. Dabei haben diese Systeme im deutschsprachi-
genTrackstetssehrerfolgreich abgeschnitten [122,186,121,181,180].
Das Repertoire von MultiNet-Darstellungsmitteln ist in den letzten Jah-
ren äußerst stabil geblieben. Seitderersten Auflagedieses Buches haben sich
praktisch nur wenige Änderungen (vorwiegend Verfeinerungen in den Signa-
turen der Relationen und Funktionen) ergeben. Zieht man die verschiedenen
GesichtspunkteinBetracht,unterdeneneinsolchesWissensrepräsentationspa-