Table Of ContentFakultät für Wirtschaftswissenschaften
Diplomarbeit
Klassifikation von Ad-Hoc-Meldungen
Abschlussarbeit zur Erlangung des Grades eines
Diplom-Wirtschaftsinformatiker/in (FH)
in Wirtschaftsinformatik
der Hochschule Wismar
eingereicht von: Martina Maria Pointner
geboren am 06. März 1978 in Wasserburg am Inn
Studiengang Wirtschaftsinformatik
Matrikelnummer: 114705
Erstgutachter: Prof. Dr. rer. pol. Jan Helmke
Zweitgutachter: Prof. Dr. rer. nat. Jürgen Cleve
Maitenbeth, den 29. September 2015
Inhaltsverzeichnis
I. ABBILDUNGSVERZEICHNIS ............................................................................................................... III
II. TABELLENVERZEICHNIS ................................................................................................................... IV
III. ABKÜRZUNGSVERZEICHNIS .......................................................................................................... V
1 EINLEITUNG ............................................................................................................................................. 1
2 GRUNDLAGEN .......................................................................................................................................... 3
2.1 AD-HOC-MELDUNG .................................................................................................................................. 3
2.2 ANALYSEN ................................................................................................................................................ 4
2.2.1 Analysen zur Prognose der Richtungstendenz von Kursen ............................................................. 4
2.2.2 Analysen zu Textklassifikatoren ...................................................................................................... 6
2.3 FINANZMARKTFORSCHUNG ....................................................................................................................... 9
3 TEXT MINING ..........................................................................................................................................11
3.1 DEFINITION...............................................................................................................................................11
3.2 TEXT MINING EINSATZMÖGLICHKEITEN ..................................................................................................12
3.3 TEXT MINING PROZESS ............................................................................................................................13
3.4 TEXTKLASSIFIKATION ..............................................................................................................................16
3.4.1 Dokumentenaufbereitung ...............................................................................................................18
3.4.2 Textklassifikatoren Algorithmen.....................................................................................................21
3.4.3 Bewertung des Textklassifikationsergebnisses ...............................................................................23
4 KLASSIFIZIERUNG DER AD-HOC-MELDUNG ................................................................................26
4.1 PRÄMISSEN FÜR DIE TEXTKLASSIFIKATION ..............................................................................................26
4.2 KLASSIFIZIERUNG MITTELS EREIGNISSTUDIE ...........................................................................................27
4.2.1 Vorgehensweise ..............................................................................................................................28
4.2.2 Problemstellungen bei der Durchführung von Ereignisstudien .....................................................30
4.2.3 Durchführung .................................................................................................................................31
4.2.4 Ergebnis .........................................................................................................................................32
4.3 KLASSIFIZIERUNG MITTELS DER KURSENTWICKLUNG AM EREIGNISTAG ..................................................34
4.3.1 Durchführung .................................................................................................................................34
4.3.2 Ergebnis .........................................................................................................................................35
5 TEXTKLASSIFIKATION ........................................................................................................................36
5.1 DATEN ......................................................................................................................................................36
5.1.1 Datengewinnung ............................................................................................................................36
5.1.2 Datenbeschreibung ........................................................................................................................37
5.1.3 Datenstruktur .................................................................................................................................39
5.2 DURCHFÜHRUNG ......................................................................................................................................43
5.2.1 Dokumentenaufbereitung ...............................................................................................................43
5.2.2 Klassifikation und Klassifikationsergebnis ....................................................................................47
- – I –
6 EVALUATION........................................................................................................................................... 51
6.1 BEWERTUNG DER ERGEBNISSE ................................................................................................................. 51
6.2 ERKENNTNISSE......................................................................................................................................... 53
6.2.1 Fachliche Erkenntnisse .................................................................................................................. 53
6.2.2 Technische Erkenntnisse ................................................................................................................ 54
6.3 ZUSAMMENFASSUNG UND AUSBLICK ....................................................................................................... 56
LITERATUR ....................................................................................................................................................... 58
EHRENWÖRTLICHE ERKLÄRUNG ............................................................................................................... I
- – II –
I. Abbildungsverzeichnis
Abbildung 1:Vergleich von Klassifikatoren, Quelle: [FBG06], S.31. ..................................................... 7
Abbildung 2: Text Mining Prozess, Quelle: [HR06], S.288. ................................................................. 13
Abbildung 3: Text Mining Prozess und Datenbankstruktur, Quelle: [HQW12], S.6. ............................ 15
Abbildung 4: Generic strategy fort ext classification, Quelle: [DZ11], S.38. ........................................ 17
Abbildung 5: Effektivste Klassifikationsverfahren, Quelle: [Run10], S.89. .......................................... 21
Abbildung 6: Umfang von Schätz- und Ereignisfenster, Quelle: Clement et al. [CFG07], S. 423. ....... 29
Abbildung 7: Datenbankstruktur, Quelle: eigene Darstellung ............................................................... 41
Abbildung 8: Auszug aus der Tabelle SYNONYM_LISTE, Quelle: eigene Darstellung. .................... 45
Abbildung 9: Mehrfachbedeutungen, Quelle: eigene Darstellung. ........................................................ 45
Abbildung 10: Verlinkung von Stopp- und Synonymliste, Quelle: eigene Darstellung. ....................... 46
Abbildung 11: Ausschnitt aus einer ARFF Datei, Quelle: eigene Darstellung ...................................... 47
Abbildung 12: Konzernergebnis in Tabellenform: eigene Darstellung. ................................................. 53
- – III –
II. Tabellenverzeichnis
Tabelle 1: deutschsprachige Ad-Hoc-Meldungen. ................................................................................. 27
Tabelle 2: Ad-Hoc-Meldungen Ereignisstudie. ..................................................................................... 33
Tabelle 3: Klassifizierungsergebnis Ereignisstudie, drei Klassen. ........................................................ 33
Tabelle 4: Klassifizierungsergebnis Marktreaktion, drei Klassen. ........................................................ 35
Tabelle 5: Datenbasis. ............................................................................................................................ 37
Tabelle 6: Ad-Hoc-Meldungen Klassifizierung aufgrund Marktreaktion. ............................................ 38
Tabelle 7: Ad-Hoc-Meldungen Marktreaktion sortiert nach Index. ...................................................... 38
Tabelle 8: Ad-Hoc-Meldungen Marktreaktion sortiert nach Jahr. ......................................................... 39
Tabelle 9: Ad-Hoc-Meldungen Klassifikationsergebnis im Vergleich.. ................................................ 48
Tabelle 10: Klassifikationsergebnis. ...................................................................................................... 50
- – IV –
III. Abkürzungsverzeichnis
Abkürzung Bedeutung
ARFF Attribute-Relation File Format
BaFin Bundesanstalt für Finanzdienstleistungsaufsicht
CDAX Composite DAX
DGAP Deutsche Gesellschaft für Ad-Hoc-Publizität
DML Data Manipulation Language
LSI Latent Semantic Indexing
NLP Natural Language Processing
SQL Structured Query Language
TF term frequency
TF-IDF term frequency - inverse document frequence
WpHG Wertpapierhandelsgesetz
Xetra Exchange Electronic Trading
- – V –
- – VI –
1 Einleitung
Ad-Hoc-Meldungen beinhalten Insiderinformationen, die sich auf ein konkretes Wertpapier
beziehen, welche bei Veröffentlichung möglicherweise eine positive oder negative
Kurswirkung verursachen. Aufgrund der Informationswirkung, die von Ad-Hoc-Meldungen
ausgeht, sind sie Gegenstand vieler Untersuchungen. Obwohl ihre Informationswirkung in
zahlreichen Studien bewiesen ist, gestaltet sich die inhaltliche Bewertung und damit die
Festlegung der Richtungstendenz ihrer Kurswirkung als schwierig. Bereits Analysten sind
uneins über die Deutung von Unternehmensberichten, was sich in den unterschiedlichen
Erwartungshaltungen in den veröffentlichten Analysen wiederspiegelt. Somit stellt die
Bewertung von Ad-Hoc-Meldungen nicht nur für den Börsenlaien sondern auch für den
institutionellen Anleger eine schwierige Aufgabe dar.
Forschungsrichtungen, die sich sowohl mit dem Text Mining als auch mit der Finanzwirtschaft
beschäftigten, sehen im Text Mining eine geeignete softwaretechnische Methode zur Prognose
von Aktienkursen und Indices. Dabei wirkt sich der Einsatz einer maschinellen
Textklassifizierung nicht nur zeitsparend aus, sondern wirkt zudem positiv unterstützend bei
der Bewertungsanalyse.
Diese Arbeit soll einen Überblick über den aktuellen Forschungsstand zur Prognose der
Richtungstendenz von Börsenkursen durch die Textklassifikation von unstrukturierten Daten
wie Ad-Hoc-Meldungen vermitteln. Zudem soll ein Prototyp entstehen, welcher die
Meldungen in positive, negative und neutrale Dokumente hinsichtlich der Kurswirkung
klassifiziert. Des Weiteren wird eine binäre Klassifikation in die Klassen positiv und negativ
durchgeführt. Dabei sollen mehrere Textklassifikatoren getestet und im Ergebnis miteinander
verglichen werden, nachdem in der Literatur hinsichtlich des Textklassifikator keine
einheitliche Empfehlung existiert.
Ziel der Studie ist die bestmögliche Vorhersage des Börsentrends durch das
Klassifikationsergebnis. Aus dem Ergebnis können Schlüsse auf die zu erwartende
Richtungstendenz der Kursreaktion einer Aktie gezogen werden. Eine Prognose, die durch ein
Softwaresystem erstellt wird, ist für Privat- und institutionelle Anleger von großem Nutzen.
Marktteilnehmern, die auf Ad-Hoc-Meldungen reagieren, bleibt kaum Zeit zur Bewertung, da
die Meldungen nach Veröffentlichung unmittelbar dem Markt zur Verfügung stehen.
Ein gutes Textklassifikationsergebnis setzt voraus, dass dem Klassifikator für die
Kategorisierung treffende Merkmalsbeschreibungen zu den entsprechenden Klassen vorliegen.
Diese Informationen erlauben dem Algorithmus Muster herauszuarbeiten, die die Unterschiede
der Klassen verdeutlichen und damit die nachfolgende Klassifizierung von neuen unbekannten
Dokumenten ermöglichen. In Studien wird die Einteilung der Trainingsdaten in Klassen kaum
erwähnt, obwohl dies einen der wichtigsten Schritte der Textklassifikation darstellt. Im
Rahmen dieser Arbeit sollen zudem zwei unterschiedliche Vorgehen zur Klassifikation der
Trainingsdaten vorgestellt und verglichen werden: die Klassifikation mittels Ereignisstudie und
der ermittelten abnormalen Rendite und aufgrund der Marktpreisentwicklung des Wertpapiers,
die am Veröffentlichungstag der Information erzielt wurde. Von Interesse ist hier, ob sich das
– 1 –
Verfahren mithilfe der Marktpreisentwicklung eignet, nachdem dieses Vorgehen gegenüber der
Ereignisstudie Kosten und Zeit spart.
Das Kapitel Grundlagen führt in das Thema der Textklassifikation von Ad-Hoc-Meldungen
ein. Als erstes erfolgt eine Beschreibung der zu untersuchenden Quellen, den
Ad-Hoc-Meldungen, die aufgrund ihrer Informationswirkung Gegenstand vieler Untersuchgen
sind. Im Anschluss werden Studien vorgestellt, die sich mit der Prognose der Richtungstendenz
von Börsenkursen beschäftigen. Hierbei kommt die Analyse von unstrukturierten Daten wie
Ad-Hoc-Meldungen durch Text Mining zum Einsatz. Anschließend folgen Untersuchungen zur
Textklassifikation und ein kurzer Überblick über die Finanzmarktforschung und der
Effizienzmarkthypothese, welche hauptsächlich durch Eugene Fama geprägt wurde. Letztere
erklärt die Kurswirkung die von Insiderinformationen wie der Ad-Hoc-Meldung ausgeht.
Im darauffolgenden Kapitel folgt eine Einführung in die Text Mining Methode. Dabei werden
die Einsatzmöglichkeiten vorgestellt und näher auf die Fachrichtung Textklassifikation
eingegangen.
Für die Textklassifikation sind kategorisierte Trainings- und Testdaten notwendig. Dabei
werden zwei Vorgehen eingesetzt, die am Ende der Untersuchung miteinander verglichen
werden. Dieser Abschnitt stellt diese vor und bereitet die Ergebnisse hierzu auf.
Das nächste Kapitel befasst sich mit der Durchführung der Textklassifikation und verwendet
die kategorisierten Trainings- und Testdaten aus dem vorherigen Abschnitt. Weiterhin erfolgt
eine Beschreibung der verwendeten Daten und über das konkrete Vorgehen. Dabei zeigt es auf,
wie die Daten gewonnen und für die Analyseprozesse aufbereitet werden.
Abschließend erfolgen die Beurteilung der Ergebnisse, eine Zusammenfassung und ein
Ausblick auf künftige Weiterentwicklungsmöglichkeiten.
– 2 –
Description:unterschieden sich lediglich in der Vorverarbeitung der Wortliste. So wurden im . einer großen Ähnlichkeit zum Data Mining Prozess beschreiben Das Ergebnis der Analyse wird in ein Management Information System Knowledge Discovery Handbook: A Complete Guide for Practitioners and.