Table Of ContentCorneille, Molière et les autres. Stilometrische Analysen
zu Autorschaft und Gattungszugehörigkeit im
französischen Theater der Klassik
Christof Schöch
To cite this version:
Christof Schöch. Corneille, Molière et les autres. Stilometrische Analysen zu Autorschaft und Gat-
tungszugehörigkeit im französischen Theater der Klassik. Christof Schöch; Lars Schneider. Literatur-
wissenschaft im digitalen Medienwandel, PhiN, pp.130-157, 2014, Beihefte zu Philologie im Netz, 7.
hal-00957091
HAL Id: hal-00957091
https://hal.archives-ouvertes.fr/hal-00957091
Submitted on 8 Mar 2014
HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est
archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
PhiN-Beiheft 7/2014: 130
Christof Schöch (Würzburg)
Corneille, Molière et les autres. Stilometrische Analysen zu Autorschaft und
Gattungszugehörigkeit im französischen Theater der Klassik
The digital age, by making large amounts of text available to us, prompts us to develop new and
additional reading strategies supported by the use of computers and enabling us to deal with such
amounts of text. One such "distant reading" strategy is stylometry, a method of quantitative text
analysis which relies on the frequencies of certain linguistic features such as words, letters or
grammatical units to statistically assess the relative similarity of texts to each other and to classify
texts on this basis. This method is applied here to French drama of the seventeenth century, more
precisely to the now famous "Corneille / Molière-controversy". In this controversy, some re-
searchers claim that Pierre Corneille wrote several of the plays traditionally attributed to Molière.
The methodological challenge, it is shown here, lies in the fact that categories such as authorship,
genre (comedy vs. tragedy) and literary form (prose vs. verse) all have an influence on stylometric
distance measures and classification. Cross-genre and cross-form authorship attribution needs to
distinguish such competing signals if it is to produce reliable attribution results. This contribution
describes two attempts to accomplish this, parameter optimization and feature-range selection. The
contribution concludes with some more general remarks about the use of quantitative methods in a
hermeneutic discipline such as literary studies.
Einleitung: Die digitale Wende und neue Verfahren der Textanalyse
In der Frühen Neuzeit ereignete sich mit der Erfindung des Buchdrucks mit be-
weglichen Lettern eine Revolution in den technischen Möglichkeiten der Repro-
duktion von Texten, die mittelfristig auch signifikante Veränderungen in den Mo-
dalitäten der Rezeption von Texten mit sich brachte. Diese durch sozio-
ökonomische Entwicklungen geförderten Veränderungen sind dadurch gekenn-
zeichnet, dass die intensive Lektüre, bei der sehr wenige oder gar ein einziger
Text wiederholt gelesen wurde, nach und nach ersetzt wurde durch eine extensive-
re Lektürepraxis, bei der eine zunehmenden Zahl unterschiedlicher Texte in diver-
sen Kontexten rezipiert werden (Wittmann 1999).
Mit der digitalen Wende, die wir derzeit erleben, werden die Mittel der Repräsen-
tation, Reproduktion, des Austauschs und der Manipulation von Texten erneut
radikal verändert.1 Insbesondere durch zahlreiche groß angelegte Digitalisierungs-
1 Selbstverständlich ist die digitale Wende nicht auf Texte beschränkt, sondern bezeichnet eine
technologische und gesellschaftliche Entwicklung, im Zuge derer eine Vielzahl alltäglicher Tätig-
keiten, Erfahrungen und Wissenspraktiken von digitalen Medien geprägt sind. Der Endpunkt die-
PhiN-Beiheft 7/2014: 131
Projekte weltweit erweitert sich das digital verfügbare kulturelle Erbe in Textform
ständig, die Texte sind untereinander vernetzt und liegen in fluiden Formen vor.
Immer größere Anteile des kulturellen Erbes liegen in elektronischer Form buch-
stäblich unter unseren Fingerspitzen und fordern uns dazu auf, sie zu nutzen.
Letztlich hat hier eine Revolution im wörtlichen Sinne einer Umkehrung von Hie-
rarchien stattgefunden, weil die entscheidende, knappe Ressource nicht mehr der
verfügbare Text und seine Inhalte sind, sondern die verfügbare Zeit und Aufmerk-
samkeit für Texte und andere Träger von Informationen. Wie wir alle selbst erle-
ben, wird das Verhältnis zwischen verfügbarer Lebens- und Lesezeit und vorhan-
denem Lesestoff immer ungünstiger.
Im Bereich der Literaturwissenschaft ist das Spannungsfeld zwischen extensiver
Lektüre, also der flüchtigen Lektüre sehr vieler, unterschiedlicher Texte einerseits,
und dem "close reading", also der detaillierten Lektüre und Interpretation weniger
oder wenig umfangreicher Texte andererseits, erhalten geblieben. Beide Modalitä-
ten der Lektüre sind für die literaturwissenschaftliche Analyse von Sammlungen
tausender oder gar Millionen von Texten nicht geeignet (siehe Crane 2006). Der
zunehmend verbreitete Wunsch, die Grenzen von einschränkenden und historisch
determinierten Kanons zu durchbrechen, wird von unseren begrenzten kognitiven
Kapazitäten unterminiert. Digitale Methoden der computergestützten, quantitati-
ven Textanalyse, wie beispielsweise die Stilometrie oder das Topic Modeling, die
man mit Franco Moretti dem Paradigma des "distant reading" zuordnen oder mit
Matthew Jockers als zwei Modalitäten der "macroanalysis" bezeichnen könnte,2
sind Strategien, dieses Dilemma zu lösen oder es zumindest möglichst geschickt
zu umgehen. Beide Methoden sind im größeren Kontext der "digitalen Geistes-
wissenschaften" zu sehen.3
ser Entwicklung ist von dem britischen Informationstheoretiker Luciano Floridi als "life in the
infosphere" bezeichnet worden (Floridi 2010: 14). Die Digitalisierung der Wissenschaft ist, wie
Christine Borgman in ihrem Buch über Scholarship in the Digital Age herausgearbeitet hat, zu-
gleich eine technologische und soziale Herausforderung (Borgman 2010). Auch die deutsche Ro-
manistik entdeckt zunehmend die Möglichkeiten digitaler Ressourcen, Methoden und Tools (Stier-
le 2013).
2 Der Begriff "distant reading" geht auf Franco Moretti (2000) zurück und wurde durch Moretti
2005 weithin bekannt; den Begriff “macroanalysis” hat jüngst Matthew Jockers (2013) geprägt.
3 Die digitalen Geisteswissenschaften (oder "digital humanities") sind im Schnittfeld von Geistes-
wissenschaften, Medienwissenschaften und Informatik angesiedelt. Zum Konzept und zur Ge-
schichte dieser "Interdisziplin" oder dieses Methodenfeldes siehe McCarty 1999 und Unsworth
2002. Einführende Texte zu verschiedenen Methoden bietet der Companion to Digital Humanities
(Siemens et al. 2004), einen Überblick zur "Computerphilologie" findet man bei Jannidis 2007.
PhiN-Beiheft 7/2014: 132
Die Stilometrie meint computergestützte Verfahren der quantitativen Erhebung
stilistischer Merkmale für die Klassifikation von Texten. Traditionell für die At-
tribution von Autorschaft eingesetzt, wird aktuell deutlich, dass die Stilometrie
auch für die Literaturgeschichtsschreibung und Gattungstheorie interessante Per-
spektiven eröffnet.4 Topic Modeling bezeichnet ein probabilistisches Verfahren
der automatischen Extraktion von Gruppen thematisch verwandter Begriffe aus
großen Textsammlungen und der Analyse der zeitlichen oder gattungsabhängigen
Distribution solcher Gruppen innerhalb der untersuchten Textsammlung.5
Ziel des vorliegenden Beitrags ist es, das Verfahren der Stilometrie vorzustellen
und von der Erprobung stilometrischer Klassifikationsverfahren im Bereich des
französischen Theaters des siebzehnten Jahrhunderts zu berichten. Diese Erpro-
bung ist im Kontext eines der methodischen Schwerpunkte des europäischen Inf-
rastruktur-Projekts DARIAH (siehe DARIAH-DE 2012 und http://de.dariah.eu)
zu sehen, der sich mit der computergestützten Analyse großer Textsammlungen
befasst, wobei das Ziel dieser Aktivitäten letztlich ist, auf eine größere Verbrei-
tung quantitativer Methoden der Textanalyse in den Geisteswissenschaften und
eine bessere Vernetzung der GeisteswissenschaftlerInnen verschiedener Diszipli-
nen hinzuwirken, die in Europa an der computergestützten Analyse großer Text-
sammlungen arbeiten.6 Für die Erprobung stilometrischer Klassifikationsverfah-
ren im Bereich des französischen Theaters des siebzehnten Jahrhunderts wurde
das stylo-Paket eingesetzt, das von Maciej Eder und Jan Rybicki für die Statisti-
kumgebung R entwickelt wurde (Eder & Rybicki 2011).
Zunächst soll das Verfahren der Stilometrie knapp vorgestellt werden. Ausgangs-
punkt für alles Weitere wird dann die mittlerweile berühmte Corneille / Molière-
Kontroverse sein. Im Zentrum der Kontroverse steht die Frage, ob Corneille mög-
licherweise einige oder gar viele der traditionell Molière zugesprochenen Werke
4 Für einen historischen und systematischen Überblick zur Stilometrie siehe Holmes 1994 und
Juola 2006. Für die Beziehung zwischen Stilometrie und Literaturgeschichte siehe Jannidis &
Lauer 2013.
5 Für eine knappe Einführung siehe Templeton 2011. Für einen erhellenden Überblick siehe Blei
2011.
6 Zu diesem Schwerpunkt gehört unter anderem die Entwicklung einer Beispielanwendung, die
Textgrids Digitale Bibliothek [http://www.textgridrep.de] mit dem Analyse- und Explorationstool
Voyant Tools ([http://www.voyant-tools.org], Sinclair & Rockwell 2013) verbindet, so dass litera-
tur- und kulturwissenschaftliche Fragestellungen damit bearbeitet werden können; vgl.
[https://de.dariah.eu/digivoy]; außerdem die Erarbeitung eines Überblicks über zentrale methodi-
sche Ansätze wie Stilometrie und Topic Modeling und deren aktuell zentrale methodische Fragen;
schließlich die Durchführung von Experten-Meetings und Workshops zum Thema Textanalyse.
PhiN-Beiheft 7/2014: 133
verfasst hat. Eine solche Frage erfordert die Lösung sehr konkreter Probleme, wie
das des relativen Einflusses von Autorschaft und Gattungszugehörigkeit bei sti-
lometrischen Klassifikationssaufgaben. Von zwei konkreten Versuchen, solche
Fragen methodisch in den Griff zu bekommen, wird hauptsächlich die Rede sein.
Das erste stilometrische Experiment betrifft die Parameter-Optimierung auf der
Grundlage des Corneille / Molière-Korpusses. Das zweite stilometrische Experi-
ment betrifft etwas grundsätzlichere Versuche der "Signal-Trennung", ebenfalls
bezogen auf das französische Theater der Klassik. Beide Experimente werfen all-
gemeinere Fragen nach der Verlässlichkeit und Nachvollziehbarkeit statistischer
Verfahren in den Philologien auf, und damit auch nach deren Relevanz für philo-
logische Fragestellungen.
1 Stilometrische Verfahren der Textanalyse
Die Stilometrie ist eines von mehreren Verfahren, die dem Bereich der quantitati-
ven Textanalyse zugerechnet werden können. Der Begriff Stilometrie bezeichnet
dabei computergestützte Verfahren der Erhebung stilistischer Merkmale und ihrer
Häufigkeiten in Texten, sowie der Nutzung dieser Merkmale und Häufigkeiten für
die Klassifikation von Texten. Die Methode selbst geht auf Überlegungen zurück,
die noch vor dem Zeitalter des Computers liegen. Schon im Jahr 1851 hat der bri-
tische Mathematiker Augustus de Morgan stilometrische Prinzipien konzipiert,
indem er den Vergleich der durchschnittlichen Wortlängen in verschiedenen Tex-
ten zur Feststellung der Autorschaft anonymer Texte vorschlug (vgl. Juola 2006:
240). Die von de Morgan vorgeschlagene Methode wurde von Mendenhall (1887)
erstmals erprobt. Und der polnische Philosoph Wincenty Lutosławski definierte in
seiner Schrift Principes de stylométrie appliqués à la chronologie des œuvres de
Platon von 1898 die Methode der "Stilometrie" im modernen Sinne, nämlich als
die "recherche d'affinités stylistiques" (vgl. hierzu Pawłowski & Pacewicz 2004).
Mit der Verbreitung des Computers seit den 1960er Jahren war die technische
Grundlage dafür geschaffen, dass stilometrische Verfahren systematisch einge-
setzt wurden.
Als Pionierarbeiten sind die Studien von Frederik Mosteller und David Wallace
(1963) zu den Federalist Papers und von John Burrows (1987) zur Figurenrede
im Werk von Jane Austen zu nennen. Einen deutlichen Aufschwung und größere
PhiN-Beiheft 7/2014: 134
Verbreitung haben quantitative Verfahren der Analyse von Sammlungen literari-
scher Texte jedoch erst in den letzten zehn Jahren erlebt.7 Dies liegt sicherlich
daran, dass vermehrt geeignete digitale Texte vorliegen und daran, dass es zu-
nehmend nutzerfreundlichere und leistungsfähigere Werkzeuge gibt. Immer mehr
LiteraturwissenschaftlerInnen experimentieren mit solchen Verfahren und die
Menge an Erfahrungswerten und Einsatzmöglichkeiten steigt. Dabei gibt es heute
mehrere etablierte Anwendungsfelder der Stilometrie: Am bekanntesten ist sicher-
lich die Autor-Attribution; hier werden für Texte, deren Autor unbekannt oder
umstritten ist, mögliche Autoren festgestellt. Auch für die chronologische Einord-
nung von Einzeltexten bekannter Autoren in deren Gesamtwerk wird die Stilomet-
rie eingesetzt. Ein Anwendungsfeld außerhalb der Philologien ist die digitale Fo-
rensik, bei der es um die Authentifizierung von Texten oder die Plagiats-
Detektion geht. Neuere Entwicklungen in der Literaturwissenschaft setzen auf die
Stilometrie und andere quantitative Verfahren, um die Gattungstheorie und die
Literaturgeschichte neu zu denken.
In der Tat ist die Stilometrie trotz ihres Namens im Kern ein Verfahren, das der
Literaturgeschichte nicht weniger nahesteht als der Stilistik: Es geht der Stilomet-
rie nicht in erster Linie um die Beschreibung von Texteigenschaften oder um die
Definition oder Charakterisierung eines Autoren- oder Epochenstils. Vielmehr
nutzt die Stilometrie bestimmte Textmerkmale, um die relative Ähnlichkeit oder
Differenz verschiedener Texte zu bestimmen und um auf dieser Grundlage Texte
zu klassifizieren oder zu gruppieren. Die der Klassifikation zugrundeliegenden
Kategorien sind dabei nicht auf die Autoren der Texte beschränkt, sondern können
sich auch auf die Gattung oder Untergattung, auf die Epochenzugehörigkeit oder
auf das Geschlecht der Autoren beziehen. Da es sich um ein sog. unüberwachtes
Klassifizierungsverfahren handelt, sind die Zielkategorien oder Gruppen nicht
vorgegeben, sondern ergeben sich aus der jeweils festgestellten Ähnlichkeit der
Texte. Dass sich die Autorkategorie nicht immer isolieren lässt, ist gerade eines
der Probleme – oder auch eines der Ergebnisse – der aktuellen methodischen De-
batten in diesem Feld. In der Tat sind die methodischen Schwierigkeiten und Un-
wägbarkeiten immer noch enorm, gerade für Literaturen in anderen Sprachen als
7 Nicht zuletzt hat die Methode kürzlich auch eine literarische Behandlung erfahren, und zwar in
Mitzi Morris' Roman Poetic Justice aus dem Jahr 2012, den man wohl als den ersten stilometri-
schen Kriminalroman in der Geschichte der Gattung bezeichnen kann (vgl. Schöch 2013).
PhiN-Beiheft 7/2014: 135
dem Englischen, und dies trotz einiger wichtiger Arbeiten zu verschiedenen euro-
päischen Sprachen (u.a. Van Dalen-Oskam & Van Zundert 2007, Rybicki & Eder
2011, Kestemont et al. 2012).
In den nun folgenden Ausführungen soll es daher um zwei Dinge gehen: Einer-
seits um methodische Fragen, die sich vor allem um das Problem der Klassifikati-
on von Texten drehen; andererseits um einen literaturwissenschaftlichen Anwen-
dungsfall. Bevor ich zu einem solchen Anwendungsfall komme, sind in Bezug auf
die stilometrische Verfahrensweise noch einige grundlegende technische Hinwei-
se notwendig. Um ein bestimmtes stilometrisches Verfahren zu beschreiben, kann
man drei zentrale Aspekte herausgreifen: Erstens, welche sprachlichen Merkmale
die Grundlage bilden; zweitens, welche Methode zur Berechnung der statistischen
Ähnlichkeit der Texte angewandt wird; und drittens, welche Visualisierungstech-
nik gewählt wird. In der Tat ist ein genaues Verständnis der Funktionsweise die-
ser Verfahrens entscheidend, damit wir uns nicht dem Algorithmus als undurch-
schaubarer, magischer "black box" ausliefern. Die Ergebnisse des stilometrischen
Verfahrens und ihre Interpretation hängen zu sehr von den Details seiner Durch-
führung ab.
Die sprachlichen Merkmale, die für stilometrische Verfahren verwendet werden,
sind meistens Oberflächenphänomene, die sich leicht feststellen und quantifizie-
ren lassen, also Wörter (types oder tokens) oder Buchstaben und ihre Frequenzen.
Eine geeignete Vorbereitung der Texte durch linguistische Annotation vorausge-
setzt, können aber auch die Frequenzen grammatikalischer Kategorien Grundlage
stilometrischer Verfahren sein. Zudem können Maße wie die durchschnittliche
Satzlänge, die durchschnittliche Wortlänge, der Anteil bestimmter Wortklassen
am Gesamttext oder die N-Gramme von Buchstaben, Wörtern oder Wortklassen
berücksichtigt werden. Wie direkt diese Merkmale mit Phänomenen verknüpft
sind, die bei der literaturwissenschaftlichen Lektüre von Einzeltexten beobachtet
werden können, kann stark variieren. In der Regel geht es zunächst darum, für
jeden der untersuchten Texte die Frequenz der gewählten Merkmale festzustellen.
Auf dieser Grundlage kann man eine vergleichende Matrix der normalisierten
Frequenzen jedes Merkmals in allen Texten erstellen (Abb. 1: Frequenz-Matrix).
Man kann dieser Matrix gewissermaßen das stilometrische Profil jedes Textes
entnehmen; dieses Profil kann man sich als Vektor in einem multi-dimensionalen
Raum vorstellen, in dem jedes Merkmal eine Dimension und jede Frequenz ein
PhiN-Beiheft 7/2014: 136
Wert für diese Dimension ist. Jeder Text zeichnet einen anderen Vektor durch
diesen multi-dimensionalen Raum. Es ist aus der Tabelle so beispielweise erkenn-
bar, dass die relativen Frequenzen von "de" sich bei Malet und Simenon unter-
scheiden (rund 4.1 in beiden Malet-Texten, und rund 3.5 in beiden Simenon-
Texten), während sie sich für "la" kaum systematisch unterscheiden.
Abb. 1: Frequenz-Matrix am Beispiel von Romanen Léo Malets und Georges Simenons
Der zweite Aspekt der stilometrischen Methode ist es, die stilometrischen Profile
oder Vektoren aller Texte so miteinander zu vergleichen, dass man ein Maß der
relativen Nähe oder Distanz der einzelnen Texte zueinander bekommt. Ein wich-
tiger Parameter, fast der wichtigste von allen, ist die Länge der Wortliste bzw. des
Vektors, die berücksichtigt wird. In der Pionierzeit der Stilometrie wurden in der
Regel nur die 30–50 häufigsten Wörter berücksichtigt, also reine Funktionswörter
ohne semantischen Inhalt. Mittlerweile gibt es hierzu verschiedenste Vorschläge,
die bis zur Berücksichtigung der gesamten Wortliste reichen. Die Unterstützung
durch den Computer bedeutet jedenfalls, dass die Entscheidung über die Länge
der Wortliste nicht mehr von arbeitsökonomischen Faktoren abhängt. Außerdem
gibt es systematische Untersuchungen zur Qualität der resultierenden Klassifikati-
onen in Abhängigkeit von der Länge der Wortlisten, und das für unterschiedliche
Sprachen und Textsorten (Rybicki & Eder 2011). Diese zeigen vor allem, dass es
PhiN-Beiheft 7/2014: 137
keine universelle Lösung für diesen Parameter gibt, sondern dass die angemessene
Länge der Wortliste von Sprachen und Gattungen abhängt und stark variieren
kann.
Abb. 2: Distanz-Matrix am Beispiel von vier Romanen Léo Malets und George Simenons
Entscheidend ist dann, welches mathematische Modell für die Berechnung der
Ähnlichkeiten zur Anwendung kommt, d.h. welches Distanz-Maß verwendet
wird, um die Vektoren der verschiedenen Texte zu vergleichen. Ergebnis dieser
Berechnungen ist die Distanz-Matrix, in der für jeden Text ein Distanz-Wert zu
allen anderen Texten festgehalten ist (Abb. 2: Distanz-Matrix). Hier ist deutlich
erkennbar, dass die Distanzwerte für zwei Texte desselben Autors wesentlich
niedriger liegen als für zwei Texte unterschiedlicher Autoren.
Unterschiedliche Distanz-Maße geben bestimmten Teilen der Wortliste ein je un-
terschiedliches Gewicht in der Ermittlung der Distanz-Werte: Bei der euklidi-
schen Distanz beispielsweise haben die höchstfrequenten Wörter besonders viel
Einfluss, während der Einfluss dann stark abfällt; speziell für die Stilometrie ent-
wickelte Distanz-Maße wie 'Burrows' Delta' (Burrows 2002) oder 'Eder's Delta'
(cf. Eder & Rybicki 2011) definieren dagegen keinen, respektive einen sanfteren
Abfall der Gewichtung (siehe hierzu u.a. Schöch 2012). Für französische Texte
gilt, dass 'Eder's Delta' recht eindeutig die besten Resultate ergibt; andererseits ist
die Frage der besten Länge der Wortliste für verschiedene Gattungen hier recht
offen.
PhiN-Beiheft 7/2014: 138
Abb. 3: Cluster Analysis Graph;
Romane von Léo Malet und Georges Simenon aus den 1950er Jahren
Auf der Grundlage der Distanzmatrix können dann die Ähnlichkeitsbeziehungen
der Texte zueinander ermittelt und visualisiert werden. Auch hierfür gibt es ver-
schiedene Methoden. Eine grundlegende und relativ transparente Visualisierung
beruht auf der "Cluster Analysis" und der Visualisierung als Dendrogramm (Abb.
3: Cluster Analysis Graph). In dem am weitesten verbreiteten, hierarchisch vorge-
henden Ward-Verfahren werden die Texte in "nearest neighbor"-Paare gruppiert,
also jeder Text zunächst mit dem einen ihm ähnlichsten anderen Text; diese Paare
werden wiederum zu größeren Gruppen zusammengefasst. In dem resultierenden
Dendrogramm drückt sich die Distanz zwischen zwei Texten in ihrer Entfernung
auf der horizontalen Achse aus. Eine stärker synthetisierende Visualisierung be-
ruht auf der Technik des "bootstrapping" (Abb. 4: Bootstrap Consensus Tree).
Hier werden mehrere Dendrogramme gewissermaßen miteinander verglichen und
nur die "nächsten Nachbarn", die ein bestimmtes Maß der Übereinstimmung in
allen Dendrogrammen zeigen, werden berücksichtigt. Dadurch ist diese Visuali-
sierung verlässlicher, allerdings verliert man auch Informationen, insofern die
jeweilige Distanz zwischen Texten, die im Dendrogram abgebildet ist, hier nicht
mehr ersichtlich ist. Eine weitere Technik der Distanz-Berechnung und Visualisie-
Description:hermeneutic discipline such as literary studies. Einleitung: Die digitale tausender oder gar Millionen von Texten nicht geeignet (siehe Crane 2006). Der zunehmend [http://dragonfly.hypotheses.org/101]. Schöch, Christof