Ngram – the dark side

(c) doctima

(c) doctima

In der letzten Woche haben wir uns einmal angesehen, was Ngram ist und was es leistet. Heute will ich noch ein wenig auf die Fallstricke bei Ngram eingehen: Was funktioniert nicht? Welche Verbesserungen sind zu wünschen? Und wie zuverlässig sind die Ergebnisse von Ngram?

Qualität der Technik

Letztes Mal habe ich es schon an der einen oder anderen Stelle angedeutet: Ngram leistet im deutschen Korpus an vielen Stellen nicht dasselbe, was es für die englischen Sprachvarianten bietet. Gerade bei den linguistisch interessanteren Funktionen wie der Wortartsuche bleibt die Software hinter ihren Möglichkeiten zurück.

Wirklich problematisch wird die Arbeit mit Ngram bei Verben mit abtrennbaren Vorsilben. Ohne eine morphologische Analysefunktion lassen sich diese Wörter im Korpus kaum identifizieren. Zugegeben – eine Spezialität des Deutschen. Aber dennoch eine wichtige Einschränkung von Ngram.

Zudem fehlen mir auch in der englischen Sprachvariante Funktionen. Zum einen lassen sich Wörter nicht ausschließen, die mit dem gesuchten Begriff vorkommen sollen. Das würde aber die Eingrenzung ganz ungemein erleichtern: Nach Texten über die bayrische Landeshauptstadt ließe sich mit „Bayern München -Fußball“ einfach gezielter suchen.

Umgekehrt würde ich mir eine NEAR-Funktion wünschen, mit der sich festlegen lässt, dass zwei Begriffe in unmittelbarer Umgebung vorkommen müssen. Gerade bei längeren Werken kann es sonst zu Verzerrungen in der Abfrage kommen. Im Moment kann man sich hier zwar teilweise mit der Wildcard-Suche behelfen. Ein wirklicher Ersatz ist das aber nicht. Zu guter Letzt auf meiner Wunschliste: ein Vergleich zwischen den verschiedenen Sprachkorpora. Damit könnte man zum Beispiel prüfen, wie Entlehnungsvorgänge ablaufen.

Qualität des Korpus

Entscheidend für ein System wie Google Ngram ist die Qualität des Korpus, auf die die Auswertungen zugreifen. Zunächst einmal muss man anerkennen, dass Google die Rohdaten des Korpus unter einer Creative Commons-Lizenz zur Verfügung stellt. Man kann also, wenn man möchte, das Korpus im Detail besichtigen und selbst analysieren. Außerdem gibt es Publikationen, in denen das Korpus genauer vorgestellt wird.

Google Books umfasst über 8 Millionen Bücher (oder 6 % aller jemals publizierten Werke). Das ist zugegebenermaßen eine enorme Menge Texte. Es bedeutet umgekehrt aber auch: Das Korpus umfasst viele Publikationen nicht. Es enthält keine Zeitschriften- und Zeitungsartikel und klammert vermutlich auch viele andere Veröffentlichungen (Patentschriften, Gesetzestexte, Gebrauchsanleitungen usw.) aus. Natürlich ist das legitim; jedes Korpus muss Grenzen ziehen und entscheiden, welche Texte es einbezieht und welche nicht. Man muss diese Grenzen aber bei seinen Schlussfolgerungen berücksichtigen.

Schade ist auch, dass sich innerhalb des Korpus nicht genauer differenzieren lässt. Für das Englische gibt es zumindest noch die Unterscheidung fiction/non-fiction. Noch besser wäre es aber, wenn man das Korpus nach Thema oder Textsorten eingrenzen könnte: Alle wirtschaftswissenschaftlichen Texte? Nur Lyrik? Das geht bisher nicht.

Auf eine systematische Verzerrung in dem Korpus will ich noch kurz hinweisen. Die Texte überspannen einen langen Zeitraum. 1800 war die Veröffentlichung eines Buches noch eine Mammutaufgabe, schon Mitte des 20. Jahrhunderts waren Publikationen vergleichsweise einfacher und heute steht mit Print on demand eine Buchveröffentlichung im Prinzip für jeden offen. Das bedeutet aber auch, dass an eine Publikation im 19. Jahrhundert andere Qualitätsmaßstäbe angelegt wurden als heute, was wiederum Auswirkungen auf die Wortwahl hat.

Qualität der Schlussfolgerungen

Im letzten Teil dieser Ngram-Reihe werde ich noch auf ein paar Fallstricke eingehen, die Korpusanalysen allgemein – und nicht nur Ngram – betreffen. Denn ein Korpus ist zunächst einmal ein Werkzeug, das – auch wenn es korrekt funktioniert – zu falschen Ergebnissen führen kann. Nämlich dann, wenn man es falsch verwendet.

 

Ein Gedanke zu „Ngram – the dark side

  1. Liebes Doctima-Team,
    vielen Dank für die sehr gute Kritik an der NGram-Analyse. Wer eine detailliertere NGram-Analyse mit eigenem Textmaterial durchführen möchte, kann auch gerne auf mein Tool zurückgreifen: http://notes.jan-oliver-ruediger.de/corpusexplorer/ – kostenfrei! Einige der angeregten Funktionen sind bereits jetzt möglich, die anderen habe ich mir für das kommende Haupt-Release notiert.
    Viele Grüße
    J.O. Rüdiger

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.