Ngram und Du

Pinocchio

Wenn die Daten lügen…
(c) doctima, E. Hellfritsch

Im letzten Teil unserer kleinen Ngram-Reihe möchte ich noch auf ein paar Punkte bei der Interpretation von Ngram-Ergebnissen eingehen. Denn, wenn man nicht aufpasst, lassen sich auch aus richtigen Ergebnissen die falschen Schlüsse ziehen. Und leider lässt sich Ngram nicht an der Nasenspitze ablesen, ob die Ergebnisse lügen.

Vorhanden heißt nicht (unbedingt) korrekt

Nur weil sich Begriffe in einem Korpus finden lassen, heißt das nicht, dass diese von Muttersprachlern auch als korrekt beurteilt werden. Oft wird ja aus der Häufigkeit auf die Korrektheit eines Begriffs geschlossen. Dass das nicht stimmt, zeigt ein kleiner Test: „lingusitic“ ist ein beliebter Buchstabendreher, der auch mir gern passiert. „Beliebt“ also, aber nicht korrekt. Eine Suche danach ergibt in der Spitze einen Wert von 0,0000007792 %:

Das ist deutlich mehr als Bahuvrihi schafft, ein korrekter (aber selten verwendeter) Fachbegriff aus der Wortbildungslehre. Denn das schafft auch unter günstigsten Umständen nur einen Anteil von 0,0000006241 % an den erwähnten Begriffen.


Richtig oder falsch – aus der Häufigkeit lässt sich das also nicht einfach so entscheiden.

Zusammen heißt nicht weil

Ein weiteres Missverständnis bei der Auswertung von Korpora hat mit der Verwechslung von Zusammenhängen und Ursachen zu tun. Denn wenn sich eine Veränderung beobachten lässt, dann gibt es grundsätzlich drei mögliche Gründe dafür:

  1. Einflussgröße A verursacht die Veränderung bei Einflussgröße B
  2. Einflussgröße B verursacht die Veränderung bei Einflussgröße A.
  3. Die Veränderung wird durch eine dritte Ursache bewirkt, die nur mittelbar mit den beiden beobachteten Werten zu tun hat.

Anhand der beobachteten Werte können wir also grundsätzlich nicht entscheiden, was die Veränderung verursacht hat. Allerdings können wir feststellen, ob der Zusammenhang überhaupt existiert. So könnte man zum Beispiel behaupten, dass das englische „date“ das deutsche „Stelldichein“ verdrängt hat. Mit diesem Ngram lässt sich das leicht widerlegen:

Denn zwischen der Entwicklung von „Stelldichein“ und „Date“ lässt sich kein eindeutiger Zusammenhang herstellen (eher noch zwischen „Rendezvous“ und „Date“). Und wo kein Zusammenhang ist, kann es auch keine Ursache geben.

Birne heißt nicht Apfel

Außerdem gibt es auch noch Fälle, bei denen man sich nicht klar genug macht, was man da eigentlich misst. Ich will das einmal an dem – einigermaßen suggestiven – Beispiel zeigen, das Google auf seiner Hilfeseite verwendet: Die Wildcard-Suche nach „University of …“

Aha! Acht amerikanische Universitäten platzieren sich hier in dem Ranking, bevor die traditionsreichen englischen Universitäten auftauchen. Sind die amerikanischen Universitäten aber in der öffentlichen Diskussion wirklich so viel präsenter? Das Bild kippt schnell, wenn man es zu folgendem Ngram in Bezug setzt.

Das heißt: Aus einer Bezeichnung lässt sich nicht blind auf das bezeichnete Objekt schließen. Bei den Auswertungen und Rückschlüssen muss ich immer berücksichtigen, ob es Synonyme gibt oder häufige Fehlschreibungen.

Fragen zum Schluss:

Damit sind wir am Ende unserer kleinen Ngram-Reihe. Zu guter Letzt würde mich interessieren: Wozu verwendet ihr Ngram? Was sind Eure Erfahrungen mit Ngram? Habt ihr Tipps und Tricks? Und auf Fallstricke seid ihr gestoßen? Schreibt es uns in die Kommentare.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.