Wörtern auf der Spur mit Google Ngram

Wörtern auf der Spur

(c) grim12 via freeimages.com

Verwenden Leute eigentlich noch „Handy“? Ist „Klapprechner“ im Alltag angekommen? Haben die Menschen früher wirklich „einer Sache abhold sein“ gesagt? Solche Fragen tauchen in Diskussionen immer wieder auf. Es gibt dann meist ein erbittertes Für und Wider und am Ende ist keiner schlauer. Es wäre doch schön, wenn man solche Fragen bequem lösen könnte. Nun, die gute Nachricht ist: Eine solche Möglichkeit gibt es. Google stellt dafür ein kostenloses Tool bereit, den Ngram Viewer. Es ist ein Teil von Google Books und im Zoo der Google Anwendungen leider etwas versteckt platziert.

Was kann Google Ngram?

Google Ngram stellt die Häufigkeiten von Begriffen im Korpus von Google Books dar. Soweit so einfach. Den Suchzeitraum kann man frei wählen zwischen 1800 und 2008. Durchsuchen lassen sich neben diversen englisch-sprachigen Korpora auch Chinesisch, Deutsch, Französisch, Hebräisch, Italienisch, Russisch und Spanisch.

Außerdem lassen sich mehrere Begriffe gleichzeitig suchen. Das Ganze lässt sich dann  übersichtlich in einem Kurvendiagramm miteinander vergleichen. Sehr schön ist dabei die Funktion, die mit einem Mouseover-Effekt an jedem Punkt der Kurve die exakten Werte anzeigt. Klickt man auf eine Kurve des Diagramms, werden alle anderen Kurven ausgegraut – auch das eine schöne Darstellungsoption.

Google Ngram bietet für die Suche Wildcards, d. h. „*“ als Platzhalter für beliebige Zeichenfolgen. In einer Checkbox lässt sich angeben, ob Groß- und Kleinschreibung beachtet werden soll. Das kennt man so oder so ähnlich auch aus der Google Web Suche. Allerdings kann man bei Ngram nicht wie gewohnt mit Minus („-„) Begriffe ausschließen, die nicht zusammen mit dem gesuchten Begriff vorkommen sollen; ein kleiner Schwachpunkt, der hoffentlich irgendwann einmal behoben wird.

Mehr als die Google Web Suche

Ngram: Beispiel "Thomas'

Beispiel-Diagramm für Thomas‘

Google Ngram kann andererseits auch sehr viel mehr als die Google Websuche. Das beginnt mit einem kleinen aber wichtigen Detail: Bei Ngram lässt sich auch nach einigen wichtigen Sonderzeichen suchen. „Thomas'“ berücksichtigt hier die exakte Schreibung und gibt nicht willkürlich Ergebnisse zu „Thomas“ aus.

Außerdem kann man – und jetzt kommen die wirklich mächtigen Funktionen – Ngram für die Suche verschiedene Parameter mitgeben. Hängt man an einen Begriff“_INF“ an, so gibt Ngram alle flektierten Formen des Wortes aus: „seek_INF“ gibt nicht nur wie zu erwarten „seeks“ und „seeking“ aus, sondern auch das starke Präteritum „sought“. Beeindruckend ist das im Deutschen, wo z. B. „sprechen_INF“ ein Diagramm mit 19 verschiedenen Flektionsformen ausgibt.

Ngram: Beispiel "sprechen"

Beispiel-Diagramm für „sprechen“

Sie merken schon: Hier arbeitet eine echte Morphologie im Bauch der Ngram-Datenbank. Deshalb kann Google die Funktionalität sogar noch einen Schritt weiter drehen: Mit Part-of-Speech-Tagging lässt sich in der Suche angeben, welche Wortart man meint. Das hilft zum Beispiel um zwischen „water_NOUN“ (Wasser) und „water_VERB“ (gießen) zu unterscheiden. Man kann die Part-of-Speech-Tags sogar mit Wildcards verknüpfen und mit „a *_ADJ book“ so z. B. die häufigsten Adjektiv-Kombinationen zu „Buch“ herausfinden. Für das Deutsche scheint das allerdings nicht wirklich zu funktionieren: Eine Suche nach „modern“ liefert nur Werte für das Adjektiv, nicht jedoch für (ver)modern.

Fazit

Google Ngram ist ein mächtiges und darüber hinaus auch noch kostenloses Werkzeug für alle, die Wörtern und Ausdrücken gerne genauer nachspüren. Besonders gut funktioniert das für das englische Korpus, bei deutschen Texten muss man mit einigen Einschränkungen rechnen. Und auch an anderer Stelle ist Vorsicht angebracht. Mehr dazu im nächsten Blog-Post.

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.