Korpora

Im Folgenden finden Sie eine Auswahl gängiger Textkorpora, Analysesysteme und Archive der Deutschen Sprache, die sich für eigene linguistische Analysen eignen. Die Korpora sind größtenteils frei zugänglich und beinhalten schriftsprachliches Textmaterial aus verschiedenen Zeiträumen und Textgattungen.

Das Korpus entstand im Rahmen einer Längsschnittuntersuchung zur Entwicklung der Textsortenkompetenz von Kindern in der 2., 3. und 4. Klasse. Die Kinder erhielten die Aufgabe, im Rahmen verschiedener kommunikativer Anforderungen zu schreiben: Erzählung, Bericht, Instruktion, Beschreibung und Argumentation. Die Korpusdaten sind frei zugänglich und eignen sich für eigene Untersuchungen, in denen es um linguistische und/oder didaktische Fragestellungen geht.

Auszug aus dem Korpus „Text-Sorten-Kompetenz“ (Quelle: http://www.uni-koeln.de/phil-fak/deutsch/pohl/tsk/PDFs/Korpus_Kinder%20neu.pdf)

„COSMAS II“ ist das Korpusrecherche- und Analysesystem des Instituts für Deutsche Sprache und stellt mit über 40 Mrd. laufenden Wortformen das derzeit größte Korpus deutschsprachiger Schriftsprache dar. Das System eignet sich sowohl für die Recherche als auch für detaillierte linguistische Suchanfragen. Die Registrierung ist kostenlos, COSMAS II kann sowohl direkt im Browser als auch als lokale Anwendung genutzt werden. Das Archiv enthält historisches und gegenwartssprachliches  Textmaterial aus Zeitschriften, Zeitungen, der Fachliteratur, der Belletristik uvm. Dank der ausführlichen Dokumentation kann sich der Benutzer in die Funktionen des Systems eigenständig einarbeiten.

Auszug Konkordanzanalyse mit COSMAS 2

Das „Deutsche Textarchiv“ ist ein Referenzkorpus der neuhochdeutschen Sprache vom 16. bis zum 19. Jahrhundert und umfasst über 600.000 volltextdigitalisierte Seiten mit Bild- und Textansicht. Sämtliche Texte stehen zum freien Download bereit und bieten eine gute Grundlage für sprachhistorische Hausarbeiten oder Qualifikationsarbeiten. Die im DTA verfügbaren Werke stammen aus den Bereichen Wissenschaft, Gebrauchsliteratur, Zeitung und Belletristik. Das DTA bietet vielfache Funktionen der linguistischen Konkordanzanalyse, das Textmaterial ist hierzu mit linguistischen Kriterien wie Wortarten oder Lemmatisierungen angereichert.

Verlaufskurve Suchbegrif „Linguistik“ im DTA-Korpus (Quelle: http://www.deutschestextarchiv.de/search/plot/?query=Linguistik)

Studierende und MitarbeiterInnen der Universität Paderborn haben die Möglichkeit, auf die digitalisierten Ausgaben der „Frankfurter Allgemeinen Zeitung“ und ihrer Sonntagsausgabe sowie der „Frankfurter Rundschau“ über das Bibliotheksportal zuzugreifen. Sämtliche Ausgaben der Zeitungen ab 1993 liegen digitalisiert vor und können für wissenschaftliche Zwecke frei genutzt werden. Dieses täglich aktualisierte  Korpus bietet ausreichend Textmaterial, um etwa zeitgeschichtlichen Fragestellungen nachzugehen, um das Verhältnis zwischen Sprache und Gesellschaft zu untersuchen oder um die Sprache der Öffentlichkeit zu analysieren.

Auszug FAZ-Bibliotheksportal (Quelle: http://faz-archiv-approved.faz.net/intranet/biblionet/r_suche/FAZ.ein?WID=10845-5000097-41736_1)

Ähnlich wie die „FAZ“ bietet auch „Die ZEIT“ ein Onlinearchiv ihrer Zeitungsausgaben. Benutzer können die ZEIT-Ausgaben ab dem Jahr 1946 abrufen und einzelne Artikel direkt aufrufen. Die Ausgaben sind chronologisch geordnet und trotz fehlender Such- und Filtermöglichkeiten bietet das Zeitungsmaterial eine interessante Untersuchungsgrundlage für LinguistInnen.

Auszug Nachrichtenarchiv „Die Zeit“ (Quelle: http://www.zeit.de/1947/index)

Auch der „SPIEGEL“ stellt seine Zeitschriftenausgaben seit 2000 in einem Onlinearchiv zur freien Verfügung. Nutzerinnen und Nutzer erhalten Zugang zu den einzelnen Artikeln der chronologisch geordneten Ausgaben, Such-, Filter- und Konkordanzfunktionen bietet das Archiv nicht an.

Auszug Nachrichtenarchiv „Spiegel Online“ (Quelle: http://www.spiegel.de/nachrichtenarchiv/artikel-04.10.2000.html)

Das DWDS-Kernkorpus besteht aus über 100 Mio. Textwörtern zur Sprache des 20. Jahrhunderts und ist als lexikografisches Korpus konzipiert, weshalb es sich besonders für Wortschatzuntersuchungen eignet. Es besteht aus Texten der Bereiche Belletristik, Gebrauchsliteratur, Wissenschaft, Zeitung und Gesprochene Sprache und bietet eine Fülle von Such- und Filtermöglichkeiten zur spezifischen Suche sprachlicher Ausdrücke. Dank automatischer statistischer Auswertungen (Wortverlaufskurven, Wortprofile) eignet sich das DWDS zur wissenschaftlich fundierten Recherche und zur explorativen Datendurchsuchung. Über die Homepage des DWDS hat der Nutzer u.a. auch Zugriff auf die digitalisierte Version des Deutschen Wörterbuchs von Jacob und Wilhelm Grimm (offizieller Link hier).

Auszug Konkordanzsuche „Linguistik“ im DWDS (Quelle: https://www.dwds.de/r?q=Linguistik&corpus=kern&date-start=1900&date-end=1999&genre=Belletristik&genre=Wissenschaft&genre=Gebrauchsliteratur&genre=Zeitung&format=kwic&sort=date_asc&limit=10)

Dieses Korpus besteht aus althochdeutschen und altniederdeutschen Texten (ca. 750 bis 1050), die mittels linguistischer Annotationskriterien aufwändig annotiert wurden. Das Material ist über das browserbasierte Korpustool ANNIS durchsuchbar. Die linguistische Annotation umfasst die Wortarten, morphologische Informationen und Angaben zu den Sätzen, des Weiteren werden Zeilenumbrüche, Absätze und andere Mittel zur Textgliederung ebenso wie Angaben zu Versgliederung und Reimpositionen, soweit vorhanden, erfasst. Auf den Seiten des DDD finden Sie eine kurze Schritt-für-Schritt-Anleitung, wie Sie in ANNIS Suchanfragen formulieren können.

Auszug eines annotierten Textes des „DDD“ in „ANNIS“ (Quelle: https://korpling.german.hu-berlin.de/annis3/ddd#_q=ZG9jdW1lbnQ&_c=RERELUFELUJlbmVkaWt0aW5lcl9SZWdlbF8xLjA&cl=5&cr=5&s=0&l=10&_seg=ZWRpdGlvbg)