{"id":45,"date":"2016-12-12T15:21:51","date_gmt":"2016-12-12T14:21:51","guid":{"rendered":"https:\/\/blogs.uni-paderborn.de\/mwille\/?page_id=45"},"modified":"2018-06-22T08:43:31","modified_gmt":"2018-06-22T06:43:31","slug":"lda-toolkit","status":"publish","type":"page","link":"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/","title":{"rendered":"LDA Toolkit"},"content":{"rendered":"<div class=\"twoclick_social_bookmarks_post_45 social_share_privacy clearfix 1.6.4 locale-de_DE sprite-de_DE\"><\/div><div class=\"twoclick-js\"><script type=\"text\/javascript\">\/* <![CDATA[ *\/\njQuery(document).ready(function($){if($('.twoclick_social_bookmarks_post_45')){$('.twoclick_social_bookmarks_post_45').socialSharePrivacy({\"txt_help\":\"Wenn Sie diese Felder durch einen Klick aktivieren, werden Informationen an Facebook, Twitter, Flattr, Xing, t3n, LinkedIn, Pinterest oder Google eventuell ins Ausland \\u00fcbertragen und unter Umst\\u00e4nden auch dort gespeichert. N\\u00e4heres erfahren Sie durch einen Klick auf das <em>i<\\\/em>.\",\"settings_perma\":\"Dauerhaft aktivieren und Daten\\u00fcber-tragung zustimmen:\",\"info_link\":\"http:\\\/\\\/www.heise.de\\\/ct\\\/artikel\\\/2-Klicks-fuer-mehr-Datenschutz-1333879.html\",\"uri\":\"https:\\\/\\\/blogs.uni-paderborn.de\\\/lingutools\\\/lda-toolkit\\\/\",\"post_id\":45,\"post_title_referrer_track\":\"LDA+Toolkit\",\"display_infobox\":\"on\"});}});\n\/* ]]> *\/<\/script><\/div><p><strong>Was ist LDA Toolkit?<\/strong><\/p>\n<p>Das LDA-Toolkit ist eine Metasoftware f\u00fcr quantitative Korpuslinguistik, die unter sich verschiedene Tools zur Analyse kleinerer und gr\u00f6\u00dferer Sprachdatensammlungen (Korpora) versammelt. Sie wurde vom Sprachwissenschaftler <a href=\"https:\/\/www.friedemann-vogel.de\/\">Friedemann Vogel<\/a> programmiert und wird bisher stetig weiterentwickelt. Das Toolkit dient insbesondere vergleichenden und kontrastiven Analysen durch die Einbindung zweier Korpora, die \u00fcber sprachstatistische Analysen miteinander verglichen und in Beziehung gesetzt werden k\u00f6nnen. Alle Teile des Toolkits stehen als Freeware unter der <a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/3.0\/de\/\">Creatice Commons License f\u00fcr nicht-kommerzielle Zwecke<\/a> zur Verf\u00fcgung. <a href=\"https:\/\/www.friedemann-vogel.de\/index.php\/software\/29-lda-toolkit-korpuslinguistische-arbeitsumgebung-fuer-linguistische-diskurs-und-imageanalysen\">Das Toolkit kann auf der Webseite<\/a> von Friedemann Vogel kostenlos heruntergeladen werden. Wir danken an dieser Stelle Friedemann Vogel f\u00fcr die Bereitstellung.<\/p>\n<p><strong>Vorteile:\u00a0<\/strong><\/p>\n<ul>\n<li>&#8222;kostenlos&#8220; (s.o.) und lokal unter Windows installierbar<\/li>\n<li>verschiedenste Tools bis hin zur Aufbereitung der Visualisierung von Ergebnissen in einer Software. Dadurch ist kein Wechsel zwischen unterschiedlich arbeitetenden Programmen notwendig<\/li>\n<li>Aufbereitung der Daten mit syntaktischen-morphologischen Informationen notwendig, womit aber neben semantischen auch konstruktionsgrammtische und syntaktisch-morphologische Analysen usw. m\u00f6glich sind (kann aber auch Nachteil sein, s.u.).<\/li>\n<li>Workflow-&#8222;Baum&#8220; leitet durch die einzlenen Tools und damit durch die Analyse<\/li>\n<li>Fokus auf quantitative Analyse (kann aber auch Nachteil sein, s.u.)<\/li>\n<\/ul>\n<p><strong>Nachteile:\u00a0<\/strong><\/p>\n<ul>\n<li>Einarbeitungszeit<\/li>\n<li>Aufbereitung der Daten mit syntaktisch-morphologischen Informationen notwendig. Daf\u00fcr bietet Friedemann Vogel das Tool Corpustransfer an. Alternativ kann auch eine Software zur syntaktisch-morphologischen Aufbereitung der Daten, die auch dem Tool <a href=\"http:\/\/friedemann-vogel.de\/software\/corpustransfer\">Corpustransfer<\/a> als Basis dient, verwendet werden.<\/li>\n<li>Kein M\u00f6glichkeit der qualitativen Aufbereitung durch individuelle Annotationen.<\/li>\n<\/ul>\n<p><strong>Nutzungsszenario 1: Der Vergleich von Korpora<br \/>\n<\/strong><\/p>\n<p>Material: zwei Spezialkorpora<\/p>\n<p>Fragestellung: Sie nutzen unterschiedliche Korpora? Weil: Sie haben eine semantisch-pragmatische, diskurslinguistische oder (konstruktions)grammtische usw. Fragestellung und wollen bspw. Korpora unterschiedlicher Zeitr\u00e4ume, unterschiedlicher Akteure, Gruppen, Parteien usw. vergleichen und kontrastieren. Um es einfach zu gestalten, nehmen wir eine simple Fragestellung, die insbesondere die lexikalische Ebene in den Blick nimmt: Wie wird die Einheit Text in der Linguistik und wie im allgemeinen Sprachgebrauch bzw. Alltagssprachgebrauch und Vermittlungssprachgebrauch auf basalerem Niveau (z. B. in Artikeln zu Wikipedia, nicht-linguistischen Beschreibungen) konzeptualisiert? Als Grundlage dienen die Texte, die im Paderborner Textanalyseportal TAP zur Unterst\u00fctzung der Lehre im Bereich der Textlinguistik als Lehrvideos weiterverarbeitet wurden. Sie bieten einen umfassenden fachlichen \u00dcberblick \u00fcber den Themenbereich und st\u00fctzen sich auf diverse fachliche Literatur zur Textanalyse und bilden das fachliche Korpus &#8222;TAP&#8220;. Das zweite Korpus reichern wir mit unterschiedlichsten Texten an wie Definitionen zu &#8222;Text&#8220; aus nicht-linguistischen Quellen und Texten aus \u00f6ffentlichen Korpora des DWDS, in denen das Wort <em>Text<\/em> verwendet wird. Wir nennen dieses Korpus &#8222;Alltagssprache&#8220;. Es liegt auf der Hand, dass damit ein konzeptuell bunt zusammengew\u00fcrfeltes Korpus entsteht z. B. mit Bezug auf unterschiedlichste Textsorten, unterschiedlichste Textproduzenten mit unterschiedlichsten Wissenshintergr\u00fcnden. Die Korpusbildung dient jedoch nur der \u00dcbung und Veranschaulichung.<\/p>\n<p>Vorgehen:<\/p>\n<p>Die Analysesoftware LDA-Toolkit bietet viele ausgefeilte M\u00f6glichkeiten der Analyse, weshalb auch die Texte entsprechend vorbereitet werden m\u00fcssen. Eine dieser M\u00f6glichkeiten ist, auf syntaktisch-morphologische Kategorien der Korpuselemente zur\u00fcckgreifen zu k\u00f6nnen, um bspw. syntaktische Muster innerhalb des Korpus erkennen und bestimmen zu k\u00f6nnen. Hierf\u00fcr m\u00fcssen die beiden Korpora (Korpus TAP und Korpus Alltagssprache) jeweils mit diesen Informationen angereichert werden. Daf\u00fcr werden .txt-Dateien verwendet, die in jedem Betreibssystem mit einem Editor erzeugt werden k\u00f6nnen. Diese .txt-Dateien mit den Texten des jeweiligen Korpus werden, bevor die Arbeit mit dem LDA-Toolkit losgeht, in Programmen wie <a href=\"http:\/\/www.cis.uni-muenchen.de\/~schmid\/tools\/TreeTagger\/\">Treetagger<\/a> oder <a href=\"http:\/\/friedemann-vogel.de\/software\/corpustransfer\">Corpustransfer<\/a> mit syntaktisch-morphologischen Informationen aufbereitet. Der Text wird dabei in einzelne, durch Leerzeichen oder Interpunktion abgegrenzte Zeichenkomplexe zerlegt. Den Zeichenkomplexen werden Wortarteninformationen und Stammformen zugeordnet. Diesen Vorgang nennt man POS-Tagging. Im Bild untene sieht man die Arbeit mit dem Treetagger, f\u00fcr den zuvor die deutsche Sprachdatei im Treetagger-Ordner abgelegt wurde. Alle Einstellungen bleiben nach dem Start des Treetaggers so wie sie sind. Ausgew\u00e4hlt wurde lediglich die deutsche Sprachdatei. Sie w\u00e4hlen die Quell-.txt-Datei und die text-Datei aus, in die das getaggte Korpus \u00fcberf\u00fchrt werden soll und klicken auf &#8222;Run&#8220;.<\/p>\n<p><a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/folie1\/\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-476 size-full\" src=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie1.jpg\" width=\"1280\" height=\"720\" srcset=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie1.jpg 1280w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie1-300x169.jpg 300w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie1-768x432.jpg 768w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie1-1024x576.jpg 1024w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie1-500x281.jpg 500w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/a><\/p>\n<p>Die Zuordnung basiert auf dem dem <a href=\"http:\/\/www.ims.uni-stuttgart.de\/forschung\/ressourcen\/lexika\/TagSets\/stts-table.html\">Stuttgard-T\u00fcbingen-Tagset<\/a> und ist sehr zuverl\u00e4ssig. In unserem Fall wird <em>Textanalyseportal<\/em> mit NN (=Normales Nomen) erkannt, wobei es in diesem Kontext sogar ein Eigenename ist, der jedoch von einem Kompositum mit gebr\u00e4uchlichen Einheiten ausgeht, weshalb hier nicht wie bei <em>TAP<\/em> mit NE (=Eigenname) annotiert wurde. \u00c4nderungsw\u00fcnsche k\u00f6nnen aber vor dem Import in das Toolkit auch direkt in der annotierten .txt-Datei umgesetzt werden. Als Handreichung kann daf\u00fcr das benannte <a href=\"http:\/\/www.ims.uni-stuttgart.de\/forschung\/ressourcen\/lexika\/TagSets\/stts-table.html\">Tagset<\/a> dienen.<\/p>\n<p><a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/folie2\/\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-478 size-full\" src=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie2.jpg\" width=\"1280\" height=\"720\" srcset=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie2.jpg 1280w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie2-300x169.jpg 300w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie2-768x432.jpg 768w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie2-1024x576.jpg 1024w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie2-500x281.jpg 500w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/a><\/p>\n<p>Wurden beide Korpora getaggt, k\u00f6nnen sie in das Toolkit \u00fcber den Registerreiter &#8222;Einstellungen&#8220; geladen werden. Das Toolkit erlaubt das Abspeichern des Arbeitsstandes, weshalb dieser Vorgang nicht immer wiederholt werden muss.<\/p>\n<p>Zus\u00e4tzlich lassen sich \u00fcber das Toolkit graphische Darstellungen der nummerischen Ergebnisse erzeugen. Daf\u00fcr ist eine Schnittstelle zur Software <a href=\"https:\/\/www.graphviz.org\/\">GraphViz<\/a> integriert. Die Software muss \u00fcber den Link, der im Programm hinterlegt ist, heruntergeladen werden und das Verzeichnis von GraphViz bis zum Ordner &#8222;\\bin&#8220; muss im Toolkit angegeben werden.<\/p>\n<p><a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/folie3\/\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-480 size-full\" src=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie3.jpg\" width=\"1280\" height=\"720\" srcset=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie3.jpg 1280w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie3-300x169.jpg 300w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie3-768x432.jpg 768w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie3-1024x576.jpg 1024w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie3-500x281.jpg 500w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/a><\/p>\n<p>Nun kann man \u00fcber den Registerreiter &#8222;LDA-Baum&#8220; zur Analyseoberfl\u00e4che wechseln. Vor der Analyse ist es notwenig, \u00fcber &#8222;Alle bestimmen&#8220; die Token und Lemmata der beiden Korpora zu bestimmen. Das gibt auch schon einen \u00dcberblick \u00fcber die quantitativen Verh\u00e4ltnisse beider Korpora.<\/p>\n<p><a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/folie4\/\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-482 size-full\" src=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie4.jpg\" width=\"1280\" height=\"720\" srcset=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie4.jpg 1280w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie4-300x169.jpg 300w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie4-768x432.jpg 768w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie4-1024x576.jpg 1024w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie4-500x281.jpg 500w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/a><\/p>\n<p>Unter &#8222;LDA-Baum&#8220; findet man alle Analysem\u00f6glichkeiten. Neben dem gro\u00dfen Analysefenster links h\u00e4lt das Toolit rechts eine Reihe an Registerreitern bereit mit verschiedenen Analysem\u00f6glichkeiten. Sinnvoll ist der Registerreiter &#8222;ToDo&#8220; gerade f\u00fcr Neulinge. Friedemann Vogel bietet hier einen kompletten Workflow, der durch die Analysem\u00f6glichkeiten der Korpuslinguistik bezogen auf das Toolkit f\u00fchrt. Die Bedeutung der einzelnen Spalten des linken Analysefensters sind in der Dokumentation zum Toolkit aufgef\u00fchrt. Die Dokumentation befindet sich nach der Installation im Verzeichnis der Programme.<\/p>\n<p>Keywordanalyse<\/p>\n<p>Mit der Keywordanalyse werden Schl\u00fcsselw\u00f6rter herausgefunden, deren Werte als absolute oder relative (z. B. relativ zur Gesamtgr\u00f6\u00dfe des Korpus, weitere Informationen zur absoluten, relativen H\u00e4ufigkeit und Wahrscheinlichkeitsverteilung finden Sie unter Links.) angegeben werden. Schon an dieser Stelle k\u00f6nnen POS-Annotation genutzt werden, um erste Eingrenzungungen zu machen. Hier wurde die Schl\u00fcsselwortanalyse auf substantivische Einheiten (NN, NE) beschr\u00e4nkt, um zu schauen, ob es eine spezielle (nominale) Fachterminologie gibt, die im alltagssprachlichen Gebrauch oder in alltagssprachlichen Definitionen und Auffassungen \u00fcber die Einheit Text nicht zu finden sind. Die markierten Einheiten zeigen nur im fachlichen Korpus vorhandene Ausdr\u00fccke, die zu einer linguistischen Definition von Text herangezogen werden. Im Korpus Alltagssprache sind diese nicht zu finden. Eine St\u00e4rke des Toolkit ist der Vergleich von Korpora. Die Ergebnissen zeigen deshalb nicht nur, dass bestimmte Einheiten h\u00e4ufig und relativ h\u00e4ufig vorkommen, sondern auch, ob sie im Quellkorpus (hier: TAP) signifikant (also im Vergleich zum Referenzkorpus, hier: Alltagssprache) vorkommen. Interessant erscheint in dieser Ergebnisliste der Ausdruck <em>Satz<\/em>, der in beiden Korpora vorkommt, aber anscheinend im Quellkorpus \u00f6fter. <em>Satz<\/em> scheint vorerst konstitutiv f\u00fcr das Verst\u00e4ndnis von Text im Fachlichen wie im Alltagssprachlichen.<\/p>\n<p><a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/folie5\/\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-484 size-full\" src=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie5.jpg\" width=\"1280\" height=\"720\" srcset=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie5.jpg 1280w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie5-300x169.jpg 300w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie5-768x432.jpg 768w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie5-1024x576.jpg 1024w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie5-500x281.jpg 500w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/a><\/p>\n<p><a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/folie6\/\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-486 size-full\" src=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie6.jpg\" width=\"1280\" height=\"720\" srcset=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie6.jpg 1280w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie6-300x169.jpg 300w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie6-768x432.jpg 768w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie6-1024x576.jpg 1024w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie6-500x281.jpg 500w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/a><\/p>\n<p>Eine weitere St\u00e4rke des Toolkit ist die Weiterverarbeitung der Ergebnisse im Analysefenster. Die einzelnen Ergebnisse werden dort gespeichert (hier: vier Keywordanalysen), k\u00f6nnen in der Baum-Suche oben durchsucht und gefiltert werden, an weitere Analysem\u00f6glichkeiten wie der Keywords-in-Kontext-Analyse durch Markierung im Verzeichnisbaum weitergegeben werden oder die Analyseergebnisse k\u00f6nnen durch Rechtsklick auf den obersten Knoten (hier jeweils Keywords) exportiert werden. \u00dcber einen Doppelklick kann jeder Verzeichnisbaum oder einzelne Datens\u00e4tze des Baums mit Kommentaren versehen werden. In allen Registerreitern k\u00f6nnen die Analyse filternde neue Ausdr\u00fccke oder Ausdr\u00fccke aus dem Verzeichnisbaum als Muster (Lemmata) oder als flektierte Wortformen (Token) verwendet bzw. \u00fcbernommen werden. Zudem k\u00f6nnen die Suchergebnisse entsprechend auf Lemmata oder Token erweitert oder eingeschr\u00e4nkt werden.<\/p>\n<p>KWIC &#8211; Keywords-in-Kontext<\/p>\n<p>Ein Blick in die Belege zeigt mehr \u00fcber das Vorkommen des Ausdrucks <em>Satz<\/em>, der hier ausgew\u00e4hlt wurde. Die KWIC-Ansicht erlaubt den Einblick in den Kontext von Ausdr\u00fccken und Ausdruckskomplexen bzw. Clustern. Sie beschr\u00e4nkt sich jedoch nur auf ein Korpus, weshalb neben anderen Einstellungen jeweils ausgew\u00e4hlt werden muss, welches Korpus hier durchsucht werden soll.\u00a0Neu hinzu kommt die Funktion, nicht nur die Suchergebnisse aus dem Baum zu \u00fcbernehmen, sondern auch die Suche auf einzelne Knoten festzulegen, indem diese als Kotext f\u00fcr die Suche definiert werden. Diese Einstellung ist auch bei der Analyse von Kookkurrenzen m\u00f6glich.<\/p>\n<p>Im fachlichen Quellkorpus ist zu erkennen, dass in den Belegstellen immer wieder auf die Beziehung von Einheiten in verschiedenen S\u00e4tzen im Sinne einer transphrastischen Auffassung von Text, in der solche Einheiten satz\u00fcbergreifend und satzverbindend wirken, w\u00e4hrend im Referenzkorpus Satz immer wieder als Orientierungsgr\u00f6\u00dfe im Text konzeptualisiert wird.<\/p>\n<p><a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/folie7\/\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-488 size-full\" src=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie7.jpg\" width=\"1280\" height=\"720\" srcset=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie7.jpg 1280w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie7-300x169.jpg 300w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie7-768x432.jpg 768w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie7-1024x576.jpg 1024w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie7-500x281.jpg 500w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/a><\/p>\n<p>Cluster-Analyse<\/p>\n<p>Durch die Analyse von Clustern oder N-Grammen werden im Korpus verfestigte Mehrwortverbindung ausgehend von einem Ausgangsterm (Cluster) oder als nicht n\u00e4her zuvor determinierte Mehrwortverbindungen gesucht. Cluster mit Ausgangsterm k\u00f6nnen mit der Einstellung POS-Gramme auf das grammtische Muster, welches hinter der Mehrworteinheit steht, hin eingeschr\u00e4nkt werden. Das Ergebnis sind Mehrwortkomplexe, deren Gr\u00f6\u00dfe zuvor festgelegt werden kann und die immer wieder in dieser Verbindung vorkommen. Die Analyse von Clustern oder N-Grammen ist immer ein Abgleich beider Korpora, weshalb hier die Siginfianz der Mehrworteinheit oder des grammtischen Musters in Abgleich mit dem Referenzkorpus im Vordergrund steht. In unserem Fakll sind jedoch keine analytisch interessanten Cluster oder N-Gramme auszumachen.<\/p>\n<p><a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/folie8\/\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-490 size-full\" src=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie8.jpg\" width=\"1280\" height=\"720\" srcset=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie8.jpg 1280w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie8-300x169.jpg 300w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie8-768x432.jpg 768w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie8-1024x576.jpg 1024w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie8-500x281.jpg 500w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/a><\/p>\n<p>Analyse von Kookkurrenzen<\/p>\n<p>Kookkurrenzen als linke und rechte &#8222;Mitspieler&#8220; von W\u00f6rtern im Korpus werden dann interessant, wenn ihre Signifikanz zu anderen Kookkurenzen in den Blick genommen wird. Welche Reichweite solche Kookkurenzen links und rechts von vorher festgelegten neuen oder aus dem Verzeichnisbaum entnommenen Einheiten haben sollen, kann festgelegt werden. Man sucht im ganzen Korpus bzw. in beiden Korpora mit spezifischen Fragestellungen: z. B. wie die Einheit <em>Text<\/em> konzeptuell n\u00e4her spezifiziert wird. Bspw. k\u00f6nnen semantisch spezifizierend wirkende Attribuierung \u00fcber die linksseitigen Mitspieler als Adjektivattribute gesucht werden. Auf das Quellkorpus bezogen zeigen sich Schwerpunkte der Texte zu den den Textanalyse-Videos vom TAP, n\u00e4mlich wie spezifische Mittel verwendet werden um Textverdichtung und Textoptimierung zu erreichen.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-492\" src=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie9.jpg\" alt=\"\" width=\"1280\" height=\"720\" srcset=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie9.jpg 1280w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie9-300x169.jpg 300w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie9-768x432.jpg 768w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie9-1024x576.jpg 1024w, https:\/\/blogs.uni-paderborn.de\/lingutools\/files\/2018\/06\/Folie9-500x281.jpg 500w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/p>\n<hr \/>\n<p><strong>Nutzungsszenario 2: Die Arbeit mit einem Spezialkorpus<br \/>\n<\/strong><\/p>\n<p>Material: ein Spezialkorpus, ein Referenzkorpus<\/p>\n<p>Fragestellung: Sie nutzen ein Korpus, m\u00f6chten aber nicht mit &#8222;absoluten&#8220; Werten arbeiten, sondern wissen, ob die gewonnenen Ergebnisse nur in ihrem Spezialkorpus in dieser Weise, Form und Frequenz\/H\u00e4ufigkeit vorkommen? Dies ist m\u00f6glich, indem man sich ein die deutsche Sprache m\u00f6glichst repr\u00e4sentativ abbildendes sogenanntes Referenzkorpus zusammenstellt. Durch den statistischen Abgleich des eigenen Spezialkorpus mit diesem Referenzkorpus erh\u00e4lt man nicht nur relative Werte, sondern statistisch valide Wahrscheinlichkeitsverteilungen, die abbilden wie sich bspw. das Vorkommen eines Wortes oder einer Wortform im Spezialkorpus zum Vorkommen im Referenzkorpus verh\u00e4lt. Weitere Informationen zur absoluten, relativen H\u00e4ufigkeit und Wahrscheinlichkeitsverteilung finden Sie unter Links. F\u00fcr eine Zusammenstellung eines Referenzkorpus sind unterschiedliche Datenquellen geeigenet z. B. das <a href=\"http:\/\/www1.ids-mannheim.de\/kl\/projekte\/korpora.html\">DeReKo<\/a> des Instituts f\u00fcr deutsche Sprache Mannheim, das <a href=\"https:\/\/www.dwds.de\/\">DWDS<\/a> oder kommerzielle Datenbanken wie LexisNexis. Mehr zum Thema Korpora finden Sie auf unseren Seiten unter <a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/korpora\/\">Korpora<\/a>.<\/p>\n<p>Die Beschreibung der Analyse folgt der Vergleichs zweier Korpora mit besonderem Blick auf das Spezialkorpus und wie sich die Ergebnisse zum allgemeinen Sprachgebrauch verhalten.<\/p>\n<hr \/>\n<p><strong>Weiterf\u00fchrende Links:<\/strong><\/p>\n<p>Webseite von Friedemann Vogel<\/p>\n<p><a href=\"https:\/\/www.friedemann-vogel.de\/index.php\/software\">https:\/\/www.friedemann-vogel.de\/index.php\/software<\/a><\/p>\n<p><a href=\"https:\/\/www.friedemann-vogel.de\/index.php\/software\/29-lda-toolkit-korpuslinguistische-arbeitsumgebung-fuer-linguistische-diskurs-und-imageanalysen\">https:\/\/www.friedemann-vogel.de\/index.php\/software\/29-lda-toolkit-korpuslinguistische-arbeitsumgebung-fuer-linguistische-diskurs-und-imageanalysen<\/a><\/p>\n<p>Youtube-Kanal von Friedemann Vogel<\/p>\n<p><iframe loading=\"lazy\" title=\"Das LDA-Toolkit - Analyseplattform f\u00fcr linguistische Diskurs- und Imageanalysen\" width=\"660\" height=\"495\" src=\"https:\/\/www.youtube.com\/embed\/TRSNFiTX8ZI?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe><\/p>\n<p>Quelle: <a href=\"https:\/\/www.youtube.com\/watch?v=TRSNFiTX8ZI\">https:\/\/www.youtube.com\/watch?v=TRSNFiTX8ZI<\/a><\/p>\n<p>H\u00e4ufigkeitsma\u00dfe in der Korpuslinguistik<\/p>\n<p><a href=\"http:\/\/www1.ids-mannheim.de\/kl\/dokumente\/freqMeasures.html\">http:\/\/www1.ids-mannheim.de\/kl\/dokumente\/freqMeasures.html<\/a><\/p>\n<p><a href=\"http:\/\/homepage.ruhr-uni-bochum.de\/Stephen.Berman\/Korpuslinguistik\/H%C3%A4ufigkeitsma%C3%9Fe.html\">http:\/\/homepage.ruhr-uni-bochum.de\/Stephen.Berman\/Korpuslinguistik\/H%C3%A4ufigkeitsma%C3%9Fe.html<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Was ist LDA Toolkit? Das LDA-Toolkit ist eine Metasoftware f\u00fcr quantitative Korpuslinguistik, die unter sich verschiedene Tools zur Analyse kleinerer und gr\u00f6\u00dferer Sprachdatensammlungen (Korpora) versammelt. Sie wurde vom Sprachwissenschaftler Friedemann Vogel programmiert und wird bisher stetig weiterentwickelt. Das Toolkit dient insbesondere vergleichenden und kontrastiven Analysen durch die Einbindung zweier Korpora, die \u00fcber sprachstatistische Analysen miteinander &hellip; <a href=\"https:\/\/blogs.uni-paderborn.de\/lingutools\/lda-toolkit\/\" class=\"more-link\"><span class=\"screen-reader-text\">LDA Toolkit<\/span> weiterlesen<\/a><\/p>\n","protected":false},"author":7825,"featured_media":63,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-45","page","type-page","status-publish","has-post-thumbnail","hentry"],"_links":{"self":[{"href":"https:\/\/blogs.uni-paderborn.de\/lingutools\/wp-json\/wp\/v2\/pages\/45","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogs.uni-paderborn.de\/lingutools\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/blogs.uni-paderborn.de\/lingutools\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.uni-paderborn.de\/lingutools\/wp-json\/wp\/v2\/users\/7825"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.uni-paderborn.de\/lingutools\/wp-json\/wp\/v2\/comments?post=45"}],"version-history":[{"count":36,"href":"https:\/\/blogs.uni-paderborn.de\/lingutools\/wp-json\/wp\/v2\/pages\/45\/revisions"}],"predecessor-version":[{"id":918,"href":"https:\/\/blogs.uni-paderborn.de\/lingutools\/wp-json\/wp\/v2\/pages\/45\/revisions\/918"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blogs.uni-paderborn.de\/lingutools\/wp-json\/wp\/v2\/media\/63"}],"wp:attachment":[{"href":"https:\/\/blogs.uni-paderborn.de\/lingutools\/wp-json\/wp\/v2\/media?parent=45"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}