Uni-Siegen
14. März 2017Korpus und Statistikworkshop
In diesem Methodenseminar für LinguistInnen wird in die Grundlagen der quantitativen empiri­schen Forschung kom­pakt und überblickshaft eingeführt. Der Schwerpunkt liegt auf der statisti­schen Analyse, als Daten werden Korpusdaten verwendet. Eine Einführung in die Arbeit mit Korpo­ra ist daher in das...
Erstelle deinen persönlichen Lernplan
Wir helfen dir, diesen Kurs optimal vorzubereiten — mit einem individuellen Lernplan, Tipps und passenden Ressourcen.
Jetzt Lernplan erstellenIn diesem Methodenseminar für LinguistInnen wird in die Grundlagen der quantitativen empirischen Forschung kompakt und überblickshaft eingeführt. Der Schwerpunkt liegt auf der statistischen Analyse, als Daten werden Korpusdaten verwendet. Eine Einführung in die Arbeit mit Korpora ist daher in das Seminar integriert. Die statistischen Verfahren sind allerdings in gleichem Maß für andere Arten von Daten in der Linguistik anwendbar (z.B. Grammatikalitätsurteile, Lesezeiten). Vorkenntnisse sind nicht erforderlich. TeilnehmerInnen werden durch das Seminar vor allem in die Lage versetzt, sich selbständig in methodischen Fragen (insbesondere Statistik) weiterzubilden.
Methodisch wechseln sich Vorlesung und Übung ab, indem jeder der thematischen Blöcke (bis auf die ersten beiden) mit einem Vorlesungsteil beginnt und in einen Übungsabschnitt mündet. Es wird mit der freien Statistiksoftware R und der Benutzeroberfläche RStudio gearbeitet, Korpusanfragen erfolgen innerhalb von R mittels der Bibliothek rcqp, einer Anbindung von R an die IMS Open Corpus Workbench (CWB). Teilnehmer erhalten vom Dozenten einen zeitlich begrenzten Zugang zu einer Server-Version von RStudio und benötigen daher nur einen aktuellen Browser und Internetzugang, um den Kurs zu absolvieren. Vor allem für Teilnehmer, die im Anschluss an das Seminar autark weiterarbeiten möchten, gibt es folgende alternative Möglichkeiten:
1. Eigene native Installation
• Benutzer von GNU/Linux können R, RStudio und rcqp selber problemlos installieren.
• Für OSX-Benutzer gilt (vermutlich) dasselbe. Der Dozent kann aber keinerlei spezifische Hilfestellung für OSX-Systeme (vulgo -Macintosh-) geben.
• Windows-Benutzer können R und RStudio installieren. Allerdings funktioniert rcqp unter Windows nicht. Korpusanfragen müssen gesondert durchgeführt werden und die Ergebnisse in R importiert werden. Das ist allerdings problemlos möglich und wird im Seminar behandelt.
http://cran.r-project.org/
http://www.rstudio.com/
http://cran.r-project.org/package=rcqp
2. Virtuelle Maschine
Auf leistungsfähigen PCs (egal welches Betriebssystem; im Fall von Windows wird allerdings dringend exakt die Version 7 empfohlen) kann die freie Software VirtualBox installiert werden. Darin kann ein GNU/Linux mit R, RStudio und rcqp gestartet werden, das vom Dozenten fertig konfiguriert zur Verfügung gestellt wird. Der PC sollte bei dieser Variante mindestens einen Doppelkern-Prozessor und 4 GB RAM haben. Sie benötigen außerdem 15 GB freien Festplattenspeicher. Als einfache Leistungsmessung für Windows-Systeme gilt: Stoppen Sie die Bootzeit Ihres PCs (vom Anschalten bis der Desktop in einsatzfähigem Zustand ist). Dauert der Bootvorgang merklich länger als zwei Minuten, werden Sie mit VirtualBox nicht vernünftig arbeiten können.
http://www.virtualbox.org/
Struktur der Lehrveranstaltung (inkl. veranschlagter Stunden)
1 Wissenschaft und quantitative Forschung (1)
2 Prinzipien der Statistik (2)
3 Benutzung von R/RStudio und Korpora (CQP, Cosmas) (4)
4 Deskriptive Statistik (3)
5 Nichtparametrische Tests für Zähldaten (χ², Fisher, Chancenverhältnis) (3)
6 t-Test, ANOVA und Alternativen (Mann-Whitney, Kruskal-Wallis) (4)
7 Lineare Modelle (LM) und generalisierte lineare Modelle (GLM) (4)
8 Eigene Studie (5)
Germanistik - Sprachwissenschaft II
Universität Siegen
SoSe 2014
Dr.
Schäfer Roland