Tutorium der Sektion Computerlinguistik (DGfS 2012, Frankfurt/Main)

Einführung in die Statistik für Linguisten mit dem Softwarepaket “R”
Goethe-Universität Frankfurt, 06.03.2012, 14:00–18:00

(back to overview page)

Beschreibung

Dieses Tutorium richtet sich an interessiert Linguisten ohne Vorkenntnisse. Die Teilnehmer lernen, konkrete Aufgabenstellungen mit dem frei verfügbaren Softwarepaket „R“ zu bearbeiten. Statistische Ansätze spielen in allen linguistischen Disziplinen eine zunehmend wichtige Rolle bei der Auswertung empirischer Daten. Dabei fällt der Einstieg in die Anwendung sowie in das Verständnis solcher Verfahren oft schwer. Ziel des Tutoriums ist es daher, grundlegende statistische Verfahren mit einfachen linguistischen Beispielen auf Einstiegsniveau zu erklären und umzusetzen.

Im Rahmen des Tutoriums wird u.a. gezeigt, wie Unterschiede zwischen Frequenzdaten aus Korpusressourcen unterschiedlicher Größe auf Signifikanz getestet werden können (Fallbeispiele: Benutzen Deutschlerner Reflexivverben genauso oft wie Muttersprachler? Verhalten sich Lerner mit unterschiedlichen Muttersprachen gleich?) und wie ein Zusammenhang zwischen kategorialen Merkmalen wie Informationsstruktur und Wortstellung in experimentellen Daten nachgewiesen werden kann (Fallbeispiel: Stellung im topologischen Feldermodell und Informationsstatus). Die Verwendung des kostenlosen und quelloffenen Programms „R“ stellt sicher, dass Teilnehmer die vorgeführten Studien anhand der zur Verfügung gestellten Daten und Skripte auf dem eigenen Rechner reproduzieren und ihr Wissen mit weiterführender Literatur über das Tutorium hinaus erweitern können.

Materialien

  • Präsentationsfolien: PDF (2.1 MB, aktualisierte Fassung)
  • Beispieldaten: dgfs2012_data.zip (ZIP-Archiv, 374 KB)
    • comp_data.txt – Häufigkeit von deutschen Nominalkomposita bei L1- und L2-Sprechern (aus dem Lernerkorpus Falko, HU Berlin, Reznicek et al. 2010)
    • dative_give.txt – Dativ-Alternation im Englischen (aus Bresnan et al. 2007)
    • infstat_data.txt – Zusammenhang zwischen Informationsstatus und Topikalisierung im Deutschen (Potsdam Commentary Corpus, Uni Potsdam, Stede 2004)

Dozenten

  • Stefan Evert (Professor für Anglistische Sprachwissenschaft mit Schwerpunkt Corpus- und Computerlinguistik, Technische Universität Darmstadt)
  • Amir Zeldes (Wissenschaftlicher Mitarbeiter im SFB 632 “Informationsstruktur”, Humboldt-Universität zu Berlin)