Tutorium der Sektion Computerlinguistik (DGfS 2013, Potsdam)

Einführung in die Statistik für Linguisten mit dem Softwarepaket “R”
35. Jahrestagung der DGfS, Universität Potsdam, 12. März 2013, 10:00–18:00 (Haus 4, Raum 0.03-0.04)

Raumänderung: Aufgrund der großen Teilnehmerzahl findet das Statistik-Tutorium in Haus 4, Raum 0.03-0.04 (SunRay-Pool) statt.

(back to overview page)

Beschreibung

Dieses Tutorium richtet sich an interessierte Linguisten ohne Vorkenntnisse. Die Teilnehmer lernen, konkrete Aufgabenstellungen mit dem frei verfügbaren Softwarepaket “R” zu bearbeiten. Statistische Ansätze spielen in allen linguistischen Disziplinen eine zunehmend wichtige Rolle bei der Auswertung empirischer Daten. Dabei fällt der Einstieg in die Anwendung sowie in das Verständnis solcher Verfahren oft schwer. Ziel des Tutoriums ist es daher, grundlegende statistische Verfahren mit einfachen linguistischen Beispielen auf Einstiegsniveau zu erklären und umzusetzen.

Im Rahmen des Tutoriums wird u.a. gezeigt, wie Unterschiede zwischen Häufigkeitsdaten aus Korpusressourcen unterschiedlicher Größe auf Signifikanz getestet werden können (Fallbeispiele: Benutzen Deutschlerner Reflexivverben genauso oft wie Muttersprachler? Verhalten sich Lerner mit unterschiedlichen Muttersprachen gleich?) und wie ein Zusammenhang zwischen kategorialen Merkmalen wie Informationsstruktur und Wortstellung in experimentellen Daten nachgewiesen werden kann (Fallbeispiel: Stellung im topologischen Feldermodell und Informationsstatus). Die Verwendung des kostenlosen und quelloffenen Programms “R” stellt sicher, dass Teilnehmer die vorgeführten Studien anhand der zur Verfügung gestellten Daten und Skripte auf dem eigenen Rechner reproduzieren und ihr Wissen mit weiterführender Literatur über das Tutorium hinaus erweitern können.

Auf Anregung der Teilnehmer des ersten Statistik-Tutoriums 2012 findet dieses Tutorium als ganztägige Veranstaltung statt, um der Komplexität des zu behandelnden Stoffes gerecht zu werden. Das Tutorium ist für TeilnehmerInnen der Jahrestagung kostenfrei. Aus organisatorischen Gründen können wir nur eine begrenzte Zahl an Arbeitsplätzen anbieten und bitten daher um eine Registrierung im Vorfeld über das Formular der allgemeinen Tagungsanmeldung.

Zeitplan

  • 10:00-12:00 Einleitung, Häufigkeitsvergleich
    • Mittagspause
  • 13:00-14:30 erste Schritte mit R + Übung 1
    • Kaffee-Pause
  • 15:00-16:10 Konfidenzintervalle + Übung 2
    • Kurze Pause
  • 16:25-18:00 Kreuztafeln und Assoziation + Übung 3

Materialien

  • Folien: PDF, PPTaktualisiert am 12.03.2013
  • Datenaktualisiert am 11.03.2013
  • Übungsaufgaben Häufigkeitsvergleich: Lösung

Dozenten

  • Stefan Evert (Professor für Korpuslinguistik, Friedrich-Alexander-Universität Erlangen-Nürnberg)
  • Amir Zeldes (Wissenschaftlicher Mitarbeiter im SFB 632 “Informationsstruktur”, Humboldt-Universität zu Berlin)