Workshop des LIPP-Doktorandenkolloquiums (LMU München)

Korpuslinguistik mit Online-Ressourcen und computerlinguistischen Werkzeugen
LMU München, 28.01.2011, 09:00–17:00

(back to overview page)

Beschreibung

LIPP Logo

Dieser Workshop richtet sich speziell an Linguisten, die empirische Daten in ihre linguistische Analyse mit einbeziehen wollen, aber bisher keinen oder wenig Zugang zu linguistisch aufbereiteten Korpusdaten hatten. Sucht man z. B. nach einem passenden Verwendungsbeleg für ein Wort, ist das Internet eine dankbare und oft genutzte Quelle – allerdings mit unsicherer Datenbasis, sehr beschränkten Suchmöglichkeiten und ohne weiterführende linguistische Analyse. Linguistische Korpora hingegen sind inhaltlich dokumentiert und unterstützen die Suche nach linguistisch komplexen Anfragen und Generalisierungen. Online-Schnittstellen ermöglichen die komfortable Nutzung solcher Korpora auch ohne umfangreiche Informatikkenntnisse.

Um den Mehrwert von Korpora gegenüber dem Internet vollständig auszuschöpfen, ist es allerdings nötig, sich in die Bedienung der Korpustools und ihrer Online-Schnittstellen einzuarbeiten. Ziel unseres Tutoriums ist, genau diesen Schritt zu unterstützen. Anhand linguistischer Fragestellungen werden die TeilnehmerInnen interaktiv in den Umgang mit drei konkreten Korpusschnittstellen eingeführt: CQPweb, die Websuche der DWDS-Korpora und ANNIS. Neben der eigenen Arbeit mit den Online-Ressourcen erhalten die TeilnehmerInnen Einblick in computerlinguistische Methoden und Werkzeuge, die bei der Aufbereitung der Korpora eingesetzt wurden (Segmentierung, Wortarten-Tagging, Parsing, manuelle Annotierungsumgebungen).

Linguistische Fallbeispiele

Im Rahmen des Tutoriums werden wir uns u.a. mit folgenden linguistischen Fragestellungen beschäftigen:

  • "Wie es im Buche steht."
    Wird das Dativ -e im Jahr 2009 noch realisiert? Lässt sich eine zeitliche Veränderung durch die letzten Jahrzehnte beobachten?
  • "gegenseitiges Vertrauen"
    Welche Adjektive werden typischerweise mit dem Nomen Vertrauen verwendet?
  • "ohne Dirigent"
    Stimmt die Dudenregel, dass Substantive ohne Artikel und Adjektiv tendenziell keine Kasusendung tragen?
  • "weil er macht das wider besseren Wissens"
    Abfrage von Korpora mit morphologischen und partiellen syntaktischen Annotationen (Chunks)

Online-Zugriff

Materialien

Ablaufplan

Teil 1 (Vormittag)

09:00 - 12:00: Ludwigstr. 25, Raum 212

  • Einleitung
  • Korpusaufbereitung und automatische Annotierung
  • Ü1 (Europarl mit CQPDemo)
  • Alignment und Übersetzungskandidaten
  • Kaffeepause :-D
  • Das STTS-Tagset
  • Reguläre Ausdrücke und CQP-Syntax
  • Ü2 (Europarl mit CQPweb und CQP-Syntax)

Teil 2 (Nachmittag)

14:00 - 17:00: Schellingstr. 3 VGB, Raum S227

  • Ü3 (diachrone Suche mit dem DWDS-Webinterface)
  • CQP für Fortgeschrittene: XML-Attribute und morphologische Features
  • Ü4 (Abfrage von Chunks und morphologischen Merkmalen)
  • Kaffeepause 8-o
  • Demo Verwendung von syntaktischen Parsern, Einlesen und Abfrage in TIGERSearch
  • Ü5 (Abfrage komplexer Datenstrukturen mit ANNIS)
  • Manuelle Annotation (Guidelines, Agreement, Tools)
  • Demo Manuelle Annotation in EXMARaLDA

Dozenten

  • Stefan Evert (Juniorprofessor für Computerlinguistik, Universität Osnabrück)
  • Stefanie Dipper (Juniorprofessorin für Computerlinguistik, Ruhr-Universität Bochum)

Weitere Informationen