Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
dgfs2010 [2009/11/12 16:11]
schtepf
dgfs2010 [2010/10/31 22:13]
schtepf
Line 2: Line 2:
  
 **Korpuslinguistik mit Online-Ressourcen --- eine interaktive Einführung für Linguisten**\\ **Korpuslinguistik mit Online-Ressourcen --- eine interaktive Einführung für Linguisten**\\
-//Humbold-Universität zu Berlin, 23.02.2010, 14:00--18:00//+//Humboldt-Universität zu Berlin, 23.02.2010, 14:00--18:00//
  
  
 ===== Beschreibung ===== ===== Beschreibung =====
  
-Die Sektion Computerlinguistik der DGfS wird im Rahmen der Jahrestagung 2010 in Berlin erstmalig ein Tutorium ausrichten, das sich speziell an Linguisten richtet.  Unser Ziel ist, ausgewählte computerlinguistische Methoden und Ressourcen bekannt zu machen und anhand ausgewählter Beispiele ihren Nutzwert für die linguistische Forschung zu illustrieren. 
  
-Sucht man nach einem passenden Verwendungsbeleg für ein Wort, ist das Internet eine dankbare und oft genutzte Quelle -- allerdings mit unsicherer Datenbasis, sehr beschränkten Suchmöglichkeiten und ohne weiterführende linguistische AnalyseLinguistische Korpora hingegen sind inhaltlich dokumentiert und unterstützen die Suche nach linguistisch komplexen Anfragen und GeneralisierungenOnline-Schnittstellen ermöglichen die komfortable Nutzung solcher Korpora auch ohne umfangreiche Informatikkenntnisse+[[http://wordspace.collocations.de/lib/exe/fetch.php/corpus_tutorial:flyer_tutorium_dgfs_2010.pdf|{{:corpus_tutorial:flyer_tutorium_dgfs_2010.thumb.png |Download Flyer}}]]
  
-Um den Mehrwert von Korpora gegenüber dem Internet vollständig auszuschöpfen, ist es allerdings nötig, sich in die Bedienung der Korpustools und ihrer Online-Schnittstellen einzuarbeiten. Ziel unseres Tutoriums ist, genau diesen Schritt zu unterstützen. Anhand linguistischer Fragestellungen werden die TeilnehmerInnen interaktiv in den Umgang mit zwei konkreten Korpusschnittstellen eingeführt: CQPweb und die Websuche des Projekts Digitales Wörterbuch der Deutschen Sprache DWDS. Neben der eigenen Arbeit mit den Online-Ressourcen erhalten die  TeilnehmerInnen Einblick in die Aufbereitung der Korpora (Segmentierung, Wortarten-Tagging). Das Tutorium richtet sich an alle Linguisten, die empirische Daten in ihre linguistische Analyse mit einbeziehen wollen und bisher keinen oder wenig Zugang zu linguistisch aufbereiteten Korpusdaten hatten+Die Sektion Computerlinguistik der DGfS wird im Rahmen der [[http://www2.hu-berlin.de/dgfs/|Jahrestagung 2010]] in Berlin erstmalig ein Tutorium ausrichten, das eine Einführung in ein computerlinguistisches Thema bietet, ohne irgendwelche Grundkenntnisse zu erfordern. Ziel ist, ausgewählte computerlinguistische Methoden und Ressourcen bekannt zu machen und ihre Einsatzmöglichkeiten für die linguistische Forschung anhand geeigneter Beispiele zu illustrieren.
  
-Die Teilnahme am Tutorium ist für Teilnehmer der Jahrestagung kostenfreiWir würden uns freuenwenn Sie sich im Vorfeld über das Formular der allgemeinen Tagungsanmeldung für das Tutorium registrieren lassen würden.+Die erste Auflage des Tutoriums in Berlin richtet sich speziell an alle Linguisten, die empirische Daten in ihre linguistische Analyse mit einbeziehen wollen, aber bisher keinen oder wenig Zugang zu linguistisch aufbereiteten Korpusdaten hattenSucht man  z. B. nach einem passenden Verwendungsbeleg für ein Wortist das Internet eine dankbare und oft genutzte Quelle -- allerdings mit unsicherer Datenbasis, sehr beschränkten Suchmöglichkeiten und ohne weiterführende linguistische Analyse. Linguistische Korpora hingegen sind inhaltlich dokumentiert und unterstützen die Suche nach linguistisch komplexen Anfragen und Generalisierungen. Online-Schnittstellen ermöglichen die komfortable Nutzung solcher Korpora auch ohne umfangreiche Informatikkenntnisse
  
 +Um den Mehrwert von Korpora gegenüber dem Internet vollständig auszuschöpfen, ist es allerdings nötig, sich in die Bedienung der Korpustools und ihrer Online-Schnittstellen einzuarbeiten. Ziel unseres Tutoriums ist, genau diesen Schritt zu unterstützen. Anhand linguistischer Fragestellungen werden die TeilnehmerInnen interaktiv in den Umgang mit zwei konkreten Korpusschnittstellen eingeführt: CQPweb und die Websuche des Projekts Digitales Wörterbuch der Deutschen Sprache DWDS. Neben der eigenen Arbeit mit den Online-Ressourcen erhalten die  TeilnehmerInnen Einblick in computerlinguistische Methoden, die bei der Aufbereitung der Korpora eingesetzt wurden (Segmentierung, Wortarten-Tagging).
 +
 +Wir würden uns freuen, wenn Sie sich für das Tutorium interessieren. Die Teilnahme ist für TeilnehmerInnen der Jahrestagung kostenfrei. Aus organisatorischen Gründen bitten wir um eine Registrierung im Vorfeld über das Formular der allgemeinen Tagungsanmeldung.
 +
 +===== Linguistische Fallbeispiele =====
 +
 +Im Rahmen des Tutoriums werden wir uns u.a. mit folgenden linguistischen Fragestellungen beschäftigen:
 +
 +  * "Wie es im Buch**e** steht."\\ Wird das Dativ //-e// im Jahr 2009 noch realisiert? Lässt sich eine zeitliche Veränderung durch die letzten Jahrzehnte beobachten?
 +  * "gegenseitiges Vertrauen"\\ Welche Adjektive werden typischerweise mit dem Nomen //Vertrauen// verwendet?
 +  * "ohne Dirigent"\\ Stimmt die Dudenregel, dass Substantive ohne Artikel und Adjektiv tendenziell keine Kasusendung tragen?
 +
 +===== Online-Zugriff =====
 +
 +  * [[http://cogsci.uni-osnabrueck.de/~korpora/ws/CQPdemo/Europarl/|Europarl GUI]] (Osnabrück)
 +  * [[https://cogsci.uni-osnabrueck.de/~korpora/ws/cqpweb/|CQPweb]] (Osnabrück)
 +  * [[http://beta.dwds.de/|DWDS-Webinterface]] (Beta-Version)
 +
 +===== Materialien =====
 +
 +  * [[http://wordspace.collocations.de/lib/exe/fetch.php/corpus_tutorial:handout_dgfs_cl_tutorial_2010.pdf|Handout]] mit Beispielanfragen und Übungsaufgaben (PDF)
 +  * Folien: [[http://wordspace.collocations.de/lib/exe/fetch.php/corpus_tutorial:cl_tutorial_2010_a_intro.pdf|Einleitung]] -- [[http://wordspace.collocations.de/lib/exe/fetch.php/corpus_tutorial:cl_tutorial_2010_b_aufbereitung.pdf|Linguistische Aufbereitung]] -- [[http://wordspace.collocations.de/lib/exe/fetch.php/corpus_tutorial:cl_tutorial_2010_c_stts.pdf|STTS]] -- [[http://wordspace.collocations.de/lib/exe/fetch.php/corpus_tutorial:cl_tutorial_2010_d_alignment.pdf|Alignment]] -- [[http://wordspace.collocations.de/lib/exe/fetch.php/corpus_tutorial:cl_tutorial_2010_e_cqp_syntax.pdf|Reguläre Ausdrücke und CQP]] -- [[http://wordspace.collocations.de/lib/exe/fetch.php/corpus_tutorial:cl_tutorial_2010_f_schluss.pdf|Schlussbemerkungen]]
  
 ===== Dozenten ===== ===== Dozenten =====
  
-  * [[http://www.linguistics.ruhr-uni-bochum.de/~dipper/|Stefanie Dipper]] (Juniorprofessorin für Computerlinguistik, Ruhr-Universität Bochum) 
   * [[http://purl.org/stefan.evert/|Stefan Evert]] (Juniorprofessor für Computerlinguistik, Universität Osnabrück)   * [[http://purl.org/stefan.evert/|Stefan Evert]] (Juniorprofessor für Computerlinguistik, Universität Osnabrück)
 +  * [[http://www.linguistics.ruhr-uni-bochum.de/~dipper/|Stefanie Dipper]] (Juniorprofessorin für Computerlinguistik, Ruhr-Universität Bochum)
   * [[http://ling.uni-konstanz.de/pages/home/zinsmeister/|Heike Zinsmeister]] (Margarete von Wrangell-Habilitandin, Universität Konstanz)   * [[http://ling.uni-konstanz.de/pages/home/zinsmeister/|Heike Zinsmeister]] (Margarete von Wrangell-Habilitandin, Universität Konstanz)
 +
 +
 +===== Korpus-Ressourcen =====
 +
 +=== Webinterfaces auf CQP-Basis ===
 +
 +  * Official [[http://www.cogsci.uni-osnabrueck.de/~korpora/ws/CQPdemo/|CQP Demos]] (Uni Osnabrück)
 +  * Online-Interfaces am IMS Stutgart: [[http://www.ims.uni-stuttgart.de/projekte/CQPDemos/cqpdemo.html|CQP Demos]] (alte Version), [[http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQP-HTMLDemo/CQP-HTMLDemo.html|PennTreebank]], [[http://www.ims.uni-stuttgart.de/projekte/verbmobil/Dialogs/|VerbMobil-Dialoge]], [[http://www.ims.uni-stuttgart.de/projekte/CQPDemos/IMSearch/webmode/|IMSearch]] zur Suche auf IMS-Webseiten
 +  * [[http://www.korpus2000.dk/|Korpus 2000]] -- Dänisches Korpus
 +  * [[http://www.tekstlab.uio.no/Bosnian/Corpus.html|Oslo Korpus]] Bosnischer Texte
 +  * [[http://spraakbanken.gu.se/parole/|PAROLE]] -- Schwedisches Korpus
 +  * [[http://corp.hum.sdu.dk/|Corpuseye]] -- Interface zu den VISL-Korpora
 +  * [[http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko/standardseite|FALKO]] -- Fehlerannotiertes Lernerkorpus
 +  * [[http://www.linguateca.pt/|Linguateca]] -- Zentrum für portugiesische Sprachressourcen
 +  * [[http://urd.let.rug.nl/tiedeman/OPUS/|OPUS]] -- Interface zu parallelen Korpora des OPUS-Projekts
 +  * [[http://ramsesii.upf.es/cucweb/|CucWeb]] -- katalanisches Webkorpus (UPF Barcelona)
 +  * [[http://bncweb.lancs.ac.uk/|BNCweb]] und [[http://cqpweb.lancs.ac.uk/|CQPweb]] in Lancaster -- nur mit Login (Gäste-Accounts auf Anfrage)
 +  * Korpussammlung von Serge Sharoff in Leeds: [[http://corpus.leeds.ac.uk/protected/query.html|Englisch]], [[http://corpus.leeds.ac.uk/ruscorpora.html|Russisch]], [[http://corpus.leeds.ac.uk/query-zh.html|Chinesisch]], [[http://corpus.leeds.ac.uk/internet.html|Web-Korpus]] mit 12 Sprachen
 +  * [[http://bwananet.iula.upf.edu/|Bwananet]] gibt Zugriff auf das [[http://www.iula.upf.edu/corpus/corpus.htm|Corpus Tècnic]] mit spanischen, katalanischen und englischen Texten (IULA, UPF Barcelona)
 +  * [[http://mutis2.upf.edu/bt/english/|BancTrad]] -- Paralleltexte in mehreren Sprachen (UPF Barcelona)
 +
 +=== Manatee/Bonito (selbe Anfragesprache wie CQP) ===
 +
 +  * [[http://ucnk.ff.cuni.cz/english/|CNC]] -- Tschechisches Nationalkorpus CNC
 +  * [[http://www.sketchengine.co.uk/|Sketch Engine]] -- kommerziell, kostenlose 30-Tage-Demoversion
 +
 +
 +=== Andere Webinterfaces ===
 +
 +  * [[http://www.dwds.de/|DWDS-Webinterface]] und neue [[http://beta.dwds.de/|Beta-Version]]
 +  * [[http://www.ids-mannheim.de/cosmas2/|COSMAS]] -- Zugriff auf die Korpora am Institut für deutsche Sprache
 +  * [[http://corpus.byu.edu/|Mark Davies]] -- umfangreiche, halblegale Korpussammlung von Mark Davies
 +  * [[http://www.sfb632.uni-potsdam.de/d1/annis/|ANNIS]] -- Korpussuchtool
 +
 +=== Weitere Ressourcen ===
 +
 +  * [[http://tiny.cc/corpora|David Lee's]] umfangreiche Sammlung von Links zu Korpora und Tools
 +  * [[http://www.nltk.org/Home|NLTK]] -- Python Natural Language Toolkit (NLTK)
 +  * Informationen zur Kollokationsextraktion bei [[http://www.collocations.de/|www.collocations.de]] und [[http://multiword.sourceforge.net/|multiword.sf.net]] 
 +  * [[http://www.chatkorpus.tu-dortmund.de/index.html|Dortmunder Chatkorpus]] 
 +  * [[http://www.phonetik.uni-muenchen.de/Bas/BasHomedeu.html|BAS]] -- Bayerische Archiv für Sprachsignale
 +  * [[http://wacky.sslmit.unibo.it/|WaCKy]] -- Fertige Web-Korpora und Software zur Erstellung eigener Korpora
 +  * [[http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13|Google N-Grams]] -- Web 1T 5-Grams extrahiert aus 1 Billion Wörtern Text ([[http://www.cogsci.uos.de/~korpora/ws/Web1T5/|Online-Abfrage]])
 +  * [[http://de.wikipedia.org/wiki/Wikipedia:Download|XML-Dumps]] der Wikipedia
 +  * [[http://gandalf.aksis.uib.no/corpora/|Corpora List]] -- //die// Mailingliste für alle, die mit Korpora arbeiten
 +  * [[http://kitt.cl.uzh.ch/kitt/cltools/index.php/Welcome|CL-Online Tools]] -- Link-Sammlung an der Universität Zürich
 +  * [[http://www.coli.uni-saarland.de/projects/stud-bib/|Studienbibliographie]] Computerlinguistik
 +
 +=== Einführende Literatur ===
 +
 +//Diese Liste ist noch unvollständig und wird derzeit ergänzt//
 +
 +  * [[http://www.bubenhofer.com/korpuslinguistik/kurs/|Bubenhofer, Noah]] Online-Einführung in die Korpuslinguistik
 +  * Carstensen, Kai-Uwe; Ebert, Christian; Ebert, Cornelia; Jekat, Susanne; Klabunde, Ralf; Langer, Hagen (Hrsg., 2009). //Computerlinguistik und Sprachtechnologie: Eine Einführung.// 3. Auflage, Heidelberg: Spektrum Akademischer Verlag.
 +  * Cramer, Irene und Schulte im Walde, Sabine (2006). //Studienbibliographie Computerlinguistik und Sprachtechnologie.// Heft 36 der Studienbibliografien Sprachwissenschaft. Tübingen: Julius Groos Verlag.
 +  * [[http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm|Developing Linguistic Corpora]] -- //A guide to good practice// für die Erstellung eigener Korpora
 +  * Hoffmann, Sebastian; Evert, Stefan; Smith, Nicholas; Lee, David; Berglund Prytz, Ylva (2008). //Corpus Linguistics with BNCweb -- a Practical Guide.// Band 6 der Reihe English Corpus Linguistics. Frankfurt am Main: Peter Lang.
 +  * Lemnitzer, Lothar und Zinsmeister, Heike (2006). //Korpuslinguistik. Eine Einführung.// Reihe narr studienbücher, Gunter Narr Verlag.
 +