====== Korpustechnologie für Linguisten ====== [[:corpus_tutorial|(back to overview page)]] ===== Ausgewählte Literatur ===== === Einführende Texte & Lehrbücher === //Diese Liste ist noch unvollständig und wird derzeit ergänzt// * [[http://www.bubenhofer.com/korpuslinguistik/kurs/|Bubenhofer, Noah]] Online-Einführung in die Korpuslinguistik * Carstensen, Kai-Uwe; Ebert, Christian; Ebert, Cornelia; Jekat, Susanne; Klabunde, Ralf; Langer, Hagen (Hrsg., 2009). //Computerlinguistik und Sprachtechnologie: Eine Einführung.// 3. Auflage, Heidelberg: Spektrum Akademischer Verlag. * Cramer, Irene und Schulte im Walde, Sabine (2006). //Studienbibliographie Computerlinguistik und Sprachtechnologie.// Heft 36 der Studienbibliografien Sprachwissenschaft. Tübingen: Julius Groos Verlag. * [[http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm|Developing Linguistic Corpora]] -- //A guide to good practice// für die Erstellung eigener Korpora * Hoffmann, Sebastian; Evert, Stefan; Smith, Nicholas; Lee, David; Berglund Prytz, Ylva (2008). //Corpus Linguistics with BNCweb -- a Practical Guide.// Band 6 der Reihe English Corpus Linguistics. Frankfurt am Main: Peter Lang. * Lemnitzer, Lothar und Zinsmeister, Heike (2006). //Korpuslinguistik. Eine Einführung.// Reihe narr studienbücher, Gunter Narr Verlag. ===== Korpus-Ressourcen ===== === Webinterfaces auf CQP-Basis === * Official [[http://linglit193.linglit.tu-darmstadt.de/CQP/|CQP Demos]] (TU Darmstadt) * Online-Interfaces am IMS Stutgart: [[http://www.ims.uni-stuttgart.de/projekte/CQPDemos/cqpdemo.html|CQP Demos]] (alte Version), [[http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQP-HTMLDemo/CQP-HTMLDemo.html|PennTreebank]], [[http://www.ims.uni-stuttgart.de/projekte/verbmobil/Dialogs/|VerbMobil-Dialoge]], [[http://www.ims.uni-stuttgart.de/projekte/CQPDemos/IMSearch/webmode/|IMSearch]] zur Suche auf IMS-Webseiten * [[http://www.korpus2000.dk/|Korpus 2000]] -- Dänisches Korpus * [[http://www.tekstlab.uio.no/Bosnian/Corpus.html|Oslo Korpus]] Bosnischer Texte * [[http://spraakbanken.gu.se/parole/|PAROLE]] -- Schwedisches Korpus * [[http://corp.hum.sdu.dk/|Corpuseye]] -- Interface zu den VISL-Korpora * [[http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko/standardseite|FALKO]] -- Fehlerannotiertes Lernerkorpus * [[http://www.linguateca.pt/|Linguateca]] -- Zentrum für portugiesische Sprachressourcen * [[http://urd.let.rug.nl/tiedeman/OPUS/|OPUS]] -- Interface zu parallelen Korpora des OPUS-Projekts * [[http://ramsesii.upf.es/cucweb/|CucWeb]] -- katalanisches Webkorpus (UPF Barcelona) * [[http://bncweb.lancs.ac.uk/|BNCweb]] und [[http://cqpweb.lancs.ac.uk/|CQPweb]] in Lancaster -- nur mit Login (Gäste-Accounts auf Anfrage) * Korpussammlung von Serge Sharoff in Leeds: [[http://corpus.leeds.ac.uk/protected/query.html|Englisch]], [[http://corpus.leeds.ac.uk/ruscorpora.html|Russisch]], [[http://corpus.leeds.ac.uk/query-zh.html|Chinesisch]], [[http://corpus.leeds.ac.uk/internet.html|Web-Korpus]] mit 12 Sprachen * [[http://bwananet.iula.upf.edu/|Bwananet]] gibt Zugriff auf das [[http://www.iula.upf.edu/corpus/corpus.htm|Corpus Tècnic]] mit spanischen, katalanischen und englischen Texten (IULA, UPF Barcelona) * [[http://mutis2.upf.edu/bt/english/|BancTrad]] -- Paralleltexte in mehreren Sprachen (UPF Barcelona) === Manatee/Bonito (selbe Anfragesprache wie CQP) === * [[http://ucnk.ff.cuni.cz/english/|CNC]] -- Tschechisches Nationalkorpus CNC * [[http://www.sketchengine.co.uk/|Sketch Engine]] -- kommerziell, kostenlose 30-Tage-Demoversion === Andere Webinterfaces === * [[http://www.dwds.de/|DWDS-Webinterface]] und neue [[http://beta.dwds.de/|Beta-Version]] * [[http://www.ids-mannheim.de/cosmas2/|COSMAS]] -- Zugriff auf die Korpora am Institut für deutsche Sprache * [[http://corpus.byu.edu/|Mark Davies]] -- umfangreiche, halblegale Korpussammlung von Mark Davies * [[http://www.sfb632.uni-potsdam.de/d1/annis/|ANNIS]] -- Korpussuchtool === Weitere Ressourcen === * [[http://tiny.cc/corpora|David Lee's]] umfangreiche Sammlung von Links zu Korpora und Tools * [[http://www.nltk.org/Home|NLTK]] -- Python Natural Language Toolkit (NLTK) * Informationen zur Kollokationsextraktion bei [[http://www.collocations.de/|www.collocations.de]] und [[http://multiword.sourceforge.net/|multiword.sf.net]] * [[http://www.chatkorpus.tu-dortmund.de/index.html|Dortmunder Chatkorpus]] * [[http://www.phonetik.uni-muenchen.de/Bas/BasHomedeu.html|BAS]] -- Bayerische Archiv für Sprachsignale * [[http://wacky.sslmit.unibo.it/|WaCKy]] -- Fertige Web-Korpora und Software zur Erstellung eigener Korpora * [[http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13|Google N-Grams]] -- Web 1T 5-Grams extrahiert aus 1 Billion Wörtern Text ([[http://www.cogsci.uos.de/~korpora/ws/Web1T5/|Online-Abfrage]]) * [[http://de.wikipedia.org/wiki/Wikipedia:Download|XML-Dumps]] der Wikipedia * [[http://gandalf.aksis.uib.no/corpora/|Corpora List]] -- //die// Mailingliste für alle, die mit Korpora arbeiten * [[http://kitt.cl.uzh.ch/kitt/cltools/index.php/Welcome|CL-Online Tools]] -- Link-Sammlung an der Universität Zürich * [[http://www.coli.uni-saarland.de/projects/stud-bib/|Studienbibliographie]] Computerlinguistik