Buerki, Andreas ORCID: https://orcid.org/0000-0003-2151-3246 2010. Korpus-geleitete Extraktion von Mehrworteinheiten – Probleme und Lösungen aus dem Umgang mit Deutschen Daten [Corpus-led extraction of multi-word units – problems and solutions in working with German data]. Presented at: EUROPHRAS 2010, Universidad de Granada, 30 June -2 July 2010. |
Abstract
Mit dem wachsenden Interesse an phraseologischen Fragestellungen in der Linguistik, der Verfügbarkeit von grossen Sprachkorpora sowie der lauter werdenden Forderung nach empirisch verifizierbaren Resultaten, kommt der maschinellen Extraktion von Mehrworteinheiten (MWE) aus grossen Datenmengen zwangsläufig eine immer wichtigere Rolle zu. Trotz einer regen Forschungstätigkeit auf diesem Gebiet in den vergangenen Jahren, ist die maschinelle Extraktion von MWE aus Korpusdaten nach wie vor mit nicht unwesentlichen Problemen behaftet. Speziell in der Korpus-geleiteten Extraktion von MWE welche keine bestehenden Suchbegriffe und -Listen benutzt, sind Arbeiten an nicht-englischen Daten immer noch rar und vorhandene Softwarewerkzeuge sehr begrenzt. Basierend auf Arbeiten im Rahmen eines Forschungsprojekts zur diachronen Veränderung von Mehrworteinheiten im Deutschen (Bürki 2009) wird in diesem Vortrag die benutzte Vorgehensweise zur automatischen korpus-geleiteten Extraktion von MWE vorgestellt. Probleme und Lösungen werden aufgrund von Beispielen an Daten des Schweizer Textkorpus gezeigt und das Potential von der Methode wird an einigen Resultaten illustriert. Wichtige Fragen betreffen: • die Aufbereitung der Quelldaten: Tokendefinition, Berücksichtigung oder nicht von Lemmata in stark flektierenden Sprachen wie dem Deutschen, Umgang mit Eigennamen und Zahlen • die Aufteilung in N-Gramme: Berücksichtigung von Leerstellen und positionaler Varianz • die Filterung der Resultate: hier liegt eine Hauptschwierigkeit der automatischen Extraktion; die Anwendung von Statistiken zur Berechnung der Assoziationsstärke ist nur für Bi- und Trigramme mit vertretbarem Aufwand möglich, aber auch dort ist der Einsatz und die Interpretation solcher umstritten (Kilgarriff 2005, Evert, Heid und Lezius 2000). Die vorgestellte Lösungsmöglichkeit erreichte mit Hilfe von additiv-kombinatorischen Stopplisten und der Anwendung minimaler Frequenz- und Dokumentzählern transparente Resultate welche für Trigramme einen Anteil von knapp 70% 'true positives', also eine Fehlerquote von nur ca. einem Drittel ergab. Softwareseitig sind kommerzielle Pakete wie WordSmith Tools 5.0 (Scott 2007) oder auch ConcGram (Greaves 2009) für umfangreichere Untersuchungen im Bezug auf MWE-Extraktion zu limitiert. Für das erwähnte Projekt wurden deshalb durch Erweiterung und Komplemetierung des Open-Source Softwarepakets NSP (Pedersen and Banerjee 2003) Werkzeuge erstellt mit welchen die maschinelle MWE-Extraktion aus dem Schweizer Textkorpus technisch erfolgreich durchgeführt werden konnte. Selektive Resultate zeigen das Potential der korpus-geleiteten Extraktion allgemein und der hier vorgestellten Vorgehensweise insbesondere. Literatur: Bürki, A. (2009). Multi-Word Sequences in Motion. Referat Corpus Linguistics 2009, Liverpool, UK. 22. Juli 2009. Greaves, C. (2009). Concgram 1.0: A phraseological search enginestudies in corpus linguistics software. John Benjamins Pub Co. Kilgarriff, A. (2005). Language is never, ever, ever, random. Corpus Linguistics and Linguistic Theory, 1(2), 263-76. Evert, S., Heid, U., Lezius, W., (2000). Methoden zum qualitativen Vergleich von Signifikanzmassen zur Kollokationsidentifikation. ITG FACHBERICHT, 215-220. Pedersen, T., & Banerjee, S. (2003). The design, implementation and use of the ngram statistics package. In Proceedings of the 4th international conference on intelligent text processing and computational linguistics. Mexico city. Scott, M., 2008, WordSmith
Item Type: | Conference or Workshop Item (Paper) |
---|---|
Date Type: | Completion |
Status: | Unpublished |
Schools: | English, Communication and Philosophy |
Subjects: | P Language and Literature > P Philology. Linguistics |
Last Modified: | 28 Oct 2022 10:21 |
URI: | https://orca.cardiff.ac.uk/id/eprint/77967 |
Actions (repository staff only)
Edit Item |