Problemy i korzyści wynikające z automatycznego przetwarzania korpusów - na przykładzie badań z zakresu predykacji rzeczownikowej w języku polskim

Grażyna Vetulani

Grażyna Vetulani Adam Mickiewicz University in Poznań

Keywords: corpus linguistics; text processing; nominal predication

Abstract

This paper reports on our work related to nominal predication in Polish and exploring electronic corpora with help of text processing tools. Various aspects and challenges related with the applied methodology are presented. Despite encountered problems, nowadays, it is practically impossible to imagine solutions ignoring advantages of corpus linguistics. In fact this methodology appeared very efficient. In a relatively short time we developed an application-oriented dictionary of Polish predicative nouns and now we continue to extend it within the same paradigm.

Désavantages et profits du traitement automatique des corpus à l’exemple des recherches sur la prédication nominale en polonais

Cet article rend compte des travaux menés depuis un certain temps dans le domaine de la prédication nominale en polonais dans lesquels on exploite des corpus électroniques en utilisant des outils d'analyse automatique du texte. On y présente certaines difficultés qui ont apparu en liaison avec la méthode appliquée, mais on souligne aussi qu’aujourd'hui il est pratiquement impossible de mener des recherches linguistiques autrement et que, finalement, cette méthode s'est avérée très efficace. Dans un laps de temps assez court, elle a permis de construire un dictionnaire des noms prédicatifs du polonais destiné aux applications informatiques et elle contribue à l'heure actuelle au développement du dictionnaire existant.

References

Bańko Mirosław, 2001, Z pogranicza leksykografii i językoznawstwa. Studia o słowniku jednojęzycznym, Wydział Polonistyki Uniwersytetu Warszawkiego, Warszawa.

Bauer M. & Aarts B., 2000, « Corpus construction: a principle for qualitative data collection » [in:] Qualitative researching with text, image and sound: a practical handbook, [éds.] Bauer M., Gaskell G., London, Sage, 19-37

Bralewski Dariusz, 2012, Od przekładu do słownika. Korpus równoległy w redakcji słowników tłumaczeniowych, Oficyna Wydawnicza LEKSEM, Łask.

Gross Maurice, 1975, Méthodes en syntaxe, Paris.

Habert Benoît & Nazarenko Adeline & Salem André, 1997, Les linguistiques de corpus, Armand Colin, Paris.

Piotrowski Tadeusz, 1994, Z zagadnień leksykografii, PWN, Warszawa.

Przepiórkowski Adam, 2004, Korpus IPI PAN. Wersja wstępna, Instytut Podstaw Informatyki, Warszawa.

Vetulani Grażyna, 2013, „Budowa syntaktycznego słownika rzeczowników predykatywnych języka polskiego na potrzeby zastosowań informatycznych w dobie aktualnych wyzwań dla językoznawstwa” [in:] Scripta manent – res novae, [éds.] Puppel S., Tomaszkiewicz T., Wydawnictwo Naukowe UAM, Poznań, 485-498.

Vetulani Grażyna, 2012, Kolokacje werbo-nominalnejako samodzielne jednostki języka. Syntaktyczny słownik kolokacji werbo-nominalnych języka polskiego na potrzeby zastosowań informatycznych. Część I., Wydawnictwo Naukowe UAM, Poznań.

Vetulani Grażyna, 2010, « Élaboration d’un dictionnaire des noms prédicatifs en polonais » [in:] Supports et prédicats non verbaux dans les langues du monde, [éd.] Ibrahim A.H., Paris: Cellule de Recherche en Linguistique, 166–181.

Vetulani Grażyna, 2000, Rzeczowniki predykatywne języka polskiego. W kierunku syntaktycznego słownika rzeczowników predykatywnych, Wydawnictwo Naukowe UAM, Poznań.

Vetulani Grażyna & Obrębski Tomasz & Vetulani Zygmunt, 2007, “Towards a Lexicon-Grammar of Polish: Extraxion of Verbo-Nominal Collocations from Corpora” [in:] Proceedings of the Twentieth International Florida Artificial Intelligence Research Society Conference, [éds.] Wilson D.C., Sutcliffe G.C.J., Menlo Park. California, 267–268.

Vetulani Grażyna & Vetulani Zygmunt & Obrębski Tomasz, 2006, “Syntactic Lexicon of Polish Predicative Nouns” [in:] Fifth International Conference on Language Resources and Evaluation. 24–26.05.2006, [éd.] Calzolari N., Genoa–Paris, 1734–1737.

Vetulani Zygmunt & Obrębski Tomasz & Vetulani Grazyna & Dąbrowski Adam & Kubis Marek & Osiński Jędrzej & Walkowska Justyna & Kubacki Piotr & Witalewski Krzysztof, 2010, Zasoby językowe i technologie przetwarzania tekstu. POLINT-112-SMS jako przykład aplikacji z zakresu bezpieczeństwa publicznego, Wydawnictwo Naukowe UAM, Poznań.

Vitas Duško & Krstev Cvetana, 2008, “O paralelnim korpusima, a posebno o beogradskim paralelnim korpusima i načinu njihove eksploatacije” [in:] Die Unterschide zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen, [éd.] B. Tošović, LITVerlag, Münster.

Drawbacks and Advantages of the Computer Corpora Processing. Case Study of Nominal Predication in Polish

Abstract

References