The Influence of Departures from Orthographic Segmentation on the Statistic Results of the Frequency Dictionary of Contemporary Polish

  • Elżbieta Awramiuk University of Bialystok
Keywords: segmentation; linguistic statistics; non-linear units; frequency

Abstract

The paper deals with the influence of qualitative interpretation (here: segmentation of test) on quantitative interpretation (here: statistic results). Those segmentation decisions have been discussed which we can find in the Frequency Dictionary of the Contemporary Polish Language, which are departures from orthographic segmentation. The simulation of the changes of results with a unexceptional application of segmentation given from without proves that the segmentation of text affects statistic results. The introduction of exceptions affected the frequency of some units (mainly prepositions, adjectives, and adverbs), but the material gathered in SFPW may be regarded as reliable, for the non-linear units constitute only 0.5 per cent in it. The paper ends with a postulate to work out an algorithm of procedure when calculatory units are separated, an algorithm that could be accepted by all researchers who deal with linguistic statistics. Such a study could make the results of statistic examination more comparable.

References

Bogusławski A. (1987), Obiekty leksykograficzne i jednostki języka, w:Studia z polskiej leksykografii współczesnej, red. Z. Saloni, t. II, Białystok, s.13-34.

Gramatyka współczesnego języka polskiego. Morfologia, red. R. Grzegorczykowa, R.Laskowski, H. Wróbel, Warszawa 1984 − GWJP.

Grochowski M. (1986), Polskie partykuły. Składnia, semantyka, leksykografia, Wrocław.

Kamińska-Szmaj I. (1990), Różnice leksykalne między stylami funkcjonalnymi polszczyzny pisanej. Analiza statystyczna na materiale słownika frekwencyjnego, Wrocław.

Miodunka W. (1989), Podstawy leksykologii i leksykografii, Warszawa.

Saloni Z. (1976), Cechy składniowe polskiego czasownika, Wrocław.

Saloni Z. (1992), Rygorystyczny opis polskiej deklinacji przymiotnikowej, „Uniwersytet Gdański. Prace Językoznawcze” 16, s. 215-228.

Sambor J. (1972), Słowa i liczby. Zagadnienia językoznawstwa statystycznego, Wrocław.

Słownik frekwencyjny polszczyzny współczesnej, t. I-II, Kraków 1990 − SFPW.

Słownik języka polskiego, red. W. Doroszewski, t. I-XI, Warszawa 1958-1969 − SJPDor.

Słownik języka polskiego, red. M. Szymczak, t. I-III, Warszawa 1978-1981 − SJP PWN.

Słownictwo współczesnego języka polskiego. Listy frekwencyjne, oprac. I. Kurcz, A.Lewicki, J. Sambor, J. Woronczak, t. I-V, Warszawa 1974-1977 − SWJP.

Zarębina M. (1985), Próba statystycznej analizy słownictwa polszczyzny mówionej (synteza danych liczbowych), Wrocław.

Zgółkowa H. (1983), Słownictwo współczesnej polszczyzny mówionej. Lista frekwencyjna i rangowa, Poznań.

Published
2019-08-28
Section
Articles