Korpus Współczesnego Języka Polskiego. Dekada 2011–2020
PDF

Słowa kluczowe

Korpus Współczesnego Języka Polskiego
znakowanie lingwistyczne
rozbiory składniowe

Jak cytować

Kieraś, W., Marciniak, M., Łaziński, M., Woliński, M., Bojałkowska, K., Eźlakowski, W., Kobyliński, Łukasz, Komosińska, D., Krasnowska-Kieraś, K., Rudolf, M., Tomaszewska, A., Wołoszyn, J., & Zawadzka-Paluektau, N. (2024). Korpus Współczesnego Języka Polskiego. Dekada 2011–2020. Język Polski. https://doi.org/10.31286/JP.001055

Abstrakt

Celem artykułu jest przedstawienie zwięzłej informacji na temat Korpusu Współczesnego Języka Polskiego 2011–2020. Na początku przedstawiamy charakterystykę gromadzonych tekstów, opisujemy, skąd one pochodzą oraz jaka jest struktura korpusu zrównoważonego. Następnie referujemy warstwy znakowania lingwistycznego, które obejmują: segmentację, hasłowanie i znakowanie morfosyntaktyczne, jednostki nazewnicze oraz rozbiory składniowe (reprezentowane przez drzewa obrazujące strukturę składnikową wypowiedzeń i zachodzące w ich obrębie relacje zależności). Na koniec omawiamy, w jaki sposób użytkownik może sięgnąć do informacji zawartej w poszczególnych warstwach znakowania. W artykule podajemy przydatne adresy internetowe, pozwalające w pełni wykorzystać zgromadzony materiał językowy.

https://doi.org/10.31286/JP.001055
PDF

Bibliografia

Gries S.T. 2008: Dispersions and adjusted frequencies in corpora, „International Journal of Corpus Linguistics”, no. 13(4), s. 403–437.
Zobacz w Google Scholar

Gries S.T. 2020: Analyzing dispersion, [w:] M. Paquot, S.T. Gries (red.), A practical handbook of corpus linguistics, Springer, Cham, s. 99–118.
Zobacz w Google Scholar

Hlaváčová J. 2006: New approach to frequency dictionaries – Czech example, [w:] Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06), Genua, Włochy, s. 373–378.
Zobacz w Google Scholar

Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, z. 1, s. 75–83.
Zobacz w Google Scholar

Kieraś W., Woliński M., Nitoń B. 2021: Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego Narodowego Korpusu Języka Polskiego, „Język Polski” CI, z. 2, s. 59–70.
Zobacz w Google Scholar

Krasnowska-Kieraś K., Woliński M. 2023: Constituency parsing with spines and attachments, [w:] J. Mikyška, C. de Mulatier, M. Paszynski, V.V. Krzhizhanovskaya, J.J. Dongarra, P.M. Sloot (red.), Computational Science – ICCS 2023. ICCS 2023. Lecture Notes in Computer Science, vol. 14073, Springer, Cham, s. 191–205.
Zobacz w Google Scholar

Krasnowska-Kieraś K., Woliński M. 2024: Parsing headed constituencies, [w:] Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Turyn, Włochy, ELRA and ICCL, s. 12633–12643.
Zobacz w Google Scholar

Lewandowska-Tomaszczyk B., Bańko M., Górski L.R., Łaziński M., Pęzik P., Przepiórkowski A. 2012: Narodowy Korpus Języka Polskiego. Geneza i dzień dzisiejszy, [w:] A. Przepiórkowski, M. Bańko, R.L. Górski, B. Lewandowska-Tomaszczyk (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN SA, Warszawa, s. 3–10.
Zobacz w Google Scholar

Mańczak W. 1956: Ile rodzajów jest w polskim?, „Język Polski” XXXVI, z. 2, s. 116–121.
Zobacz w Google Scholar

Marciniak M., Kieraś W., Bojałkowska K., Borkowski P., Borys M., Eźlakowski W., Guz W., Kobyliński Ł., Komosińska D., Krasnowska-Kieraś K., Łaziński M., Miernecka M., Nitoń B., Ogrodniczuk M., Rudolf M., Tomaszewska A., Woliński M., Wołoszyn J., Wójtowicz B., Wróblewska A., Zawadzka-Paluektau N. 2023: Korpus Współczesnego Języka Polskiego, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa, URL: https://kwjp.pl.
Zobacz w Google Scholar

MoncoPL: Wyszukiwarka korpusowa Monco (online: http://monco.frazeo.pl/, dostęp: 3 października 2024).
Zobacz w Google Scholar

Mroczkowski R., Rybak P., Wróblewska A., Gawlik I. 2021: HerBERT: Efficiently pretrained transformer-based language model for Polish, [w:] Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing, Kijów, Ukraina, Association for Computational Linguistics, s. 1–10.
Zobacz w Google Scholar

NKJP: Narodowy Korpus Języka Polskiego (online: www.nkjp, dostęp: 3 października 2024).
Zobacz w Google Scholar

Ogrodniczuk M. 2017: Lingwistyka komputerowa dla języka polskiego: dziś i jutro, „Język Polski” XCVII, z. 1, s. 18–28.
Zobacz w Google Scholar

Ogrodniczuk M. 2018: Polish Parliamentary Corpus, [w:] D. Fišer, M. Eskevich, F. de Jong (red.), Proceedings of the LREC 2018 Workshop ParlaCLARIN. Creating and using Parliamentary Corpora, European Language Resources Association (ELRA), Paryż, s. 15–19.
Zobacz w Google Scholar

Pęzik P. 2020: Budowa i zastosowania korpusu monitorującego MoncoPL, „Forum Lingwistyczne”, nr 7(7), s. 133–150.
Zobacz w Google Scholar

Przepiórkowski A. 2004: Korpus IPI PAN. Wersja wstępna, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
Zobacz w Google Scholar

Przepiórkowski A., Bańko M., Górski L.R., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN SA, Warszawa.
Zobacz w Google Scholar

Saloni Z. 1974: Klasyfikacja gramatyczna leksemów polskich, „Język Polski” LIV, z. 1, s. 3–13 oraz LIV, z. 2, s. 93–101.
Zobacz w Google Scholar

Saloni Z., Świdziński M. 1998: Składnia współczesnego języka polskiego, wyd. 4 zmienione, Wydawnictwo Naukowe PWN, Warszawa.
Zobacz w Google Scholar

Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski, M. Bańko, R.L. Górski, B. Lewandowska-Tomaszczyk (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 129–167.
Zobacz w Google Scholar

Savický P., Hlaváčová J. 2002: Measures of word commonness, „Journal of Quantitative Linguistics”, no. 9, s. 215–231.
Zobacz w Google Scholar

SGJP: Z. Saloni, M. Woliński, R. Wołosz, W. Gruszczyński, D. Skowrońska, Słownik gramatyczny języka polskiego, wyd. 3 online, Warszawa 2015 (online: http://sgjp.pl, dostęp: 3 października 2024).
Zobacz w Google Scholar

Woliński M. 2006: Morfeusz – a practical tool for the morphological analysis of Polish, [w:] M.A. Kłopotek, S.T. Wierzchoń, K. Trojanowski (red.), Intelligent Information Processing and Web Mining, Advances in Soft Computing, Springer-Verlag, Berlin, s. 503–512.
Zobacz w Google Scholar

Woliński M. 2019: Automatyczna analiza składnikowa języka polskiego, Wydawnictwa Uniwersytetu Warszawskiego, Warszawa.
Zobacz w Google Scholar

Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, rozprawa doktorska, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
Zobacz w Google Scholar

Skip to content