Abstrakt
Celem artykułu jest przedstawienie zwięzłej informacji na temat Korpusu Współczesnego Języka Polskiego 2011–2020. Na początku przedstawiamy charakterystykę gromadzonych tekstów, opisujemy, skąd one pochodzą oraz jaka jest struktura korpusu zrównoważonego. Następnie referujemy warstwy znakowania lingwistycznego, które obejmują: segmentację, hasłowanie i znakowanie morfosyntaktyczne, jednostki nazewnicze oraz rozbiory składniowe (reprezentowane przez drzewa obrazujące strukturę składnikową wypowiedzeń i zachodzące w ich obrębie relacje zależności). Na koniec omawiamy, w jaki sposób użytkownik może sięgnąć do informacji zawartej w poszczególnych warstwach znakowania. W artykule podajemy przydatne adresy internetowe, pozwalające w pełni wykorzystać zgromadzony materiał językowy.
Bibliografia
Gries S.T. 2008: Dispersions and adjusted frequencies in corpora, „International Journal of Corpus Linguistics”, no. 13(4), s. 403–437.
Zobacz w Google Scholar
Gries S.T. 2020: Analyzing dispersion, [w:] M. Paquot, S.T. Gries (red.), A practical handbook of corpus linguistics, Springer, Cham, s. 99–118.
Zobacz w Google Scholar
Hlaváčová J. 2006: New approach to frequency dictionaries – Czech example, [w:] Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06), Genua, Włochy, s. 373–378.
Zobacz w Google Scholar
Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, z. 1, s. 75–83.
Zobacz w Google Scholar
Kieraś W., Woliński M., Nitoń B. 2021: Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego Narodowego Korpusu Języka Polskiego, „Język Polski” CI, z. 2, s. 59–70.
Zobacz w Google Scholar
Krasnowska-Kieraś K., Woliński M. 2023: Constituency parsing with spines and attachments, [w:] J. Mikyška, C. de Mulatier, M. Paszynski, V.V. Krzhizhanovskaya, J.J. Dongarra, P.M. Sloot (red.), Computational Science – ICCS 2023. ICCS 2023. Lecture Notes in Computer Science, vol. 14073, Springer, Cham, s. 191–205.
Zobacz w Google Scholar
Krasnowska-Kieraś K., Woliński M. 2024: Parsing headed constituencies, [w:] Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Turyn, Włochy, ELRA and ICCL, s. 12633–12643.
Zobacz w Google Scholar
Lewandowska-Tomaszczyk B., Bańko M., Górski L.R., Łaziński M., Pęzik P., Przepiórkowski A. 2012: Narodowy Korpus Języka Polskiego. Geneza i dzień dzisiejszy, [w:] A. Przepiórkowski, M. Bańko, R.L. Górski, B. Lewandowska-Tomaszczyk (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN SA, Warszawa, s. 3–10.
Zobacz w Google Scholar
Mańczak W. 1956: Ile rodzajów jest w polskim?, „Język Polski” XXXVI, z. 2, s. 116–121.
Zobacz w Google Scholar
Marciniak M., Kieraś W., Bojałkowska K., Borkowski P., Borys M., Eźlakowski W., Guz W., Kobyliński Ł., Komosińska D., Krasnowska-Kieraś K., Łaziński M., Miernecka M., Nitoń B., Ogrodniczuk M., Rudolf M., Tomaszewska A., Woliński M., Wołoszyn J., Wójtowicz B., Wróblewska A., Zawadzka-Paluektau N. 2023: Korpus Współczesnego Języka Polskiego, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa, URL: https://kwjp.pl.
Zobacz w Google Scholar
MoncoPL: Wyszukiwarka korpusowa Monco (online: http://monco.frazeo.pl/, dostęp: 3 października 2024).
Zobacz w Google Scholar
Mroczkowski R., Rybak P., Wróblewska A., Gawlik I. 2021: HerBERT: Efficiently pretrained transformer-based language model for Polish, [w:] Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing, Kijów, Ukraina, Association for Computational Linguistics, s. 1–10.
Zobacz w Google Scholar
NKJP: Narodowy Korpus Języka Polskiego (online: www.nkjp, dostęp: 3 października 2024).
Zobacz w Google Scholar
Ogrodniczuk M. 2017: Lingwistyka komputerowa dla języka polskiego: dziś i jutro, „Język Polski” XCVII, z. 1, s. 18–28.
Zobacz w Google Scholar
Ogrodniczuk M. 2018: Polish Parliamentary Corpus, [w:] D. Fišer, M. Eskevich, F. de Jong (red.), Proceedings of the LREC 2018 Workshop ParlaCLARIN. Creating and using Parliamentary Corpora, European Language Resources Association (ELRA), Paryż, s. 15–19.
Zobacz w Google Scholar
Pęzik P. 2020: Budowa i zastosowania korpusu monitorującego MoncoPL, „Forum Lingwistyczne”, nr 7(7), s. 133–150.
Zobacz w Google Scholar
Przepiórkowski A. 2004: Korpus IPI PAN. Wersja wstępna, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
Zobacz w Google Scholar
Przepiórkowski A., Bańko M., Górski L.R., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN SA, Warszawa.
Zobacz w Google Scholar
Saloni Z. 1974: Klasyfikacja gramatyczna leksemów polskich, „Język Polski” LIV, z. 1, s. 3–13 oraz LIV, z. 2, s. 93–101.
Zobacz w Google Scholar
Saloni Z., Świdziński M. 1998: Składnia współczesnego języka polskiego, wyd. 4 zmienione, Wydawnictwo Naukowe PWN, Warszawa.
Zobacz w Google Scholar
Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski, M. Bańko, R.L. Górski, B. Lewandowska-Tomaszczyk (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 129–167.
Zobacz w Google Scholar
Savický P., Hlaváčová J. 2002: Measures of word commonness, „Journal of Quantitative Linguistics”, no. 9, s. 215–231.
Zobacz w Google Scholar
SGJP: Z. Saloni, M. Woliński, R. Wołosz, W. Gruszczyński, D. Skowrońska, Słownik gramatyczny języka polskiego, wyd. 3 online, Warszawa 2015 (online: http://sgjp.pl, dostęp: 3 października 2024).
Zobacz w Google Scholar
Woliński M. 2006: Morfeusz – a practical tool for the morphological analysis of Polish, [w:] M.A. Kłopotek, S.T. Wierzchoń, K. Trojanowski (red.), Intelligent Information Processing and Web Mining, Advances in Soft Computing, Springer-Verlag, Berlin, s. 503–512.
Zobacz w Google Scholar
Woliński M. 2019: Automatyczna analiza składnikowa języka polskiego, Wydawnictwa Uniwersytetu Warszawskiego, Warszawa.
Zobacz w Google Scholar
Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, rozprawa doktorska, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
Zobacz w Google Scholar