Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego Narodowego Korpusu Języka Polskiego
PDF

Jak cytować

Kieraś, W., Woliński, M., & Nitoń, B. (2021). Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego Narodowego Korpusu Języka Polskiego. Język Polski, (2), 59–70. https://doi.org/10.31286/JP.101.2.5

Abstrakt

Artykuł opisuje znany i powszechnie wykorzystywany Narodowy Korpus Języka Polskiego w nowym opracowaniu. Aktualizacja polega zarówno na modyfikacjach schematu znakowania w warstwie morfosyntaktycznej (zwłaszcza w jego części związanej z rodzajem gramatycznym), jak również na dodaniu nowych warstw znakowania: warstwy składniowej oraz warstwy jednostek nazewniczych. Wszystkie trzy warstwy zostały zindeksowane w wyszukiwarce korpusowej MTAS i umożliwiają odwoływanie się do nich w zapytaniach korpusowych w języku CQL.

https://doi.org/10.31286/JP.101.2.5
PDF

Bibliografia

Brouwer M., Brugman H., Kemps-Snijders M. 2017: MTAS: A Solr/Lucene based Multi Tier Annotation Search solution, [w:] Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure, Linköping University Electronic Press, Linköpings Universitet, s. 19–37.

Górski R.L. 2012: Zastosowanie korpusów w badaniu gramatyki, [w:] Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 291–301.

Gruszczyński W., Adamiec D., Bronikowska R., Wieczorek A. 2020: Elektroniczny korpus tekstów polskich z XVII i XVIII w. – Problemy teoretyczne i warsztatowe, „Poradnik Językowy”, z. 8, s. 32–51.

Kieraś W., Kobyliński Ł., Ogrodniczuk M. 2018: Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, vol. 24, s. 21–27.

Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, s. 75–83.

Klyueva N., Straňák P. 2016: Improving corpus search via parsing, [w:] N. Calzolari i in. (red.), Proceedings of the Tenth International Conference on Language Resources and Evaluation, LREC 2016, European Language Resources Association, Portorož, s. 2862–2866.

Mańczak W. 1956: Ile rodzajów jest w polskim?, „Język Polski” XXXVI, s. 116–121.

Marcińczuk M., Kocoń J., Gawor M. 2018: Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches, [w:] M. Ogrodniczuk, Ł. Kobyliński (red.), Proceedings of the PolEval 2018 Workshop, Institute of Computer Science, Polish Academy of Science, Warszawa, s. 63–73.

NKJP: Narodowy Korpus Języka Polskiego (online: http://nkjp.pl).

Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.

Przepiórkowski A., Hajnicz E., Andrzejczuk A., Patejuk A., Woliński M. 2017: Walenty: gruntowny składniowo-semantyczny słownik walencyjny języka polskiego, „Język Polski” XCVII, s. 30–47.

Rybak P., Wróblewska A. 2018: Semi-supervised neural system for tagging, parsing and lemmatization, [w:] Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics, Brussels, s. 45–54.

Saloni Z. 1974: Kategoria rodzaju we współczesnym języku polskim, [w:] Urbańczyk S. i in. (red.), Kategorie gramatyczne grup imiennych we współczesnym języku polskim, Ossolineum, Wrocław, s. 41–75.

Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.

SGJP: Z. Saloni, M. Woliński, R. Wołosz, W. Gruszczyński, D. Skowrońska, Słownik gramatyczny języka polskiego, wydanie 3 online, Warszawa 2015 (online: http://sgjp.pl).

Waszczuk J., Kieraś W., Woliński M. 2018: Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields, [w:] P. Sojka i in. (red.), Text, Speech, and Dialogue. TSD 2018, Lecture Notes in Computer Science 11107, Springer, s. 188–196.

Woliński M. 2014: Morfeusz reloaded, [w:] N. Calzolari i in. (red.), Proceedings of the Ninth International Conference on

Language Resources and Evaluation. LREC 2014, European Language Resources Association, Reykjavík, s. 1106–1111.

Woliński M. 2019: Automatyczna analiza składnikowa języka polskiego, Wydawnictwa Uniwersytetu Warszawskiego, Warszawa.

Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.

WSJP PAN: Wielki słownik języka polskiego PAN, red. P. Żmigrodzki (online: https://wsjp.pl).