Abstrakt
Artykuł opisuje znany i powszechnie wykorzystywany Narodowy Korpus Języka Polskiego w nowym opracowaniu. Aktualizacja polega zarówno na modyfikacjach schematu znakowania w warstwie morfosyntaktycznej (zwłaszcza w jego części związanej z rodzajem gramatycznym), jak również na dodaniu nowych warstw znakowania: warstwy składniowej oraz warstwy jednostek nazewniczych. Wszystkie trzy warstwy zostały zindeksowane w wyszukiwarce korpusowej MTAS i umożliwiają odwoływanie się do nich w zapytaniach korpusowych w języku CQL.
Bibliografia
Brouwer M., Brugman H., Kemps-Snijders M. 2017: MTAS: A Solr/Lucene based Multi Tier Annotation Search solution, [w:] Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure, Linköping University Electronic Press, Linköpings Universitet, s. 19–37.
Zobacz w Google Scholar
Górski R.L. 2012: Zastosowanie korpusów w badaniu gramatyki, [w:] Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 291–301.
Zobacz w Google Scholar
Gruszczyński W., Adamiec D., Bronikowska R., Wieczorek A. 2020: Elektroniczny korpus tekstów polskich z XVII i XVIII w. – Problemy teoretyczne i warsztatowe, „Poradnik Językowy”, z. 8, s. 32–51.
Zobacz w Google Scholar
Kieraś W., Kobyliński Ł., Ogrodniczuk M. 2018: Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, vol. 24, s. 21–27.
Zobacz w Google Scholar
Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, s. 75–83.
Zobacz w Google Scholar
Klyueva N., Straňák P. 2016: Improving corpus search via parsing, [w:] N. Calzolari i in. (red.), Proceedings of the Tenth International Conference on Language Resources and Evaluation, LREC 2016, European Language Resources Association, Portorož, s. 2862–2866.
Zobacz w Google Scholar
Mańczak W. 1956: Ile rodzajów jest w polskim?, „Język Polski” XXXVI, s. 116–121.
Zobacz w Google Scholar
Marcińczuk M., Kocoń J., Gawor M. 2018: Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches, [w:] M. Ogrodniczuk, Ł. Kobyliński (red.), Proceedings of the PolEval 2018 Workshop, Institute of Computer Science, Polish Academy of Science, Warszawa, s. 63–73.
Zobacz w Google Scholar
NKJP: Narodowy Korpus Języka Polskiego (online: http://nkjp.pl).
Zobacz w Google Scholar
Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.
Zobacz w Google Scholar
Przepiórkowski A., Hajnicz E., Andrzejczuk A., Patejuk A., Woliński M. 2017: Walenty: gruntowny składniowo-semantyczny słownik walencyjny języka polskiego, „Język Polski” XCVII, s. 30–47.
Zobacz w Google Scholar
Rybak P., Wróblewska A. 2018: Semi-supervised neural system for tagging, parsing and lemmatization, [w:] Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics, Brussels, s. 45–54.
Zobacz w Google Scholar
Saloni Z. 1974: Kategoria rodzaju we współczesnym języku polskim, [w:] Urbańczyk S. i in. (red.), Kategorie gramatyczne grup imiennych we współczesnym języku polskim, Ossolineum, Wrocław, s. 41–75.
Zobacz w Google Scholar
Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.
Zobacz w Google Scholar
SGJP: Z. Saloni, M. Woliński, R. Wołosz, W. Gruszczyński, D. Skowrońska, Słownik gramatyczny języka polskiego, wydanie 3 online, Warszawa 2015 (online: http://sgjp.pl).
Zobacz w Google Scholar
Waszczuk J., Kieraś W., Woliński M. 2018: Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields, [w:] P. Sojka i in. (red.), Text, Speech, and Dialogue. TSD 2018, Lecture Notes in Computer Science 11107, Springer, s. 188–196.
Zobacz w Google Scholar
Woliński M. 2014: Morfeusz reloaded, [w:] N. Calzolari i in. (red.), Proceedings of the Ninth International Conference on
Zobacz w Google Scholar
Language Resources and Evaluation. LREC 2014, European Language Resources Association, Reykjavík, s. 1106–1111.
Zobacz w Google Scholar
Woliński M. 2019: Automatyczna analiza składnikowa języka polskiego, Wydawnictwa Uniwersytetu Warszawskiego, Warszawa.
Zobacz w Google Scholar
Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
Zobacz w Google Scholar
WSJP PAN: Wielki słownik języka polskiego PAN, red. P. Żmigrodzki (online: https://wsjp.pl).
Zobacz w Google Scholar