Korpusomat – stan obecny i przyszłość projektu
PDF

Słowa kluczowe

przetwarzanie języka naturalnego
lingwistyka korpusowa
analiza fleksyjna
analiza składniowa
anotacja tekstu

Jak cytować

Kieraś, W., & Kobyliński, Łukasz. (2021). Korpusomat – stan obecny i przyszłość projektu. Język Polski, (2), 49–58. https://doi.org/10.31286/JP.101.2.4

Abstrakt

W artykule zaprezentowano aplikację webową Korpusomat przeznaczoną do tworzenia własnych anotowanych korpusów językowych. Aplikacja oferuje możliwość automatycznego znakowania tekstu i przeszukiwania go na podstawie cech fleksyjnych i składniowych słów oraz jednostek nazewniczych. Wszystkie warstwy anotacji opisane są wraz z przykładami ich zastosowania w analizie lingwistycznej. Korpusomat oferuje również podsumowania statystyczne zebranych tekstów, a także możliwość współdzielenia stworzonych korpusów z innymi użytkownikami.

https://doi.org/10.31286/JP.101.2.4
PDF

Bibliografia

Brouwer M., Brugman H., Kemps-Snijders M. 2017: MTAS: A Solr/Lucene based Multi Tier An-notation Search solution, [w:] Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure, Linköping University Electronic Press, Linköpings Universitet, s. 19–37.

Eder M., Rybicki J., Kestemont M. 2016: Stylometry with R: a package for computational text analysis, „The R Journal”, vol. 8, s. 107–121.

Gruszczyński W., Adamiec D., Bronikowska R., Wieczorek A. 2020: Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe, „Poradnik Językowy”, z. 8, s. 32–51.

Janus D., Przepiórkowski A. 2007: Poliqarp: An open source corpus indexer and search engine with syntactic extensions, [w:] Proceedings of the ACL 2007 Demo and Poster Sessions, Prague, s. 85–88.

Kieraś W., Kobyliński Ł., Ogrodniczuk M. 2018: Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, vol. 24, s. 21–27.

Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, s. 75–83.

Marciniak M., Mykowiecka A., Rychlik P. 2017: Automatyczne wydobywanie terminologii dziedzinowej z korpusów tekstowych, „Język Polski” XCVII, s. 64–74.

Marcińczuk M., Kocoń J., Gawor M. 2018: Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches, [w:] M. Ogrodniczuk, Ł. Kobyliński (red.), Proceedings of the PolEval 2018 Workshop, Institute of Computer Science, Polish Academy of Science, Warszawa, s. 63–73.

Nivre J., de Marneffe M., Ginter F., Goldberg Y., Hajič J., Manning Ch., McDonald R., Petrov S., Pyysalo S., Silveira N., Tsarfaty R., Zeman D. 2016: Universal Dependencies v1: A Multilingual Treebank Collection, [w:] N. Calzorali i in. (red.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), European Language Resources Association, Portorož, s. 1659–1666.

NKJP: Narodowy Korpus Języka Polskiego (online: http://nkjp.pl/).

Ogrodniczuk M. 2018: Polish Parliamentary Corpus, [w:] D. Fišer, M. Eskevich, F. de Jong (red.), Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora, European Language Resources Association (ELRA), Paris, s. 15–19.

Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.

Rybak P., Wróblewska A. 2018: Semi-supervised neural system for tagging, parsing and lemmatization, [w:] D. Zeman, J. Hajič (red.), Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics, Brussels, s. 45–54.

Saloni Z., Woliński M., Wołosz R., Gruszczyński W., Skowrońska D. 2015: Słownik gramatyczny języka polskiego, Warszawa, wyd. 3.

Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 129–167.

Waszczuk J., Kieraś W., Woliński M. 2018: Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields, [w:] P. Sojka i in. (red.), Text, Speech, and Dialogue. TSD 2018, Lecture Notes in Computer Science 11107, Springer, s. 188–196.

Woliński M. 2003: System znaczników morfosyntaktycznych w korpusie IPI PAN, „Polonica” XXII–XXIII, s. 39–55.

Woliński M. 2014: Morfeusz reloaded, [w:] Calzolari N. i in. (red.), Proceedings of the Ninth International Conference on Language Resources and Evaluation, LREC 2014, European Language Resources Association, Reykjavík, s. 1106–1111.

Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.