Abstrakt
W artykule zaprezentowano aplikację webową Korpusomat przeznaczoną do tworzenia własnych anotowanych korpusów językowych. Aplikacja oferuje możliwość automatycznego znakowania tekstu i przeszukiwania go na podstawie cech fleksyjnych i składniowych słów oraz jednostek nazewniczych. Wszystkie warstwy anotacji opisane są wraz z przykładami ich zastosowania w analizie lingwistycznej. Korpusomat oferuje również podsumowania statystyczne zebranych tekstów, a także możliwość współdzielenia stworzonych korpusów z innymi użytkownikami.
Bibliografia
Brouwer M., Brugman H., Kemps-Snijders M. 2017: MTAS: A Solr/Lucene based Multi Tier An-notation Search solution, [w:] Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure, Linköping University Electronic Press, Linköpings Universitet, s. 19–37.
Zobacz w Google Scholar
Eder M., Rybicki J., Kestemont M. 2016: Stylometry with R: a package for computational text analysis, „The R Journal”, vol. 8, s. 107–121.
Zobacz w Google Scholar
Gruszczyński W., Adamiec D., Bronikowska R., Wieczorek A. 2020: Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe, „Poradnik Językowy”, z. 8, s. 32–51.
Zobacz w Google Scholar
Janus D., Przepiórkowski A. 2007: Poliqarp: An open source corpus indexer and search engine with syntactic extensions, [w:] Proceedings of the ACL 2007 Demo and Poster Sessions, Prague, s. 85–88.
Zobacz w Google Scholar
Kieraś W., Kobyliński Ł., Ogrodniczuk M. 2018: Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, vol. 24, s. 21–27.
Zobacz w Google Scholar
Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, s. 75–83.
Zobacz w Google Scholar
Marciniak M., Mykowiecka A., Rychlik P. 2017: Automatyczne wydobywanie terminologii dziedzinowej z korpusów tekstowych, „Język Polski” XCVII, s. 64–74.
Zobacz w Google Scholar
Marcińczuk M., Kocoń J., Gawor M. 2018: Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches, [w:] M. Ogrodniczuk, Ł. Kobyliński (red.), Proceedings of the PolEval 2018 Workshop, Institute of Computer Science, Polish Academy of Science, Warszawa, s. 63–73.
Zobacz w Google Scholar
Nivre J., de Marneffe M., Ginter F., Goldberg Y., Hajič J., Manning Ch., McDonald R., Petrov S., Pyysalo S., Silveira N., Tsarfaty R., Zeman D. 2016: Universal Dependencies v1: A Multilingual Treebank Collection, [w:] N. Calzorali i in. (red.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), European Language Resources Association, Portorož, s. 1659–1666.
Zobacz w Google Scholar
NKJP: Narodowy Korpus Języka Polskiego (online: http://nkjp.pl/).
Zobacz w Google Scholar
Ogrodniczuk M. 2018: Polish Parliamentary Corpus, [w:] D. Fišer, M. Eskevich, F. de Jong (red.), Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora, European Language Resources Association (ELRA), Paris, s. 15–19.
Zobacz w Google Scholar
Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.
Zobacz w Google Scholar
Rybak P., Wróblewska A. 2018: Semi-supervised neural system for tagging, parsing and lemmatization, [w:] D. Zeman, J. Hajič (red.), Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics, Brussels, s. 45–54.
Zobacz w Google Scholar
Saloni Z., Woliński M., Wołosz R., Gruszczyński W., Skowrońska D. 2015: Słownik gramatyczny języka polskiego, Warszawa, wyd. 3.
Zobacz w Google Scholar
Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 129–167.
Zobacz w Google Scholar
Waszczuk J., Kieraś W., Woliński M. 2018: Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields, [w:] P. Sojka i in. (red.), Text, Speech, and Dialogue. TSD 2018, Lecture Notes in Computer Science 11107, Springer, s. 188–196.
Zobacz w Google Scholar
Woliński M. 2003: System znaczników morfosyntaktycznych w korpusie IPI PAN, „Polonica” XXII–XXIII, s. 39–55.
Zobacz w Google Scholar
Woliński M. 2014: Morfeusz reloaded, [w:] Calzolari N. i in. (red.), Proceedings of the Ninth International Conference on Language Resources and Evaluation, LREC 2014, European Language Resources Association, Reykjavík, s. 1106–1111.
Zobacz w Google Scholar
Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
Zobacz w Google Scholar