Korpusomat – stan obecny i przyszłość  projektu

Witold Kieraś; Łukasz Kobyliński

doi:10.31286/JP.101.2.4

Rocznik CI, z. 2 (2021), ARTYKUŁY I ROZPRAWY

Rocznik CI, z. 2

Korpusomat – stan obecny i przyszłość projektu

ARTYKUŁY I ROZPRAWY

https://doi.org/10.31286/JP.101.2.4

Opublikowane 2021-09-30

Witold Kieraś⁺⁻
Łukasz Kobyliński⁺⁻

Witold Kieraś

Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa

https://orcid.org/0000-0002-8062-5881

Łukasz Kobyliński

Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa

https://orcid.org/0000-0003-2462-0020

PDF

Słowa kluczowe

przetwarzanie języka naturalnego
lingwistyka korpusowa
analiza fleksyjna
analiza składniowa
anotacja tekstu

Jak cytować

Kieraś, W., & Kobyliński, Łukasz. (2021). Korpusomat – stan obecny i przyszłość projektu. Język Polski, (2), 49–58. https://doi.org/10.31286/JP.101.2.4

Abstrakt

W artykule zaprezentowano aplikację webową Korpusomat przeznaczoną do tworzenia własnych anotowanych korpusów językowych. Aplikacja oferuje możliwość automatycznego znakowania tekstu i przeszukiwania go na podstawie cech fleksyjnych i składniowych słów oraz jednostek nazewniczych. Wszystkie warstwy anotacji opisane są wraz z przykładami ich zastosowania w analizie lingwistycznej. Korpusomat oferuje również podsumowania statystyczne zebranych tekstów, a także możliwość współdzielenia stworzonych korpusów z innymi użytkownikami.

https://doi.org/10.31286/JP.101.2.4

PDF

Bibliografia

Brouwer M., Brugman H., Kemps-Snijders M. 2017: MTAS: A Solr/Lucene based Multi Tier An-notation Search solution, [w:] Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure, Linköping University Electronic Press, Linköpings Universitet, s. 19–37.
Zobacz w Google Scholar

Eder M., Rybicki J., Kestemont M. 2016: Stylometry with R: a package for computational text analysis, „The R Journal”, vol. 8, s. 107–121.
Zobacz w Google Scholar

Gruszczyński W., Adamiec D., Bronikowska R., Wieczorek A. 2020: Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe, „Poradnik Językowy”, z. 8, s. 32–51.
Zobacz w Google Scholar

Janus D., Przepiórkowski A. 2007: Poliqarp: An open source corpus indexer and search engine with syntactic extensions, [w:] Proceedings of the ACL 2007 Demo and Poster Sessions, Prague, s. 85–88.
Zobacz w Google Scholar

Kieraś W., Kobyliński Ł., Ogrodniczuk M. 2018: Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, vol. 24, s. 21–27.
Zobacz w Google Scholar

Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, s. 75–83.
Zobacz w Google Scholar

Marciniak M., Mykowiecka A., Rychlik P. 2017: Automatyczne wydobywanie terminologii dziedzinowej z korpusów tekstowych, „Język Polski” XCVII, s. 64–74.
Zobacz w Google Scholar

Marcińczuk M., Kocoń J., Gawor M. 2018: Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches, [w:] M. Ogrodniczuk, Ł. Kobyliński (red.), Proceedings of the PolEval 2018 Workshop, Institute of Computer Science, Polish Academy of Science, Warszawa, s. 63–73.
Zobacz w Google Scholar

Nivre J., de Marneffe M., Ginter F., Goldberg Y., Hajič J., Manning Ch., McDonald R., Petrov S., Pyysalo S., Silveira N., Tsarfaty R., Zeman D. 2016: Universal Dependencies v1: A Multilingual Treebank Collection, [w:] N. Calzorali i in. (red.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), European Language Resources Association, Portorož, s. 1659–1666.
Zobacz w Google Scholar

NKJP: Narodowy Korpus Języka Polskiego (online: http://nkjp.pl/).
Zobacz w Google Scholar

Ogrodniczuk M. 2018: Polish Parliamentary Corpus, [w:] D. Fišer, M. Eskevich, F. de Jong (red.), Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora, European Language Resources Association (ELRA), Paris, s. 15–19.
Zobacz w Google Scholar

Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.
Zobacz w Google Scholar

Rybak P., Wróblewska A. 2018: Semi-supervised neural system for tagging, parsing and lemmatization, [w:] D. Zeman, J. Hajič (red.), Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics, Brussels, s. 45–54.
Zobacz w Google Scholar

Saloni Z., Woliński M., Wołosz R., Gruszczyński W., Skowrońska D. 2015: Słownik gramatyczny języka polskiego, Warszawa, wyd. 3.
Zobacz w Google Scholar

Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 129–167.
Zobacz w Google Scholar

Waszczuk J., Kieraś W., Woliński M. 2018: Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields, [w:] P. Sojka i in. (red.), Text, Speech, and Dialogue. TSD 2018, Lecture Notes in Computer Science 11107, Springer, s. 188–196.
Zobacz w Google Scholar

Woliński M. 2003: System znaczników morfosyntaktycznych w korpusie IPI PAN, „Polonica” XXII–XXIII, s. 39–55.
Zobacz w Google Scholar

Woliński M. 2014: Morfeusz reloaded, [w:] Calzolari N. i in. (red.), Proceedings of the Ninth International Conference on Language Resources and Evaluation, LREC 2014, European Language Resources Association, Reykjavík, s. 1106–1111.
Zobacz w Google Scholar

Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
Zobacz w Google Scholar

Korpusomat – stan obecny i przyszłość projektu

Słowa kluczowe

Jak cytować

Pobierz cytowania

Abstrakt

Bibliografia