Abstrakt
Artykuł przedstawia sposób budowy elektronicznego korpusu tekstów polskiej gwary wsi Maćkowce na Ukrainie. Do tego celu został stworzony pakiet programów FonOrt autorstwa M. Wieczorka. Teksty, przepisane w transkrypcji fonetycznej do plików MS Word, zostały następnie przekształcone do formatu XML i poddane lematyzacji. Zastosowano automatyczne przypisanie każdej formie wyrazowej tekstu (ciągowi znaków) takiego odpowiedniego ciągu znaków, który może być zinterpretowany przez analizator morfologiczny języka polskiego. Zwykle była to odpowiednia forma ogólnopolska (np. kubita → kobieta, chudz’ima → chodzimy). Tak uzyskanym formom przypisana została odpowiednia forma hasłowa, do czego użyto biblioteki analizatora MorfeuszSIAT M. Wolińskiego. Do lematyzacji leksemów dyferencjalnych (wyekscerpowanych z tekstów ręcznie) została automatycznie stworzona lista ich form wyrazowych. Rezultatem jest korpus, w którym każdemu ciągowi znaków przypisany jest odpowiedni leksem, a także informacje dodatkowe, np. o osobie mówiącej. Korpus można przeszukiwać za pomocą programu Poliqarp.
Bibliografia
AOS 1986–2010: Archangielskij obłastnoj słowar’, t. 1–13, A–Żachtut’sia, red. O.G. Giecowa, Izdatielstwo Moskowskogo Uniwiersitieta, Moskwa.
Zobacz w Google Scholar
Janus D., Przepiórkowski A. 2007: An open source corpus indexer and search engine with syntactic extension, [w:] Proceedings of the ACL 2007 Demo and Poster Sessions, Prague, s. 85–88.
Zobacz w Google Scholar
Kaczinskaja I.B. 2009: Korpusnaja lingwistika w dialektologii i elektronnaja kartotieka „Archangielskogo obłastnogo słowaria”, [w:] Słowo i słowar’. Vocabulum et vocabularium. Sbornik naucznych trudow po leksikografii, GrGU im. Ja. Kupały, Grodno, s. 39–42.
Zobacz w Google Scholar
Krawczyk-Wieczorek A. 2011: Słownictwo polskiej gwary kresowej na przykładzie Maćkowiec na Podolu. Charakterystyka funkcjonalna (komputeropis rozprawy doktorskiej).
Zobacz w Google Scholar
Kriuczkowa O.J. 2007: Elektronnyj korpus russkoj dialektnoj rieczi i princypy jego razmietki, [w:] Izwiestija Saratowskogo uniwiersitieta. Nowaja sierija. Fiłołogija. Żurnalistika, t. 7, Saratow (online: sarteorlingv.narod.ru/posobiesardka.zip, dostęp: 1 grudnia 2010).
Zobacz w Google Scholar
Letuczij A.B. 2005a: Korpus dialektnych tiekstow: zadaczi i problemy, [w:] Nacyonalnyj korpus russkogo jazyka: 2003–2005, Indrik, Moskwa, s. 215–232 (online: ruscorpora.ru/sbornik2005/ 13letuchy.pdf, dostęp: 15 listopada 2010).
Zobacz w Google Scholar
Letuczij A.B. 2005b: Dialektnyje tieksty w Nacyonalnom korpusie russkogo jazyka: princypy priedstawlenija i razmietki, [w:] Jazyk i obszczestwo w sinchronii i diachronii. Trudy i matieriały Mieżdunarodnoj konfieriencii, poswiaszczonnoj 90-letiju so dnia rożdienija prof. Lidii Iwanowny Barannikowoj (Saratow, nojabr’ 2005 g.), red. W.J. Goldin, O.J. Kriuczkowa, S.P. Chiżniak, Izdatielstwo Naucznaja kniga, Saratow, s. 44–49.
Zobacz w Google Scholar
Letuczij A.B. 2009: Dialektnyj korpus: sostaw i osobiennosti razmietki, [w:] Nacionalnyj korpus russkogo jazyka: 2006–2008. Nowyje riezultaty i pierspiektiwy, Niestor-Istorija, Sankt Petersburg, s. 114–128 (online: ruscorpora.ru/sbornik2008/06.pdf, dostęp: 10 lutego 2011).
Zobacz w Google Scholar
Multimiedijnyj dialektologiczeskij korpus — ważniejszyj riesurs sochranienija i izuczenija narodno-rieczewoj kultury, 2009, [w:] Powiestka dnia dla Rossii. Analiticzeskije matieriały fonda „Jedinstwo wo imia Rossii” za 2007–2008 gody, Forum, Moskwa (online: sarteorlingv.narod.ru/dialekt/kru4kovagoldin. html, dostęp: 1 grudnia 2011).
Zobacz w Google Scholar
Rudolf M. 2004: Metody automatycznej analizy korpusu tekstów polskich: pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych, Uniwersytet Warszawski, Wydział Polonistyki, Warszawa.
Zobacz w Google Scholar
SFPW 1990: I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J. Woronczak, Słownik frekwencyjny polszczyzny współczesnej, t. 1–2, Instytut Języka Polskiego PAN, Kraków.
Zobacz w Google Scholar
Siruk O. 2012: Corpus of Ukrainian Dialect Texts (CorUDiT) as a component of a Corpus of Texts of the Ukrainian Language (CTUL), Prace Filologiczne LXIII, s. 221–233.
Zobacz w Google Scholar
Świdziński M., Derwojedowa M., Rudolf M. 2002: Dehomonimizacja i desynkretyzacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich, Biuletyn Polskiego Towarzystwa Językoznawczego LVIII, s. 187–199.
Zobacz w Google Scholar