Abstrakt
Artykuł przedstawia projekt Narodowego Korpusu Diachronicznego Polszczyzny (NKDP), który w założeniu ma być uspójnioną i rozszerzoną kolekcją mniejszych korpusów, powstających w różnych ośrodkach naukowych i obejmujących różne zakresy czasowe. W skład owego uspójnionego korpusu wejdą teksty obejmujące lata 1380–1939, co będzie stanowiło uzupełnienie Narodowego Korpusu Języka Polskiego. Celem projektu jest stworzenie zbalansowanego korpusu ukazującego historię rozwoju języka polskiego i stanowiącego bazę materiałów dla badaczy języka oraz punkt porównania dla korpusów historycznych języków europejskich i światowych. Poszczególne części składowe korpusu składają się z 24 mln słów, natomiast docelowo NKDP będzie stanowił repozytorium 40 mln słów.
Bibliografia
Adamiec D. 2015: Kryteria doboru tekstów do „Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.)”, „Prace Filologiczne” LXVII, s. 11–20.
Zobacz w Google Scholar
Bajerowa I. 1964: Kształtowanie się systemu polskiego języka literackiego w XVIII wieku, Zakład Narodowy im. Ossolińskich, Wrocław.
Zobacz w Google Scholar
Bajerowa I. 1968: Frekwencja form i badanie procesów historycznojęzykowych, „Biuletyn Polskiego Towarzystwa Językoznawczego” XLI, s. 69–81.
Zobacz w Google Scholar
Bajerowa I. 1986–2000: Polski język ogólny XIX wieku. Stan i ewolucja, t. 1–3, Wydawnictwo Uniwersytetu Śląskiego, Katowice.
Zobacz w Google Scholar
Bień J.S. 2014: The IMPACT project Polish Ground-Truth texts as a DjVu corpus. „Cognitive Studies / Études Cognitives”, nr 14, s. 75–84 (online: https://ispan.waw.pl/journals/index.php/cs-ec/article/view/cs. 2014.008).
Zobacz w Google Scholar
Bronikowska R. 2015: Możliwości przeszukiwania korpusu barokowego – cele i założenia, „Prace Filologiczne” LXVII, s. 45–56.
Zobacz w Google Scholar
Bronikowska R., Gruszczyński W., Ogrodniczuk M., Woliński M. 2016: The use of electronic historical dictionary data in corpus design, „Studies in Polish Linguistics”, nr 11(2), s. 47–56.
Zobacz w Google Scholar
Borecki M. 1974: Kształtowanie się normy językowej w drukach polskich XVI wieku (na przykładzie oboczności typu pirwszy || pierwszy), Zakład Narodowy im. Ossolińskich, Wydawnictwo Polskiej Akademii Nauk, Wrocław–Warszawa–Kraków–Gdańsk.
Zobacz w Google Scholar
Burnard L., Bauman S. (red.) 2007: Guidelines for Electronic Text Encoding and Interchange (TEI P5), The TEI Consortium (online: http://www.tei-c.org, dostęp: 20 kwietnia 2018).
Zobacz w Google Scholar
Davies M. 2002: Corpus del Español: 100 million words, 1200s–1900s (online: http://www.corpusdelespanol.org/hist-gen/, dostęp: 20 kwietnia 2018).
Zobacz w Google Scholar
Davies M. 2010: The Corpus of Historical American English (COHA): 400 million words, 1810–2009 (online: https://corpus.byu.edu/coha/, dostęp: 20 kwietnia 2018).
Zobacz w Google Scholar
Davies M. 2012: Expanding horizons in historical linguistics with the 400-million word Corpus of Historical American English, „Corpora”, nr 7(2), s. 121–157.
Zobacz w Google Scholar
Derwojedowa M., Kieraś W., Bilińska J., Kwiecień M. 2016: Dynamika zmian fleksyjnych i ortograficznych między reformami 1830–1918, „Język Polski” XCVI, s. 24–35.
Zobacz w Google Scholar
Eder M., Klapper M., Kołodziej D. 2015: Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX, „Biuletyn Polskiego Towarzystwa Językoznawczego”, z. 71, s. 189–202.
Zobacz w Google Scholar
Ellegård A. 1953: The auxiliary do: The establishment and regulation of its use in English, Almquist & Wiksell, Stockholm.
Zobacz w Google Scholar
Górski R.L., Twardzik W. 2003: Korpus staropolski Instytutu Języka Polskiego PAN w Krakowie, [w:] S. Gajda (red.), Językoznawstwo w Polsce. Stan i perspektywy, Wydawnictwo Uniwersytetu Opolskiego, Opole, s. 155–157.
Zobacz w Google Scholar
Górski R.L., Król M. 2018: Polish Adverbial Perfect Participle. A corpus-based study, [w:] W. Guz, B. Szymanek (red.), Canonical and non-canonical structures in Polish, Wydawnictwo Katolickiego Uniwersytetu Lubelskiego, Lublin.
Zobacz w Google Scholar
Gruszczyński W., Adamiec D., Ogrodniczuk M. 2013: Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.), „Polonica” XXXIII, s. 311–318.
Zobacz w Google Scholar
Hajnicz E. 2011: Najbardziej znane korpusy tekstów. Opracowanie przeglądowe, Wydawnictwo Instytutu Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
Zobacz w Google Scholar
Kieraś W., Woliński M. 2018: Manually annotated corpus of Polish texts published between 1830 and 1918, [w:] N. Calzolari, K. Choukri, C. Cieri, T. Declerck, S. Goggi, K. Hasida i in. (red.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), European Language Resources Association (ELRA), Paris, s. 3854–3859.
Zobacz w Google Scholar
Kieraś W., Komosińska D., Modrzejewski E., Woliński M. 2017: Morphosyntactic annotation of historical texts. The making of the Baroque corpus of Polish, [w:] Text, Speech, and Dialogue 20th International Conference, TSD 2017, Prague, Czech Republic, August 27–31, 2017, Proceedings, „Lecture Notes in Computer Science”, nr 10415, s. 308–316.
Zobacz w Google Scholar
Majdak M. 2016: Słowa klucze w materiale historycznym – wyzwania i ograniczenia, „Przegląd Humanistyczny”, nr 60(3), s. 45–55.
Zobacz w Google Scholar
Michel J.-B., Shen Y.K., Aiden A.P., Veres A., Gray M.K., The Google Books Team i in. 2011: Quantitative analysis of culture using millions of digitized books, „Science”, nr 331(6014), s. 176–182 (online: https://doi.org/10.1126/science.1199644).
Zobacz w Google Scholar
Ostaszewska D. (red.) 2002: Polszczyzna XVII wieku, Wydawnictwo Naukowe „Śląsk”, Katowice.
Zobacz w Google Scholar
Twardzik W., Deptuchowa E., Szelachowska-Winiarzowa L. (red.) 2005: Opis źródeł Słownika staropolskiego, Wydawnictwo Instytutu Języka Polskiego Polskiej Akademii Nauk, Kraków.
Zobacz w Google Scholar
Pawłowski A. 2006: Chronological analysis of textual data from the „Wrocław Corpus of Polish”, „Poznań Studies in Contemporary Linguistics”, t. 41, s. 9–29.
Zobacz w Google Scholar
Rissanen M., Kytö M., Kahlas-Tarkka L., Kilpiö M., Nevanlinna S., Taavitsainen I., Nevalainen T., Raumolin-Brunberg T. (red.) 1991: The Helsinki Corpus of English Texts, University of Helsinki, Helsinki.
Zobacz w Google Scholar
Sambor J. 1972: Słowa i liczby. Zagadnienia językoznawstwa statystycznego, Zakład Narodowy im. Ossolińskich, Wrocław.
Zobacz w Google Scholar
Sinclair J. 1991: Corpus, concordance, collocation, Oxford University Press, Oxford.
Zobacz w Google Scholar
SStp: Słownik staropolski, red. S. Urbańczyk, t. 1–9, Zakład Narodowy im. Ossolińskich, Wydawnictwo PAN, Wrocław–Warszawa–Kraków 1953–1987, t. 10–11, Instytut Języka Polskiego PAN, Kraków 1988–2002 (online: http://rcin.org.pl/dlibra/publication?id=39990&from=pubindex&dirids=105&tab=1&lp=236).
Zobacz w Google Scholar