Narodowy Korpus Diachroniczny Polszczyzny. Projekt

Magdalena Król; Magdalena Derwojedowa; Rafał L. Górski; Włodzimierz Gruszczyński; Krzysztof Opaliński; Patrycja Potoniec; Marcin Woliński; Witold Kieraś; Maciej Eder

doi:10.31286/JP.99.1.8

Rocznik XCIX, z. 1 (2019), PROJEKTY I PROPOZYCJE BADAWCZE

Rocznik XCIX, z. 1

Narodowy Korpus Diachroniczny Polszczyzny. Projekt

PROJEKTY I PROPOZYCJE BADAWCZE

https://doi.org/10.31286/JP.99.1.8

Opublikowane 2019-03-31

Magdalena Król⁺⁻
Magdalena Derwojedowa⁺⁻
Rafał L. Górski⁺⁻
Włodzimierz Gruszczyński⁺⁻
Krzysztof Opaliński⁺⁻
Patrycja Potoniec⁺⁻
Marcin Woliński⁺⁻
Witold Kieraś⁺⁻
Maciej Eder⁺⁻

Magdalena Król

Instytut Języka Polskiego Polskiej Akademii Nauk, Kraków

https://orcid.org/0000-0003-0392-0921

Magdalena Derwojedowa

Uniwersytet Warszawski

https://orcid.org/0000-0002-6515-2940

Rafał L. Górski

Instytut Języka Polskiego Polskiej Akademii Nauk, Kraków; Uniwersytet Jagielloński

https://orcid.org/0000-0003-4727-2639

Włodzimierz Gruszczyński

Instytut Języka Polskiego Polskiej Akademii Nauk, Kraków

https://orcid.org/0000-0001-9406-1354

Krzysztof Opaliński

Instytut Badań Literackich Polskiej Akademii Nauk, Warszawa

https://orcid.org/0000-0001-8775-4953

Patrycja Potoniec

Instytut Badań Literackich Polskiej Akademii Nauk, Warszawa

https://orcid.org/0000-0002-5911-5422

Marcin Woliński

Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa

https://orcid.org/0000-0002-7498-1484

Witold Kieraś

Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa

https://orcid.org/0000-0002-8062-5881

Maciej Eder

Instytut Języka Polskiego Polskiej Akademii Nauk, Kraków; Uniwersytet Pedagogiczny w Krakowie

https://orcid.org/0000-0002-1429-5036

PDF

Słowa kluczowe

korpus
historia języka polskiego
diachronia
językoznawstwo historyczne
językoznawstwo korpusowe

Jak cytować

Król, M., Derwojedowa, M., Górski, R. L., Gruszczyński, W., Opaliński, K., Potoniec, P., Woliński, M., Kieraś, W., & Eder, M. (2019). Narodowy Korpus Diachroniczny Polszczyzny. Projekt. Język Polski, 99(1), 92–101. https://doi.org/10.31286/JP.99.1.8

Abstrakt

Artykuł przedstawia projekt Narodowego Korpusu Diachronicznego Polszczyzny (NKDP), który w założeniu ma być uspójnioną i rozszerzoną kolekcją mniejszych korpusów, powstających w różnych ośrodkach naukowych i obejmujących różne zakresy czasowe. W skład owego uspójnionego korpusu wejdą teksty obejmujące lata 1380–1939, co będzie stanowiło uzupełnienie Narodowego Korpusu Języka Polskiego. Celem projektu jest stworzenie zbalansowanego korpusu ukazującego historię rozwoju języka polskiego i stanowiącego bazę materiałów dla badaczy języka oraz punkt porównania dla korpusów historycznych języków europejskich i światowych. Poszczególne części składowe korpusu składają się z 24 mln słów, natomiast docelowo NKDP będzie stanowił repozytorium 40 mln słów.

https://doi.org/10.31286/JP.99.1.8

PDF

Bibliografia

Adamiec D. 2015: Kryteria doboru tekstów do „Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.)”, „Prace Filologiczne” LXVII, s. 11–20.
Zobacz w Google Scholar

Bajerowa I. 1964: Kształtowanie się systemu polskiego języka literackiego w XVIII wieku, Zakład Narodowy im. Ossolińskich, Wrocław.
Zobacz w Google Scholar

Bajerowa I. 1968: Frekwencja form i badanie procesów historycznojęzykowych, „Biuletyn Polskiego Towarzystwa Językoznawczego” XLI, s. 69–81.
Zobacz w Google Scholar

Bajerowa I. 1986–2000: Polski język ogólny XIX wieku. Stan i ewolucja, t. 1–3, Wydawnictwo Uniwersytetu Śląskiego, Katowice.
Zobacz w Google Scholar

Bień J.S. 2014: The IMPACT project Polish Ground-Truth texts as a DjVu corpus. „Cognitive Studies / Études Cognitives”, nr 14, s. 75–84 (online: https://ispan.waw.pl/journals/index.php/cs-ec/article/view/cs. 2014.008).
Zobacz w Google Scholar

Bronikowska R. 2015: Możliwości przeszukiwania korpusu barokowego – cele i założenia, „Prace Filologiczne” LXVII, s. 45–56.
Zobacz w Google Scholar

Bronikowska R., Gruszczyński W., Ogrodniczuk M., Woliński M. 2016: The use of electronic historical dictionary data in corpus design, „Studies in Polish Linguistics”, nr 11(2), s. 47–56.
Zobacz w Google Scholar

Borecki M. 1974: Kształtowanie się normy językowej w drukach polskich XVI wieku (na przykładzie oboczności typu pirwszy || pierwszy), Zakład Narodowy im. Ossolińskich, Wydawnictwo Polskiej Akademii Nauk, Wrocław–Warszawa–Kraków–Gdańsk.
Zobacz w Google Scholar

Burnard L., Bauman S. (red.) 2007: Guidelines for Electronic Text Encoding and Interchange (TEI P5), The TEI Consortium (online: http://www.tei-c.org, dostęp: 20 kwietnia 2018).
Zobacz w Google Scholar

Davies M. 2002: Corpus del Español: 100 million words, 1200s–1900s (online: http://www.corpusdelespanol.org/hist-gen/, dostęp: 20 kwietnia 2018).
Zobacz w Google Scholar

Davies M. 2010: The Corpus of Historical American English (COHA): 400 million words, 1810–2009 (online: https://corpus.byu.edu/coha/, dostęp: 20 kwietnia 2018).
Zobacz w Google Scholar

Davies M. 2012: Expanding horizons in historical linguistics with the 400-million word Corpus of Historical American English, „Corpora”, nr 7(2), s. 121–157.
Zobacz w Google Scholar

Derwojedowa M., Kieraś W., Bilińska J., Kwiecień M. 2016: Dynamika zmian fleksyjnych i ortograficznych między reformami 1830–1918, „Język Polski” XCVI, s. 24–35.
Zobacz w Google Scholar

Eder M., Klapper M., Kołodziej D. 2015: Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX, „Biuletyn Polskiego Towarzystwa Językoznawczego”, z. 71, s. 189–202.
Zobacz w Google Scholar

Ellegård A. 1953: The auxiliary do: The establishment and regulation of its use in English, Almquist & Wiksell, Stockholm.
Zobacz w Google Scholar

Górski R.L., Twardzik W. 2003: Korpus staropolski Instytutu Języka Polskiego PAN w Krakowie, [w:] S. Gajda (red.), Językoznawstwo w Polsce. Stan i perspektywy, Wydawnictwo Uniwersytetu Opolskiego, Opole, s. 155–157.
Zobacz w Google Scholar

Górski R.L., Król M. 2018: Polish Adverbial Perfect Participle. A corpus-based study, [w:] W. Guz, B. Szymanek (red.), Canonical and non-canonical structures in Polish, Wydawnictwo Katolickiego Uniwersytetu Lubelskiego, Lublin.
Zobacz w Google Scholar

Gruszczyński W., Adamiec D., Ogrodniczuk M. 2013: Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.), „Polonica” XXXIII, s. 311–318.
Zobacz w Google Scholar

Hajnicz E. 2011: Najbardziej znane korpusy tekstów. Opracowanie przeglądowe, Wydawnictwo Instytutu Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
Zobacz w Google Scholar

Kieraś W., Woliński M. 2018: Manually annotated corpus of Polish texts published between 1830 and 1918, [w:] N. Calzolari, K. Choukri, C. Cieri, T. Declerck, S. Goggi, K. Hasida i in. (red.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), European Language Resources Association (ELRA), Paris, s. 3854–3859.
Zobacz w Google Scholar

Kieraś W., Komosińska D., Modrzejewski E., Woliński M. 2017: Morphosyntactic annotation of historical texts. The making of the Baroque corpus of Polish, [w:] Text, Speech, and Dialogue 20th International Conference, TSD 2017, Prague, Czech Republic, August 27–31, 2017, Proceedings, „Lecture Notes in Computer Science”, nr 10415, s. 308–316.
Zobacz w Google Scholar

Majdak M. 2016: Słowa klucze w materiale historycznym – wyzwania i ograniczenia, „Przegląd Humanistyczny”, nr 60(3), s. 45–55.
Zobacz w Google Scholar

Michel J.-B., Shen Y.K., Aiden A.P., Veres A., Gray M.K., The Google Books Team i in. 2011: Quantitative analysis of culture using millions of digitized books, „Science”, nr 331(6014), s. 176–182 (online: https://doi.org/10.1126/science.1199644).
Zobacz w Google Scholar

Ostaszewska D. (red.) 2002: Polszczyzna XVII wieku, Wydawnictwo Naukowe „Śląsk”, Katowice.
Zobacz w Google Scholar

Twardzik W., Deptuchowa E., Szelachowska-Winiarzowa L. (red.) 2005: Opis źródeł Słownika staropolskiego, Wydawnictwo Instytutu Języka Polskiego Polskiej Akademii Nauk, Kraków.
Zobacz w Google Scholar

Pawłowski A. 2006: Chronological analysis of textual data from the „Wrocław Corpus of Polish”, „Poznań Studies in Contemporary Linguistics”, t. 41, s. 9–29.
Zobacz w Google Scholar

Rissanen M., Kytö M., Kahlas-Tarkka L., Kilpiö M., Nevanlinna S., Taavitsainen I., Nevalainen T., Raumolin-Brunberg T. (red.) 1991: The Helsinki Corpus of English Texts, University of Helsinki, Helsinki.
Zobacz w Google Scholar

Sambor J. 1972: Słowa i liczby. Zagadnienia językoznawstwa statystycznego, Zakład Narodowy im. Ossolińskich, Wrocław.
Zobacz w Google Scholar

Sinclair J. 1991: Corpus, concordance, collocation, Oxford University Press, Oxford.
Zobacz w Google Scholar

SStp: Słownik staropolski, red. S. Urbańczyk, t. 1–9, Zakład Narodowy im. Ossolińskich, Wydawnictwo PAN, Wrocław–Warszawa–Kraków 1953–1987, t. 10–11, Instytut Języka Polskiego PAN, Kraków 1988–2002 (online: http://rcin.org.pl/dlibra/publication?id=39990&from=pubindex&dirids=105&tab=1&lp=236).
Zobacz w Google Scholar

Narodowy Korpus Diachroniczny Polszczyzny. Projekt

Słowa kluczowe

Jak cytować

Pobierz cytowania

Abstrakt

Bibliografia