Korpus BLŚP - O korpusie

O korpusie

Korpus średniowiecznej polszczyzny (KŚP) jest jednym z efektów projektu pt. Baza leksykalna średniowiecznej polszczyzny. Fleksja sfinansowanego w ramach programu NPRH w latach 2018–2024. Projekt został zrealizowany pod kierownictwem dr hab. Ewy Deptuchowej, prof. IJP PAN, przez Pracownię Języka Staropolskiego Instytutu Języka Polskiego PAN w Krakowie we współpracy z Zespołem Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN w Warszawie. Celem badań było opracowanie słownika form fleksyjnych wszystkich wyrazów odmiennych poświadczonych do ok. 1500 r. oraz ich zidentyfikowanie w kolekcji tekstów z tego samego okresu. Internetowa baza leksykalna składa się zatem z dwóch powiązanych aplikacji – Słownika i Korpusu. Daje dostęp do dziedzictwa narodowego najstarszej epoki, a także pozwala w przystępny sposób na zapoznanie się z ewolucją języka ojczystego.

Korpus średniowiecznej polszczyzny a inne projekty

Ponad 200 lat badań historycznojęzykowych zaowocowało odkryciami bogatego i różnorodnego zbioru zabytków najdawniejszej polszczyzny. Większość z nich doczekała się szczegółowych opracowań filologicznych i wydań krytycznych. Te z kolei zaczęto zestawiać w kolekcje dające wgląd w imponującą, choć fragmentarycznie zachowaną spuściznę polskiego piśmiennictwa najstarszej doby. Jeśli chodzi o edycje książkowe tego typu, szczególne znaczenie ma Chrestomatia staropolska. Teksty do roku 1543 Wiesława Wydry i Wojciecha Ryszarda Rzepki (I wyd. 1984 r.).

W początkach XXI w. powstały natomiast dwie edycje elektroniczne. W 2006 r. została opublikowana Biblioteka zabytków polskiego piśmiennictwa średniowiecznego pod redakcją Wacława Twardzika, opracowana w ramach projektu grantowego KBN w latach 2002–2006. Zawiera ona nową edycję krytyczną 49 najważniejszych zabytków polskiego piśmiennictwa do 1500 r. W Bibliotece znajdują się zweryfikowane i poprawione transliteracje tekstów, ich nowe transkrypcje, komentarze do obu wersji oraz cyfrowe podobizny rękopisów. Zamieszczone na płycie DVD narzędzia informatyczne zostały zaprojektowane do równoległej prezentacji transliteracji, transkrypcji i fotografii danego tekstu. Nie zapewniały one możliwości przeszukiwania ani porównywania zawartości kolekcji, co gorsze, nie są już obsługiwane. Nadal możliwy jest odczyt pojedynczych plików .pdf i .jpg. Mniej więcej w tym samym czasie na stronie Instytutu Języka Polskiego PAN został udostępniony Korpus tekstów staropolskich do roku 1500 w postaci plików .pdf i .xml. Korpus zawiera więcej zabytków niż Biblioteka, bo aż 130 tekstów ciągłych (w tym 114 pod wspólnym tytułem Polskie zabytki wierszowane do końca XV wieku obejmujące legendy, wiersze, pieśni w różnych odpisach). Teksty w Korpusie są zamieszczone wyłącznie w transkrypcji. Przeprowadzenie analizy językowej i selekcji danych zasobu wymaga pobrania plików i użycia oprogramowania zewnętrznego, nieoferowanego w serwisie. Obie kolekcje koncentrowały się na przekładach Biblii oraz dokumentów prawnych, utworach literackich i kazaniach. Drobne zabytki, jak roty, inwentarze, listy, recepty czy marginalia nie były w nich uwzględnione.

Od strony filologicznej KŚP nawiązuje do rozwiązań zastosowanych w wymienionych projektach, oferując przy tym narzędzia służące do analizy i selekcji danych językowych. Pod tym względem inspiracją i wzorem był dla nas Elektroniczny korpus tekstów polskich z XVII i XVIII w. (potocznie znany jako Korpus barokowy, czyli KorBa). Przygotował go zespół Pracowni Historii Języka Polskiego XVII i XVIII w. Instytutu Języka Polskiego PAN, we współpracy z Zespołem Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN w latach 2013–2023, pod kierownictwem prof. dr hab. Włodzimierza Gruszczyńskiego. Autorzy projektu starali się, aby konstrukcja ich korpusu była jak najbardziej zgodna z założeniami Narodowego Korpusu Języka Polskiego (NKJP), uwzględniając jednak charakterystyczne cechy piśmiennictwa doby baroku i oświecenia (w tym strukturę gatunkową tych epok, specyfikę pisowni i fleksji). Wiele z rozwiązań przyjętych w projekcie KorBa daje się z powodzeniem zastosować do opisu polszczyzny średniowiecznej, niektóre wymagają jednak modyfikacji (np. opis archaicznych form gramatycznych niepoświadczonych w tekstach średniopolskich i nowszych). Ze względu na specyficzną strukturę polskiego piśmiennictwa najstarszej doby oraz fragmentaryczny stan jego zachowania w KŚP zachowanie zrównoważenia i reprezentatywności tekstów nie jest możliwe.

KorBa oraz KŚP oferują podobny sposób prezentacji danych językowych dzięki zastosowaniu tego samego oprogramowania – wyszukiwarki MTAS wykorzystującej język zapytań o nazwie Corpus Query Language (CQL). Wszystkie zabytki dostępne są w postaci transliteracji i transkrypcji i zawierają anotację morfosyntaktyczną. Przyjęcie podobnych założeń i struktury ma zapewnić obu projektom kompatybilność, a w przyszłości ułatwić przygotowanie materiałów do badań nad dawną polszczyzną różnych okresów jej rozwoju.

Korpus średniowiecznej polszczyzny obejmuje swoim zasięgiem teksty ciągłe i słowniczki przekładowe z kanonu Słownika staropolskiego – zatem z XIII–XV w. – oraz nieliczne zabytki z początku XVI w. nieuwzględnione w kanonie źródeł Słownika polszczyzny XVI w. (a co za tym idzie, w powstającym Korpusie polszczyzny XVI w.). Nie zamieszczamy natomiast Rozmyślania przemyskiego – jednego z najobszerniejszych źródeł Sstp zachowanego w odpisie z początku XVI w., gdyż jego nowa elektroniczna edycja została niedawno opracowana w ramach projektu Staropolskie apokryfy Nowego Testamentu pod kierownictwem prof. UAM dr hab. Doroty Rojszczak-Robińskiej. Zawiera ona m.in. transliterację i transkrypcję tekstu oraz anotację gramatyczną (nieco różniącą się w szczegółach od rozwiązań przyjętych w naszym projekcie).

Zasady doboru tekstów

Z uwagi na małą w porównaniu z późniejszymi okresami liczbę tekstów i wiążącą się z tym stosunkowo ubogą różnorodnością pod względem gatunków i rodzajów, w Korpusie średniowiecznej polszczyzny nie dokonywaliśmy selekcji zabytków pod kątem zachowania jego reprezentatywności czy też zrównoważenia. Zostały w nim uwzględnione zarówno teksty wydane, jak i dotąd nieopracowane, pozyskane z zachowanych rękopisów i inkunabułów. Publikujemy je w całości (nie w postaci próbek, jak w projekcie KorBa). Z konieczności wykorzystujemy zabytki niekompletne i zdefektowane, zachowane w wielu przekazach (np. modlitwy codzienne), zawierające wtręty obcojęzyczne, wreszcie teksty bardzo drobne (np. zagadki, wierszyki mnemotechniczne czy pojedyncze zdania w języku polskim cytowane w łacińskich kazaniach czy kronikach). Korpus zawiera głównie teksty ciągłe, tzn. przynajmniej dwuelementowe ciągi wyrazów pospolitych, z których przynajmniej jeden jest czasownikiem w formie osobowej i tworzy sensowne zdanie. Pozwala to na sukcesywne uwzględnianie w KŚP różnorodnego materiału leksykalnego, począwszy od zdania z Księgi henrykowskiej, aż po modlitewniki z pierwszych dziesięcioleci XVI w. Uzupełnieniem zasobu jest leksyka z wybranych łacińsko-polskich słowników przekładowych.

Metadane

Teksty w Korpusie średniowiecznej polszczyzny są oznaczone skrótami stosowanymi w Słowniku BLŚP, nawiązującymi do tych stosowanych w Słowniku staropolskim. Zostały ponadto opatrzone metadanymi wskazującymi m.in. na czas ich powstania, miejsce pochodzenia czy charakterystykę gatunkową.

W wypadku tekstów mieszczących się na więcej niż jednej karcie czy stronie rękopisu bądź inkunabułu wyniki wyszukiwania zawierają lokalizację cytatu z dokładnością do strony, karty lub szpalty, a w wypadku przekładów Biblii – do księgi i wersetu według numeracji Wulgaty.

Metryczka źródła zawiera podstawowe informacje umożliwiające jego identyfikację:

Tytuł
Podajemy umowny tytuł bądź incipit przyjęty w literaturze przedmiotu, niekiedy także tytuły alternatywne (np. pieśń Posłuchajcie, bracia miła, znana także jako Lament świętokrzyski lub Żale Matki Boskiej pod krzyżem).

Autor utworu
Ze względu na specyfikę polskiego piśmiennictwa w średniowieczu autor przeważnie jest nieznany.

Rodzaj i gatunek
Przyporządkowanie zabytków polszczyzny do ok. 1500 r. do konkretnych rodzajów i gatunków jest wzorowane na podziale przyjętym w projekcie KorBa (a pośrednio NKJP), ale uwzględnia specyfikę polskiego piśmiennictwa do początku XVI w. Pomijamy gatunki, które nie mają reprezentacji w postaci polskich tekstów ciągłych, lecz są pisane po łacinie lub niemiecku i zawierają tylko pojedyncze polskie glosy.

Zachowujemy prymarny podział na literaturę piękną (beletrystykę) i teksty nieliterackie. W obrębie pierwszej grupy wyróżniamy epikę, lirykę, dramat i utwory synkretyczne. Z kolei teksty nieliterackie dzielimy na: teksty naukowo-dydaktyczne lub informacyjno-poradnikowe, teksty perswazyjne, teksty urzędowo-kancelaryjne, listy, Biblię, teksty dewocyjne. Te ostatnie nie występowały w klasyfikacji rodzajowo-gatunkowej KorBy. Do tekstów dewocyjnych zaliczamy formuły liturgiczne, spowiedź, godzinki, modlitwy, dekalogi, pieśni religijne, inaczej mówiąc, konstrukcje słowne używane w praktykach kultu religijnego skierowane do bytu transcendentnego, zasadniczo różne od tekstów perswazyjnych, takich jak kazania. Zabytki niemieszczące się w żadnej z wymienionych grup, niemające wyraźnych cech gatunkowych (np. marginalia, westchnienia, pojedyncze zdania), klasyfikujemy jako varia. W wypadku niektórych zabytków możliwe jest ich traktowanie jako różnych rodzajów tekstów – np. Rozmowy mistrza Polikarpa ze śmiercią (De morte) jako liryki (wiersza) bądź dramatu (dialogu). Ze względów technicznych podajemy tylko jedno przyporządkowanie danego zabytku.

Szczegółowa lista rodzajów i gatunków prezentuje się następująco:

rodzaj	gatunki
epika	apokryf, hagiografia
liryka	wiersz, wiersz mnemotechniczny, zagadka
dramat	dialog
utwory synkretyczne	satyra
teksty naukowo-dydaktyczne lub informacyjno-poradnikowe	słownik, recepta, komentarz, rozmówki do nauki języka
teksty perswazyjne	kazanie, pismo religijno-społeczne, pouczenie katechetyczne
teksty urzędowo-kancelaryjne	testament, umowa, inwentarz, ortyl, statut ziemski, statut cechowy, reguła zakonna, formuła prawna, zapiska sądowa, rota, akta kościelne, akta urzędowe
listy	list
Biblia	przekład fragmentu Pisma Świętego, psałterz, harmonia ewangeliczna
teksty dewocyjne	formuła liturgiczna, spowiedź, godzinki, modlitwa, dekalog, pieśń religijna
varia	westchnienie, wezwanie, zdanie, notka marginalna, eksplicyt

Przekład
Oznaczamy wszystkie zabytki, które mają zidentyfikowaną obcojęzyczną podstawę tekstową (np. statuty, tłumaczenia Biblii, modlitwy, niektóre pieśni).

Pisarz przekazu
Choć większość polskiego piśmiennictwa w średniowieczu jest anonimowa, niekiedy ujawnia się tożsamość pisarza danego przekazu (np. Mikołaj Suled, który skopiował polski przekład statutów Kazimierza Wielkiego i Władysława Jagiełły oraz statutów książąt mazowieckich).

Datowanie przekazu
W wypadku źródeł, których dokładny rok powstania nie jest znany, podajemy datę przybliżoną (zgodnie z konwencją przyjętą w Sstp) oraz prawdopodobne daty graniczne (nie wcześniej niż – nie później niż).

Miejsce powstania przekazu
Określenie geograficznego pochodzenia tekstów w KŚP również nawiązuje do rozwiązań zastosowanych w KorBie. Bierzemy pod uwagę przede wszystkim dostępne informacje o miejscu powstania danego przekazu i jego regionalnych cechach językowych. Wskazana lokalizacja może się zatem nie pokrywać z miejscem przechowywania zabytku i nie musi wskazywać na pochodzenie geograficzne pisarza (kopisty), a tym bardziej autora utworu. O ile to możliwe, przyporządkowujemy zabytki do jednego z następujących regionów: Małopolska, Mazowsze, Prusy, Śląsk, Wielkopolska, Ziemie Ruskie, Ziemie Wielkiego Księstwa Litewskiego. W wypadku zabytków, których pochodzenie nie jest jednoznaczne, a cechy językowe wskazują na związki z więcej niż jednym regionem (np. Śląsk i Małopolska), miejsce powstania opisujemy jako „niepewne”. Przy braku wystarczających danych pochodzenie geograficzne określamy jako „nieznane”.

Typ podstawy materiałowej
Zabytki średniowiecznej polszczyzny dochowały się przeważnie w postaci rękopisów, rzadziej inkunabułów (Zdrow 11, Ojcz 11, Wierzę 12), niekiedy mają postać odręcznych adnotacji w rękopisie bądź inkunabule. Dotyczy to zwłaszcza drobnych utworów, niezwiązanych pod względem formy ani treści z tekstem głównym (np. westchnienia czy żartobliwe wierszyki).

Stan zachowania
Transliteracje zabytków, które dochowały się do naszych czasów, były w miarę możności weryfikowane na podstawie fotografii. Teksty niezachowane podajemy zasadniczo w takiej postaci, w jakiej przygotowali ją wydawcy. Bywa, że jest to wyłącznie transkrypcja.

Metryczka źródła w BLŚP
Dzięki odsyłaczowi do szczegółowego opisu źródła w BLŚP użytkownik ma dostęp do większej ilości informacji na temat danego zabytku (w tym do danych o miejscu przechowywania, sygnaturze, zakresie kart i sposobie jego wykorzystania w Sstp). Informacje o poszczególnych źródłach zostały pozyskane z ich wydań, Opisu źródeł Słownika staropolskiego oraz z literatury przedmiotu, co podajemy w bibliografii.

Źródło transliteracji i transkrypcji
Transliteracje i transkrypcje znacznej części tekstów pozyskaliśmy z różnych wydań (w miarę możliwości zweryfikowanych z fotografiami rękopisów). Ze względu na znaczne rozbieżności między zasadami wydania poszczególnych zabytków, a niekiedy również między wydaniem a rękopisem, zastosowaliśmy zabiegi mające na celu ujednolicenie i uściślenie sposobu prezentacji tekstu. Dlatego oznaczamy, z jakich edycji pochodzą transliteracja i transkrypcja, a także czy zostały one zmodyfikowane na potrzeby projektu. Źródła odczytane z rękopisu oraz dostępne wyłącznie w transliteracji (nieposiadające dotąd opublikowanej transkrypcji), zostały opracowane od podstaw przez członków zespołu grantowego.

Pełnotekstowe wersje transliteracji i transkrypcji wybranych zabytków są dostępne w BLŚP w zakładce Biblioteka.

Bibliografia

Apocrypha – Rojszczak-Robińska D., Ziółkowska O., Masłej D. et al. (red.), Staropolskie apokryfy Nowego Testamentu, [on-line:] apocrypha.amu.edu.pl.
Deptuchowa E., Jasińska K., Klapper M., Kołodziej D., 2020, O projekcie Korpusu Polszczyzny do 1500 roku, „Poradnik Językowy”, z. 8, s. 7–16.
Elektroniczny korpus tekstów polskich z XVII i XVIII w. https://korba.edu.pl/
Gruszczyński W., Adamiec D., Bronikowska R., Wieczorek A., 2020, Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe, „Poradnik Językowy” 8, s. 32–51.
Gruszczyński W., Adamiec D., Bronikowska R., Kieraś W., Modrzejewski E., Wieczorek A., Woliński M., 2022, The Electronic Corpus of 17th- and 18th-century Polish Texts, „Language Resources and Evaluation” 56, s. 309–332.
Król, M., Derwojedowa, M., Górski, R.L., Gruszczyński, W., Opaliński, K., Potoniec, P., Woliński, M., Kieraś, W., Eder, M., 2019. Narodowy Korpus Diachroniczny Polszczyzny. Projekt, „Język Polski” XLIX, s. 92–101.
Przepiórkowski A., Bańko M., Górski R.L. et al. (red.), 2012, Narodowy Korpus Języka Polskiego, Warszawa.
Twardzik W., Deptuchowa E., Szelachowska-Winiarzowa L. (red.), 2005, Opis źródeł Słownika staropolskiego, Kraków.
Wismont M., Zalejarz K., Nowak-Pasterska E., Rojszczak-Robińska D., 2024, „LingVaria” XIX nr 1 (37), Specyfika staropolszczyzny a anotacja gramatyczna. O lematyzacji tekstu staropolskiego, s. s. 171–184, https://doi.org/10.12797/LV.19.2024.37.11.