Korpus średniowiecznej polszczyzny (KŚP) jest jednym z efektów projektu pt. Baza leksykalna średniowiecznej polszczyzny. Fleksja sfinansowanego w ramach programu NPRH w latach 2018–2024. Projekt został zrealizowany pod kierownictwem dr hab. Ewy Deptuchowej, prof. IJP PAN, przez Pracownię Języka Staropolskiego Instytutu Języka Polskiego PAN w Krakowie we współpracy z Zespołem Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN w Warszawie. Celem badań było opracowanie słownika form fleksyjnych wszystkich wyrazów odmiennych poświadczonych do ok. 1500 r. oraz ich zidentyfikowanie w kolekcji tekstów z tego samego okresu. Internetowa baza leksykalna składa się zatem z dwóch powiązanych aplikacji – Słownika i Korpusu. Daje dostęp do dziedzictwa narodowego najstarszej epoki, a także pozwala w przystępny sposób na zapoznanie się z ewolucją języka ojczystego.
Ponad 200 lat badań historycznojęzykowych zaowocowało odkryciami bogatego i różnorodnego zbioru zabytków najdawniejszej polszczyzny. Większość z nich doczekała się szczegółowych opracowań filologicznych i wydań krytycznych. Te z kolei zaczęto zestawiać w kolekcje dające wgląd w imponującą, choć fragmentarycznie zachowaną spuściznę polskiego piśmiennictwa najstarszej doby. Jeśli chodzi o edycje książkowe tego typu, szczególne znaczenie ma Chrestomatia staropolska. Teksty do roku 1543 Wiesława Wydry i Wojciecha Ryszarda Rzepki (I wyd. 1984 r.).
W początkach XXI w. powstały natomiast dwie edycje elektroniczne. W 2006 r. została opublikowana Biblioteka zabytków polskiego piśmiennictwa średniowiecznego pod redakcją Wacława Twardzika, opracowana w ramach projektu grantowego KBN w latach 2002–2006. Zawiera ona nową edycję krytyczną 49 najważniejszych zabytków polskiego piśmiennictwa do 1500 r. W Bibliotece znajdują się zweryfikowane i poprawione transliteracje tekstów, ich nowe transkrypcje, komentarze do obu wersji oraz cyfrowe podobizny rękopisów. Zamieszczone na płycie DVD narzędzia informatyczne zostały zaprojektowane do równoległej prezentacji transliteracji, transkrypcji i fotografii danego tekstu. Nie zapewniały one możliwości przeszukiwania ani porównywania zawartości kolekcji, co gorsze, nie są już obsługiwane. Nadal możliwy jest odczyt pojedynczych plików .pdf i .jpg. Mniej więcej w tym samym czasie na stronie Instytutu Języka Polskiego PAN został udostępniony Korpus tekstów staropolskich do roku 1500 w postaci plików .pdf i .xml. Korpus zawiera więcej zabytków niż Biblioteka, bo aż 130 tekstów ciągłych (w tym 114 pod wspólnym tytułem Polskie zabytki wierszowane do końca XV wieku obejmujące legendy, wiersze, pieśni w różnych odpisach). Teksty w Korpusie są zamieszczone wyłącznie w transkrypcji. Przeprowadzenie analizy językowej i selekcji danych zasobu wymaga pobrania plików i użycia oprogramowania zewnętrznego, nieoferowanego w serwisie. Obie kolekcje koncentrowały się na przekładach Biblii oraz dokumentów prawnych, utworach literackich i kazaniach. Drobne zabytki, jak roty, inwentarze, listy, recepty czy marginalia nie były w nich uwzględnione.
Od strony filologicznej KŚP nawiązuje do rozwiązań zastosowanych w wymienionych projektach, oferując przy tym narzędzia służące do analizy i selekcji danych językowych. Pod tym względem inspiracją i wzorem był dla nas Elektroniczny korpus tekstów polskich z XVII i XVIII w. (potocznie znany jako Korpus barokowy, czyli KorBa). Przygotował go zespół Pracowni Historii Języka Polskiego XVII i XVIII w. Instytutu Języka Polskiego PAN, we współpracy z Zespołem Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN w latach 2013–2023, pod kierownictwem prof. dr hab. Włodzimierza Gruszczyńskiego. Autorzy projektu starali się, aby konstrukcja ich korpusu była jak najbardziej zgodna z założeniami Narodowego Korpusu Języka Polskiego (NKJP), uwzględniając jednak charakterystyczne cechy piśmiennictwa doby baroku i oświecenia (w tym strukturę gatunkową tych epok, specyfikę pisowni i fleksji). Wiele z rozwiązań przyjętych w projekcie KorBa daje się z powodzeniem zastosować do opisu polszczyzny średniowiecznej, niektóre wymagają jednak modyfikacji (np. opis archaicznych form gramatycznych niepoświadczonych w tekstach średniopolskich i nowszych). Ze względu na specyficzną strukturę polskiego piśmiennictwa najstarszej doby oraz fragmentaryczny stan jego zachowania w KŚP zachowanie zrównoważenia i reprezentatywności tekstów nie jest możliwe.
KorBa oraz KŚP oferują podobny sposób prezentacji danych językowych dzięki zastosowaniu tego samego oprogramowania – wyszukiwarki MTAS wykorzystującej język zapytań o nazwie Corpus Query Language (CQL). Wszystkie zabytki dostępne są w postaci transliteracji i transkrypcji i zawierają anotację morfosyntaktyczną. Przyjęcie podobnych założeń i struktury ma zapewnić obu projektom kompatybilność, a w przyszłości ułatwić przygotowanie materiałów do badań nad dawną polszczyzną różnych okresów jej rozwoju.
Korpus średniowiecznej polszczyzny obejmuje swoim zasięgiem teksty ciągłe i słowniczki przekładowe z kanonu Słownika staropolskiego – zatem z XIII–XV w. – oraz nieliczne zabytki z początku XVI w. nieuwzględnione w kanonie źródeł Słownika polszczyzny XVI w. (a co za tym idzie, w powstającym Korpusie polszczyzny XVI w.). Nie zamieszczamy natomiast Rozmyślania przemyskiego – jednego z najobszerniejszych źródeł Sstp zachowanego w odpisie z początku XVI w., gdyż jego nowa elektroniczna edycja została niedawno opracowana w ramach projektu Staropolskie apokryfy Nowego Testamentu pod kierownictwem prof. UAM dr hab. Doroty Rojszczak-Robińskiej. Zawiera ona m.in. transliterację i transkrypcję tekstu oraz anotację gramatyczną (nieco różniącą się w szczegółach od rozwiązań przyjętych w naszym projekcie).
Z uwagi na małą w porównaniu z późniejszymi okresami liczbę tekstów i wiążącą się z tym stosunkowo ubogą różnorodnością pod względem gatunków i rodzajów, w Korpusie średniowiecznej polszczyzny nie dokonywaliśmy selekcji zabytków pod kątem zachowania jego reprezentatywności czy też zrównoważenia. Zostały w nim uwzględnione zarówno teksty wydane, jak i dotąd nieopracowane, pozyskane z zachowanych rękopisów i inkunabułów. Publikujemy je w całości (nie w postaci próbek, jak w projekcie KorBa). Z konieczności wykorzystujemy zabytki niekompletne i zdefektowane, zachowane w wielu przekazach (np. modlitwy codzienne), zawierające wtręty obcojęzyczne, wreszcie teksty bardzo drobne (np. zagadki, wierszyki mnemotechniczne czy pojedyncze zdania w języku polskim cytowane w łacińskich kazaniach czy kronikach). Korpus zawiera głównie teksty ciągłe, tzn. przynajmniej dwuelementowe ciągi wyrazów pospolitych, z których przynajmniej jeden jest czasownikiem w formie osobowej i tworzy sensowne zdanie. Pozwala to na sukcesywne uwzględnianie w KŚP różnorodnego materiału leksykalnego, począwszy od zdania z Księgi henrykowskiej, aż po modlitewniki z pierwszych dziesięcioleci XVI w. Uzupełnieniem zasobu jest leksyka z wybranych łacińsko-polskich słowników przekładowych.
Teksty w Korpusie średniowiecznej polszczyzny są oznaczone skrótami stosowanymi w Słowniku BLŚP, nawiązującymi do tych stosowanych w Słowniku staropolskim. Zostały ponadto opatrzone metadanymi wskazującymi m.in. na czas ich powstania, miejsce pochodzenia czy charakterystykę gatunkową.
W wypadku tekstów mieszczących się na więcej niż jednej karcie czy stronie rękopisu bądź inkunabułu wyniki wyszukiwania zawierają lokalizację cytatu z dokładnością do strony, karty lub szpalty, a w wypadku przekładów Biblii – do księgi i wersetu według numeracji Wulgaty.
Metryczka źródła zawiera podstawowe informacje umożliwiające jego identyfikację:
Tytuł
Podajemy umowny tytuł bądź incipit przyjęty w literaturze przedmiotu, niekiedy także tytuły alternatywne (np. pieśń Posłuchajcie, bracia miła, znana także jako Lament świętokrzyski lub Żale Matki Boskiej pod krzyżem).
Autor utworu
Ze względu na specyfikę polskiego piśmiennictwa w średniowieczu autor przeważnie jest nieznany.
Rodzaj i gatunek
Przyporządkowanie zabytków polszczyzny do ok. 1500 r. do konkretnych rodzajów i gatunków jest wzorowane na podziale przyjętym w projekcie KorBa (a pośrednio NKJP), ale uwzględnia specyfikę polskiego piśmiennictwa do początku XVI w. Pomijamy gatunki, które nie mają reprezentacji w postaci polskich tekstów ciągłych, lecz są pisane po łacinie lub niemiecku i zawierają tylko pojedyncze polskie glosy.
Zachowujemy prymarny podział na literaturę piękną (beletrystykę) i teksty nieliterackie. W obrębie pierwszej grupy wyróżniamy epikę, lirykę, dramat i utwory synkretyczne. Z kolei teksty nieliterackie dzielimy na: teksty naukowo-dydaktyczne lub informacyjno-poradnikowe, teksty perswazyjne, teksty urzędowo-kancelaryjne, listy, Biblię, teksty dewocyjne. Te ostatnie nie występowały w klasyfikacji rodzajowo-gatunkowej KorBy. Do tekstów dewocyjnych zaliczamy formuły liturgiczne, spowiedź, godzinki, modlitwy, dekalogi, pieśni religijne, inaczej mówiąc, konstrukcje słowne używane w praktykach kultu religijnego skierowane do bytu transcendentnego, zasadniczo różne od tekstów perswazyjnych, takich jak kazania. Zabytki niemieszczące się w żadnej z wymienionych grup, niemające wyraźnych cech gatunkowych (np. marginalia, westchnienia, pojedyncze zdania), klasyfikujemy jako varia. W wypadku niektórych zabytków możliwe jest ich traktowanie jako różnych rodzajów tekstów – np. Rozmowy mistrza Polikarpa ze śmiercią (De morte) jako liryki (wiersza) bądź dramatu (dialogu). Ze względów technicznych podajemy tylko jedno przyporządkowanie danego zabytku.
Szczegółowa lista rodzajów i gatunków prezentuje się następująco:
rodzaj | gatunki |
---|---|
epika | apokryf, hagiografia |
liryka | wiersz, wiersz mnemotechniczny, zagadka |
dramat | dialog |
utwory synkretyczne | satyra |
teksty naukowo-dydaktyczne lub informacyjno-poradnikowe | słownik, recepta, komentarz, rozmówki do nauki języka |
teksty perswazyjne | kazanie, pismo religijno-społeczne, pouczenie katechetyczne |
teksty urzędowo-kancelaryjne | testament, umowa, inwentarz, ortyl, statut ziemski, statut cechowy, reguła zakonna, formuła prawna, zapiska sądowa, rota, akta kościelne, akta urzędowe |
listy | list |
Biblia | przekład fragmentu Pisma Świętego, psałterz, harmonia ewangeliczna |
teksty dewocyjne | formuła liturgiczna, spowiedź, godzinki, modlitwa, dekalog, pieśń religijna |
varia | westchnienie, wezwanie, zdanie, notka marginalna, eksplicyt |
Przekład
Oznaczamy wszystkie zabytki, które mają zidentyfikowaną obcojęzyczną podstawę tekstową (np. statuty, tłumaczenia Biblii, modlitwy, niektóre pieśni).
Pisarz przekazu
Choć większość polskiego piśmiennictwa w średniowieczu jest anonimowa, niekiedy ujawnia się tożsamość pisarza danego przekazu (np. Mikołaj Suled, który skopiował polski przekład statutów Kazimierza Wielkiego i Władysława Jagiełły oraz statutów książąt mazowieckich).
Datowanie przekazu
W wypadku źródeł, których dokładny rok powstania nie jest znany, podajemy datę przybliżoną (zgodnie z konwencją przyjętą w Sstp) oraz prawdopodobne daty graniczne (nie wcześniej niż – nie później niż).
Miejsce powstania przekazu
Określenie geograficznego pochodzenia tekstów w KŚP również nawiązuje do rozwiązań zastosowanych w KorBie. Bierzemy pod uwagę przede wszystkim dostępne informacje o miejscu powstania danego przekazu i jego regionalnych cechach językowych. Wskazana lokalizacja może się zatem nie pokrywać z miejscem przechowywania zabytku i nie musi wskazywać na pochodzenie geograficzne pisarza (kopisty), a tym bardziej autora utworu. O ile to możliwe, przyporządkowujemy zabytki do jednego z następujących regionów: Małopolska, Mazowsze, Prusy, Śląsk, Wielkopolska, Ziemie Ruskie, Ziemie Wielkiego Księstwa Litewskiego. W wypadku zabytków, których pochodzenie nie jest jednoznaczne, a cechy językowe wskazują na związki z więcej niż jednym regionem (np. Śląsk i Małopolska), miejsce powstania opisujemy jako „niepewne”. Przy braku wystarczających danych pochodzenie geograficzne określamy jako „nieznane”.
Typ podstawy materiałowej
Zabytki średniowiecznej polszczyzny dochowały się przeważnie w postaci rękopisów, rzadziej inkunabułów (Zdrow 11, Ojcz 11, Wierzę 12), niekiedy mają postać odręcznych adnotacji w rękopisie bądź inkunabule. Dotyczy to zwłaszcza drobnych utworów, niezwiązanych pod względem formy ani treści z tekstem głównym (np. westchnienia czy żartobliwe wierszyki).
Stan zachowania
Transliteracje zabytków, które dochowały się do naszych czasów, były w miarę możności weryfikowane na podstawie fotografii. Teksty niezachowane podajemy zasadniczo w takiej postaci, w jakiej przygotowali ją wydawcy. Bywa, że jest to wyłącznie transkrypcja.
Metryczka źródła w BLŚP
Dzięki odsyłaczowi do szczegółowego opisu źródła w BLŚP użytkownik ma dostęp do większej ilości informacji na temat danego zabytku (w tym do danych o miejscu przechowywania, sygnaturze, zakresie kart i sposobie jego wykorzystania w Sstp). Informacje o poszczególnych źródłach zostały pozyskane z ich wydań, Opisu źródeł Słownika staropolskiego oraz z literatury przedmiotu, co podajemy w bibliografii.
Źródło transliteracji i transkrypcji
Transliteracje i transkrypcje znacznej części tekstów pozyskaliśmy z różnych wydań (w miarę możliwości zweryfikowanych z fotografiami rękopisów). Ze względu na znaczne rozbieżności między zasadami wydania poszczególnych zabytków, a niekiedy również między wydaniem a rękopisem, zastosowaliśmy zabiegi mające na celu ujednolicenie i uściślenie sposobu prezentacji tekstu. Dlatego oznaczamy, z jakich edycji pochodzą transliteracja i transkrypcja, a także czy zostały one zmodyfikowane na potrzeby projektu. Źródła odczytane z rękopisu oraz dostępne wyłącznie w transliteracji (nieposiadające dotąd opublikowanej transkrypcji), zostały opracowane od podstaw przez członków zespołu grantowego.
Pełnotekstowe wersje transliteracji i transkrypcji wybranych zabytków są dostępne w BLŚP w zakładce Biblioteka.