Staročeské slovní tvary (morfologická databáze)
Databázi si můžete stáhnout zde.
Archiv obsahuje morfologickou databázi tvořenou dvěma soubory: old_czech.tsv
a punctuation.tsv
.
Soubor old_czech.tsv
obsahuje potenciální slovní tvary vybraného souboru staročeských lemmat: apelativních substantiv, neohebných slovních druhů, slovesa „býti“ a sloves 3. až 6. infinitivní třídy, jejichž tvarotvorné základy nepodléhají tzv. alternaci. Soubor punctuation.tsv
obsahuje interpunkční znaménka a jejich klasifikaci.
U každého tvaru (word
) je uvedeno hyperlemma
, atributivní morfologická značka (atag
) a příznak, že tvar je jedním z možných lemmat hyperlemmatu(is_lemma
).
Databázi vygenerovala aplikace Staročeské slovní tvary, jejíž webovou verzi naleznete na adrese https://ridics.ujc.cas.cz/nlp/word-forms/.
Databáze byla využita k částečné a nejednoznačné lemmatizaci a morfologické anotaci staročeské textové banky 1.1.13.1 dostupné v korpusovém manažeru KonText/Manatee na adrese https://korpus.vokabular.ujc.cas.cz/first_form?corpname=STB-1.1.13.1.
Popis atributivní značkové sady, gramatických kategorií specifických pro starou češtinu a odvozené poziční značkové sady naleznete na adrese https://korpus.vokabular.ujc.cas.cz/files/navod/tagsety.html.
Informace o autorech a licenční informace
Databáze podléhá licenci Creative Commons BY-NC-SA 4.0 (Uveďte původ-Neužívejte dílo komerčně-Zachovejte licenci 4.0 Mezinárodní), která je součástí archivu (v souboru LICENSE
), případně dostupná na adrese https://creativecommons.org/licenses/by-nc-sa/4.0/legalcode.cs.
Vznik databáze Staročeské slovní tvary byl podpořen projektem Ministerstva školství, mládeže a tělovýchovy č. LM2015081 Výzkumná infrastruktura pro diachronní bohemistiku (RIDICS, https://vokabular.ujc.cas.cz) v rámci Projektu velkých infrastruktur pro VaVaI.
(¹: zaměstnanci oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i.)