Staročeské slovní tvary (morfologická databáze)

Databázi si můžete stáhnout zde.

Archiv obsahuje morfologickou databázi tvořenou dvěma soubory: old_czech.tsva punctuation.tsv.

Soubor old_czech.tsv obsahuje potenciální slovní tvary vybraného souboru staročeských lemmat: apelativních substantiv, neohebných slovních druhů, slovesa „býti“ a sloves 3. až 6. infinitivní třídy, jejichž tvarotvorné základy nepodléhají tzv. alternaci. Soubor punctuation.tsv obsahuje interpunkční znaménka a jejich klasifikaci.

U každého tvaru (word) je uvedeno hyperlemma, atributivní morfologická značka (atag) a příznak, že tvar je jedním z možných lemmat hyperlemmatu(is_lemma).

Databázi vygenerovala aplikace Staročeské slovní tvary, jejíž webovou verzi naleznete na adrese https://ridics.ujc.cas.cz/nlp/word-forms/.

Databáze byla využita k částečné a nejednoznačné lemmatizaci a morfologické anotaci staročeské textové banky 1.1.13.1 dostupné v korpusovém manažeru KonText/Manatee na adrese https://korpus.vokabular.ujc.cas.cz/first_form?corpname=STB-1.1.13.1.

Popis atributivní značkové sady, gramatických kategorií specifických pro starou češtinu a odvozené poziční značkové sady naleznete na adrese https://korpus.vokabular.ujc.cas.cz/files/navod/tagsety.html.

Informace o autorech a licenční informace

Databáze podléhá licenci Creative Commons BY-NC-SA 4.0 (Uveďte původ-Neužívejte dílo komerčně-Zachovejte licenci 4.0 Mezinárodní), která je součástí archivu (v souboru LICENSE), případně dostupná na adrese https://creativecommons.org/licenses/by-nc-sa/4.0/legalcode.cs.

Vznik databáze Staročeské slovní tvary byl podpořen projektem Ministerstva školství, mládeže a tělovýchovy č. LM2015081 Výzkumná infrastruktura pro diachronní bohemistiku (RIDICS, https://vokabular.ujc.cas.cz) v rámci Projektu velkých infrastruktur pro VaVaI.

© 2019–2020, Boris Lehečka¹, Jiří Pergler¹, Ondřej Svoboda¹, Pavlína Synková a Jana Zdeňková¹

(¹: zaměstnanci oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i.)

Vývoj aplikace byl podpořen projektem Ministerstva školství, mládeže a tělovýchovy č. LM2015081 Výzkumná infrastruktura pro diachronní bohemistiku (RIDICS, https://vokabular.ujc.cas.cz) v rámci Projektu velkých infrastruktur pro VaVaI.
 
logo ÚJČ Copyright © 2006–2023, oddělení vývoje jazyka, Ústav pro jazyk český AV ČR, v. v. i.
Vyhledávací program © 2006–2023, Boris Lehečka; Grafický návrh © 2006–2023, Irena Fuková

Vokabulář byl spuštěn před 17 lety, 5 měsíci a 10 dny; verze dat: 1.1.24
Ministerstvo školství, mládeže a tělovýchovy Strategie AV21
Web je podpořen Ministerstvem školství, mládeže a tělovýchovy ČR, projektem č. LM2023062
(LINDAT/CLARIAH-CZ).