Výzkumná infrastruktura pro diachronní bohemistiku
Identifikační číslo: LM2015081
Akronym výzkumné infrastruktury: RIDICS
Výzkumné oblasti: společenské a humanitní vědy (hlavní), informační a komunikační technologie / e-infrastruktury
(vedlejší)
Hostitelská instituce: Ústav pro jazyk český AV ČR, v. v. i.
Statutární orgán: PhDr. Martin Prošek, Ph.D.
Partnerská instituce: České vysoké učení technické v Praze, Fakulta elektrotechnická
Odpovědná osoba: Dalibor Lehečka
Kontakt: vokabular@ujc.cas.cz
Podmínky přístupu
Data a nástroje výzkumné infrastruktury jsou přístupné zdarma všem badatelům, v současné době prostřednictvím webové aplikace Vokabulář webový na adrese http://vokabular.ujc.cas.cz. Pro kontakt s výzkumnou infastrukturou je možné využít e-mailovou adresu vokabular@ujc.cas.cz.
Uživatel se zavazuje, že na zdroje, popř. nástroje získané prostřednictvím webové aplikace, odkáže v každé publikaci, kvalifikační, doktorské nebo habilitační práci, a to následující doporučenou formou:
„Při vzniku práce byly využity zdroje Výzkumné infrastruktury pro diachronní bohemistiku (RIDICS, http://vokabular.ujc.cas.cz).“
Při citaci konkrétního zdroje, který je v rámci Vokabuláře webového dostupný, platí obvyklá pravidla pro citaci webových stránek a příspěvků.
Popis zaměření výzkumné infrastruktury
Výzkumná infrastruktura pro diachronní bohemistiku (akronym RIDICS) bude obsahově
spoluvytvářet a spravovat dva vzájemně komplementární webové portály umožňující a
podněcující výzkum v oblasti diachronní bohemistiky (tj. češtiny od nejstarších období
do konce 18. století) a souvisejících oborů. Prvním pilířem bude badatelský webový
portál určený pro excelentní výzkum, který zpřístupňuje velké množství různorodých
odborně zpracovaných a vyhodnocených primárních a sekundárních zdrojů, opatřených
podrobnými metadaty, které budou postupně doplňovány o lemmatizaci, morfologické značkování
apod. Portál bude fungovat jako virtuální badatelské prostředí pro výzkum různých
aspektů českých dějin: českého jazyka, kultury, umění apod. Hlavní důraz bude kladen
na zpřístupňování dat a vytváření nástrojů pro potřeby jazykového bádání, například
v oblasti pravopisu, hláskosloví, morfologie, slovotvorby, sémantiky, lexikologie,
onomastiky, syntaxe, dialektologie, translatologie, mezitextových vztahů apod. Portál
však bude sloužit také literárním vědcům, klasickým filologům, historikům, historikům
vědy či umění a specialistům z dalších, zejména humanitních oborů (např. filozofie,
historie lékařství, historie práva, biblických studií, geografie, genealogie apod.).
Vedle primárních zdrojů nabídne badatelský portál také další materiál (např. moderní
diachronní slovníky, odbornou literaturu) pro komplexnější historicky orientovaný
výzkum. RIDICS vyvine a nabídne rovněž kvalitní funkce a nástroje pro zpřístupnění
nabízených materiálů (plnotextové vyhledávání, korpusové nástroje aj.). Shromážděné
materiály poskytnou data i pro badatele z oblasti informačních a komunikačních technologií,
zejména pro vývoj nástrojů na zpracování nestandardních jazykových dat, pro jejich
automatickou analýzu a vyhledávání vzájemných vztahů.
Druhým pilířem výzkumné infrastruktury (dále jen „VI“) bude komunitní webový portál,
přístupný odborníkům, studentům i laické veřejnosti, který umožní badatelům sdílet
výsledky jejich výzkumu (ukládat a zpřístupňovat odborné práce i elektronické edice
primárních zdrojů), informovat o dění v jednotlivých oborech, diskutovat o odborných
tématech apod. a tímto způsobem podněcovat další badatelské úsilí v hlavních i pomezních
oborech. Komunitní portál zaangažuje do poskytování a sdílení materiálů a odborných
diskusí řadu odborníků na diachronní bohemistiku i český středověk a raný novověk
a podpoří vzájemnou koordinaci výzkumu a navázání (mezioborové) spolupráce. RIDICS
bude vyvíjet a nabízet také programové nástroje pro přípravu primárních zdrojů (šablona
pro vytváření elektronických edic, program pro automatickou transkripci) a pro samotný
výzkum, které jsou dostupné prostřednictvím webových služeb, v podobě samostatných
programů nebo jako doplňky k programům, s nimiž badatelé každodenně pracují (textové
editory).
Při zapojení různorodých materiálů se budou využívat dostupné zdroje a plánované webové
portály budou agregovat data z těchto zdrojů, např. tematicky a časově relevantní
bibliografické údaje z Ústavu pro jazyk český AV ČR, v. v. i. (dále jen „ÚJČ AV ČR“),
Ústavu pro českou literaturu AV ČR, v. v. i. (dále též „ÚČL AV ČR“), a Historického
ústavu AV ČR, v. v. i.
Badatelský webový portál bude nabízet následující služby:
- přístup k digitálním obrazům zdrojů, u nichž to umožní autorská aj. práva (slovníky,
mluvnice, odborná literatura);
- přístup k plným textům primárních a sekundárních zdrojů v kontinuální formě, tj. v
podobě webové stránky se souvislým textem, popř. v podobě elektronické knihy ve formátu
PDF či EPUB;
- korpusový přístup k plným textům, které budou postupně lemmatizovány a morfologicky
značkovány;
- přístup k moderním diachronním slovníkům (ve formě plného, prohledavatelného textu,
popř. digitálních obrazů) či lexikálním databázím;
- přístup k dobovým diachronním slovníkům (ve formě plného, prohledavatelného textu
– v transkribované, případně i transliterované podobě – a digitálních obrazů);
- přístup k digitalizovaným dobovým mluvnicím češtiny ve formě digitálních obrazů opatřených
metadaty, případně plnými texty, budou-li k dispozici;
- přístup k témuž zdroji v alternativních podobách, pokud budou k dispozici (digitální
obrazy, transliterovaný přepis, transkribovaný přepis);
- postupně doplňovanou lemmatizaci a morfologické značkování textu psaného historickou
češtinou;
- vývoj a správu programu pro vytváření vlastních pravidel lemmatizace a morfologického
značkování;
- slovníky pro kontrolu pravopisu historické češtiny pro textové editory (Microsoft
Word, OpenOffice/LibreOffice Writer);
- vývoj a správu nástroje podporujícího přípravu elektronických edic (doplněk programu
Microsoft Word);
- vývoj a správu programu Transcriptorium pro přípravu transliterovaných a transkribovaných
verzí edic primárních zdrojů;
- generování hláskoslovných variant historických výrazů;
- prohledavatelnou databázi tematicky relevantních bibliografických záznamů.
Komunitní webový portál bude nabízet následující služby:
- úložiště a nástroje pro publikování odborných prací uživatelů;
- úložiště primárních textů poskytnutých jednotlivými uživateli/badateli;
- fulltextové prohledávání poskytnutých odborných prací a primárních textů;
- moderovaná diskusní fóra;
- tematické a/nebo autorské bibliografické soupisy;
- evidence tematicky relevantních odborných konferencí a dalších akcí (veřejných přednášek
apod.).
Význam výzkumné infrastruktury
RIDICS bude jediným veřejně přístupným internetovým badatelským prostředím, které
se bude zaměřovat na historickou češtinu komplexně, tj. nejen zpřístupňováním primárních
zdrojů ve strojově čitelné podobě, ale i dalších souvisejících materiálů, jako jsou
moderní historické slovníky a výsledky odborného výzkumu. VI bude poskytovat velké
množství jazykových zdrojů (edic textů, slovníků) připravených speciálně pro ni. V
případě primárních zdrojů se často jedná o jedinečná díla, která jsou velmi obtížně
dostupná. Badatelský webový portál bude využívat zdrojová data ve formátu XML (Extensible
Markup Language) podle standardu TEI P5 (Text Encoding Initiative), čímž bude zaručena
jejich standardizace a snadné sdílení s jinými platformami nebo transformace do jiných
formátů. Převod do počítačově čitelné podoby umožní nejen jejich „přečtení“ i méně
zkušenými badateli, ale také jejich další počítačové zpracování (analýzy, statistiky,
výstupy v podobě elektronické knihy apod.).
Přístup VI RIDICS k analýze a značkování jazykových dat vychází z předpokladu, že
pro adekvátní počítačové zpracování jazykového systému určitého období (historického,
ale i současného) je potřeba disponovat nástroji, které takovému systému odpovídají
(např. odlišným repertoárem morfologických kategorií). S proměnami jazykového systému
je proto potřeba počítat již při samotném návrhu architektury nástrojů pro zpracování
přirozeného jazyka, což je prvek, který u nástrojů pro zpracování současných jazyků
chybí.
Jedním z cílů VI bude výzkum zaměřený na vytváření mezitextových vazeb mezi různorodými
primárními a sekundárními zdroji, díky nimž pak bude možné snadněji pochopit a zpracovat
nabízená data. Propojení relevantních údajů je u historického jazyka důležité mj.
z toho důvodu, že pro jeho výzkum může badatel jenom v omezené míře využít své jazykové
povědomí, na rozdíl od současného jazyka. O to více bude tento způsob usouvztažnění
dat prospěšný pro zahraniční badatele, kteří nejsou rodilými mluvčími češtiny. Žádný
ze známých a veřejně dostupných zdrojů takovým propojením mezi jednotlivými druhy
materiálů (např. moderními slovníky historické češtiny, plnými texty, bibliografií,
odbornou literaturou) nedisponuje. Propojení relevantních zdrojů a/nebo pasáží z dalších
dokumentů (např. mezi dokladem z pramene citovaným v odborném článku a týmž dokladem
v elektronické edici) umožní odhalovat dosud neobjevené souvislosti.
Při vývoji aplikací, lingvistických nástrojů a uživatelských pomůcek se RIDICS zaměří
na to, aby byly snadno použitelné i pro technicky méně zdatné badatele, kteří výborně
ovládají jazykovou stránku zkoumaného jevu, ale náročné nebo nesrozumitelné nástroje
by je odrazovaly od jejich používání.
Díky zpřístupněným materiálům a nástrojům budou vznikat další primární zdroje, které
budou sloužit pro další výzkum.
VI RIDICS poskytne data a další podklady pro výzkum:
- hláskoslovných, morfologických, syntaktických a sémantických změn v historické češtině;
- pravopisných systémů v historické češtině;
- lexikálního systému historické češtiny;
- terminologie oborů zastoupených v primárních textech (lékařství, právo, filozofie
apod.);
- lexikografických metod dobových slovníků;
- vazeb mezi různými lexikografickými díly;
- vývoje gramatického popisu češtiny;
- proměn literárních útvarů a žánrů;
- historických reálií (osob, míst);
- přenosu a proměn motivů;
- tematických vazeb mezi primárními texty;
- vztahu literární památky a literárního pramene (variability textů);
- vztahu mezi českým překladem a cizojazyčným originálem.
Badatelský webový portál dále poskytne badatelům softwarové nástroje pro základní
výzkum, zejména přípravu elektronických edic primárních textů (šablona pro elektronické
edice, program Transcriptorium, datové podklady pro převod z transliterovaného přepisu
do transkribované podoby pro různá historická období).
VI RIDICS bude sloužit při vysokoškolské výuce historie češtiny a dalších souvisejících
témat jednak jako zdroj pracovních materiálů: dobové mluvnice češtiny, historické
písemné prameny apod. (ve formě digitalizovaných obrazů a/nebo v transliterované či
transkribované podobě, což umožní nejen efektivní prohledávání, ale poslouží také
pro paleografická studia), moderní slovníky historické češtiny; jednak jako zdroj
poučení o historické češtině a souvisejících oborech: přehled historických hláskoslovných
změn, formální popis historické morfologie češtiny, tematicky zaměřené práce v rámci
sekce odborné literatury, prohledavatelná bibliografická databáze, moderované diskuse.
Vysokoškolští studenti budou tyto portály využívat při přípravě pregraduálních i postgraduálních
prací. Výsledky svého výzkumu budou moci publikovat na stránkách komunitního portálu.
V rámci svého studia se studenti budou podílet i na vytváření obsahové a programové
složky VI a seznámí se tak s problematikou historické češtiny a jejího počítačového
zpracování, s edičními zásadami elektronických edic, staročeskou morfologií a jejím
formálním popisem apod.
Mezioborovou spolupráci zajistí jednak repertoár zdrojů, který bude součástí badatelského
portálu, jednak komunitní portál propojující badatele z různých oborů.
RIDICS reaguje na současnou situaci v diachronní jazykovědné bohemistice, kdy mj.
není k dispozici konsolidovaný zdroj informací o dosavadních a probíhajících výzkumech
a chybí evidence existujících elektronických primárních textů a připravovaných edic.
S pomocí RIDICSu se rovněž urychlí a zkvalitní příprava elektronických edic primárních
zdrojů, které se pak využijí pro další výzkum v oboru, např. ve formě korpusových
dat. Oba webové portály a nástroje pro badatele budou sloužit k vytváření dalších
dat pro výzkum diachronní bohemistiky a souvisejících oborů, což povede k větší relevanci
nových výzkumů a v neposlední řadě i k většímu zájmu o obor.
Návaznost výzkumné infrastruktury na mezinárodní výzkumný prostor
Pro zahraniční odborníky bude RIDICS představovat hlavní zdroj primárních materiálů
pro studium historické češtiny, které jinak nejsou v takové kvalitě a v takovém množství
dostupné. Vzhledem ke zpřístupňování primárních zdrojů i s cizojazyčnými prvky (zejména
latina a němčina ve slovnících a odborné literatuře) bude takový materiál zdrojem
poznání i pro jiné národní jazyky.
RIDICS jakožto nová VI naváže spolupráci s mezinárodními VI zejména v oblasti digitalizace
primárních a sekundárních zdrojů, jako je např. DARIAH (Digital Research Infrastructure
for the Arts and Humanities, https://www.dariah.eu), DiXiT (Digital Scholarly Editions
Initial Training Network; http://dixit.uni-koeln.de) nebo ENeL (European Network of
Lexicography; http://www.elexicography.eu).
Svým výzkumem v oblasti automatické lemmatizace a morfologického značkování historické
češtiny, který vychází z formálního popisu historické morfologie (nikoli z úprav nástrojů
pro současné jazyky), nabídne RIDICS platformu pro spolupráci s badateli, kteří pracují
s historickými texty psanými zejména západoslovanskými jazyky.
Využití a výstupy výzkumné infrastruktury
Plánované výstupy VI jsou v souladu s dlouhodobými výzkumnými cíli ÚJČ AV ČR, zejména
s výzkumem staročeského a středněčeského lexika a zveřejňováním jeho výsledků prostřednictvím
elektronických slovníků, s analýzou a editací památek staré a střední češtiny a jejich
korpusovým zpracováním.
Přidaná hodnota VI spočívá především ve zpřístupňování různorodých dat ke studiu historické
češtiny a analýze možností jejich mezitextového propojování. Vývoj nástrojů pro vytváření
elektronických edic (šablona pro MS Word, Transcriptorium) povede ke zkvalitnění a
zrychlení přípravy primárních zdrojů pro výzkum ve sledované oblasti. Nástroj pro
lemmatizaci a morfologické značkování historické češtiny nabídne postupně doplňovaný
popis morfologie sledovaného období včetně vývojových tendencí jednotlivých jevů a
umožní badatelům snazší práci s jazykovým materiálem při výzkumu (vyhledávání, sledování
konkrétních jevů na úrovni morfologie a morfosyntaktiky). Podrobné a jednotné zpracování
historických slovníků umožní porovnávat jednotlivá díla mezi sebou a sledovat vývoj
české lexikografické tradice. Komunitní webový portál umožní bližší spolupráci badatelů
z různých oborů. Moderovaná diskusní fóra zajistí, že tazatelé vždy dostanou odpověď
na svůj dotaz.
Vzhledem ke specifickému zaměření VI na oblast historického jazyka a souvisejících
oborů nejsou v této chvíli známy žádné výsledky výzkumu, které by našly uplatnění
v komerční sféře.
V rámci VI jsou plánovány výstupy, které naleznou uplatnění v oblasti humanitních
věd, zejména jazykovědné a literárněvědné bohemistiky, historie, historie umění, pomocných
věd historických a dalších humanitních oborů historicky zaměřených. Další výstupy
budou využitelné v pedagogických oborech humanitních věd. Nemalý dopad bude mít VI
v oblasti informačních technologií (automatické morfologické značkování a lemmatizace).
V průběhu let 2016–2019 členové týmu RIDICSu uspořádají 6 přednášek pro odbornou i
laickou veřejnost, 2 kolokvia, zúčastní se 8 konferencí a seminářů pořádaných jinými
organizacemi. Počítá se rovněž s distančními prezentacemi VI, např. formou videonahrávek
nebo videokonferencí. Předpokládá se minimálně 1 publikace v časopise pro veřejnost
a 1 vystoupení v médiích.
Každý rok realizace VI vzniknou publikace o dílčích výstupech vznikající VI. Tematika
publikací bude v souladu s oborovým zaměřením členů týmu VI (lingvisté, programátoři).
Ročně je plánováno přibližně 5 příspěvků popisujících výsledky budování VI ve formě
článků v odborném tisku, konferenčních příspěvků a přednášek pro odbornou veřejnost.
Dále jsou plánovány výstupy aplikovaného výzkumu, a to ve formě softwarů a dalších
programových aplikací, jejichž počet bude záviset na průběhu realizace VI. Během let
2016–2019 budou uspořádány minimálně 2 workshopy či odborná kolokvia, jejichž cílem
bude shromáždit vstupní informace a požadavky budoucích uživatelů VI a informovat
o průběhu realizace VI.
Výzkumné a jiné spolupráce výzkumné infrastruktury
Na národní ani mezinárodní úrovni doposud žádná VI podobného zaměření neexistuje.
Synergický efekt je možné pozorovat s VI LINDAT/CLARIN a Český národní korpus (dále
též „CNC“), jejichž zaměření je komplementární pro oblast výzkumu českého jazyka.
RIDICS a CNC plánují v diachronní oblasti vzájemné sdílení dat a metadat a spolupráci
při vývoji softwarových nástrojů. Spolupráce je plánována také s jinými institucemi
a VI, zejména v oblasti agregace bibliografických záznamů (Bibliografie dějin Českých
zemí – BDČZ; Česká literární bibliografie – CLB).
VI RIDICS bude spolupracovat s dalšími výzkumnými institucemi a vysokými školami,
jejichž předmět bádání zasahuje do oblasti diachronní bohemistiky. Jedná se např.
o ÚČL AV ČR, Centrum medievistických studií či Kabinet pro klasická studia z Filosofického
ústavu AV ČR, v. v. i., Filozofickou fakultu Univerzity Karlovy, Filozofickou fakultu
Masarykovy Univerzity, Filozofickou fakultu Ostravské univerzity, Philosophische Fakultät
– Universität Tübingen, Philologisch‑Kulturwissenschaftliche – Fakultät Universität
Wien aj. Spolupráce bude probíhat formou konzultací ke konkrétním badatelským tématům
či specializované přípravy podkladů pro výzkum, formou zvaných přednášek, vedení seminářů
apod. VI se rovněž hodlá zapojit do přípravy nových, např. grantových, projektů ve
smyslu konzultací při přípravě podkladů i samotné účasti v realizovaných projektech.