Výzkumná infrastruktura pro diachronní bohemistiku

Identifikační číslo: LM2015081

Akronym výzkumné infrastruktury: RIDICS

Výzkumné oblasti: společenské a humanitní vědy (hlavní), informační a komunikační technologie / e-infrastruktury (vedlejší)

Hostitelská instituce: Ústav pro jazyk český AV ČR, v. v. i.

Statutární orgán: PhDr. Martin Prošek, Ph.D.

Partnerská instituce: České vysoké učení technické v Praze, Fakulta elektrotechnická

Odpovědná osoba: Dalibor Lehečka

Kontakt: vokabular@ujc.cas.cz

Podmínky přístupu

Data a nástroje výzkumné infrastruktury jsou přístupné zdarma všem badatelům, v současné době prostřednictvím webové aplikace Vokabulář webový na adrese http://vokabular.ujc.cas.cz. Pro kontakt s výzkumnou infastrukturou je možné využít e-mailovou adresu vokabular@ujc.cas.cz.

Uživatel se zavazuje, že na zdroje, popř. nástroje získané prostřednictvím webové aplikace, odkáže v každé publikaci, kvalifikační, doktorské nebo habilitační práci, a to následující doporučenou formou:

„Při vzniku práce byly využity zdroje Výzkumné infrastruktury pro diachronní bohemistiku (RIDICS, http://vokabular.ujc.cas.cz).“

Při citaci konkrétního zdroje, který je v rámci Vokabuláře webového dostupný, platí obvyklá pravidla pro citaci webových stránek a příspěvků.

Popis zaměření výzkumné infrastruktury

Výzkumná infrastruktura pro diachronní bohemistiku (akronym RIDICS) bude obsahově spoluvytvářet a spravovat dva vzájemně komplementární webové portály umožňující a podněcující výzkum v oblasti diachronní bohemistiky (tj. češtiny od nejstarších období do konce 18. století) a souvisejících oborů. Prvním pilířem bude badatelský webový portál určený pro excelentní výzkum, který zpřístupňuje velké množství různorodých odborně zpracovaných a vyhodnocených primárních a sekundárních zdrojů, opatřených podrobnými metadaty, které budou postupně doplňovány o lemmatizaci, morfologické značkování apod. Portál bude fungovat jako virtuální badatelské prostředí pro výzkum různých aspektů českých dějin: českého jazyka, kultury, umění apod. Hlavní důraz bude kladen na zpřístupňování dat a vytváření nástrojů pro potřeby jazykového bádání, například v oblasti pravopisu, hláskosloví, morfologie, slovotvorby, sémantiky, lexikologie, onomastiky, syntaxe, dialektologie, translatologie, mezitextových vztahů apod. Portál však bude sloužit také literárním vědcům, klasickým filologům, historikům, historikům vědy či umění a specialistům z dalších, zejména humanitních oborů (např. filozofie, historie lékařství, historie práva, biblických studií, geografie, genealogie apod.). Vedle primárních zdrojů nabídne badatelský portál také další materiál (např. moderní diachronní slovníky, odbornou literaturu) pro komplexnější historicky orientovaný výzkum. RIDICS vyvine a nabídne rovněž kvalitní funkce a nástroje pro zpřístupnění nabízených materiálů (plnotextové vyhledávání, korpusové nástroje aj.). Shromážděné materiály poskytnou data i pro badatele z oblasti informačních a komunikačních technologií, zejména pro vývoj nástrojů na zpracování nestandardních jazykových dat, pro jejich automatickou analýzu a vyhledávání vzájemných vztahů.

Druhým pilířem výzkumné infrastruktury (dále jen „VI“) bude komunitní webový portál, přístupný odborníkům, studentům i laické veřejnosti, který umožní badatelům sdílet výsledky jejich výzkumu (ukládat a zpřístupňovat odborné práce i elektronické edice primárních zdrojů), informovat o dění v jednotlivých oborech, diskutovat o odborných tématech apod. a tímto způsobem podněcovat další badatelské úsilí v hlavních i pomezních oborech. Komunitní portál zaangažuje do poskytování a sdílení materiálů a odborných diskusí řadu odborníků na diachronní bohemistiku i český středověk a raný novověk a podpoří vzájemnou koordinaci výzkumu a navázání (mezioborové) spolupráce. RIDICS bude vyvíjet a nabízet také programové nástroje pro přípravu primárních zdrojů (šablona pro vytváření elektronických edic, program pro automatickou transkripci) a pro samotný výzkum, které jsou dostupné prostřednictvím webových služeb, v podobě samostatných programů nebo jako doplňky k programům, s nimiž badatelé každodenně pracují (textové editory).

Při zapojení různorodých materiálů se budou využívat dostupné zdroje a plánované webové portály budou agregovat data z těchto zdrojů, např. tematicky a časově relevantní bibliografické údaje z Ústavu pro jazyk český AV ČR, v. v. i. (dále jen „ÚJČ AV ČR“), Ústavu pro českou literaturu AV ČR, v. v. i. (dále též „ÚČL AV ČR“), a Historického ústavu AV ČR, v. v. i.

Badatelský webový portál bude nabízet následující služby:

  1. přístup k digitálním obrazům zdrojů, u nichž to umožní autorská aj. práva (slovníky, mluvnice, odborná literatura);
  2. přístup k plným textům primárních a sekundárních zdrojů v kontinuální formě, tj. v podobě webové stránky se souvislým textem, popř. v podobě elektronické knihy ve formátu PDF či EPUB;
  3. korpusový přístup k plným textům, které budou postupně lemmatizovány a morfologicky značkovány;
  4. přístup k moderním diachronním slovníkům (ve formě plného, prohledavatelného textu, popř. digitálních obrazů) či lexikálním databázím;
  5. přístup k dobovým diachronním slovníkům (ve formě plného, prohledavatelného textu – v transkribované, případně i transliterované podobě – a digitálních obrazů);
  6. přístup k digitalizovaným dobovým mluvnicím češtiny ve formě digitálních obrazů opatřených metadaty, případně plnými texty, budou-li k dispozici;
  7. přístup k témuž zdroji v alternativních podobách, pokud budou k dispozici (digitální obrazy, transliterovaný přepis, transkribovaný přepis);
  8. postupně doplňovanou lemmatizaci a morfologické značkování textu psaného historickou češtinou;
  9. vývoj a správu programu pro vytváření vlastních pravidel lemmatizace a morfologického značkování;
  10. slovníky pro kontrolu pravopisu historické češtiny pro textové editory (Microsoft Word, OpenOffice/LibreOffice Writer);
  11. vývoj a správu nástroje podporujícího přípravu elektronických edic (doplněk programu Microsoft Word);
  12. vývoj a správu programu Transcriptorium pro přípravu transliterovaných a transkribovaných verzí edic primárních zdrojů;
  13. generování hláskoslovných variant historických výrazů;
  14. prohledavatelnou databázi tematicky relevantních bibliografických záznamů.

Komunitní webový portál bude nabízet následující služby:

  1. úložiště a nástroje pro publikování odborných prací uživatelů;
  2. úložiště primárních textů poskytnutých jednotlivými uživateli/badateli;
  3. fulltextové prohledávání poskytnutých odborných prací a primárních textů;
  4. moderovaná diskusní fóra;
  5. tematické a/nebo autorské bibliografické soupisy;
  6. evidence tematicky relevantních odborných konferencí a dalších akcí (veřejných přednášek apod.).

Význam výzkumné infrastruktury

RIDICS bude jediným veřejně přístupným internetovým badatelským prostředím, které se bude zaměřovat na historickou češtinu komplexně, tj. nejen zpřístupňováním primárních zdrojů ve strojově čitelné podobě, ale i dalších souvisejících materiálů, jako jsou moderní historické slovníky a výsledky odborného výzkumu. VI bude poskytovat velké množství jazykových zdrojů (edic textů, slovníků) připravených speciálně pro ni. V případě primárních zdrojů se často jedná o jedinečná díla, která jsou velmi obtížně dostupná. Badatelský webový portál bude využívat zdrojová data ve formátu XML (Extensible Markup Language) podle standardu TEI P5 (Text Encoding Initiative), čímž bude zaručena jejich standardizace a snadné sdílení s jinými platformami nebo transformace do jiných formátů. Převod do počítačově čitelné podoby umožní nejen jejich „přečtení“ i méně zkušenými badateli, ale také jejich další počítačové zpracování (analýzy, statistiky, výstupy v podobě elektronické knihy apod.).

Přístup VI RIDICS k analýze a značkování jazykových dat vychází z předpokladu, že pro adekvátní počítačové zpracování jazykového systému určitého období (historického, ale i současného) je potřeba disponovat nástroji, které takovému systému odpovídají (např. odlišným repertoárem morfologických kategorií). S proměnami jazykového systému je proto potřeba počítat již při samotném návrhu architektury nástrojů pro zpracování přirozeného jazyka, což je prvek, který u nástrojů pro zpracování současných jazyků chybí.

Jedním z cílů VI bude výzkum zaměřený na vytváření mezitextových vazeb mezi různorodými primárními a sekundárními zdroji, díky nimž pak bude možné snadněji pochopit a zpracovat nabízená data. Propojení relevantních údajů je u historického jazyka důležité mj. z toho důvodu, že pro jeho výzkum může badatel jenom v omezené míře využít své jazykové povědomí, na rozdíl od současného jazyka. O to více bude tento způsob usouvztažnění dat prospěšný pro zahraniční badatele, kteří nejsou rodilými mluvčími češtiny. Žádný ze známých a veřejně dostupných zdrojů takovým propojením mezi jednotlivými druhy materiálů (např. moderními slovníky historické češtiny, plnými texty, bibliografií, odbornou literaturou) nedisponuje. Propojení relevantních zdrojů a/nebo pasáží z dalších dokumentů (např. mezi dokladem z pramene citovaným v odborném článku a týmž dokladem v elektronické edici) umožní odhalovat dosud neobjevené souvislosti.

Při vývoji aplikací, lingvistických nástrojů a uživatelských pomůcek se RIDICS zaměří na to, aby byly snadno použitelné i pro technicky méně zdatné badatele, kteří výborně ovládají jazykovou stránku zkoumaného jevu, ale náročné nebo nesrozumitelné nástroje by je odrazovaly od jejich používání.

Díky zpřístupněným materiálům a nástrojům budou vznikat další primární zdroje, které budou sloužit pro další výzkum.

VI RIDICS poskytne data a další podklady pro výzkum:

  1. hláskoslovných, morfologických, syntaktických a sémantických změn v historické češtině;
  2. pravopisných systémů v historické češtině;
  3. lexikálního systému historické češtiny;
  4. terminologie oborů zastoupených v primárních textech (lékařství, právo, filozofie apod.);
  5. lexikografických metod dobových slovníků;
  6. vazeb mezi různými lexikografickými díly;
  7. vývoje gramatického popisu češtiny;
  8. proměn literárních útvarů a žánrů;
  9. historických reálií (osob, míst);
  10. přenosu a proměn motivů;
  11. tematických vazeb mezi primárními texty;
  12. vztahu literární památky a literárního pramene (variability textů);
  13. vztahu mezi českým překladem a cizojazyčným originálem.

Badatelský webový portál dále poskytne badatelům softwarové nástroje pro základní výzkum, zejména přípravu elektronických edic primárních textů (šablona pro elektronické edice, program Transcriptorium, datové podklady pro převod z transliterovaného přepisu do transkribované podoby pro různá historická období).

VI RIDICS bude sloužit při vysokoškolské výuce historie češtiny a dalších souvisejících témat jednak jako zdroj pracovních materiálů: dobové mluvnice češtiny, historické písemné prameny apod. (ve formě digitalizovaných obrazů a/nebo v transliterované či transkribované podobě, což umožní nejen efektivní prohledávání, ale poslouží také pro paleografická studia), moderní slovníky historické češtiny; jednak jako zdroj poučení o historické češtině a souvisejících oborech: přehled historických hláskoslovných změn, formální popis historické morfologie češtiny, tematicky zaměřené práce v rámci sekce odborné literatury, prohledavatelná bibliografická databáze, moderované diskuse. Vysokoškolští studenti budou tyto portály využívat při přípravě pregraduálních i postgraduálních prací. Výsledky svého výzkumu budou moci publikovat na stránkách komunitního portálu. V rámci svého studia se studenti budou podílet i na vytváření obsahové a programové složky VI a seznámí se tak s problematikou historické češtiny a jejího počítačového zpracování, s edičními zásadami elektronických edic, staročeskou morfologií a jejím formálním popisem apod.

Mezioborovou spolupráci zajistí jednak repertoár zdrojů, který bude součástí badatelského portálu, jednak komunitní portál propojující badatele z různých oborů.

RIDICS reaguje na současnou situaci v diachronní jazykovědné bohemistice, kdy mj. není k dispozici konsolidovaný zdroj informací o dosavadních a probíhajících výzkumech a chybí evidence existujících elektronických primárních textů a připravovaných edic. S pomocí RIDICSu se rovněž urychlí a zkvalitní příprava elektronických edic primárních zdrojů, které se pak využijí pro další výzkum v oboru, např. ve formě korpusových dat. Oba webové portály a nástroje pro badatele budou sloužit k vytváření dalších dat pro výzkum diachronní bohemistiky a souvisejících oborů, což povede k větší relevanci nových výzkumů a v neposlední řadě i k většímu zájmu o obor.

Návaznost výzkumné infrastruktury na mezinárodní výzkumný prostor

Pro zahraniční odborníky bude RIDICS představovat hlavní zdroj primárních materiálů pro studium historické češtiny, které jinak nejsou v takové kvalitě a v takovém množství dostupné. Vzhledem ke zpřístupňování primárních zdrojů i s cizojazyčnými prvky (zejména latina a němčina ve slovnících a odborné literatuře) bude takový materiál zdrojem poznání i pro jiné národní jazyky.

RIDICS jakožto nová VI naváže spolupráci s mezinárodními VI zejména v oblasti digitalizace primárních a sekundárních zdrojů, jako je např. DARIAH (Digital Research Infrastructure for the Arts and Humanities, https://www.dariah.eu), DiXiT (Digital Scholarly Editions Initial Training Network; http://dixit.uni-koeln.de) nebo ENeL (European Network of Lexicography; http://www.elexicography.eu).

Svým výzkumem v oblasti automatické lemmatizace a morfologického značkování historické češtiny, který vychází z formálního popisu historické morfologie (nikoli z úprav nástrojů pro současné jazyky), nabídne RIDICS platformu pro spolupráci s badateli, kteří pracují s historickými texty psanými zejména západoslovanskými jazyky.

Využití a výstupy výzkumné infrastruktury

Plánované výstupy VI jsou v souladu s dlouhodobými výzkumnými cíli ÚJČ AV ČR, zejména s výzkumem staročeského a středněčeského lexika a zveřejňováním jeho výsledků prostřednictvím elektronických slovníků, s analýzou a editací památek staré a střední češtiny a jejich korpusovým zpracováním.

Přidaná hodnota VI spočívá především ve zpřístupňování různorodých dat ke studiu historické češtiny a analýze možností jejich mezitextového propojování. Vývoj nástrojů pro vytváření elektronických edic (šablona pro MS Word, Transcriptorium) povede ke zkvalitnění a zrychlení přípravy primárních zdrojů pro výzkum ve sledované oblasti. Nástroj pro lemmatizaci a morfologické značkování historické češtiny nabídne postupně doplňovaný popis morfologie sledovaného období včetně vývojových tendencí jednotlivých jevů a umožní badatelům snazší práci s jazykovým materiálem při výzkumu (vyhledávání, sledování konkrétních jevů na úrovni morfologie a morfosyntaktiky). Podrobné a jednotné zpracování historických slovníků umožní porovnávat jednotlivá díla mezi sebou a sledovat vývoj české lexikografické tradice. Komunitní webový portál umožní bližší spolupráci badatelů z různých oborů. Moderovaná diskusní fóra zajistí, že tazatelé vždy dostanou odpověď na svůj dotaz.

Vzhledem ke specifickému zaměření VI na oblast historického jazyka a souvisejících oborů nejsou v této chvíli známy žádné výsledky výzkumu, které by našly uplatnění v komerční sféře.

V rámci VI jsou plánovány výstupy, které naleznou uplatnění v oblasti humanitních věd, zejména jazykovědné a literárněvědné bohemistiky, historie, historie umění, pomocných věd historických a dalších humanitních oborů historicky zaměřených. Další výstupy budou využitelné v pedagogických oborech humanitních věd. Nemalý dopad bude mít VI v oblasti informačních technologií (automatické morfologické značkování a lemmatizace). V průběhu let 2016–2019 členové týmu RIDICSu uspořádají 6 přednášek pro odbornou i laickou veřejnost, 2 kolokvia, zúčastní se 8 konferencí a seminářů pořádaných jinými organizacemi. Počítá se rovněž s distančními prezentacemi VI, např. formou videonahrávek nebo videokonferencí. Předpokládá se minimálně 1 publikace v časopise pro veřejnost a 1 vystoupení v médiích.

Každý rok realizace VI vzniknou publikace o dílčích výstupech vznikající VI. Tematika publikací bude v souladu s oborovým zaměřením členů týmu VI (lingvisté, programátoři). Ročně je plánováno přibližně 5 příspěvků popisujících výsledky budování VI ve formě článků v odborném tisku, konferenčních příspěvků a přednášek pro odbornou veřejnost. Dále jsou plánovány výstupy aplikovaného výzkumu, a to ve formě softwarů a dalších programových aplikací, jejichž počet bude záviset na průběhu realizace VI. Během let 2016–2019 budou uspořádány minimálně 2 workshopy či odborná kolokvia, jejichž cílem bude shromáždit vstupní informace a požadavky budoucích uživatelů VI a informovat o průběhu realizace VI.

Výzkumné a jiné spolupráce výzkumné infrastruktury

Na národní ani mezinárodní úrovni doposud žádná VI podobného zaměření neexistuje. Synergický efekt je možné pozorovat s VI LINDAT/CLARIN a Český národní korpus (dále též „CNC“), jejichž zaměření je komplementární pro oblast výzkumu českého jazyka. RIDICS a CNC plánují v diachronní oblasti vzájemné sdílení dat a metadat a spolupráci při vývoji softwarových nástrojů. Spolupráce je plánována také s jinými institucemi a VI, zejména v oblasti agregace bibliografických záznamů (Bibliografie dějin Českých zemí – BDČZ; Česká literární bibliografie – CLB).

VI RIDICS bude spolupracovat s dalšími výzkumnými institucemi a vysokými školami, jejichž předmět bádání zasahuje do oblasti diachronní bohemistiky. Jedná se např. o ÚČL AV ČR, Centrum medievistických studií či Kabinet pro klasická studia z Filosofického ústavu AV ČR, v. v. i., Filozofickou fakultu Univerzity Karlovy, Filozofickou fakultu Masarykovy Univerzity, Filozofickou fakultu Ostravské univerzity, Philosophische Fakultät – Universität Tübingen, Philologisch‑Kulturwissenschaftliche – Fakultät Universität Wien aj. Spolupráce bude probíhat formou konzultací ke konkrétním badatelským tématům či specializované přípravy podkladů pro výzkum, formou zvaných přednášek, vedení seminářů apod. VI se rovněž hodlá zapojit do přípravy nových, např. grantových, projektů ve smyslu konzultací při přípravě podkladů i samotné účasti v realizovaných projektech.

logo ÚJČCopyright © 2006–2017, oddělení vývoje jazyka, Ústav pro jazyk český AV ČR, v. v. i.
Vyhledávací program © 2006–2017, Boris Lehečka; Grafický návrh © 2006–2017, Irena Fuková

Vokabulář byl spuštěn před 11 lety a 4 dny; verze dat: 1.1.3
Ministerstvo školství, mládeže a tělovýchovyStrategie AV21
Web je podpořen projektem Ministerstva školství, mládeže a tělovýchovy č. LM2015081
„Výzkumná infrastruktura pro diachronní bohemistiku“ (akronym RIDICS) v rámci Projektu velkých infrastruktur pro VaVaI.