Analýza tokenů (v Excelu)

Nástroj využívá tabulkový kalkulátor Microsoft Excel a jeho doplňky PowerPivot a Power Query. Na vstupu jsou jednak metadata o textových pramenech, zejména období jejich vzniku, a dále informace o jednotlivých tokenech a jejich výskytu v konkrétních pramenech. Tato vstupní data, která mají formát CSV souborů, využívá doplněk PowerPivot, který umožňuje zpracovat v relativně krátkém čase velké množství dat (analyzovaný materiál měl přibližně 9 milionů tokenů). Doplněk Power Query se využívá ke generování tvarů slov na základě zadaných koncovek a kmenů. S tímto nástrojem lze analyzovat velké objemy dat, navíc není nutno mít přístup k internetu a korpusovému manažeru, které obvyklé slouží k podobné analýze. Doplněk je také unikátní tím, že zpracovává údaje o více tvarech, popř. koncovkách určitého vzoru najednou. Další předností je možnost vytvářet kontingenční tabulky a přehledy ad hoc podle potřeb a zaměření uživatele. Navržená architektura umožňuje měnit zdrojová data (z aktualizovaného nebo ze zcela odlišného korpusu textů), takže je tento nástroj obecně použitelný pro analýzu zastoupení tokenů v libovolných korpusech.

Vývoj aplikace byl podpořen projektem Ministerstva kultury ČR č. DF12P01OVV028 Informační technologie ve službách jazykového kulturního bohatství (IT JAKUB).
 
logo ÚJČCopyright © 2006–2020, oddělení vývoje jazyka, Ústav pro jazyk český AV ČR, v. v. i.
Vyhledávací program © 2006–2020, Boris Lehečka; Grafický návrh © 2006–2020, Irena Fuková

Vokabulář byl spuštěn před 13 lety, 4 měsíci a 19 dny; verze dat: 1.1.13
Ministerstvo školství, mládeže a tělovýchovyStrategie AV21
Web je podpořen projektem Ministerstva školství, mládeže a tělovýchovy č. LM2015081
„Výzkumná infrastruktura pro diachronní bohemistiku“ (akronym RIDICS) v rámci Projektu velkých infrastruktur pro VaVaI.