Analýza tokenů (v Excelu)

Nástroj využívá tabulkový kalkulátor Microsoft Excel a jeho doplňky PowerPivot a Power Query. Na vstupu jsou jednak metadata o textových pramenech, zejména období jejich vzniku, a dále informace o jednotlivých tokenech a jejich výskytu v konkrétních pramenech. Tato vstupní data, která mají formát CSV souborů, využívá doplněk PowerPivot, který umožňuje zpracovat v relativně krátkém čase velké množství dat (analyzovaný materiál měl přibližně 9 milionů tokenů). Doplněk Power Query se využívá ke generování tvarů slov na základě zadaných koncovek a kmenů. S tímto nástrojem lze analyzovat velké objemy dat, navíc není nutno mít přístup k internetu a korpusovému manažeru, které obvyklé slouží k podobné analýze. Doplněk je také unikátní tím, že zpracovává údaje o více tvarech, popř. koncovkách určitého vzoru najednou. Další předností je možnost vytvářet kontingenční tabulky a přehledy ad hoc podle potřeb a zaměření uživatele. Navržená architektura umožňuje měnit zdrojová data (z aktualizovaného nebo ze zcela odlišného korpusu textů), takže je tento nástroj obecně použitelný pro analýzu zastoupení tokenů v libovolných korpusech.

Vývoj aplikace byl podpořen projektem Ministerstva kultury ČR č. DF12P01OVV028 Informační technologie ve službách jazykového kulturního bohatství (IT JAKUB).
 
logo ÚJČ Copyright © 2006–2024, oddělení vývoje jazyka, Ústav pro jazyk český AV ČR, v. v. i.
Vyhledávací program © 2006–2024, Boris Lehečka; Grafický návrh © 2006–2024, Irena Fuková

Vokabulář byl spuštěn před 18 lety a 7 dny; verze dat: 1.1.25
Ministerstvo školství, mládeže a tělovýchovy Strategie AV21
Web je podpořen Ministerstvem školství, mládeže a tělovýchovy ČR, projektem č. LM2023062
(LINDAT/CLARIAH-CZ).