Při vytváření dotazů lze využívat některých speciálních symbolů a jejich kombinací (regulárních výrazů), které vám můžou velmi ulehčit hledání.
| Symbol | Význam | Příklad |
|---|---|---|
| . | Libovolný (jeden) znak | žen. vyhledá: žena, ženy, ženu, ženě atp. |
| .* | Libovolná sekvence znaků (min. 0) | les.* vyhledá: les, lesa, lesama, lesníkovi atp. |
| .+ | Libovolná sekvence znaků (min. 1) | les.+ vyhledá: lesa, lesama, lesníkovi atp. |
| ? | Předcházející znak nemusí být ve výsledku | dělati? vyhledá: dělat i dělati |
| [abc] | Výběr z množiny znaků (zde a, b nebo c) | děkuj[ui] vyhledá: děkuju i děkuji |
| (?i) | Ignoruje velikost písmen | (?i)pes vyhledá: pes, Pes, PES, peS apod. |
| [lemma="slovo"] | Hledá slovo ve všech tvarech | [lemma="kos"] vyhledá: kos, kosa, Kos, kosi apod. |
Podrobnější popis najdete například zde nebo zde.
Analyzuji data... |
Analyzuji data... |
|
|
|
|
[1] šíbr (lemma)
[2] vůdce (lemma)
Analyzuji data... |
Frekvence všech slovních tvarů odpovídajících jednotlivým dotazům v korpusu psaných textů (SYN2010) a v korpusech mluvenych textů (Oral2006 a Oral2008). Žluté podbarvení buněk signalizuje, že dotaz v podobě, jak byl zadán, nebylo možné na korpusech mluvené češtiny přesně vyhodnotit (např. pokud dotazy využívají lemmatizaci a značkování, které je přístupné pouze v korpusech psaného jazyka). Prezentované výsledky tedy představují pouze odhad (vyhledány byly konkrétní formy odpovídající dotazům, které se vyskytují v psané češtině, a v mluveném korpusu se mohou krýt s jinými homonymními slovy či tvary). |
|
Tabulka ukazuje základní gramatické kategorie vyhledaných dotazů spolu s jejich absolutními frekvencemi a procentním rozložením (všechny kategorie dohromady v rámci jednoho dotazu tvoří 100%). Je-li výsledkem dotazu spojení více slov, jsou gramatické kategorie pro jednotlivá slova odděleny středníkem. Kategorie se vztahují pouze k psanému jazyku, odrážejí tedy pouze stav v korpusu SYN2010. |
Analyzuji data... |
Graf ukazuje poměr distribuce variant v základních typech textů (v odborné terminologii registr, v datové struktuře atribut txtypegroup): beletrii, publicistice a odborné literatuře (údaje pocházejí z korpusu SYN2010). Jako další makroskupina textů je zde přidána korespondence, která představuje psaný, ovšem neveřejný a neoficiální typ textu, a kterou odráží korpus KSK-Dopisy. Po kliknutí na libovolnou oblast grafu se zobrazí tabulka s číselnými údaji pro každou z variant: absolutní frekvence (tj. počet výskytů dané varianty v konkrétním subkorpusu), relativní frekvence v ppm (počet výskytů na milion slov), která umožňuje srovnání napříč jednotlivými kategoriemi textů navzdory jejich nestejné velikosti, a konečně relativní frekvence v procentech, vyjadřující srovnání s ostatními variantami (součet této hodnoty u všech variant se rovná 100%). |
Analyzuji data...
Analyzuji data...
Analyzuji data... |
Každý ze základních textových registrů (beletrie, odborná literatura, publicistika) se v případě korpusu SYN2010 podrobněji dělí na tzv. textové typy (poziční atribut txtype). Grafy pro každý textový typ ukazují poměr variant, pokud součet jejich frekvencí v dané oblasti přesáhl alespoň 5 výskytů. Po kliknutí na libovolnou oblast grafu se zobrazí tabulka s číselnými údaji pro každou z variant: absolutní frekvence (tj. počet výskytů dané varianty v konkrétním subkorpusu), relativní frekvence v ppm (počet výskytů na milion slov), která umožňuje srovnání napříč jednotlivými kategoriemi textů navzdory jejich nestejné velikosti, a konečně relativní frekvence v procentech, vyjadřující srovnání s ostatními variantami (součet této hodnoty u všech variant se rovná 100%). |
Analyzuji data... |
Žánry (poziční atribut genre) představují nejpodrobnější dělení textů v korpusu SYN2010. Graf ukazuje poměr variant pro ty žánry, 1) v nichž součet frekvencí všech variant přesáhl alespoň 5 výskytů a 2) v nichž je tento součet nadprůměrný vzhledem ke všem žánrům (proto se počet zobrazovaných žánrů může u různých dotazů lišit). Žánrové rozdělení neodpovídá nutně vždy očekávatelným textovým typům, takže texty s jedním žánrem můžou mít rozdílné textové typy. Po kliknutí na libovolnou oblast grafu se zobrazí tabulka s číselnými údaji pro každou z variant: absolutní frekvence (tj. počet výskytů dané varianty v konkrétním subkorpusu), relativní frekvence v ppm (počet výskytů na milion slov), která umožňuje srovnání napříč jednotlivými kategoriemi textů navzdory jejich nestejné velikosti, a konečně relativní frekvence v procentech, vyjadřující srovnání s ostatními variantami (součet této hodnoty u všech variant se rovná 100%). |
Analyzuji data...
Analyzuji data... |
Oddíl média shrnuje rozdíly v užití variant v rámci jednotlivých typů nosičů textu (poměr je v grafu zobrazen pouze pokud součet frekvencí všech variant přesahuje minimální hodnotu 5 výskytů). Graf s titulkem Originál shrnuje poměr variant v rámci originálních českých textů a v rámci překladů z cizích jazyků. Údaje pro konkrétní zdrojové jazyky uvedené v kropusu SYN2010 u překladových děl se zde jednotlivě nezobrazují. Po kliknutí na libovolnou oblast grafu se zobrazí tabulka s číselnými údaji pro každou z variant: absolutní frekvence (tj. počet výskytů dané varianty v konkrétním subkorpusu), relativní frekvence v ppm (počet výskytů na milion slov), která umožňuje srovnání napříč jednotlivými kategoriemi textů navzdory jejich nestejné velikosti, a konečně relativní frekvence v procentech, vyjadřující srovnání s ostatními variantami (součet této hodnoty u všech variant se rovná 100%). |
Analyzuji data... |
Prezentované údaje odrážejí stav rozložení variant v korpusech Oral2006 a Oral2008 v rámci sociolingvistických kategorií pohlaví a věk. Údaje pro každou skupinu mluvčích se zobrazují, pouze pokud souhrn výskytů všech variant v obou korpusech přesáhne hranici 5. Po kliknutí na libovolnou oblast grafu se zobrazí tabulka s číselnými údaji pro každou z variant: absolutní frekvence (tj. počet výskytů dané varianty v konkrétním subkorpusu), relativní frekvence v ppm (počet výskytů na milion slov), která umožňuje srovnání napříč jednotlivými kategoriemi textů navzdory jejich nestejné velikosti, a konečně relativní frekvence v procentech, vyjadřující srovnání s ostatními variantami (součet této hodnoty u všech variant se rovná 100%). |
Analyzuji data... |
Další podstatnou sociolingvistickou kategorií, která ovlivňuje rozložení variant v jazyce, je vzdělání. V korpusech Oral2006 a Oral2008 jsou mluvčí rozděleni do tří kategorií podle nejvyššího dosaženého stupně vzdělání (základní, středoškolské a vysokoškolské). Údaje pro každou skupinu mluvčích se zobrazují, pouze pokud souhrn výskytů všech variant v obou korpusech přesáhne hranici 5. Po kliknutí na libovolnou oblast grafu se zobrazí tabulka s číselnými údaji pro každou z variant: absolutní frekvence (tj. počet výskytů dané varianty v konkrétním subkorpusu), relativní frekvence v ppm (počet výskytů na milion slov), která umožňuje srovnání napříč jednotlivými kategoriemi textů navzdory jejich nestejné velikosti, a konečně relativní frekvence v procentech, vyjadřující srovnání s ostatními variantami (součet této hodnoty u všech variant se rovná 100%). |
Analyzuji data... |
Sběr dat pro mluvené korpusy Oral2006 a Oral2008 neprobíhal od začátku na celém území ČR, ale pouze v jeho západní části. Údaje zde prezentované proto neodrážejí stav v celé ČR, ale pouze v 5 oblastech (s nestejným počtem nahrávek a mluvčích): středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko-moravská (přechodná). Údaje pro každou oblast se zobrazují, pouze pokud počet výskytů všech variant dohromady v obou korpusech přesáhne hranici 5. Po kliknutí na libovolnou oblast grafu se zobrazí tabulka s číselnými údaji pro každou z variant: absolutní frekvence (tj. počet výskytů dané varianty v konkrétním subkorpusu), relativní frekvence v ppm (počet výskytů na milion slov), která umožňuje srovnání napříč jednotlivými kategoriemi textů navzdory jejich nestejné velikosti, a konečně relativní frekvence v procentech, vyjadřující srovnání s ostatními variantami (součet této hodnoty u všech variant se rovná 100%). |
Analyzuji data... Relativní rozložení v ppm dle typu textuRelativní rozložení v ppm dle žánrů |
Pro spolehlivé posouzení jednotlivých variant je nutné kromě jejich frekvence znát i rovnoměrnost jejich rozložení. Varianta, která je sice poměrně frekventovaná, ale vyskytuje se v omezeném množství textů (navíc jednoho typu), příp. ji používá jen omezený počet mluvčích, nebo se vyskytuje jen v některých žánrech, je z hlediska svého užití mnohem specifičtější než varianta o stejné frekvenci, která je napříč žánry, texty a mluvčími rozložena rovnoměrně. Tabulka uvádí pro každou variantu tři ukazatele rozložení: ARF, počet autorů/mluvčích, kteří danou variantu použili, a počet textů/nahrávek, ve kterých se daná varianta vyskytuje (pozn.: údaj o počtu autorů může být nespolehlivý, jelikož veškeré publicistické texty, u nichž je jednoznačné autorství nedohledatelné, jsou seskupeny v kategorii "neznámý autor"). Každý z těchto ukazatelů sám o sobě vypovídá jen málo o rozložení dané varianty a je třeba ho vztáhnout k referenční hodnotě - tou je v našem případě průměr na dané frekvenční hladině. Porovnáváme tedy to, jakou hodnotu ARF u varianty naměříme (číslo před lomítkem), s tím, jaká je průměrná hodnota ARF u jevů se stejnou frekvencí (číslo za lomítkem). Analogicky postupujeme v případě mluvčích/autorů a textů/nahrávek. Můžeme pak např. konstatovat, že varianta [1] se vyskytuje ve 2000 textech (v korpusu SYN2010), přitom jevy na stejné frekvenční hladině (s frekvencí odlišnou maximálně o 1 %) se objevují průměrně v 1500 textech nebo varianta [2] je užívána jen 15 mluvčími (v korpusech Oral2006 a Oral2008), přičemž jevy podobné frekvence v průměru užívá 80 mluvčích. Barevně jsou v tabulce pro snadnější orientaci odlišeny případy nadprůměrně rovnoměrného rozložení (zelená barva značící velkou spolehlivost naměřených údajů) a naopak případy nadprůměrně nerovnoměrného rozložení (různé odstíny pro nerovnoměrné, výrazně nerovnoměrné a extrémně nerovnoměrné rozložení), což signalizuje, že zkoumaná problematika si vyžaduje podrobnější analýzu (zkoumání variace v jednotlivých typech textů, žánrech, sociálních skupinách mluvčích apod.). Údaje v šedé barvě vycházejí z tak nízkých frekvencí výskytů, že nemají prakticky žádnou vypovídací hodnotu. Grafy rozložení ukazují relativní zastoupení každé z variant v jednotlivých částech korpusu. Velikost oblasti v grafu značí relativní frekventovanost varianty v dané skupině textů. (Pozn.: tyto grafy zobrazují max. 3 varianty.) Graf rozložení podle typu textu pro každou variantu znázorňuje její relativní frekvenci v textových typech (nejhrubější dělení textu na základní skupiny). Údaje o frekvenci jsou relativizovány vzhledem k celkové velikosti dané skupiny textů (ppm = počet výskytů na milion slov), což umožňuje srovnávat výsledky napříč jednotlivými skupinami textů navzdory tomu, že nejsou stejně velké. Graf rozložení podle žánrů ukazuje relativní frekvenci (v ppm = počet výskytů na milion slov) jednotlivých variant v různých žánrech psaného korpusu. Převedení z absolutního počtu výskytů na relativní frekvenci umožňuje srovnávat jednotlivé žánry podle toho, jak jsou v nich zastoupeny jednotlivé varianty i přesto, že nejsou reprezentovány stejným objemem dat. Podrobnější informace o konkurenci jednotlivých variant v rámci různých typů textů a žánrů najdete v sekci Psaný jazyk. |
Analyzuji data... |
Kolokace, tedy ustálené souvýskyty slov, jsou dalším doplňkem ke komplexnímu hodnocení variant. Varianty, které jinak vykazují velmi podobné formální, významové i frekvenční charateristiky, se právě v oblasti kolokability často liší. Diagramy ukazují ke každé variantě výběr z nejdůležitějších kolokací v psaném jazyce (korpus SYN2010). Při přejezdu ukazatele myši se kolokující slova (napříč variantami) zvýrazní, což umožňuje jednoduše identifikovat kolokáty společné oběma (resp. všem) variantám. Při kliknutí na slovo se zobrazí náhodný vzorek konkordančních řádků (maximálně 25) dané varianty a kolokujícího lemmatu. Zobrazení kolokací, tzv. term cloud, vyjadřuje několik hodnot popisujících pevnost a frekvenci kolokací současně. Velikost fontu je odvozena od hodnoty kolokační míry známé jako MI/t-score (Evert 2004: 90). Ta je definována jako menší hodnota z dvojice známých měr MI-score a t-score. Kombinuje tak výhody obou měr, kdy MI-score nadhodnocuje kolokace s celkově nízkou frekvencí, zatímco t-score neúměrně vysoce hodnotí kolokace s vysokou frekvencí. Barva fontu (od světle modré, přes tmavě modrou až po červenou) je odvozena od kolokační míry známé jako dice. Vzhledem k její konstrukci - nabývá hodnot mezi 0 a 1 a není závislá na frekvenci kolokace - je zajímavým doplňkem k MI/t-score. Čísla v závorce za každým slovem představují absolutní frekvenci kolokace varianty a daného slova (s maximální vzdáleností dvě pozice). Do seznamu je vybíráno až 20 kolokací s nejvyšší hodnotou MI/t-score, dále pak kolokace, které se objevují ve dvacítce nejdůležitějších u jiných variant. Minimální frekvence kolokátu přitom musí být alespoň 3 výskyty. |
Analyzuji data... |
Experimentální data! |
korpus.cz>
Celkové údaje pro psaný a mluvený jazyk (které můžou být vzhledem k velké obecnosti zkreslující, viz Rozložení). Přesné údaje o poměrech se zobrazí po kliknutí na libovolnou oblast grafu.
Údaj Nedostatečná data značí, že součet frekvencí všech variant v daném (sub)korpusu je menší než 5 výskytů.
Žluté podbarvení buněk a černobílý graf signalizují, že výsledky představují pouze odhad (v neznačkovaném mluveném korpusu byly vyhledány konkrétní formy odpovídající dotazům, které se vyskytují v psané češtině, ale zde se mohou krýt s jinými homonymními slovy či tvary).
Zadání dotazu a jeho výsledek je uložen na serveru a může být znovu vyvolán pomocí odkazu uvedeného v záhlaví stránky. Odkaz je možné použít i pro citační účely.