( overview )
Pravděpodobnost
TLDR
1 - Pravděpodobnost
- sčítání
- Bayesův vzorec
2 - Náhodné veličiny
- Náhodná veličina
- diskrétní (nespojité) – nabývají od sebe vzájemně oddělené hodnoty
- např: hod kostkou, počet vadných výrobků
- spojité – mohou nabývat všech hodnot
- Je omezena pouze přesností našeho měřidla
- např: Výška člověka, doba, teplota
- diskrétní (nespojité) – nabývají od sebe vzájemně oddělené hodnoty
- Funkce
- Pravděpodobnostní funkce ⇒ diskrétní
- Hustota pravděpodobnosti ⇒ spojité
- Distribuční funkce ⇒ obě
- Číselné charakteristiky náhodných veličin
- polohy – měří střední úroveň náhodné veličiny,
- např: Medián, Modus
- variability – měří měnlivost (rozptýlenost) hodnot náhodné veličiny,
- Rozptyl D(X)
- Směrodatná odchylka
- měří variabilitu náhodné veličiny v původních měrných jednotkách.
- Variační koeficient
- používá se pro porovnání variability náhodných veličin lišících se měrnou jednotkou
- šikmosti – hodnotí soustředění hodnot náhodné veličiny kolem středu (symetrie – asymetrie).
- a3 = 0 → symetrická rozdělení
- a3 > 0 → pozitivní symetrie
- a3 < 0 → negativní symetrie
- µ3 – třetí centrální moment
- polohy – měří střední úroveň náhodné veličiny,
3 - Modely náhodných veličin
Modely
- Rozdělení diskrétních náhodných veličin
- Alternativní rozdělení -
- nabývat pouze dvou hodnot: jedna s pravděpodobností a nuly s pravděpodobností .
- Příklad: Hod mincí (padne panna = 1, padne orel = 0) nebo kontrola kvality jednoho výrobku (vadný = 1, bez vady = 0).
- Binomické rozdělení -
- -krát opakovat, pravděpodobnost stejná a rovna .
- Příklad: Počet padnutých šestek při 10 nezávislých hodech standardní hrací kostkou.
- Poissonovo rozdělení -
- modeluje počet výskytů události v daném časovém úseku nebo prostoru.
- Příklad: Počet zákazníků, kteří vejdou do obchodu během jedné hodiny, nebo počet překlepů na jedné stránce textu.
- Hypergeometrické rozdělení -
- modeluje výběr bez vracení (pravděpodobnost se s každým tahem mění).
- Příklad: Tažení 6 výherních čísel z celkových 49 ve Sportce nebo výběr 5 součástek z krabice, kde je 20 dobrých a 5 vadných.
- Alternativní rozdělení -
- Rozdělení spojitých náhodných veličin
- Rovnoměrné rozdělení -
- všechny hodnoty v daném intervalu mají stejnou hustotu pravděpodobnosti.
- Příklad: Doba čekání na autobus, který jezdí v přesných 15minutových intervalech, pokud cestující přijde na zastávku zcela náhodně (čeká 0 až 15 minut).
- Exponenciální rozdělení -
- modeluje dobu čekání do výskytu první události.
- Příklad: Doba životnosti elektronické součástky (např. žárovky) do jejího prasknutí nebo časový rozestup mezi dvěma příchozími hovory na ústřednu.
- Normální (Gaussovo) rozdělení -
- popisuje veličiny, které jsou ovlivněny velkým množstvím drobných, nezávislých náhodných vlivů.
- Příklad: Výška dospělých osob v určité populaci, nebo chyby při opakovaném přesném laboratorním měření.
- Rovnoměrné rozdělení -
4 - Limitní věty
-
Centrální limitní věty
-
Zákon velkých čísel
- Čebyševova nerovnost
- I. typu
- II. typu
- Čebyševova nerovnost
-
Věty
- Čebyševova věta
- Bernoulliho věta
- Centrální limitní věty
- Moivreova – Laplaceova věta
- Lindebergova – Lévyova věta
-
Centrální limitní věty
- popisují, že součet nebo průměr velkého počtu nezávislých náhodných veličin se blíží normálnímu rozdělení.
- Příklad: Součet zaokrouhlovacích chyb u 10 000 účetních položek se bude chovat podle normálního rozdělení, i když jednotlivé chyby mají rovnoměrné rozdělení.
-
Zákon velkých čísel
- tvrdí, že s rostoucím počtem pokusů se empirické průměry (nebo relativní četnosti) blíží teoretickým středním hodnotám (pravděpodobnostem).
- Příklad: Pokud hodíte mincí 10krát, může padnout 8 panen (80 %). Pokud s ní hodíte 1 000 000krát, podíl panen bude téměř přesně 50 %.
- Čebyševova nerovnost
- I. typu (často nazývaná Markovova nerovnost)
- odhaduje shora pravděpodobnost, že nezáporná náhodná veličina překročí určitou kladnou hodnotu.
- Příklad: Odhad maximální pravděpodobnosti, že náhodně vybraný občan má plat vyšší než pětinásobek průměrného platu v zemi (aniž bychom znali přesné rozdělení platů).
- II. typu (samotná Čebyševova nerovnost)
- odhaduje pravděpodobnost, že se náhodná veličina odchýlí od své střední hodnoty o více než násobek směrodatné odchylky.
- Příklad: Zajištění, že pravděpodobnost, aby se zisk firmy lišil od očekávaného průměru o více než tři směrodatné odchylky, je menší než 1/9 (cca 11 %).
- I. typu (často nazývaná Markovova nerovnost)
-
Věty
- Čebyševova věta
- je jednou z formulací slabého zákona velkých čísel pro nezávislé veličiny s omezeným rozptylem.
- Příklad: Průměrný výnos pšenice z hektaru napříč stovkami různých farem se bude s velkou pravděpodobností velmi blížit teoretickému očekávanému průměru celého státu.
- Bernoulliho věta
- speciální případ zákona velkých čísel pro binomické rozdělení.
- Příklad: Pojišťovna na základě dlouhodobých statistik ví, že pravděpodobnost pojistné události je 2 %. Při pojištění 50 000 klientů si může být téměř jistá, že podíl klientů uplatňujících škodu se bude velmi blížit právě 2 %.
- Centrální limitní věty
- obecná skupina vět o konvergenci k normálnímu rozdělení.
- Příklad: Výpočet průměrné doby strávené na e-shopu na vzorku 5 000 uživatelů – rozdělení tohoto výběrového průměru bude zvonovité (normální), ať už je chování jednotlivců jakékoliv.
- Moivreova – Laplaceova věta
- aproximuje binomické rozdělení pomocí normálního rozdělení (pro velká n).
- Příklad: Rychlý výpočet pravděpodobnosti, že ze 100 000 vyrobených kusů výrobků, kde je šance na vadu 5 %, bude vadných přesně mezi 4900 a 5100 kusy (místo složitého sčítání desetitisíců binomických pravděpodobností).
- Lindebergova – Lévyova věta
- nejznámější verze centrální limitní věty pro nezávislé a stejně rozdělené náhodné veličiny (i.i.d.).
- Příklad: Celková denní tržba v hypermarketu se skládá z nákupů tisíců nezávislých zákazníků. Proto bude mít celková tržba přibližně normální rozdělení (Gaussovu křivku), i když útraty jednotlivců normální rozdělení nemají.
- Čebyševova věta
Popisná statistika
TLDR
5 - Statistické zjišťovaní
Znaky
- Etapy: 1.zjišťování, 2.zpracování, 3.vyhodnocování
- Třídění: prosté, Intervalové
5 - Statistické zjišťování
- Zjišťování
- úplné
- prošetřují se veškeré jednotky souboru
+přesné-extrémně nákladné
- výběrové
+levné-chybou odhadu
- úplné
- Výběrové techniky
- Základní
- Anketa
- Metoda základního masivu
- Záměrný výběr
- Náhodný nebo pravděpodobnostní výběr
- Základní
- Typy Náhodného výběru
-
- jednotky mohu mít stejné nebo různé pravděpodobnosti vybrání
- Prostý náhodný výběr (se stejnými pravděpodobnostmi)
- Výběr s nestejnými pravděpodobnostmi
-
- zohledňuje se vracení nebo nevracení vybraných jednotekdo ZS po jejich prošetřen
- Výběr s vracením (s opakováním)
- Výběr bez vracení (bez opakování)
-
- Náhodného výběru
- (Opora výběru)
- Losování
- Tabulky náhodných čísel
- Systematický výběr (mechanický)
- special
- Oblastní výběr
- Vícestupňový výběr
- oblastní dvoustupňový výběr
- Výběr skupinový
6 - Statistické charakteristiky
- charakteristiky: polohy, variability, šikmosti, špičatosti
- polohy (střední hodnoty)
- formy:
- prosté – není provedeno třídění,
- vážené – bylo provedeno třídění
- průměry - ze všech hodnot souboru
- aritmetický – nejčastější
- geometrický – časové řady, indexní analýza
- harmonický – indexní analýza
- chronologický – časové řady
- ostatní - vybraných hodnot
- Medián - prostřední hodnota
- Modus - nejčetnější hodnota
- Co použít?
- Aritmetický průměr
- jestliže data jsou získána minimálně v intervalovém měřítku (tzn. používá se pro číselné údaje), jestliže je rozdělení symetrické, jestliže chceme použít statistické testy.
- Medián
- jestliže data jsou získána minimálně v ordinálním měřítku (pořadové znaky), jestliže chceme znát střed rozdělení dat, jestliže data mohou obsahovat odlehlé hodnoty, jestliže rozdělení dat je silně zešikmené.
- Modus
- jestliže rozdělení má více vrcholů, jestliže chceme získat o rozdělení jenom základnípřehled, jestliže se slovem „průměrně“ míní nejčastějšíhodnota, nalézá uplatnění především u kategoriálních dat.
- ( V případě, že data jsou symetricky rozdělená, všechnyuvedené charakteristiky jsou přibližně stejné. )
- Aritmetický průměr
- formy:
- variability (rozptýlenosti)
- určuje rozmezí, v němž se výběrové údaje vyskytují
- jak moc je a-průměr vypovídající menší/větší
- Míry (charakteristiky) variability
- Absolutní - (kg, l, …)
- prosté(bez)/vážené(s) - provedeno třídění
- Variační rozpětí: R = xmax – xmin
- Průměrná absolutní odchylka: -průmer
- Rozptyl:
- Směrodatná odchylka:
- Relativní - (lišící jednotky)
- Relativní průměrná odchylka
- Variační koeficient
- Absolutní - (kg, l, …)
- určuje rozmezí, v němž se výběrové údaje vyskytují
- polohy (střední hodnoty)
- Kvantilové charakteristiky ?
- pojmy
- Kvantily – hodnoty, které dělí uspořádaný statistický soubor na určitý počet stejně obsazených částí
- Kvartily – dělí uspořádaný soubor na čtyři stejně obsazené části.
- Decily – dělí uspořádaný soubor na deset stejně obsazených částí
- Percentily – dělí soubor na sto stejně obsazených částí
- Kvantilové rozpětí - rozdíl mezi nejvyšším a nejnižším kvantilem
- Kvartilové rozpětí - diference horního a dolního kvartilu
- pojmy
- Míry šikmosti
- představují stupeň koncentrace hodnot znaku kolem charakteristiky úrovně
- img
Statistická indukce
TLDR
7 - Bodové odhady
- charakteristiky
- ZS (populační) - z všech jednotkách ZS
- výběrové - z výběrového souboru
- Metody odhadování parametrů
- Bodový odhad - odhad 1x čísla ZS z výberu
- Intervalový odhad - máme interval
Značení
- Bodový odhad
- Funkce se nazývají statistiky
- vlastnostni:
- nestranná
- konzistentní
- vydatná
- postačující
- Výběrová chyba
- x
- Bodový odhad průměru ZS
- Bodový odhad relativní četnosti ZS
- Bodový odhad rozptylu ZS
- Bodový odhad směrodatné odchylky ZS
8 - Intervalové odhady
- Pojmy
- Interval spolehlivosti
- neznámou hodnotu parametru odhadneme tak, že uvedeme interval, který s předem danoupravděpodobností obsahuje danou hodnotu parametru ZS
- Spolehlivost odhadu
- je pravděpodobnost, s jakou secharakteristika ZS bude nacházet v intervalu vymezenémpříslušnou výběrovou charakteristikou a maximální chybou
- Přesnost odhadu
- maximální chyba, které se při odhadu sdanou spolehlivostí dopustíme
- ( mezi přesností a spolehlivostí odhadu při daném rozsahu výběru existuje nepřímá úměrnost )
- čím je rozsah výběru n větší, tím je interval spolehlivosti užší
- čím je odhad přesnější a má menší rozptyl, tím jeinterval spolehlivosti užší
- čím je vyšší statistická jistota (1 – ), tím je intervalspolehlivosti širší
- Interval spolehlivosti
- Typy
- interval dvoustranný (oboustranný) - P(T1 ≤ 0 ≤ T2 ) = 1 – α
- jednostranných interval - P(0<T2)=1–α →|← P(0>T2)=1–α
- x
- Intervalový odhad průměru ZS
- Není znám rozptyl ZS – použijeme hodnotu s2
- Kdy se používají hodnoty u_α a kdy t_α?
- Kritické hodnoty normálního rozdělení u_α
- známe rozptyl ZS o2
- známe výběrový rozptyl s2 a rozsah výběrového souboru je velký (n > 100)
- Kritické hodnoty Studentova t-rozdělení o (n-1) stupni volnosti
- jde o výběr z normálního rozdělení a známepouze rozptyl výběrový s2
- rozsah výběrového souboru je malý (n < 100)
- soubor se řídí asymetrickým normálním rozdělením
- Kritické hodnoty normálního rozdělení u_α
- Stanovení rozsahu souboru
- Potřebná velikost na int odhad průměru s presností
- Určení spolehlivosti odhadu
- Výběr bez vracení – výpočet přípustné chyby
- Stanovení rozsahu výběru
- Výpočet spolehlivosti při určité požadované šířce intervalu spolehlivosti
- Intervalový odhad rozptylu ZS
- Intervalový odhad parametru p alternativního rozdělení (intervalový odhad relativní četnosti ZS)
9 - Testování statistických hypotéz
Diagram
- Statistická hypotéza
- každé tvrzení o tvaru nebo charakteristikách rozděleníjednoho či několika statistických znaků
- Testování hypotéz
- Nulová hypotéza (testovaná hypotéza)
- předpoklad
- Alternativní hypotéza
- popírá platnost nulové hypotézy
- Test
- postup zda hypotéza platí
- typy
- parametrické
- neparametrické - neznáme typ ani parametryrozdělení ZS
- typy podle výběrů
- jednovýběrové – jeden výběrový soubor
- dvouvýběrové – dva výběrové soubory
- vícevýběrové – více jak dva výběrové soubory.
- typy podle alternativní hypotézy
- testy oboustranné H1 : 0
- testy jednostranné: pravo/levo
- Testové (testovací) kritérium (testovací statistika)
- T lze chápat i jako míru nesouhlasu výsledkůpokusu s testovanou hypotézou
- obor T množiny
- Kritický obor K - H0 málo pravděpodobný
- Obor přijetí R - nejsou v rozporu s H0
- kritické hodnoty - hodnoty které oddělují tyto obory
- Základní princip testování statistických hypotéz je možno zformulovat takto:
- Padne-li vypočtená hodnota testovacího kritéria T dokritického oboru K, zamítáme H0 a přijímámealternativní hypotézu (TK / H0 ).
- Padne-li vypočtená hodnota testovacího kritéria T dooboru přijetí, nebyla H0 vyvrácena (H0 nezamítáme).Potom platí TK / H0 .
- Chyby při testování
- I. druhu - hladina významnosti α (zamítnutí i když je správná)
- II. druhu - síla testu (přijeté nesprávné)
- Postup
- formulace hypotéz
- volba hladiny významnosti
- volba testu
- výpočet hodnoty testového kritéria
- určení kritického oboru
- formulace výsledku testu a závěru
- Příklady -
- Parametrické testy - Jednovýběrové testy
- Test hypotézy o rozptylu normálního rozdělení
- Test hypotézy o průměru normálního rozdělení
- Test při známém rozptylu ZS + neznámém
- Test hypotézy o parametru p alternativního rozdělení
9 - priklady jednovyberove testy
- příklady
10 - Dvouvyberove testy
Tabulky
![]()
- Test významnosti rozdílu dvou výběrových rozptylů (F-test)
- Test významnosti rozdílu dvou výběrových průměrů (t-test)
- t-test při známých rozptylech
- t-test při neznámých rozptylech
- (Tzn. před každým t-testem se provádí F-test)
- příklady
- Test hypotézy H0: 1 = 2 při stejných rozptylech (dvouvýběrový t-test)
- Test hypotézy H0: 1 = 2 při nestejných rozptylech (Welchův t-test)
- Behrens-Fisherův test
- t-test pro párové hodnoty (párový t-test)
- Test významnosti rozdílu dvou výběrových relativních četností
11 - Neparametrické testy (ostatní)
- vlastnosti
+- nezávislost na tvaru rozdělení,
- použitelnost pro studium jak znaků kvantitativních, tak kvalitativních
- po výpočetní stránce jsou mnohem jednodušší a rychlejší
-menší síla
- typy
- pořadové testy
- Testy dobré shody
- pochází z určitého předpokládanéhorozdělení
- typy
- Pearsonův 2 – test dobré shody
- Kolmogorov – Smirnovův test,
- Davidův test normality,
- Shapirův – Wilkův test
Regrese a Korelace
TLDR
12 - Analýza závislostí kvantitativních znaků
- Závislost
- příčinná (kauzální)
- Jeden jev (příčina) vyvolává existenci (vznik, změnu, zánikapod.) jevu druhého. Jeden jev (příčina) podmiňuje jev jiný(účinek, následek).
- pevná
- výskytu jednoho jevu nutně odpovídávýskyt druhého jevu (a naopak). Z pravděpodobnostníhohlediska jde o vztah, který se projeví s pravděpodobnostírovnou jedné.
- Volná
- jeden jev podmiňuje jev jiný jen surčitou pravděpodobností a v různé intenzitě. Určitéhodnotě jedné veličiny odpovídá celá řada různých hodnotdruhé veličiny
- statistická
- volná závislost kvantitativních statistických znaků
- příčinná (kauzální)
- Regrese
- charakterizuje průběh závislosti a změny závisleproměnného znaku na základě změn jedné či více nezávisleproměnných (matematické funkce).
- Korelace
- měří těsnost korelační závislosti příslušnými mírami
- Druhy závislostí podle
- počtu kvantitativních znaků → jednoduchá/vícenásobná
- typu regresní funkce → (ne)lineární
- směru změn kvantitativních znaků → pozitivní/negativní (záporná, nepřímá)
- lineární regresní model
y` = a + b ∙ x- parametry → metoda nejmenších čtverců
- param=regresní koeficienty
- závislost
- Jednostranná
- proměnná X je nezávisle proměnnáa Y pak závisle proměnná.
- Oboustranná (družené regresnípřímky)
- nelze přesně rozhodnout, kteráproměnná je závislá a která nezávislá
- Jednostranná
- Odhady v regresní analýze
- Interpolace – předmětem zájmu je některá z použitýchkombinací vysvětlujících proměnných
- Extrapolace – pozornost je upřena na hodnotu proměnné Ypro předpokládanou budoucí hodnotu proměnné X
- odlišit
- odhad průměrné hodnoty
- yi – k odhadu bude použitregresní koeficient, který udává, o kolik se změníproměnná Y, když se proměnná X změní o jednotku
- odhad konkrétní hodnoty
- y´i – k odhadu se použijecelá regresní funkce
- odhad průměrné hodnoty
13 - Korelační analýza
( míru stupně závislosti dvou proměnných )
- Pearsonův korelační koeficient
- vlastnosti
- –1≤ r ≤+1
- Jestliže |r| = 1, leží všechny body na nějaké přímce(lineární funkční závislost)
- Jestliže r = 0, X a Y jsou nekorelované proměnné
- Koeficient vyjadřuje pouze sílu lineárního vztahu
- Korelační koeficient r nerozlišuje mezi závisle a nezávisle proměnnou .
- vlastnosti
- Těsnost závislosti
-
r < 0,4 těsnost nízká *(slabá)* - 0,4 ≤ r < 0,7 těsnost středně silná
- 0,7 ≤ r < 0,9 těsnost vysoká (silná)
- 0,9 ≤ r ≤ 1,0 těsnost velmi vysoká
-
- Koeficient determinace
- ( Druhou mocninou koeficientu korelace )
- Spearmanův korelační koeficient pořadí
- Kdy?
- Používá se u méně rozsáhlých souborů nebo v případě,že chceme získat rychlou představu o intenzitě závislosti.
- Kdy?
- Formální korelace
- korelací způsobených společnou příčinou
- Zdánlivé korelace
- matoucí (rušivé) proměnné
13 - Testy regrese a korelace
- Test významnosti korelačního koeficientu
- Test významnosti regresního koeficientu
- Intervalový odhad regresního koeficientu
- Bodový odhad korelačního koeficientu
- Intervalový odhad korelačního koeficientu
- (n < 100) se využívá Fisherovytransformace
🎥








