up:: STAT > ZK

( overview )

🎥přednášky

Pravděpodobnost

TLDR

1 - Pravděpodobnost

sčítání
Bayesův vzorec

2 - Náhodné veličiny

Náhodná veličina
- diskrétní (nespojité) – nabývají od sebe vzájemně oddělené hodnoty
  - např: hod kostkou, počet vadných výrobků
- spojité – mohou nabývat všech hodnot
  - Je omezena pouze přesností našeho měřidla
  - např: Výška člověka, doba, teplota
Funkce
- Pravděpodobnostní funkce ⇒ diskrétní
- Hustota pravděpodobnosti ⇒ spojité
- Distribuční funkce ⇒ obě
Číselné charakteristiky náhodných veličin
- polohy – měří střední úroveň náhodné veličiny,
  - např: Medián, Modus
- variability – měří měnlivost (rozptýlenost) hodnot náhodné veličiny,
  - Rozptyl D(X)
  - Směrodatná odchylka
    - měří variabilitu náhodné veličiny v původních měrných jednotkách.
  - Variační koeficient
    - používá se pro porovnání variability náhodných veličin lišících se měrnou jednotkou
- šikmosti – hodnotí soustředění hodnot náhodné veličiny kolem středu (symetrie – asymetrie).
  - a3 = 0 → symetrická rozdělení
  - a3 > 0 → pozitivní symetrie
  - a3 < 0 → negativní symetrie
  - µ3 – třetí centrální moment

3 - Modely náhodných veličin

Modely

Rozdělení diskrétních náhodných veličin
- Alternativní rozdělení - $A (p)$
  - nabývat pouze dvou hodnot: jedna s pravděpodobností $p$ a nuly s pravděpodobností $q = 1- p$ .
  - Příklad: Hod mincí (padne panna = 1, padne orel = 0) nebo kontrola kvality jednoho výrobku (vadný = 1, bez vady = 0).
- Binomické rozdělení - $B i (n; p)$
  - $n$ -krát opakovat, pravděpodobnost stejná a rovna $p$ .
  - Příklad: Počet padnutých šestek při 10 nezávislých hodech standardní hrací kostkou.
- Poissonovo rozdělení - $P o (λ)$
  - modeluje počet výskytů události v daném časovém úseku nebo prostoru.
  - Příklad: Počet zákazníků, kteří vejdou do obchodu během jedné hodiny, nebo počet překlepů na jedné stránce textu.
- Hypergeometrické rozdělení - $H (N, M, n)$
  - modeluje výběr bez vracení (pravděpodobnost se s každým tahem mění).
  - Příklad: Tažení 6 výherních čísel z celkových 49 ve Sportce nebo výběr 5 součástek z krabice, kde je 20 dobrých a 5 vadných.
Rozdělení spojitých náhodných veličin
- Rovnoměrné rozdělení - $R (a, b)$
  - všechny hodnoty v daném intervalu mají stejnou hustotu pravděpodobnosti.
  - Příklad: Doba čekání na autobus, který jezdí v přesných 15minutových intervalech, pokud cestující přijde na zastávku zcela náhodně (čeká 0 až 15 minut).
- Exponenciální rozdělení - $E (λ)$
  - modeluje dobu čekání do výskytu první události.
  - Příklad: Doba životnosti elektronické součástky (např. žárovky) do jejího prasknutí nebo časový rozestup mezi dvěma příchozími hovory na ústřednu.
- Normální (Gaussovo) rozdělení - $N (μ, σ^{2})$
  - popisuje veličiny, které jsou ovlivněny velkým množstvím drobných, nezávislých náhodných vlivů.
  - Příklad: Výška dospělých osob v určité populaci, nebo chyby při opakovaném přesném laboratorním měření.

4 - Limitní věty

Centrální limitní věty
Zákon velkých čísel
- Čebyševova nerovnost
  - I. typu
  - II. typu
Věty
- Čebyševova věta
- Bernoulliho věta
- Centrální limitní věty
- Moivreova – Laplaceova věta
- Lindebergova – Lévyova věta
Centrální limitní věty
- popisují, že součet nebo průměr velkého počtu nezávislých náhodných veličin se blíží normálnímu rozdělení.
- Příklad: Součet zaokrouhlovacích chyb u 10 000 účetních položek se bude chovat podle normálního rozdělení, i když jednotlivé chyby mají rovnoměrné rozdělení.
Zákon velkých čísel
- tvrdí, že s rostoucím počtem pokusů se empirické průměry (nebo relativní četnosti) blíží teoretickým středním hodnotám (pravděpodobnostem).
- Příklad: Pokud hodíte mincí 10krát, může padnout 8 panen (80 %). Pokud s ní hodíte 1 000 000krát, podíl panen bude téměř přesně 50 %.
- Čebyševova nerovnost
  - I. typu (často nazývaná Markovova nerovnost)
    - odhaduje shora pravděpodobnost, že nezáporná náhodná veličina překročí určitou kladnou hodnotu.
    - Příklad: Odhad maximální pravděpodobnosti, že náhodně vybraný občan má plat vyšší než pětinásobek průměrného platu v zemi (aniž bychom znali přesné rozdělení platů).
  - II. typu (samotná Čebyševova nerovnost)
    - odhaduje pravděpodobnost, že se náhodná veličina odchýlí od své střední hodnoty o více než násobek směrodatné odchylky.
    - Příklad: Zajištění, že pravděpodobnost, aby se zisk firmy lišil od očekávaného průměru o více než tři směrodatné odchylky, je menší než 1/9 (cca 11 %).
Věty
- Čebyševova věta
  - je jednou z formulací slabého zákona velkých čísel pro nezávislé veličiny s omezeným rozptylem.
  - Příklad: Průměrný výnos pšenice z hektaru napříč stovkami různých farem se bude s velkou pravděpodobností velmi blížit teoretickému očekávanému průměru celého státu.
- Bernoulliho věta
  - speciální případ zákona velkých čísel pro binomické rozdělení.
  - Příklad: Pojišťovna na základě dlouhodobých statistik ví, že pravděpodobnost pojistné události je 2 %. Při pojištění 50 000 klientů si může být téměř jistá, že podíl klientů uplatňujících škodu se bude velmi blížit právě 2 %.
- Centrální limitní věty
  - obecná skupina vět o konvergenci k normálnímu rozdělení.
  - Příklad: Výpočet průměrné doby strávené na e-shopu na vzorku 5 000 uživatelů – rozdělení tohoto výběrového průměru bude zvonovité (normální), ať už je chování jednotlivců jakékoliv.
- Moivreova – Laplaceova věta
  - aproximuje binomické rozdělení pomocí normálního rozdělení (pro velká n).
  - Příklad: Rychlý výpočet pravděpodobnosti, že ze 100 000 vyrobených kusů výrobků, kde je šance na vadu 5 %, bude vadných přesně mezi 4900 a 5100 kusy (místo složitého sčítání desetitisíců binomických pravděpodobností).
- Lindebergova – Lévyova věta
  - nejznámější verze centrální limitní věty pro nezávislé a stejně rozdělené náhodné veličiny (i.i.d.).
  - Příklad: Celková denní tržba v hypermarketu se skládá z nákupů tisíců nezávislých zákazníků. Proto bude mít celková tržba přibližně normální rozdělení (Gaussovu křivku), i když útraty jednotlivců normální rozdělení nemají.

Popisná statistika

TLDR

5 - Statistické zjišťovaní

Znaky

Etapy: 1.zjišťování, 2.zpracování, 3.vyhodnocování
Třídění: prosté, Intervalové

5 - Statistické zjišťování

Zjišťování
- úplné
  - prošetřují se veškeré jednotky souboru
  - + přesné
  - - extrémně nákladné
- výběrové
  - + levné
  - - chybou odhadu
Výběrové techniky
- Základní
  - Anketa
  - Metoda základního masivu
  - Záměrný výběr
  - Náhodný nebo pravděpodobnostní výběr
Typy Náhodného výběru
- 1. jednotky mohu mít stejné nebo různé pravděpodobnosti vybrání
  - Prostý náhodný výběr (se stejnými pravděpodobnostmi)
  - Výběr s nestejnými pravděpodobnostmi
- 1. zohledňuje se vracení nebo nevracení vybraných jednotekdo ZS po jejich prošetřen
  - Výběr s vracením (s opakováním)
  - Výběr bez vracení (bez opakování)
Náhodného výběru
- (Opora výběru)
- Losování
- Tabulky náhodných čísel
- Systematický výběr (mechanický)
- special
  - Oblastní výběr
  - Vícestupňový výběr
  - oblastní dvoustupňový výběr
  - Výběr skupinový

6 - Statistické charakteristiky

charakteristiky: polohy, variability, šikmosti, špičatosti
- polohy (střední hodnoty)
  - formy:
    - prosté – není provedeno třídění,
    - vážené – bylo provedeno třídění
  - průměry - ze všech hodnot souboru
    - aritmetický – nejčastější
    - geometrický – časové řady, indexní analýza
    - harmonický – indexní analýza
    - chronologický – časové řady
  - ostatní - vybraných hodnot
    - Medián - prostřední hodnota
    - Modus - nejčetnější hodnota
  - Co použít?
    - Aritmetický průměr
      -  jestliže data jsou získána minimálně v intervalovém měřítku (tzn. používá se pro číselné údaje),  jestliže je rozdělení symetrické,  jestliže chceme použít statistické testy.
    - Medián
      - jestliže data jsou získána minimálně v ordinálním měřítku (pořadové znaky),  jestliže chceme znát střed rozdělení dat,  jestliže data mohou obsahovat odlehlé hodnoty,  jestliže rozdělení dat je silně zešikmené.
    - Modus
      - jestliže rozdělení má více vrcholů,  jestliže chceme získat o rozdělení jenom základnípřehled,  jestliže se slovem „průměrně“ míní nejčastějšíhodnota,  nalézá uplatnění především u kategoriálních dat.
    - ( V případě, že data jsou symetricky rozdělená, všechnyuvedené charakteristiky jsou přibližně stejné. )
- variability (rozptýlenosti)
  - určuje rozmezí, v němž se výběrové údaje vyskytují
    - jak moc je a-průměr vypovídající menší/větší
  - Míry (charakteristiky) variability
    - Absolutní - (kg, l, …)
      - prosté(bez)/vážené(s) - provedeno třídění
      - Variační rozpětí: R = xmax – xmin
      - Průměrná absolutní odchylka: -průmer
      - Rozptyl:
      - Směrodatná odchylka:
    - Relativní - (lišící jednotky)
      - Relativní průměrná odchylka
      - Variační koeficient
Kvantilové charakteristiky ?
- pojmy
  - Kvantily – hodnoty, které dělí uspořádaný statistický soubor na určitý počet stejně obsazených částí
  - Kvartily – dělí uspořádaný soubor na čtyři stejně obsazené části.
  - Decily – dělí uspořádaný soubor na deset stejně obsazených částí
  - Percentily – dělí soubor na sto stejně obsazených částí
- Kvantilové rozpětí - rozdíl mezi nejvyšším a nejnižším kvantilem
- Kvartilové rozpětí - diference horního a dolního kvartilu
Míry šikmosti
- představují stupeň koncentrace hodnot znaku kolem charakteristiky úrovně
- img

Statistická indukce

TLDR

7 - Bodové odhady

charakteristiky
- ZS (populační) - z všech jednotkách ZS
- výběrové - z výběrového souboru
Metody odhadování parametrů
- Bodový odhad - odhad 1x čísla ZS z výberu
- Intervalový odhad - máme interval

Značení

Bodový odhad
- Funkce se nazývají statistiky
- vlastnostni:
  - nestranná
  - konzistentní
  - vydatná
  - postačující
- Výběrová chyba
- x
  - Bodový odhad průměru ZS
  - Bodový odhad relativní četnosti ZS
  - Bodový odhad rozptylu ZS
  - Bodový odhad směrodatné odchylky ZS

8 - Intervalové odhady

Pojmy
- Interval spolehlivosti
  - neznámou hodnotu parametru odhadneme tak, že uvedeme interval, který s předem danoupravděpodobností obsahuje danou hodnotu parametru ZS
- Spolehlivost odhadu
  - je pravděpodobnost, s jakou secharakteristika ZS bude nacházet v intervalu vymezenémpříslušnou výběrovou charakteristikou a maximální chybou
- Přesnost odhadu
  - maximální chyba, které se při odhadu sdanou spolehlivostí dopustíme
- ( mezi přesností a spolehlivostí odhadu při daném rozsahu výběru existuje nepřímá úměrnost )
  - čím je rozsah výběru n větší, tím je interval spolehlivosti užší
  - čím je odhad přesnější a má menší rozptyl, tím jeinterval spolehlivosti užší
  - čím je vyšší statistická jistota (1 – ), tím je intervalspolehlivosti širší
Typy
- interval dvoustranný (oboustranný) - P(T1 ≤ 0 ≤ T2 ) = 1 – α
- jednostranných interval - P(0<T2)=1–α →|← P(0>T2)=1–α
x
- Intervalový odhad průměru ZS
- Není znám rozptyl ZS – použijeme hodnotu s2
- Kdy se používají hodnoty u_α a kdy t_α?
  - Kritické hodnoty normálního rozdělení u_α
    - známe rozptyl ZS o2
    - známe výběrový rozptyl s2 a rozsah výběrového souboru je velký (n > 100)
  - Kritické hodnoty Studentova t-rozdělení o (n-1) stupni volnosti
    - jde o výběr z normálního rozdělení a známepouze rozptyl výběrový s2
    - rozsah výběrového souboru je malý (n < 100)
    - soubor se řídí asymetrickým normálním rozdělením
- Stanovení rozsahu souboru
  - Potřebná velikost na int odhad průměru s presností
- Určení spolehlivosti odhadu
- Výběr bez vracení – výpočet přípustné chyby
- Stanovení rozsahu výběru
- Výpočet spolehlivosti při určité požadované šířce intervalu spolehlivosti
- Intervalový odhad rozptylu ZS
- Intervalový odhad parametru p alternativního rozdělení (intervalový odhad relativní četnosti ZS)

9 - Testování statistických hypotéz

Diagram

Statistická hypotéza
- každé tvrzení o tvaru nebo charakteristikách rozděleníjednoho či několika statistických znaků
- Testování hypotéz
- Nulová hypotéza (testovaná hypotéza) $H_{0}$
  - předpoklad
- Alternativní hypotéza $H_{1}$
  - popírá platnost nulové hypotézy
Test
- postup zda hypotéza platí
- typy
  - parametrické
  - neparametrické - neznáme typ ani parametryrozdělení ZS
- typy podle výběrů
  - jednovýběrové – jeden výběrový soubor
  - dvouvýběrové – dva výběrové soubory
  - vícevýběrové – více jak dva výběrové soubory.
- typy podle alternativní hypotézy
  - testy oboustranné H1 :   0
  - testy jednostranné: pravo/levo
Testové (testovací) kritérium (testovací statistika)
- T lze chápat i jako míru nesouhlasu výsledkůpokusu s testovanou hypotézou
- obor T množiny
  - Kritický obor K - H0 málo pravděpodobný
  - Obor přijetí R - nejsou v rozporu s H0
  - kritické hodnoty - hodnoty které oddělují tyto obory
Základní princip testování statistických hypotéz je možno zformulovat takto:
- Padne-li vypočtená hodnota testovacího kritéria T dokritického oboru K, zamítáme H0 a přijímámealternativní hypotézu (TK / H0 ).
- Padne-li vypočtená hodnota testovacího kritéria T dooboru přijetí, nebyla H0 vyvrácena (H0 nezamítáme).Potom platí TK / H0 .
Chyby při testování
- I. druhu - hladina významnosti α (zamítnutí i když je správná)
- II. druhu - síla testu (přijeté nesprávné)
Postup
1. formulace hypotéz
2. volba hladiny významnosti 
3. volba testu
4. výpočet hodnoty testového kritéria
5. určení kritického oboru
6. formulace výsledku testu a závěru
Příklady -
- Parametrické testy - Jednovýběrové testy
- Test hypotézy o rozptylu normálního rozdělení
- Test hypotézy o průměru normálního rozdělení
  - Test při známém rozptylu ZS + neznámém
- Test hypotézy o parametru p alternativního rozdělení

9 - priklady jednovyberove testy

příklady

10 - Dvouvyberove testy

Tabulky

Test významnosti rozdílu dvou výběrových rozptylů (F-test)
Test významnosti rozdílu dvou výběrových průměrů (t-test)
- t-test při známých rozptylech
- t-test při neznámých rozptylech
- (Tzn. před každým t-testem se provádí F-test)
příklady
- Test hypotézy H0: 1 = 2 při stejných rozptylech (dvouvýběrový t-test)
- Test hypotézy H0: 1 = 2 při nestejných rozptylech (Welchův t-test)
  - Behrens-Fisherův test
t-test pro párové hodnoty (párový t-test)
Test významnosti rozdílu dvou výběrových relativních četností

11 - Neparametrické testy (ostatní)

vlastnosti
- +
  - nezávislost na tvaru rozdělení,
  - použitelnost pro studium jak znaků kvantitativních, tak kvalitativních
  - po výpočetní stránce jsou mnohem jednodušší a rychlejší
- - menší síla
typy
- pořadové testy
Testy dobré shody
- pochází z určitého předpokládanéhorozdělení
- typy
  - Pearsonův  2 – test dobré shody
  - Kolmogorov – Smirnovův test,
  - Davidův test normality,
  - Shapirův – Wilkův test

Regrese a Korelace

TLDR

12 - Analýza závislostí kvantitativních znaků

Závislost
- příčinná (kauzální)
  - Jeden jev (příčina) vyvolává existenci (vznik, změnu, zánikapod.) jevu druhého. Jeden jev (příčina) podmiňuje jev jiný(účinek, následek).
- pevná
  - výskytu jednoho jevu nutně odpovídávýskyt druhého jevu (a naopak). Z pravděpodobnostníhohlediska jde o vztah, který se projeví s pravděpodobnostírovnou jedné.
- Volná
  - jeden jev podmiňuje jev jiný jen surčitou pravděpodobností a v různé intenzitě. Určitéhodnotě jedné veličiny odpovídá celá řada různých hodnotdruhé veličiny
- statistická
  - volná závislost kvantitativních statistických znaků
Regrese
- charakterizuje průběh závislosti a změny závisleproměnného znaku na základě změn jedné či více nezávisleproměnných (matematické funkce).
Korelace
- měří těsnost korelační závislosti příslušnými mírami
Druhy závislostí podle
- počtu kvantitativních znaků → jednoduchá/vícenásobná
- typu regresní funkce → (ne)lineární
- směru změn kvantitativních znaků → pozitivní/negativní (záporná, nepřímá)
lineární regresní model
- y` = a + b ∙ x
- parametry → metoda nejmenších čtverců
  - param=regresní koeficienty
- závislost
  - Jednostranná
    - proměnná X je nezávisle proměnnáa Y pak závisle proměnná.
  - Oboustranná (družené regresnípřímky)
    - nelze přesně rozhodnout, kteráproměnná je závislá a která nezávislá
Odhady v regresní analýze
- Interpolace – předmětem zájmu je některá z použitýchkombinací vysvětlujících proměnných
- Extrapolace – pozornost je upřena na hodnotu proměnné Ypro předpokládanou budoucí hodnotu proměnné X
- odlišit
  - odhad průměrné hodnoty
    - yi – k odhadu bude použitregresní koeficient, který udává, o kolik se změníproměnná Y, když se proměnná X změní o jednotku
  - odhad konkrétní hodnoty
    - y´i – k odhadu se použijecelá regresní funkce

13 - Korelační analýza

( míru stupně závislosti dvou proměnných )

Pearsonův korelační koeficient
- vlastnosti
  1. –1≤ r ≤+1
  2. Jestliže |r| = 1, leží všechny body na nějaké přímce(lineární funkční závislost)
  3. Jestliže r = 0, X a Y jsou nekorelované proměnné
  4. Koeficient vyjadřuje pouze sílu lineárního vztahu
  5. Korelační koeficient r nerozlišuje mezi závisle a nezávisle proměnnou $(r_{y x} = r_{x y})$ .
Těsnost závislosti
- ```
     r < 0,4   těsnost nízká *(slabá)*
```
- 0,4 ≤ r < 0,7 těsnost středně silná
- 0,7 ≤ r < 0,9 těsnost vysoká (silná)
- 0,9 ≤ r ≤ 1,0 těsnost velmi vysoká
Koeficient determinace $r^{2}$
- ( Druhou mocninou koeficientu korelace )
Spearmanův korelační koeficient pořadí $r_{s}$
- Kdy?
  - Používá se u méně rozsáhlých souborů nebo v případě,že chceme získat rychlou představu o intenzitě závislosti.
Formální korelace
korelací způsobených společnou příčinou
Zdánlivé korelace
- matoucí (rušivé) proměnné

13 - Testy regrese a korelace

Test významnosti korelačního koeficientu
Test významnosti regresního koeficientu
Intervalový odhad regresního koeficientu
Bodový odhad korelačního koeficientu
Intervalový odhad korelačního koeficientu
- (n < 100) se využívá Fisherovytransformace

Notes by Edems

Explorer

CZU_4_STAT - zk_notes_prezentace

Pravděpodobnost

1 - Pravděpodobnost

2 - Náhodné veličiny

3 - Modely náhodných veličin

4 - Limitní věty

Popisná statistika

5 - Statistické zjišťovaní

5 - Statistické zjišťování

6 - Statistické charakteristiky

Statistická indukce

7 - Bodové odhady

8 - Intervalové odhady

9 - Testování statistických hypotéz

9 - priklady jednovyberove testy

10 - Dvouvyberove testy

11 - Neparametrické testy (ostatní)

Regrese a Korelace

12 - Analýza závislostí kvantitativních znaků

13 - Korelační analýza

13 - Testy regrese a korelace

Table of Contents