up:: STAT > ZK


Pravděpodobnost

1 - Pravděpodobnost

  • sčítání
  • Bayesův vzorec

2 - Náhodné veličiny

  • Náhodná veličina
    • diskrétní (nespojité) – nabývají od sebe vzájemně oddělené hodnoty
      • např: hod kostkou, počet vadných výrobků
    • spojité – mohou nabývat všech hodnot
      • Je omezena pouze přesností našeho měřidla
      • např: Výška člověka, doba, teplota
  • Funkce
    • Pravděpodobnostní funkce diskrétní
    • Hustota pravděpodobnosti spojité
    • Distribuční funkce obě
  • Číselné charakteristiky náhodných veličin
    • polohy – měří střední úroveň náhodné veličiny,
      • např: Medián, Modus
    • variability – měří měnlivost (rozptýlenost) hodnot náhodné veličiny,
      • Rozptyl D(X)
      • Směrodatná odchylka
        • měří variabilitu náhodné veličiny v původních měrných jednotkách.
      • Variační koeficient
        • používá se pro porovnání variability náhodných veličin lišících se měrnou jednotkou
    • šikmosti – hodnotí soustředění hodnot náhodné veličiny kolem středu (symetrie – asymetrie).
      • a3 = 0 → symetrická rozdělení
      • a3 > 0 → pozitivní symetrie
      • a3 < 0 → negativní symetrie
      • µ3 – třetí centrální moment

3 - Modely náhodných veličin

  • Rozdělení diskrétních náhodných veličin
    • Alternativní rozdělení -
      • nabývat pouze dvou hodnot: jedna s pravděpodobností a nuly s pravděpodobností .
      • Příklad: Hod mincí (padne panna = 1, padne orel = 0) nebo kontrola kvality jednoho výrobku (vadný = 1, bez vady = 0).
    • Binomické rozdělení -
      • -krát opakovat, pravděpodobnost stejná a rovna .
      • Příklad: Počet padnutých šestek při 10 nezávislých hodech standardní hrací kostkou.
    • Poissonovo rozdělení -
      • modeluje počet výskytů události v daném časovém úseku nebo prostoru.
      • Příklad: Počet zákazníků, kteří vejdou do obchodu během jedné hodiny, nebo počet překlepů na jedné stránce textu.
    • Hypergeometrické rozdělení -
      • modeluje výběr bez vracení (pravděpodobnost se s každým tahem mění).
      • Příklad: Tažení 6 výherních čísel z celkových 49 ve Sportce nebo výběr 5 součástek z krabice, kde je 20 dobrých a 5 vadných.
  • Rozdělení spojitých náhodných veličin
    • Rovnoměrné rozdělení -
      • všechny hodnoty v daném intervalu mají stejnou hustotu pravděpodobnosti.
      • Příklad: Doba čekání na autobus, který jezdí v přesných 15minutových intervalech, pokud cestující přijde na zastávku zcela náhodně (čeká 0 až 15 minut).
    • Exponenciální rozdělení -
      • modeluje dobu čekání do výskytu první události.
      • Příklad: Doba životnosti elektronické součástky (např. žárovky) do jejího prasknutí nebo časový rozestup mezi dvěma příchozími hovory na ústřednu.
    • Normální (Gaussovo) rozdělení -
      • popisuje veličiny, které jsou ovlivněny velkým množstvím drobných, nezávislých náhodných vlivů.
      • Příklad: Výška dospělých osob v určité populaci, nebo chyby při opakovaném přesném laboratorním měření.

4 - Limitní věty

  • Centrální limitní věty

  • Zákon velkých čísel

    • Čebyševova nerovnost
      • I. typu
      • II. typu
  • Věty

    • Čebyševova věta
    • Bernoulliho věta
    • Centrální limitní věty
    • Moivreova – Laplaceova věta
    • Lindebergova – Lévyova věta
  • Centrální limitní věty

    • popisují, že součet nebo průměr velkého počtu nezávislých náhodných veličin se blíží normálnímu rozdělení.
    • Příklad: Součet zaokrouhlovacích chyb u 10 000 účetních položek se bude chovat podle normálního rozdělení, i když jednotlivé chyby mají rovnoměrné rozdělení.
  • Zákon velkých čísel

    • tvrdí, že s rostoucím počtem pokusů se empirické průměry (nebo relativní četnosti) blíží teoretickým středním hodnotám (pravděpodobnostem).
    • Příklad: Pokud hodíte mincí 10krát, může padnout 8 panen (80 %). Pokud s ní hodíte 1 000 000krát, podíl panen bude téměř přesně 50 %.
    • Čebyševova nerovnost 
      • I. typu (často nazývaná Markovova nerovnost)
        • odhaduje shora pravděpodobnost, že nezáporná náhodná veličina překročí určitou kladnou hodnotu.
        • Příklad: Odhad maximální pravděpodobnosti, že náhodně vybraný občan má plat vyšší než pětinásobek průměrného platu v zemi (aniž bychom znali přesné rozdělení platů).
      • II. typu (samotná Čebyševova nerovnost)
        • odhaduje pravděpodobnost, že se náhodná veličina odchýlí od své střední hodnoty o více než násobek směrodatné odchylky.
        • Příklad: Zajištění, že pravděpodobnost, aby se zisk firmy lišil od očekávaného průměru o více než tři směrodatné odchylky, je menší než 1/9 (cca 11 %).
  • Věty

    • Čebyševova věta
      • je jednou z formulací slabého zákona velkých čísel pro nezávislé veličiny s omezeným rozptylem.
      • Příklad: Průměrný výnos pšenice z hektaru napříč stovkami různých farem se bude s velkou pravděpodobností velmi blížit teoretickému očekávanému průměru celého státu.
    • Bernoulliho věta
      • speciální případ zákona velkých čísel pro binomické rozdělení.
      • Příklad: Pojišťovna na základě dlouhodobých statistik ví, že pravděpodobnost pojistné události je 2 %. Při pojištění 50 000 klientů si může být téměř jistá, že podíl klientů uplatňujících škodu se bude velmi blížit právě 2 %.
    • Centrální limitní věty
      • obecná skupina vět o konvergenci k normálnímu rozdělení.
      • Příklad: Výpočet průměrné doby strávené na e-shopu na vzorku 5 000 uživatelů – rozdělení tohoto výběrového průměru bude zvonovité (normální), ať už je chování jednotlivců jakékoliv.
    • Moivreova – Laplaceova věta
      • aproximuje binomické rozdělení pomocí normálního rozdělení (pro velká n).
      • Příklad: Rychlý výpočet pravděpodobnosti, že ze 100 000 vyrobených kusů výrobků, kde je šance na vadu 5 %, bude vadných přesně mezi 4900 a 5100 kusy (místo složitého sčítání desetitisíců binomických pravděpodobností).
    • Lindebergova – Lévyova věta
      • nejznámější verze centrální limitní věty pro nezávislé a stejně rozdělené náhodné veličiny (i.i.d.).
      • Příklad: Celková denní tržba v hypermarketu se skládá z nákupů tisíců nezávislých zákazníků. Proto bude mít celková tržba přibližně normální rozdělení (Gaussovu křivku), i když útraty jednotlivců normální rozdělení nemají.

Popisná statistika

5 - Statistické zjišťovaní

  • Etapy: 1.zjišťování, 2.zpracování, 3.vyhodnocování
  • Třídění: prosté, Intervalové

5 - Statistické zjišťování

  • Zjišťování
    • úplné
      • prošetřují se veškeré jednotky souboru
      • + přesné
      • - extrémně nákladné
    • výběrové
      • + levné
      • - chybou odhadu
  • Výběrové techniky
    • Základní
      • Anketa
      • Metoda základního masivu
      • Záměrný výběr
      • Náhodný nebo pravděpodobnostní výběr
  • Typy Náhodného výběru
      1. jednotky mohu mít stejné nebo různé pravděpodobnosti vybrání
      • Prostý náhodný výběr (se stejnými pravděpodobnostmi)
      • Výběr s nestejnými pravděpodobnostmi
      1. zohledňuje se vracení nebo nevracení vybraných jednotekdo ZS po jejich prošetřen
      • Výběr s vracením (s opakováním)
      • Výběr bez vracení (bez opakování)
  • Náhodného výběru
    • (Opora výběru)
    • Losování
    • Tabulky náhodných čísel
    • Systematický výběr (mechanický)
    • special
      • Oblastní výběr
      • Vícestupňový výběr
      • oblastní dvoustupňový výběr
      • Výběr skupinový

6 - Statistické charakteristiky

  • charakteristiky: polohy, variability, šikmosti, špičatosti
    • polohy (střední hodnoty)
      • formy:
        • prosté – není provedeno třídění,
        • vážené – bylo provedeno třídění
      • průměry - ze všech hodnot souboru
        • aritmetický – nejčastější
        • geometrický – časové řady, indexní analýza
        • harmonický – indexní analýza
        • chronologický – časové řady
      • ostatní - vybraných hodnot
        • Medián - prostřední hodnota
        • Modus - nejčetnější hodnota
      • Co použít?
        • Aritmetický průměr
          •  jestliže data jsou získána minimálně v intervalovém měřítku (tzn. používá se pro číselné údaje),  jestliže je rozdělení symetrické,  jestliže chceme použít statistické testy.
        • Medián
          • jestliže data jsou získána minimálně v ordinálním měřítku (pořadové znaky),  jestliže chceme znát střed rozdělení dat,  jestliže data mohou obsahovat odlehlé hodnoty,  jestliže rozdělení dat je silně zešikmené.
        • Modus
          • jestliže rozdělení má více vrcholů,  jestliže chceme získat o rozdělení jenom základnípřehled,  jestliže se slovem „průměrně“ míní nejčastějšíhodnota,  nalézá uplatnění především u kategoriálních dat.
        • ( V případě, že data jsou symetricky rozdělená, všechnyuvedené charakteristiky jsou přibližně stejné. )
    • variability (rozptýlenosti)
      • určuje rozmezí, v němž se výběrové údaje vyskytují
        • jak moc je a-průměr vypovídající menší/větší
      • Míry (charakteristiky) variability
        • Absolutní - (kg, l, …)
          • prosté(bez)/vážené(s) - provedeno třídění
          • Variační rozpětí: R = xmax – xmin
          • Průměrná absolutní odchylka: -průmer
          • Rozptyl:
          • Směrodatná odchylka:
        • Relativní - (lišící jednotky)
          • Relativní průměrná odchylka
          • Variační koeficient
  • Kvantilové charakteristiky ?
    • pojmy
      • Kvantily – hodnoty, které dělí uspořádaný statistický soubor na určitý počet stejně obsazených částí
      • Kvartily – dělí uspořádaný soubor na čtyři stejně obsazené části.
      • Decily – dělí uspořádaný soubor na deset stejně obsazených částí
      • Percentily – dělí soubor na sto stejně obsazených částí
    • Kvantilové rozpětí - rozdíl mezi nejvyšším a nejnižším kvantilem
    • Kvartilové rozpětí - diference horního a dolního kvartilu
  • Míry šikmosti
    • představují stupeň koncentrace hodnot znaku kolem charakteristiky úrovně
    • img

Statistická indukce

7 - Bodové odhady

  • charakteristiky
    • ZS (populační) - z všech jednotkách ZS
    • výběrové - z výběrového souboru
  • Metody odhadování parametrů
    • Bodový odhad - odhad 1x čísla ZS z výberu
    • Intervalový odhad - máme interval
  • Bodový odhad
    • Funkce se nazývají statistiky
    • vlastnostni:
      • nestranná
      • konzistentní
      • vydatná
      • postačující
    • Výběrová chyba
    • x
      • Bodový odhad průměru ZS
      • Bodový odhad relativní četnosti ZS
      • Bodový odhad rozptylu ZS
      • Bodový odhad směrodatné odchylky ZS

8 - Intervalové odhady

  • Pojmy
    • Interval spolehlivosti
      • neznámou hodnotu parametru odhadneme tak, že uvedeme interval, který s předem danoupravděpodobností obsahuje danou hodnotu parametru ZS
    • Spolehlivost odhadu
      • je pravděpodobnost, s jakou secharakteristika ZS bude nacházet v intervalu vymezenémpříslušnou výběrovou charakteristikou a maximální chybou
    • Přesnost odhadu
      • maximální chyba, které se při odhadu sdanou spolehlivostí dopustíme
    • ( mezi přesností a spolehlivostí odhadu při daném rozsahu výběru existuje nepřímá úměrnost )
      • čím je rozsah výběru n větší, tím je interval spolehlivosti užší
      • čím je odhad přesnější a má menší rozptyl, tím jeinterval spolehlivosti užší
      • čím je vyšší statistická jistota (1 – ), tím je intervalspolehlivosti širší
  • Typy
    • interval dvoustranný (oboustranný) - P(T1 ≤ 0 ≤ T2 ) = 1 – α
    • jednostranných interval - P(0<T2)=1–α →|← P(0>T2)=1–α
  • x
    • Intervalový odhad průměru ZS
    • Není znám rozptyl ZS – použijeme hodnotu s2
    • Kdy se používají hodnoty u_α a kdy t_α?
      • Kritické hodnoty normálního rozdělení u_α
        • známe rozptyl ZS o2
        • známe výběrový rozptyl s2 a rozsah výběrového souboru je velký (n > 100)
      • Kritické hodnoty Studentova t-rozdělení o (n-1) stupni volnosti
        • jde o výběr z normálního rozdělení a známepouze rozptyl výběrový s2
        • rozsah výběrového souboru je malý (n < 100)
        • soubor se řídí asymetrickým normálním rozdělením
    • Stanovení rozsahu souboru
      • Potřebná velikost na int odhad průměru s presností
    • Určení spolehlivosti odhadu
    • Výběr bez vracení – výpočet přípustné chyby
    • Stanovení rozsahu výběru
    • Výpočet spolehlivosti při určité požadované šířce intervalu spolehlivosti
    • Intervalový odhad rozptylu ZS
    • Intervalový odhad parametru p alternativního rozdělení (intervalový odhad relativní četnosti ZS)

9 - Testování statistických hypotéz

  • Statistická hypotéza
    • každé tvrzení o tvaru nebo charakteristikách rozděleníjednoho či několika statistických znaků
    • Testování hypotéz
    • Nulová hypotéza (testovaná hypotéza)
      • předpoklad
    • Alternativní hypotéza
      • popírá platnost nulové hypotézy
  • Test
    • postup zda hypotéza platí
    • typy
      • parametrické
      • neparametrické - neznáme typ ani parametryrozdělení ZS
    • typy podle výběrů
      • jednovýběrové – jeden výběrový soubor
      • dvouvýběrové – dva výběrové soubory
      • vícevýběrové – více jak dva výběrové soubory.
    • typy podle alternativní hypotézy
      • testy oboustranné H1 :   0
      • testy jednostranné: pravo/levo
  • Testové (testovací) kritérium (testovací statistika)
    • T lze chápat i jako míru nesouhlasu výsledkůpokusu s testovanou hypotézou
    • obor T množiny
      • Kritický obor K - H0 málo pravděpodobný
      • Obor přijetí R - nejsou v rozporu s H0
      • kritické hodnoty - hodnoty které oddělují tyto obory
  • Základní princip testování statistických hypotéz je možno zformulovat takto:
    • Padne-li vypočtená hodnota testovacího kritéria T dokritického oboru K, zamítáme H0 a přijímámealternativní hypotézu (TK / H0 ).
    • Padne-li vypočtená hodnota testovacího kritéria T dooboru přijetí, nebyla H0 vyvrácena (H0 nezamítáme).Potom platí TK / H0 .
  • Chyby při testování
    • I. druhu - hladina významnosti α (zamítnutí i když je správná)
    • II. druhu - síla testu (přijeté nesprávné)
  • Postup
    1. formulace hypotéz
    2. volba hladiny významnosti 
    3. volba testu
    4. výpočet hodnoty testového kritéria
    5. určení kritického oboru
    6. formulace výsledku testu a závěru
  • Příklady -
    • Parametrické testy - Jednovýběrové testy
    • Test hypotézy o rozptylu normálního rozdělení
    • Test hypotézy o průměru normálního rozdělení
      • Test při známém rozptylu ZS + neznámém
    • Test hypotézy o parametru p alternativního rozdělení

9 - priklady jednovyberove testy

  • příklady

10 - Dvouvyberove testy

  • Test významnosti rozdílu dvou výběrových rozptylů (F-test)
  • Test významnosti rozdílu dvou výběrových průměrů (t-test)
    • t-test při známých rozptylech
    • t-test při neznámých rozptylech
    • (Tzn. před každým t-testem se provádí F-test)
  • příklady
    • Test hypotézy H0: 1 = 2 při stejných rozptylech (dvouvýběrový t-test)
    • Test hypotézy H0: 1 = 2 při nestejných rozptylech (Welchův t-test)
      • Behrens-Fisherův test
  • t-test pro párové hodnoty (párový t-test)
  • Test významnosti rozdílu dvou výběrových relativních četností

11 - Neparametrické testy (ostatní)

  • vlastnosti
    • +
      • nezávislost na tvaru rozdělení,
      • použitelnost pro studium jak znaků kvantitativních, tak kvalitativních
      • po výpočetní stránce jsou mnohem jednodušší a rychlejší
    • - menší síla
  • typy
    • pořadové testy
  • Testy dobré shody
    • pochází z určitého předpokládanéhorozdělení
    • typy
      • Pearsonův  2 – test dobré shody
      • Kolmogorov – Smirnovův test,
      • Davidův test normality,
      • Shapirův – Wilkův test

Regrese a Korelace

12 - Analýza závislostí kvantitativních znaků

  • Závislost
    • příčinná (kauzální)
      • Jeden jev (příčina) vyvolává existenci (vznik, změnu, zánikapod.) jevu druhého. Jeden jev (příčina) podmiňuje jev jiný(účinek, následek).
    • pevná
      • výskytu jednoho jevu nutně odpovídávýskyt druhého jevu (a naopak). Z pravděpodobnostníhohlediska jde o vztah, který se projeví s pravděpodobnostírovnou jedné.
    • Volná
      • jeden jev podmiňuje jev jiný jen surčitou pravděpodobností a v různé intenzitě. Určitéhodnotě jedné veličiny odpovídá celá řada různých hodnotdruhé veličiny
    • statistická
      • volná závislost kvantitativních statistických znaků
  • Regrese
    • charakterizuje průběh závislosti a změny závisleproměnného znaku na základě změn jedné či více nezávisleproměnných (matematické funkce).
  • Korelace
    • měří těsnost korelační závislosti příslušnými mírami
  • Druhy závislostí podle
    • počtu kvantitativních znaků → jednoduchá/vícenásobná
    • typu regresní funkce → (ne)lineární
    • směru změn kvantitativních znaků → pozitivní/negativní (záporná, nepřímá)
  • lineární regresní model
    • y` = a + b ∙ x
    • parametry metoda nejmenších čtverců
      • param=regresní koeficienty
    • závislost
      • Jednostranná
        • proměnná X je nezávisle proměnnáa Y pak závisle proměnná.
      • Oboustranná (družené regresnípřímky)
        • nelze přesně rozhodnout, kteráproměnná je závislá a která nezávislá
  • Odhady v regresní analýze
    • Interpolace – předmětem zájmu je některá z použitýchkombinací vysvětlujících proměnných
    • Extrapolace – pozornost je upřena na hodnotu proměnné Ypro předpokládanou budoucí hodnotu proměnné X
    • odlišit
      • odhad průměrné hodnoty
        • yi – k odhadu bude použitregresní koeficient, který udává, o kolik se změníproměnná Y, když se proměnná X změní o jednotku
      • odhad konkrétní hodnoty
        • y´i – k odhadu se použijecelá regresní funkce

13 - Korelační analýza

( míru stupně závislosti dvou proměnných )

  • Pearsonův korelační koeficient
    • vlastnosti
      1. –1≤ r ≤+1
      2. Jestliže |r| = 1, leží všechny body na nějaké přímce(lineární funkční závislost)
      3. Jestliže r = 0, X a Y jsou nekorelované proměnné
      4. Koeficient vyjadřuje pouze sílu lineárního vztahu
      5. Korelační koeficient r nerozlišuje mezi závisle a nezávisle proměnnou .
  • Těsnost závislosti
    •      r < 0,4   těsnost nízká *(slabá)*
      
    • 0,4 ≤ r < 0,7 těsnost středně silná
    • 0,7 ≤ r < 0,9 těsnost vysoká (silná)
    • 0,9 ≤ r ≤ 1,0 těsnost velmi vysoká
  • Koeficient determinace
    • ( Druhou mocninou koeficientu korelace )
  • Spearmanův korelační koeficient pořadí
    • Kdy?
      • Používá se u méně rozsáhlých souborů nebo v případě,že chceme získat rychlou představu o intenzitě závislosti.
  • Formální korelace
  • korelací způsobených společnou příčinou
  • Zdánlivé korelace
    • matoucí (rušivé) proměnné

13 - Testy regrese a korelace

  • Test významnosti korelačního koeficientu
  • Test významnosti regresního koeficientu
  • Intervalový odhad regresního koeficientu
  • Bodový odhad korelačního koeficientu
  • Intervalový odhad korelačního koeficientu
    • (n < 100) se využívá Fisherovytransformace