Kolmogorovův test - Smirnoff (KS)

Test Kolmogorov-Smirnoff (K-S) je neparametrický test, jehož cílem je zjistit, zda frekvence dvou různých datových souborů sleduje stejné rozdělení kolem jejich průměru.

Jinými slovy, Kolmogorov-Smirnoffův (K-S) test je test, který se přizpůsobuje tvaru dat a slouží ke kontrole, zda dva různé vzorky sledují stejnou distribuci.

Proč je to neparametrický test?

Krása „neparametrické“ charakteristiky spočívá v tom, že se hodí k datům a následně k distribucím, které mohou sledovat frekvenci dat. Kromě toho nás tato funkce chrání před tím, abychom se museli domnívat a priori jaké rozdělení následuje vzorek.

Důležitost testu K-S

Kolikrát jsme dostali dva vzorky a vypočítali Pearsonův korelační koeficient, aniž bychom dvakrát přemýšleli? Jinými slovy, pokud chceme vidět lineární vztah mezi dvěma soubory dat, bylo by spravedlivé vypočítat korelaci, že?

Tento odpočet by byl pravdivý, pokud by rozdělení dvou vzorků následovalo normální rozdělení. Korelační koeficient předpokládá, že rozdělení jsou normální, pokud tento předpoklad přeskočíme, je výsledek korelačního koeficientu špatný. Pro testy hypotéz a intervaly spolehlivosti také předpokládáme, že populace je distribuována normálním rozdělením.

Stejně jako všechny testy hypotéz, které zahrnují statistiku, je důležité mít velké množství dat, abyste měli statisticky významné výsledky. Můžeme mylně odmítnout nulovou hypotézu, protože vzorek je malý. Dále je také důležité, aby tento vzorek měl extrémní případy (odlehlé hodnoty, v angličtině), aby byl výsledek testu konzistentní.

Postup zkoušky

Postup dalších kroků.

Hypotéza

Prvním krokem bude kontrola, zda mají oba vzorky stejnou distribuci. K tomu provedeme test hypotézy za předpokladu, že oba vzorky mají stejné rozdělení oproti alternativní hypotéze, že jsou odlišné.

Statistický

Pracujeme s kumulativní distribuční funkcí dvou vzorků, F1(x) a F2(X):

Nepanikařte! Výše uvedený vzorec klidně analyzujeme:

  • Důležitou součástí vzorce je znak rozdílu (-). Hledáme vertikální rozdíly v distribucích. Odečteme tedy obě kumulativní distribuční funkce.
  • The operátor „max“. Máme zájem o nalezení největšího nebo maximálního rozdílu, abychom zjistili, jak odlišné mohou být obě distribuce.
  • The absolutní hodnota. Používáme absolutní hodnotu, aby pořadí operátorů nezměnilo výsledek. Jinými slovy nezáleží na tom, které F (x) má záporné znaménko:

Kritická hodnota

U velkých vzorků existuje aproximace kritické hodnoty pro K-S, která závisí na úrovni významnosti (%):

Kde1 a n2 jsou velikost vzorku pro vzorek F.1(x) a F2(x).

Některé vypočítané kritické hodnoty:

Pravidlo odmítnutí

Aplikace

Velmi často chceme otestovat, zda se dvě distribuce od sebe dostatečně liší, když chceme vytvořit scénáře predikce (pracujeme se dvěma vzorky) nebo když chceme vyhodnotit, která distribuce nejlépe vyhovuje datům (pracujeme pouze s jedním vzorkem).

Populární Příspěvky

Panama končí bankovní tajemství

Bankovní tajemství v Panamě skončilo. Země Střední Ameriky se zavázala připojit se k mnohostrannému finančnímu informačnímu zařízení OECD. Od září musí Panama poskytovat veškeré bankovní a finanční informace požadované jinými státy. Daňové systémy vyžadují, aby všichni občané přispěli svými daněmiČtěte více…

Zvýšení prodeje zbrojního průmyslu v éře Trumpa

Rok 2017 byl vynikajícím rokem v prodeji zbrojních společností ve Spojených státech. Jejich prodej se nezvýšil o nic víc a o nic méně než 25%. Kvůli čemu jsou tyto velkolepé postavy? Na Economy-Wiki.com odhalujeme, co stojí za obrovským nárůstem prodeje, který zbrojní společnosti zaregistrovaly. Důvod, který vysvětlujeVíce…