Test Kolmogorov-Smirnoff (K-S) je neparametrický test, jehož cílem je zjistit, zda frekvence dvou různých datových souborů sleduje stejné rozdělení kolem jejich průměru.
Jinými slovy, Kolmogorov-Smirnoffův (K-S) test je test, který se přizpůsobuje tvaru dat a slouží ke kontrole, zda dva různé vzorky sledují stejnou distribuci.
Proč je to neparametrický test?
Krása „neparametrické“ charakteristiky spočívá v tom, že se hodí k datům a následně k distribucím, které mohou sledovat frekvenci dat. Kromě toho nás tato funkce chrání před tím, abychom se museli domnívat a priori jaké rozdělení následuje vzorek.
Důležitost testu K-S
Kolikrát jsme dostali dva vzorky a vypočítali Pearsonův korelační koeficient, aniž bychom dvakrát přemýšleli? Jinými slovy, pokud chceme vidět lineární vztah mezi dvěma soubory dat, bylo by spravedlivé vypočítat korelaci, že?
Tento odpočet by byl pravdivý, pokud by rozdělení dvou vzorků následovalo normální rozdělení. Korelační koeficient předpokládá, že rozdělení jsou normální, pokud tento předpoklad přeskočíme, je výsledek korelačního koeficientu špatný. Pro testy hypotéz a intervaly spolehlivosti také předpokládáme, že populace je distribuována normálním rozdělením.
Stejně jako všechny testy hypotéz, které zahrnují statistiku, je důležité mít velké množství dat, abyste měli statisticky významné výsledky. Můžeme mylně odmítnout nulovou hypotézu, protože vzorek je malý. Dále je také důležité, aby tento vzorek měl extrémní případy (odlehlé hodnoty, v angličtině), aby byl výsledek testu konzistentní.
Postup zkoušky
Postup dalších kroků.
Hypotéza
Prvním krokem bude kontrola, zda mají oba vzorky stejnou distribuci. K tomu provedeme test hypotézy za předpokladu, že oba vzorky mají stejné rozdělení oproti alternativní hypotéze, že jsou odlišné.
Statistický
Pracujeme s kumulativní distribuční funkcí dvou vzorků, F1(x) a F2(X):
Nepanikařte! Výše uvedený vzorec klidně analyzujeme:
- Důležitou součástí vzorce je znak rozdílu (-). Hledáme vertikální rozdíly v distribucích. Odečteme tedy obě kumulativní distribuční funkce.
- The operátor „max“. Máme zájem o nalezení největšího nebo maximálního rozdílu, abychom zjistili, jak odlišné mohou být obě distribuce.
- The absolutní hodnota. Používáme absolutní hodnotu, aby pořadí operátorů nezměnilo výsledek. Jinými slovy nezáleží na tom, které F (x) má záporné znaménko:
Kritická hodnota
U velkých vzorků existuje aproximace kritické hodnoty pro K-S, která závisí na úrovni významnosti (%):
Kde1 a n2 jsou velikost vzorku pro vzorek F.1(x) a F2(x).
Některé vypočítané kritické hodnoty:
Pravidlo odmítnutí
Aplikace
Velmi často chceme otestovat, zda se dvě distribuce od sebe dostatečně liší, když chceme vytvořit scénáře predikce (pracujeme se dvěma vzorky) nebo když chceme vyhodnotit, která distribuce nejlépe vyhovuje datům (pracujeme pouze s jedním vzorkem).