Odlehlá hodnota je abnormální a extrémní pozorování ve statistickém vzorku nebo časové řadě dat, které mohou potenciálně ovlivnit odhad jejích parametrů.
Jednoduššími slovy by odlehlý pohled byl pozorováním v rámci vzorku nebo časové řady dat, která není v souladu se zbytkem. Představte si například, že měříme výšku studentů ve třídě.
Představme si vzorek 10 studentů. Výška každého z nich je následující:
Ukázka 1 | |
Student | Výška v metrech |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
Průměrná výška třídy by byla 1,73. Pokud vezmeme v úvahu maximální výšku (1,85) a minimální výšku (1,62) a vzdálenost mezi nimi k průměru, vidíme, že je to 0,113 a 0,117. Jak vidíme, průměr je přibližně uprostřed intervalu a lze jej považovat za docela dobrý odhad.
Odlehlý efekt
Pojďme se zamyslet nad dalším vzorkem 10 studentů, jejichž výška je následující:
Ukázka 1 | |
Student | Výška v metrech |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
V tomto případě by průměrná výška třídy byla 1,81. Podíváme-li se nyní na maximální výšku (2,20) a minimální výšku (1,62) a vzdálenost mezi nimi k střední hodnotě, zjistíme, že je to 0,39, respektive 0,18. V tomto případě už průměr není přibližně uprostřed rozsahu.
Účinek 2 nejextrémnějších pozorování (2,18 a 2,20) způsobil posunutí aritmetického průměru směrem k maximální hodnotě distribuce.
V tomto příkladu vidíme účinek, který mají odlehlé hodnoty a jak mohou zkreslit výpočet průměru.
Jak detekovat odlehlé hodnoty?Jak opravit účinek odlehlých hodnot
V situacích, jako je tato, ve kterých jsou abnormální hodnoty, které se podstatně liší od ostatních, je medián lepší odhad, aby bylo možné zjistit, ve kterém okamžiku se koncentruje větší počet pozorování.
V případě obou distribucí a protože máme sudý počet hodnot, nemůžeme pro výpočet mediánu vzít přesně hodnotu, která rozděluje distribuci na polovinu. S nimiž bychom po seřazení hodnot od nejnižší po nejvyšší provedli páté a šesté pozorování (oba ponechali 4 pozorování na každé straně) a vypočítali jsme medián takto:
Ukázka 1:
1,75+1,72/2 = 1,73
Ukázka 2:
1,79+1,71/2 = 1,75
Jak vidíme, ve vzorku číslo 1, vzhledem k tomu, že neexistují žádné odlehlé hodnoty nebo abnormální pozorování, je medián 1,73 a shoduje se s průměrem. Naopak u vzorku 2 je průměr 1,75. Jak vidíme, tato hodnota je dále od průměrné výšky, která byla 1,81, a poskytuje nám vyšší bodový odhad kvality, abychom věděli přibližně, ve kterém bodě se koncentruje větší počet pozorování.
Bodový odhad