Odlehlá - co to je, definice a koncept

Obsah:

Anonim

Odlehlá hodnota je abnormální a extrémní pozorování ve statistickém vzorku nebo časové řadě dat, které mohou potenciálně ovlivnit odhad jejích parametrů.

Jednoduššími slovy by odlehlý pohled byl pozorováním v rámci vzorku nebo časové řady dat, která není v souladu se zbytkem. Představte si například, že měříme výšku studentů ve třídě.

Představme si vzorek 10 studentů. Výška každého z nich je následující:

Ukázka 1
StudentVýška v metrech
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Průměrná výška třídy by byla 1,73. Pokud vezmeme v úvahu maximální výšku (1,85) a minimální výšku (1,62) a vzdálenost mezi nimi k průměru, vidíme, že je to 0,113 a 0,117. Jak vidíme, průměr je přibližně uprostřed intervalu a lze jej považovat za docela dobrý odhad.

Odlehlý efekt

Pojďme se zamyslet nad dalším vzorkem 10 studentů, jejichž výška je následující:

Ukázka 1
StudentVýška v metrech
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

V tomto případě by průměrná výška třídy byla 1,81. Podíváme-li se nyní na maximální výšku (2,20) a minimální výšku (1,62) a vzdálenost mezi nimi k střední hodnotě, zjistíme, že je to 0,39, respektive 0,18. V tomto případě už průměr není přibližně uprostřed rozsahu.

Účinek 2 nejextrémnějších pozorování (2,18 a 2,20) způsobil posunutí aritmetického průměru směrem k maximální hodnotě distribuce.

V tomto příkladu vidíme účinek, který mají odlehlé hodnoty a jak mohou zkreslit výpočet průměru.

Jak detekovat odlehlé hodnoty?

Jak opravit účinek odlehlých hodnot

V situacích, jako je tato, ve kterých jsou abnormální hodnoty, které se podstatně liší od ostatních, je medián lepší odhad, aby bylo možné zjistit, ve kterém okamžiku se koncentruje větší počet pozorování.

V případě obou distribucí a protože máme sudý počet hodnot, nemůžeme pro výpočet mediánu vzít přesně hodnotu, která rozděluje distribuci na polovinu. S nimiž bychom po seřazení hodnot od nejnižší po nejvyšší provedli páté a šesté pozorování (oba ponechali 4 pozorování na každé straně) a vypočítali jsme medián takto:

Ukázka 1:

1,75+1,72/2 = 1,73

Ukázka 2:

1,79+1,71/2 = 1,75

Jak vidíme, ve vzorku číslo 1, vzhledem k tomu, že neexistují žádné odlehlé hodnoty nebo abnormální pozorování, je medián 1,73 a shoduje se s průměrem. Naopak u vzorku 2 je průměr 1,75. Jak vidíme, tato hodnota je dále od průměrné výšky, která byla 1,81, a poskytuje nám vyšší bodový odhad kvality, abychom věděli přibližně, ve kterém bodě se koncentruje větší počet pozorování.

Bodový odhad