Detekujte odlehlé hodnoty pomocí normálního rozdělení
Detekce odlehlých hodnot pomocí normálního rozdělení je proces, který zahrnuje definování prahové hodnoty směrodatné odchylky a jejímž cílem je najít extrémní hodnoty vzorku.
Jinými slovy, detekovat odlehlé hodnoty pomocí normálního rozdělení znamená najít extrémní hodnoty souboru dat pomocí standardizovaného normálního vzorce.
- Hodnoty extrémy se nazývají odlehlé hodnoty v angličtině.
- Hodnoty vnitřní se nazývají zasvěcenci v angličtině.
Vizuální detekce odlehlých hodnot může být volbou, pokud máte velmi málo dat. Při práci s databázemi je velmi nepraktické muset odlehlé hodnoty hledat ručně. Abychom tento problém vyřešili, můžeme vypočítat, které hodnoty jsou považovány za extrémní, porovnáním s prahovou hodnotou odchylek.
V případě normálního rozdělení je hodnota považována za extrémní, když jsou 3 standardní odchylky od průměru. Protože normální rozdělení má 2 ocasy, musíme vzít v úvahu, že je možné jej oddálit na negativní i pozitivní straně.
Vzorec pro detekci odlehlých hodnot pomocí normálního rozdělení

Soubor pozorování lze vyjádřit předchozím způsobem, kde x je střední hodnota, nad kterou hodnoty oscilují a sigma rozptyl oscilace uvedených hodnot. Jinými slovy, sigma je vzdálenost pozorování od střední hodnoty.
Multiplikativní faktor určuje, zda se jedná o odlehlou nebo zasvěcenou osobu. Pokud z vezme hodnoty 3 nebo -3, pak podle normálního rozdělení bude pozorování y odlehlá hodnota.
Znát hodnotu z použijeme předchozí rovnici:

- Pokud z> = 3 nebo z = <-3, pak to podle normálního rozdělení můžeme říci Y je to extrémní hodnota nebo mimořádná hodnota.
- Pokud z <3 nebo z <-3, můžeme to podle normálního rozdělení říci Y je interní hodnota nebo zasvěcená osoba.
Normální standard
Je výše uvedená rovnice známá?
Přesně to je výraz pozorování, které následuje po normálním rozdělení, jakmile je standardizováno nebo typizováno. Říká se tomu tak, protože když se dělí směrodatnou odchylkou nebo směrodatnou odchylkou, je rozdíl čitatele vyjádřen odchylkami.
Z tohoto důvodu můžeme hodnoty odchylek přiřadit k z a tak si jej koupit s prahovou hodnotou 3 odchylek.
Příklad
Najděte extrémní hodnoty následujících pozorování podle normálního rozdělení:

Představujeme pozorování na grafu:

Od samého počátku již vidíme, že hodnota, která je od zbytku nejvzdálenější, může s největší pravděpodobností být odlehlá hodnota.
Nejprve vypočítáme průměr a směrodatnou odchylku:
x = průměr = 5,8
sigma = směrodatná odchylka = 10,51
Potom dosadíme hodnoty do vzorce a vypočítáme hodnotu z pro každé pozorování:

Výše uvedené hodnoty jsou multiplikativní faktory sigma, tj. z. Cokoli, co je větší než 3 nebo menší než -3, bude extrémní hodnotou.

Vidíme, že hodnota z která překračuje 3 standardní odchylky, odpovídá odchylce pozorování 49.
Proto by extrémní nebo odlehlá hodnota souboru dat byla 49.