Statistický vzorek je podmnožinou dat patřících do souboru dat. Statisticky vzato to musí být tvořeno určitým počtem pozorování, která adekvátně představují celková data.
Statistika je jako obor matematiky odpovědná za sběr dat, jejich objednávání a analýzu. Jinými slovy, když chceme studovat určitý jev, obrátíme se na statistiku. Dobrým příkladem fenoménu studovaného statistikami je průměrný plat občanů země
V tomto smyslu z časových a nákladových důvodů nemůžeme shromáždit všechna data. Tento souhrn dat je známý jako datová populace nebo jednoduše populace.
Proč pracujete se statistickými vzorky?
Abychom vysvětlili, proč se místo celkové populace používá statistický vzorek, uchýlíme se k výše uvedenému příkladu.
Předpokládejme, že chceme studovat jakýkoli jev. V našem případě jde o průměrný plat občanů dané země. Populaci dat tvoří každý pracovník v zemi. Samozřejmě z časových a nákladových důvodů by nebylo možné se každého pracovníka zeptat, jaký je jeho roční plat. Trvalo by to dlouho, nebo bychom potřebovali spoustu zdrojů.
V tomto okamžiku se objevuje koncept statistického vzorku. Místo toho, abychom se ptali milionů pracovníků v zemi nebo regionu, shromažďujeme jen malé množství dat. Zeptali jsme se například 100 000 lidí. Tento úkol je stále komplikovaný, ale je mnohem dostupnější požádat 100 000 lidí, než 30 milionů.
Toto malé množství dat musí být reprezentativní. To znamená, že musí adekvátně reprezentovat populaci. Pokud se 100 000 lidí, které jsme požádali, koncentruje v bohatých čtvrtích, získáme data, která nejsou reprezentativní. Průměrný plat by byl mnohem vyšší, než ve skutečnosti je.
Charakteristika reprezentativního statistického vzorku
Pokud chcete udělat dobrý výzkum, je kvalita statistického vzorku zásadní. Je-li statistický vzorek zkreslený, je zbytečné provádět nejsložitější statistické metriky s nejsofistikovanějšími modely. To znamená, že pokud vzorek není reprezentativní.
Při získávání reprezentativního vzorku existují určité aspekty, které musí výzkumník předem znát. Mezi tyto aspekty patří charakteristiky reprezentativního vzorku. Vlastnosti reprezentativního vzorku jsou následující:
- Dostatečně velká velikost: Když pracujeme se vzorky, běžně pracujeme s množstvím dat, které je menší než populace. Aby však statistický vzorek byl reprezentativní, musí být dostatečně velký, aby byl považován za reprezentativní. Pokud je například naše populace tvořena 10 miliony dat a my je vybereme 10, je obtížné být reprezentativní. Samozřejmě, čím větší vzorek není vždy reprezentativnější.
- Náhodnost: Výběr údajů ze statistického vzorku musí být náhodný. To znamená, že to musí být zcela náhodné. Pokud namísto toho, abychom to provedli náhodně, provedeme plánovaný proces výběru dat, zavádíme do sběru dat zkreslení. Abychom se vyhnuli zkreslení vzorku, a proto, abychom z něj udělali reprezentativní vzorek, musíme provést náhodný výběr.
Statistická inference
Po získání máme reprezentativní vzorek, pak je nutné odvodit určité metriky. Často nás zajímá znalost určité míry proměnné. V počátečním příkladu by proměnnou byl plat občanů dané země. V tomto smyslu je metrikou, kterou chceme analyzovat, průměrný plat občanů dané země.
Jinými slovy, máme datovou populaci složenou ze všech pracovníků v Mexiku. Z této populace získáme proměnnou, tj. Roční plat. Použitím vhodných technik získáme reprezentativní vzorek. A konečně, jakmile budeme mít soubor dat, se kterými můžeme pracovat, použijeme k výpočtu průměrného platu techniky statistické inference.
Jakmile máme soubor dat, mohli bychom samozřejmě odvodit další opatření. Například, jak je plat rozdělen, jaké procento pracovníků je pod určitým platem nebo jak velký je platový rozdíl.
Příklad statistického vzorku
Předpokládejme, že chceme provést studii o průměrných výdajích kolumbijských rodin v měsíci lednu. K tomu máme dvě možnosti:
- Zadejte bankovní účty všech rodin v Kolumbii
- Zeptejte se reprezentativního počtu lidí
První možnost není životaschopná z několika důvodů. Zaprvé to, že se rodiny nevzdají svých údajů, a zadruhé, že jsme nemohli jít po rodině ani při pohledu na údaje. Hlavně proto, že počet obyvatel Kolumbie je téměř 50 milionů. Druhou možností je zatím sběr statistického vzorku.
Podle výše zmíněných charakteristik uděláme to, abychom požádali 100 000 rodin. Je to poněkud komplikované, ale mnohem jednodušší, než žádat 50 milionů Kolumbijců. Rozdíl je značný. Na základě tohoto vzorku 100 000 rodin se tedy pokusíme vypočítat průměrné výdaje rodin v lednu.
Extrahovaná data budou víceméně spolehlivá podle řady metrik, které jsou brány v úvahu při statistických šetřeních. Tyto typy metrik jsou samozřejmě pokročilejší, a proto je zde nebudeme diskutovat.