Klastrová analýza - co to je, definice a koncept

Obsah:

Anonim

Klastrová analýza je sada vícerozměrných statistických technik, jejichž cílem je seskupit soubor případů nebo jednotlivců do klastrů nebo klastrů.

Klastrová analýza je tedy typem statistického seskupování. Cílem je, aby se data v každém klastru navzájem co nejvíce podobala a co nejvíce odlišovala ve vztahu k ostatním skupinám. Lze to provést také pomocí proměnných.

Transformace dat v klastrové analýze

Jedním z problémů, se kterým se setkáváme při seskupování dat, je to, že data jsou někdy v různých měrných jednotkách. Z tohoto důvodu je nutné provést krok předklastrové analýzy, který umožňuje klastrování.

Nejběžnější metodou je standardizace. Slouží k transformaci dat tak, aby měla podobné měrné jednotky. Je třeba vzít v úvahu dvě pravidla, binární proměnné nejsou standardizovány a pokud jsou kategorické, stanou se binárními (přítomnost / nepřítomnost).

Metody v klastrové analýze

Existuje mnoho metod, jak provést klastrovou analýzu, ale na stránkách Economy-Wiki.com se na principu jednoduchosti, který nás charakterizuje, budeme schematicky dívat na ty nejdůležitější.

Hierarchické metody

První klasifikace by byla hierarchické nebo nehierarchické metody. Bývalí členové skupiny do hierarchických fází (odtud jejich jméno). Tímto způsobem pouze jeden objekt mění skupinu najednou, zbytek zůstává na stejném místě.

Ty jsou zase klasifikovány do:

Aglomerativní metody

Skládá se ze seskupení jednotlivců v každém klastru. Začíná to od počtu skupin rovných počtu případů a klesá to.

Nejznámější jsou:

  • Metoda nejbližšího souseda: V tomto případě použijete ke seskupení dat algoritmus. Hledáte minimální vzdálenost mezi nejbližšími jednotlivci. Je velmi citlivý na data, která mohou způsobit takzvaný „šum“. Metoda nejvzdálenějšího souseda je podobná.
  • Průměrná metoda mezi skupinami: Vypočítá průměr vzdálenosti mezi jednotlivci ve skupině a konkrétně jedním z nich. Je velmi užitečné snížit takzvaný „šum“.
  • Wardova metoda: Co to dělá, je přidat druhé mocniny odchylek mezi každým jednotlivcem a průměrem jeho klastru, aby nedošlo ke ztrátě informací. Je to jedna z nejznámějších a má výhody metody založené na střední, ale větší diskriminační síle.

Disociativní metody

V tomto případě to, co děláte, je rozdělení. Začíná to jediným klastrem a divize jsou navrženy na základě řady požadavků.

Nejběžnější jsou:

  • Metoda průměru mezi skupinami, metoda nejbližšího souseda a nejvzdálenějšího souseda: Tyto tři metody jsou podobné předchozímu případu, ale používají disociační metodu. To znamená, že tentokrát děláme odděleně a ne skupinově.
  • Centroidní metoda: Je široce používán v problémech s optimalizací umístění zařízení. Pomocí tohoto typu analýzy najdete ty nejvhodnější.

Nehierarchické metody

V tomto případě začínají s přednastaveným řešením. Toto je výchozí bod pro klastrovou analýzu. Tímto způsobem jsou skupiny vytvořeny předem a každý případ bude umístěn do jedné z nich, v závislosti na jeho charakteristikách. Na druhé straně je můžeme rozdělit do dalších podskupin.

  • Metody opětovného přiřazení: Nejrelevantnější jsou těžiště, například k-means. Ty medioidy, jako PAM. Nebo dynamické mraky.
  • Přímé metody: Nejdůležitější je blokové shlukování, široce používané v dolování dat.
  • Redukční metody: Jsou založeny na faktorové analýze.
  • Metody vyhledávání hustoty: Na jedné straně by existovaly ty typologické přístupy, jako je modální analýza. Na druhé straně máme pravděpodobnostní, jako je Vlk.

Příklady klastrové analýzy

Podívejme se konečně na několik příkladů aplikací klastrové analýzy.

  • Představme si, že máme skupinu zemí, které chceme seskupit na základě určitých makroekonomických proměnných, jako je inflace nebo nezaměstnanost. Tento typ analýzy můžeme použít k vytvoření homogenních skupin, například více či méně rozvinutých zemí.
  • Dalším příkladem může být řada spotřebitelů s určitými sociodemografickými charakteristikami. Myšlenkou je vytvořit skupiny s podobnými jednotlivci, které se zase navzájem velmi liší.
  • Ale kromě ekonomie je shluková analýza užitečná i v jiných vědách. Například v biologii, zařadit druhy, nebo v geologii, udělat totéž s minerály.