Multicollinearity je silný vztah lineární závislosti mezi více než dvěma vysvětlujícími proměnnými ve vícenásobné regrese, která porušuje Gauss-Markovův předpoklad, když je přesný.
Jinými slovy, multicollinearita je vysoká korelace mezi více než dvěma vysvětlujícími proměnnými.
Zdůrazňujeme, že lineární vztah (korelace) mezi vysvětlujícími proměnnými musí být silný. Je velmi běžné, že vysvětlující proměnné regrese jsou korelovány. Je tedy třeba zdůraznit, že tento vztah musí být silný, ale nikdy dokonalý, aby mohl být považován za případ multicolinearity. Lineární vztah by byl dokonalý, kdyby byl korelační koeficient 1.
Když tento silný lineární (ale ne dokonalý) vztah nastane pouze mezi dvěma vysvětlujícími proměnnými, řekneme, že se jedná o případ kolineárnosti. Byla by to multicollinearita, kdyby došlo k silnému lineárnímu vztahu mezi více než dvěma nezávislými proměnnými.
Gauss-Markovův předpoklad o přesné non-multicollinearitě definuje, že vysvětlující proměnné ve vzorku nemohou být konstantní. Kromě toho by mezi vysvětlujícími proměnnými neměly existovat přesné lineární vztahy (žádná přesná multicollinearita). Gauss-Markov nám neumožňuje přesnou multicolininearitu, ale aproximuje multicollinearitu.
Regresní analýzaAplikace
Existují velmi konkrétní případy, obvykle nereálné, ve kterých jsou regresní proměnné navzájem zcela nesouvisející. V těchto případech hovoříme o exogenitě vysvětlujících proměnných. Společenské vědy jsou obecně známé tím, že do svých regresí začleňují přibližnou multicollinearitu.
Přesná multicollinearita
Přesná multicollinearita nastane, když více než dvě nezávislé proměnné jsou lineární kombinací jiných nezávislých proměnných v regresi.
Problémy
Když Gauss Markov zakazuje přesnou multicollinearitu, je to proto, že nemůžeme získat odhadce Obyčejných nejmenších čtverců (OLS).
Matematické vyjádření odhadované beta sub-i v maticové formě:
Takže pokud existuje přesná multicollinearita, způsobí to, že matice (X'X) bude mít determinant 0, a proto nebude invertibilní. Nebýt invertibilní znamená, že nemůžeme počítat (X'X)-1 a následně ani odhadovaný Beta sub-i.
Přibližná multicollinearita
Přibližná multicollinearita nastane, když více než dvě nezávislé proměnné nejsou přesně (aproximace) lineární kombinací dalších nezávislých proměnných v regresi.
Proměnná k představuje náhodnou proměnnou (nezávislou a identicky distribuovanou (i.i.d)). Frekvenci vašich pozorování lze uspokojivě přiblížit standardnímu rozdělení s průměrem 0 a rozptylem 1. Jelikož se jedná o náhodnou proměnnou, znamená to, že v každém pozorování i bude hodnota k jiná a nezávislá na jakékoli předchozí hodnotě.
Problémy
Matematické vyjádření v maticové formě:
Takže pokud existuje přibližná multicollinearita, způsobí to, že matice (X'X) bude přibližně 0 a koeficient determinace velmi blízký 1.
Řešení
Multicollinearity lze snížit odstraněním regresorů proměnných s vysokým lineárním vztahem mezi nimi.
Lineární korelační koeficient