Koeficient stanovení (R na druhou)

Obsah:

Anonim

Koeficient determinace je podíl celkové odchylky proměnné vysvětlené regresí. Koeficient determinace, nazývaný také R na druhou, odráží dobrou shodu modelu s proměnnou, kterou má v úmyslu vysvětlit.

Je důležité vědět, že výsledek rozhodovacího koeficientu osciluje mezi 0 a 1. Čím je jeho hodnota blíže k 1, tím větší je přizpůsobení modelu proměnné, kterou se snažíme vysvětlit. Naopak, čím blíže k nule, tím méně bude model těsný, a proto bude méně spolehlivý.

V předchozím výrazu máme zlomek. Pojďme tedy po částech. Nejprve analyzujeme čitatel, tj. Horní část.

Pro ty, kteří neznají výraz rozptylu, doporučuji přečíst si o tom článek. Pro ty, kteří to vědí, si mohou uvědomit, že jde o vyjádření rozptylu, ale se dvěma zásadními rozdíly.

První rozdíl spočívá v tom, že Y má háček nebo to, co učitelé didakticky nazývají „klobouk“. Detaily tohoto klobouku spočívají v tom, že Y je odhad modelu toho, co podle vysvětlujících proměnných stojí za Y, ale nejde o skutečnou hodnotu Y, ale o odhad Y.

Zadruhé by bylo nutné vydělit T. Což je v ostatních případech označeno jako N nebo počet pozorování. Protože by to ale také nesl vzorec jmenovatele, odstranili jsme jmenovatele (dole) z obou vzorců, abychom výraz zjednodušili. Tímto způsobem je s ním snazší pracovat.

Dále provedeme stejnou analýzu s částí jmenovatele (spodní část).

V tomto případě je jediným rozdílem oproti původnímu variantnímu vzorci absence jeho jmenovatele. To znamená, že nedělíme T nebo N. Tímto způsobem, jakmile budou vysvětleny dvě části obecného vyjádření R na druhou nebo koeficientu určení, uvidíme příklad.

Variační koeficientLineární korelační koeficientRegresní analýza

Interpretace koeficientu determinace

Předpokládejme, že chceme vysvětlit počet gólů, které Cristiano Ronaldo dává na základě počtu her, které hraje. Předpokládáme, že čím více odehraných her, tím více gólů dá. Data se týkají posledních 8 sezón. Po extrakci dat tedy model získá následující odhad:

Jak vidíme z grafu, vztah je pozitivní. Čím více odehraných her samozřejmě získá, tím více gólů v sezóně vstřelí. Přizpůsobení, založené na výpočtu R-kvadrát, je 0,835. To znamená, že se jedná o model, jehož odhady docela dobře odpovídají skutečné proměnné. Ačkoli by to technicky nebylo správné, dalo by se říci něco takového, model vysvětluje 83,5% skutečné proměnné.

Problém koeficientu stanovení

Problém koeficientu determinace a důvod, proč upravený koeficient determinace vzniká, spočívá v tom, že nepenalizuje zahrnutí nevýznamných vysvětlujících proměnných. To znamená, že pokud je k modelu přidáno pět vysvětlujících proměnných, které nesou malý vztah k cílům, které Cristiano Ronaldo v dané sezóně vstřelí, R se zvýší. To je důvod, proč se mnoho ekonometrických, statistických a matematických odborníků staví proti použití R na druhou jako reprezentativní míry dobroty skutečného přizpůsobení.

Upravený koeficient stanovení

Upravený koeficient determinace (upravený R na druhou) je míra, která definuje procento vysvětlené rozptylem regrese ve vztahu k rozptylu vysvětlené proměnné. Totéž jako R na druhou, ale s rozdílem: Upravený koeficient determinace penalizuje zahrnutí proměnných.

Jak jsme již řekli, koeficient determinace modelu se zvyšuje, i když proměnné, které zahrneme, nejsou relevantní. Jelikož se jedná o problém, pokusíme se ho vyřešit, upravený R na druhou je takový, že:

Ve vzorci je N velikost vzorku a k je počet vysvětlujících proměnných. Matematickým odvozením, čím vyšší hodnoty k, tím dále bude upravený R-kvadrát od normálního R-kvadru. Naopak, při nižších hodnotách k, čím blíže bude střední zlomek k 1, a upravený R na druhou a normální R na druhou budou podobnější.

Pamatujeme-li, že k je počet vysvětlujících proměnných, odvodíme, že to nemůže být nula. Pokud by to bylo nula, nebyl by žádný model. Přinejmenším budeme muset vysvětlit jednu proměnnou z hlediska jiné proměnné. Protože k musí být alespoň 1, upravený R-kvadrát a normální R-kvadrát nemohou mít stejnou hodnotu. Kromě toho bude upravený R-kvadrát vždy menší než normální R-kvadrát.