Štatistika regresnej rovnice. Nájdime parametre lineárnej regresnej rovnice a uveďme ekonomickú interpretáciu regresného koeficientu

x sa nazýva prediktor – nezávislá alebo vysvetľujúca premenná.

Pre danú veličinu x je Y hodnotou premennej y (nazývanej závislá, výstupná alebo odozvová premenná), ktorá leží na vyhodnocovacej línii. Toto je hodnota, ktorú očakávame pre y (v priemere), ak poznáme hodnotu x, a nazýva sa „predpovedaná hodnota y“ (obrázok 5).

a je voľný člen (priesečník) hodnotiacej čiary; toto je hodnota Y, keď x = 0.

b je sklon alebo sklon odhadovanej čiary; predstavuje hodnotu, o ktorú sa Y v priemere zvýši, ak zväčšíme x o jednu jednotku (obrázok 5). Koeficient b sa nazýva regresný koeficient.

Napríklad: keď sa telesná teplota človeka zvýši o 1 °C, pulz sa zvýši v priemere o 10 úderov za minútu.

Obrázok 5. Lineárna regresná čiara zobrazujúca koeficient A a sklon b(množstvo zvýšenia Y s rastúcim X za jednotku)

Matematicky sa riešenie lineárnej regresnej rovnice redukuje na výpočet parametrov a a b takým spôsobom, že body počiatočných údajov korelačného poľa ležal čo najbližšie k priamej regresii .

Štatistické použitie slova regresia pochádza z javu známeho ako regresia k priemeru, ktorý sa pripisuje Francisovi Galtonovi (1889). Ukázal, že hoci vysokí otcovia majú tendenciu mať vysokých synov, priemerná výška synov je nižšia ako u ich vysokých otcov. Priemerná výška synov „regresovala“ alebo „posunula sa dozadu“ smerom k priemernej výške všetkých otcov v populácii. V priemere teda vysokí otcovia majú nižších (ale stále dosť vysokých) synov a nízki otcovia majú vyšších (ale stále dosť nízkych) synov.

Regresiu k priemeru vidíme v skríningových a klinických štúdiách, kde môže byť vybraná podskupina pacientov na liečbu, pretože ich hladiny určitej premennej, povedzme cholesterolu, sú extrémne vysoké (alebo nízke). Ak sa toto meranie v priebehu času opakuje, priemer druhého odčítania pre podskupinu je zvyčajne nižší ako prvý odpočet, čo má tendenciu (t. j. regresiu) k priemeru populácie zodpovedajúceho veku a pohlavia, bez ohľadu na liečbu, ktorú mohli dostať. U pacientov zaradených do klinickej štúdie na základe vysokej hladiny cholesterolu pri prvom vyšetrení je teda pravdepodobné, že pri druhom vyšetrení sa v priemere zníži hladina cholesterolu, aj keď počas tohto obdobia neboli liečení.

Metóda regresnej analýzy sa často používa na vytvorenie normatívnych mierok a štandardov fyzického vývoja.


Do akej miery sa regresná priamka zhoduje s údajmi sa dá posúdiť výpočtom koeficientu R (zvyčajne vyjadreného v percentách a nazývaného koeficient determinácie), ktorý sa rovná druhej mocnine korelačného koeficientu (r2). Predstavuje podiel alebo percento rozptylu v y, ktoré možno vysvetliť jeho vzťahom s x, t.j. podiel variácií vo výslednom atribúte, ktorý sa vyvinul pod vplyvom nezávislého atribútu. Môže nadobúdať hodnoty v rozsahu od 0 do 1 alebo od 0 do 100 %. Rozdiel (100 % - R) predstavuje percento rozptylu v y, ktoré nemožno vysvetliť touto interakciou.

Príklad

Vzťah medzi výškou (meranou v cm) a systolickým krvným tlakom (SBP, meraným v mmHg) u detí. Vykonali sme párovú lineárnu regresnú analýzu vzťahu medzi SBP a výškou (obr. 6). Medzi výškou a SBP existuje významný lineárny vzťah.

Obrázok 6. Dvojrozmerný graf znázorňujúci vzťah medzi systolickým krvným tlakom a výškou. Je znázornená odhadovaná regresná čiara, systolický krvný tlak.

Rovnica odhadovanej regresnej priamky je nasledovná:

SBP = 46,28 + 0,48 x výška.

V tomto príklade nie je zachytenie zaujímavé (nulový rast je jasne mimo rozsah hodnôt pozorovaných v štúdii). Môžeme však interpretovať sklon; U týchto detí sa predpokladá zvýšenie SBP v priemere o 0,48 mm Hg. s nárastom výšky o jeden centimeter

Môžeme použiť regresnú rovnicu na predpovedanie SBP, ktoré by sme očakávali od dieťaťa pre danú výšku. Napríklad dieťa vysoké 115 cm má predpokladaný SBP 46,28 + (0,48 x 115) = 101,48 mmHg. Art., dieťa vysoké 130 má predpokladaný SBP 46,28 + (0,48 x 130) = 108,68 mm Hg. čl.

Pri výpočte korelačného koeficientu sa zistilo, že sa rovnal 0,55, čo poukazuje na priamu koreláciu priemernej pevnosti. V tomto prípade koeficient determinácie r2 = 0,55 2 = 0,3. Dá sa teda povedať, že podiel vplyvu výšky na hladinu krvného tlaku u detí nepresahuje 30%, teda ostatné faktory tvoria 70% vplyvu.

Lineárna (jednoduchá) regresia je obmedzená na pohľad na vzťah medzi závislou premennou a iba jednou nezávisle premennou. Ak existuje viac ako jedna nezávislá premenná vo vzťahu, potom sa musíme obrátiť na viacnásobnú regresiu. Rovnica pre takúto regresiu vyzerá takto:

y = a + bx 1 +b 2 x 2 +.... + b n x n

Niekoho môže zaujímať vplyv niekoľkých nezávislých premenných x 1, x 2, .., x n na premennú odozvy y. Ak sa domnievame, že tieto x môžu byť vzájomne závislé, nemali by sme sa pozerať oddelene na vplyv zmeny hodnoty jedného x na y, ale mali by sme súčasne brať do úvahy veľkosť všetkých ostatných x.

Príklad

Keďže existuje silný vzťah medzi výškou a hmotnosťou dieťaťa, niekto by sa mohol pýtať, či sa vzťah medzi výškou a systolickým krvným tlakom mení aj vtedy, keď sa berie do úvahy aj hmotnosť a pohlavie dieťaťa. Viacnásobná lineárna regresia skúma spoločný efekt týchto viacerých nezávislých premenných na y.

Viacnásobná regresná rovnica v tomto prípade môže vyzerať takto:

SBP = 79,44 - (0,03 x výška) + (1,18 x hmotnosť) + (4,23 x pohlavie)*

* - (pre atribút pohlavia sú hodnoty 0 - chlapec, 1 - dievča)

Podľa tejto rovnice bude mať dievča s výškou 115 cm a telesnou hmotnosťou 37 kg predpokladaný SBP:

SBP = 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) = 123,88 mmHg.

Logistická regresia je veľmi podobná lineárnej regresii; používa sa, keď existuje binárny výsledok záujmu (t. j. prítomnosť/neprítomnosť symptómu alebo subjektu, ktorý má/nemá chorobu) a množstvo prediktorov. Z rovnice logistickej regresie je možné určiť, ktoré prediktory ovplyvňujú výsledok, a pomocou pacientových prediktorových hodnôt odhadnúť pravdepodobnosť, že bude mať konkrétny výsledok. Napríklad: či vzniknú komplikácie alebo nie, či bude liečba účinná alebo nie.

Začnite vytvárať binárnu premennú, ktorá bude reprezentovať dva výsledky (napr. „má chorobu“ = 1, „nemá chorobu“ = 0). Tieto dve hodnoty však nemôžeme použiť ako závislú premennú v lineárnej regresnej analýze, pretože je porušený predpoklad normality a nemôžeme interpretovať predpovedané hodnoty, ktoré sa nerovnajú nule alebo jednotke.

V skutočnosti namiesto toho berieme pravdepodobnosť, že subjekt je zaradený do najbližšej kategórie (t. j. „má chorobu“) závislej premennej, a na prekonanie matematických ťažkostí aplikujeme logistickú transformáciu na regresnú rovnicu – prirodzenú logaritmus pomeru pravdepodobnosti „choroby“ (p) k pravdepodobnosti „žiadna choroba“ (1-p).

Integračný proces nazývaný maximálna pravdepodobnosť, skôr než obyčajná regresia (keďže nemôžeme použiť postup lineárnej regresie), vytvára odhad logistickej regresnej rovnice zo vzorových údajov.

logit (p) = a + bx 1 +b 2 x 2 +.... + b n x n

logit (p) - odhad skutočnej pravdepodobnosti, že pacient s individuálnym súborom hodnôt pre x 1 ... x n má ochorenie;

a je odhad konštanty (voľný člen, priesečník);

b 1, b 2,..., b n - odhady koeficientov logistickej regresie.

1. Otázky k téme lekcie:

1. Definujte funkčné a korelačné súvislosti.

2. Uveďte príklady priamych a inverzných korelácií.

3. Uveďte veľkosti korelačných koeficientov pre slabé, stredné a silné spojenia medzi charakteristikami.

4. V akých prípadoch sa používa poradová metóda výpočtu korelačného koeficientu?

5. V akých prípadoch sa používa výpočet Pearsonovho korelačného koeficientu?

6. Aké sú hlavné fázy výpočtu korelačného koeficientu pomocou poradovej metódy?

7. Definujte „regresiu“. Čo je podstatou regresnej metódy?

8. Opíšte vzorec pre jednoduchú lineárnu regresnú rovnicu.

9. Definujte regresný koeficient.

10. Aký záver možno vyvodiť, ak regresný koeficient hmotnosti na výšku je 0,26 kg/cm?

11. Na čo sa používa vzorec regresnej rovnice?

12. Aký je koeficient determinácie?

13. V akých prípadoch sa používa viacnásobná regresná rovnica?

14. Na čo sa používa metóda logistickej regresie?

Úloha.

Pre podniky ľahkého priemyslu v regióne sa získali informácie charakterizujúce závislosť objemu produkcie (Y, mil. rubľov) od objemu kapitálových investícií (Y, mil. rubľov).

Stôl 1.

Závislosť objemu produkcie od objemu kapitálových investícií.

X
Y

Požadovaný:

1. Nájdite parametre lineárnej regresnej rovnice, uveďte ekonomickú interpretáciu regresného koeficientu.

2. Vypočítajte zvyšky; nájsť zvyškový súčet štvorcov; odhadnúť rozptyl rezíduí; zakreslite zvyšky.

3. Skontrolujte splnenie predpokladov MNC.

4. Skontrolujte významnosť parametrov regresnej rovnice pomocou Studentovho t-testu (α = 0,05).

5. Vypočítajte koeficient determinácie, skontrolujte významnosť regresnej rovnice pomocou Fisherovho F testu (α = 0,05), nájdite priemernú relatívnu chybu aproximácie. Urobte záver o kvalite modelu.

6. Predikujte priemernú hodnotu ukazovateľa Y na hladine významnosti α = 0,1, ak predikovaná hodnota faktora X je 80 % jeho maximálnej hodnoty.

7. Ukážte graficky skutočné a modelové hodnoty Y bodu predpovede.

8. Vytvorte nelineárne regresné rovnice a nakreslite ich:

hyperbolické;

Výkonný;

Orientačné.

9. Pre uvedené modely nájdite koeficienty determinácie a priemerné relatívne chyby aproximácie. Porovnajte modely založené na týchto charakteristikách a urobte záver.

Nájdime parametre lineárnej regresnej rovnice a uveďme ekonomickú interpretáciu regresného koeficientu.

Rovnica lineárnej regresie je: ,

Výpočty na nájdenie parametrov a a b sú uvedené v tabuľke 2.

Tabuľka 2

Výpočet hodnôt na nájdenie parametrov lineárnej regresnej rovnice.

Regresná rovnica vyzerá takto: y = 13,8951 + 2,4016*x.

So zvýšením objemu kapitálových investícií (X) o 1 milión rubľov. objem produkcie (Y) sa zvýši v priemere o 2,4016 milióna rubľov. Existuje teda pozitívna korelácia znakov, ktorá naznačuje efektívnosť podnikov a ziskovosť investícií do ich činností.

2. Vypočítajte zvyšky; nájsť zvyškový súčet štvorcov; odhadnime rozptyl zvyškov a zakreslite zvyšky.

Zvyšky sa vypočítajú podľa vzorca: e i = y i - y progn.

Zvyškový súčet štvorcových odchýlok: = 207,74.

Disperzia zvyškov: 25.97.

Výpočty sú uvedené v tabuľke 3.

Tabuľka 3.

Y X Y=a+b*x i e i = y i - y progn. e i 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Sum 0,00 207,74
Priemerná 111,4 40,6

Tabuľka bilancie vyzerá takto:


Obr.1. Tabuľka bilancie

3. Skontrolujeme splnenie predpokladov MNC, ktoré zahŕňa prvky:

- kontrola, či sa matematické očakávanie náhodnej zložky rovná nule;

- náhodný charakter pozostatkov;

- kontrola nezávislosti;

- korešpondencia počtu zvyškov so zákonom normálneho rozdelenia.

Kontrola rovnosti matematického očakávania hladín radu zvyškov na nulu.

Vykonané počas testovania zodpovedajúcej nulovej hypotézy H 0: . Na tento účel je skonštruovaná t-štatistika, kde .

, takže hypotéza je prijatá.

Náhodný charakter zvyškov.

Skontrolujme náhodnosť hladín množstva zvyškov pomocou kritéria bodu obratu:

Počet bodov obratu sa určí z tabuľky zvyškov:

e i = y i - y progn. Prelomové body e i 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Sum 0,00 207,74 354,62
Priemerná

= 6 > , teda vlastnosť náhodnosti zvyškov je splnená.

Nezávislosť zvyšku overené pomocou Durbin-Watsonovho testu:

=4 - 1,707 = 2,293.

Keďže spadá do intervalu od d 2 do 2, potom podľa tohto kritéria môžeme konštatovať, že vlastnosť nezávislosti je splnená. To znamená, že v rade dynamiky neexistuje autokorelácia, preto je model podľa tohto kritéria primeraný.

Zhoda počtu zvyškov so zákonom normálneho rozdelenia určuje sa pomocou kritéria R/S s kritickými úrovňami (2,7-3,7);

Vypočítajme hodnotu RS:

RS = (e max - e min)/ S,

kde emax je maximálna hodnota hladín počtu zvyškov E(t) = 8,07;

e min - minimálna hodnota hladín počtu rezíduí E(t) = -6,54.

S - štandardná odchýlka, = 4,8044.

RS = (e max - e min)/ S = (8,07 + 6,54)/4,8044 = 3,04.

Od 2.7< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Po zvážení rôznych kritérií na splnenie predpokladov MNC sme teda dospeli k záveru, že predpoklady MNC sú splnené.

4. Overme si významnosť parametrov regresnej rovnice pomocou Studentovho t-testu α = 0,05.

Kontrola významnosti jednotlivých regresných koeficientov je spojená so stanovením vypočítaných hodnôt t-test (t-štatistika) pre zodpovedajúce regresné koeficienty:

Potom sa vypočítané hodnoty porovnajú s tabuľkovými hodnotami t stôl= 2,3060. Tabuľková hodnota kritéria je určená na ( n- 2) stupne voľnosti ( n- počet pozorovaní) a zodpovedajúca hladina významnosti a (0,05)

Ak vypočítaná hodnota t-testu s (n- 2) stupne voľnosti prekračujú jeho tabuľkovú hodnotu na danej hladine významnosti, regresný koeficient sa považuje za významný.

V našom prípade sú regresné koeficienty a 0 nevýznamné a 1 sú významné koeficienty.

Regresná čiara je grafickým odrazom vzťahu medzi javmi. V Exceli môžete veľmi prehľadne zostaviť regresnú čiaru.

K tomu potrebujete:

1. Otvorte Excel

2. Vytvorte dátové stĺpce. V našom príklade vybudujeme regresnú líniu alebo vzťah medzi agresivitou a pochybnosťami o sebe u prvákov. Experimentu sa zúčastnilo 30 detí, údaje sú uvedené v tabuľke programu Excel:

1 stĺpec - číslo predmetu

2 stĺpec - agresivita v bodoch

3 stĺpec - ostýchavosť v bodoch

3. Potom musíte vybrať oba stĺpce (bez názvu stĺpca), kliknite na kartu vložiť , vybrať mieste a vyberte úplne prvé z navrhovaných rozložení bodka s fixkami .

4. Máme teda šablónu pre regresnú priamku - tzv. bodový diagram. Ak chcete prejsť na regresnú čiaru, kliknite na výsledný obrázok a stlačte tabulátor konštruktér, nájsť na paneli rozloženia grafov a vyberte si M A ket9 , hovorí tiež f(x)

5. Máme teda regresnú priamku. V grafe je znázornená aj jeho rovnica a druhá mocnina korelačného koeficientu

6. Ostáva už len doplniť názov grafu a názov osí. Ak chcete, môžete tiež odstrániť legendu, znížiť počet vodorovných čiar mriežky (karta rozloženie , potom net ). Základné zmeny a nastavenia sa vykonávajú v záložke Rozloženie

Regresná priamka bola skonštruovaná v MS Excel. Teraz ho môžete pridať do textu práce.

V predchádzajúcich príspevkoch sa analýza často zameriavala na jednu číselnú premennú, ako sú výnosy podielových fondov, časy načítania webových stránok alebo spotreba nealkoholických nápojov. V tejto a nasledujúcich poznámkach sa pozrieme na metódy predpovedania hodnôt číselnej premennej v závislosti od hodnôt jednej alebo viacerých ďalších číselných premenných.

Materiál bude ilustrovaný prierezovým príkladom. Predpovedanie objemu predaja v obchode s odevmi. Sieť diskontných predajní oblečenia Sunflowers sa už 25 rokov neustále rozširuje. Spoločnosť však v súčasnosti nemá systematický prístup k výberu nových predajní. Miesto, kde chce spoločnosť otvoriť novú predajňu, sa určuje na základe subjektívnych úvah. Kritériom výberu sú výhodné podmienky prenájmu alebo predstava manažéra o ideálnom umiestnení predajne. Predstavte si, že ste vedúcim oddelenia špeciálnych projektov a plánovania. Dostali ste za úlohu vypracovať strategický plán otvárania nových predajní. Tento plán by mal obsahovať prognózu ročného predaja pre novootvorené predajne. Domnievate sa, že maloobchodný priestor priamo súvisí s príjmami a chcete to zohľadniť vo svojom rozhodovacom procese. Ako vytvoríte štatistický model na predpovedanie ročného predaja na základe veľkosti nového obchodu?

Regresná analýza sa zvyčajne používa na predpovedanie hodnôt premennej. Jeho cieľom je vyvinúť štatistický model, ktorý dokáže predpovedať hodnoty závislej premennej alebo odozvy z hodnôt aspoň jednej nezávislej alebo vysvetľujúcej premennej. V tejto poznámke sa pozrieme na jednoduchú lineárnu regresiu - štatistickú metódu, ktorá vám umožňuje predpovedať hodnoty závislej premennej Y nezávisle premennými hodnotami X. Nasledujúce poznámky budú popisovať viacnásobný regresný model určený na predpovedanie hodnôt nezávislej premennej Y na základe hodnôt niekoľkých závislých premenných ( X 1, X 2, …, X k).

Stiahnite si poznámku vo formáte alebo formáte, príklady vo formáte

Typy regresných modelov

Kde ρ 1 – autokorelačný koeficient; Ak ρ 1 = 0 (žiadna autokorelácia), D= 2; Ak ρ 1 ≈ 1 (pozitívna autokorelácia), D= 0; Ak ρ 1 = -1 (negatívna autokorelácia), D ≈ 4.

V praxi je použitie Durbin-Watsonovho kritéria založené na porovnávaní hodnoty D s kritickými teoretickými hodnotami dl A d U pre daný počet pozorovaní n, počet nezávislých premenných modelu k(pre jednoduchú lineárnu regresiu k= 1) a hladina významnosti α. Ak D< d L , hypotéza o nezávislosti náhodných odchýlok je zamietnutá (preto existuje pozitívna autokorelácia); Ak D>dU, hypotéza nie je zamietnutá (to znamená, že neexistuje autokorelácia); Ak dl< D < d U , neexistujú dostatočné dôvody na rozhodnutie. Keď vypočítaná hodnota D presahuje 2, potom s dl A d U Neporovnáva sa samotný koeficient D a výraz (4 – D).

Ak chcete vypočítať štatistiku Durbin-Watson v Exceli, obráťme sa na spodnú tabuľku na obr. 14 Odňatie rovnováhy. Čitateľ vo výraze (10) sa vypočíta pomocou funkcie =SUMMAR(pole1;pole2) a menovateľ =SUMMAR(pole) (obr. 16).

Ryža. 16. Vzorce na výpočet Durbin-Watsonovej štatistiky

V našom príklade D= 0,883. Hlavná otázka znie: akú hodnotu Durbin-Watsonovej štatistiky treba považovať za dostatočne malú na to, aby sme dospeli k záveru, že existuje pozitívna autokorelácia? Je potrebné korelovať hodnotu D s kritickými hodnotami ( dl A d U), v závislosti od počtu pozorovaní n a hladina významnosti α (obr. 17).

Ryža. 17. Kritické hodnoty štatistiky Durbin-Watson (fragment tabuľky)

V probléme objemu predaja v predajni dodávajúcej tovar domov teda existuje jedna nezávislá premenná ( k= 1), 15 pozorovaní ( n= 15) a hladina významnosti α = 0,05. teda dl= 1,08 a dU= 1,36. Pretože D = 0,883 < dl= 1,08, medzi rezíduami je pozitívna autokorelácia, nemožno použiť metódu najmenších štvorcov.

Testovanie hypotéz o sklone a korelačných koeficientoch

Vyššie uvedená regresia bola použitá výlučne na prognózovanie. Určiť regresné koeficienty a predpovedať hodnotu premennej Y pre danú premennú hodnotu X Bola použitá metóda najmenších štvorcov. Okrem toho sme skúmali strednú kvadratickú chybu odhadu a zmiešaný korelačný koeficient. Ak analýza rezíduí potvrdí, že nie sú porušené podmienky použiteľnosti metódy najmenších štvorcov a jednoduchý lineárny regresný model je na základe údajov vzorky adekvátny, možno tvrdiť, že medzi premennými v populácia.

Aplikáciat -kritériá pre sklon. Testovaním, či sa populačný sklon β 1 rovná nule, môžete určiť, či existuje štatisticky významný vzťah medzi premennými X A Y. Ak je táto hypotéza zamietnutá, možno tvrdiť, že medzi premennými X A Y existuje lineárny vzťah. Nulová a alternatívna hypotéza sú formulované nasledovne: H 0: β 1 = 0 (neexistuje lineárna závislosť), H1: β 1 ≠ 0 (existuje lineárna závislosť). A-priorstvo t-štatistika sa rovná rozdielu medzi sklonom vzorky a hypotetickou hodnotou sklonu populácie, vydelenému strednou kvadratickou chybou odhadu sklonu:

(11) t = (b 1 β 1 ) / Sb 1

Kde b 1 – sklon priamej regresie na vzorových údajoch, β1 – hypotetický sklon priamej populácie, a štatistiky testov tt-distribúcia s n – 2 stupne slobody.

Overme si, či existuje štatisticky významný vzťah medzi veľkosťou predajne a ročným obratom pri α = 0,05. t-pri použití sa kritérium zobrazuje spolu s ostatnými parametrami Analytický balík(možnosť Regresia). Kompletné výsledky analytického balíka sú znázornené na obr. 4, fragment súvisiaci s t-štatistikou - na obr. 18.

Ryža. 18. Výsledky aplikácie t

Od počtu predajní n= 14 (pozri obr. 3), kritická hodnota t-štatistiku na hladine významnosti α = 0,05 možno nájsť pomocou vzorca: t L=STUDENT.ARV(0,025;12) = –2,1788, kde 0,025 je polovica hladiny významnosti a 12 = n – 2; tU=ŠTUDENT.OBR(0,975;12) = +2,1788.

Pretože t-štatistika = 10,64 > tU= 2,1788 (obr. 19), nulová hypotéza H 0 odmietol. Na druhej strane, R- hodnota za X= 10,6411, vypočítané podľa vzorca =1-STUDENT.DIST(D3,12,TRUE), sa približne rovná nule, takže hypotéza H 0 opäť zamietnuté. Skutočnosť, že R-hodnota takmer nula znamená, že ak by neexistoval skutočný lineárny vzťah medzi veľkosťou predajní a ročnými tržbami, bolo by prakticky nemožné ho odhaliť pomocou lineárnej regresie. Preto existuje štatisticky významný lineárny vzťah medzi priemerným ročným predajom predajne a veľkosťou predajne.

Ryža. 19. Testovanie hypotézy o sklone populácie na hladine významnosti 0,05 a 12 stupňov voľnosti

AplikáciaF -kritériá pre sklon. Alternatívnym prístupom k testovaniu hypotéz o sklone jednoduchej lineárnej regresie je použitie F-kritériá. Pripomeňme si to F-test sa používa na testovanie vzťahu medzi dvoma rozptylmi (podrobnejšie pozri). Pri testovaní hypotézy sklonu je mierou náhodných chýb rozptyl chýb (súčet štvorcových chýb delený počtom stupňov voľnosti), takže F-kritérium používa pomer rozptylu vysvetleného regresiou (t.j. hodnota SSR, delené počtom nezávislých premenných k), na odchýlku chyby ( MSE = S YX 2 ).

A-priorstvo F-štatistika sa rovná strednej štvorci regresie (MSR) vydelenej rozptylom chýb (MSE): F = MSR/ MSE, Kde MSR=SSR / k, MSE =SSE/(n– k – 1), k– počet nezávislých premenných v regresnom modeli. Testovacie štatistiky FF-distribúcia s k A n– k – 1 stupne slobody.

Pre danú hladinu významnosti α je rozhodovacie pravidlo formulované takto: ak F>FU, nulová hypotéza je zamietnutá; inak sa neodmieta. Výsledky prezentované vo forme súhrnnej tabuľky analýzy rozptylu sú znázornené na obr. 20.

Ryža. 20. Analýza variančnej tabuľky na testovanie hypotézy o štatistickej významnosti regresného koeficientu

Podobne t-kritérium F-pri použití sa kritérium zobrazí v tabuľke Analytický balík(možnosť Regresia). Kompletné výsledky práce Analytický balík sú znázornené na obr. 4, fragment súvisiaci s F-štatistika – na obr. 21.

Ryža. 21. Výsledky aplikácie F-kritériá získané pomocou balíka Excel Analysis Package

F-štatistika je 113,23 a R-hodnota blízka nule (bunka VýznamF). Ak je hladina významnosti α 0,05, určte kritickú hodnotu F-rozdelenia s jedným a 12 stupňami voľnosti možno získať pomocou vzorca F U=F.OBR(1-0,05;1;12) = 4,7472 (obr. 22). Pretože F = 113,23 > F U= 4,7472 a R- hodnota blízka 0< 0,05, нулевая гипотеза H 0 sa zamieta, t.j. Veľkosť predajne úzko súvisí s jej ročnými tržbami.

Ryža. 22. Testovanie hypotézy sklonu populácie na hladine významnosti 0,05 s jedným a 12 stupňami voľnosti

Interval spoľahlivosti obsahujúci sklon β 1 . Na testovanie hypotézy, že medzi premennými existuje lineárny vzťah, môžete zostrojiť interval spoľahlivosti obsahujúci sklon β 1 a overiť, že hypotetická hodnota β 1 ​​= 0 patrí do tohto intervalu. Stred intervalu spoľahlivosti obsahujúceho sklon β 1 je sklon vzorky b 1 , a jeho hranicami sú množstvá b 1 ±tn –2 Sb 1

Ako je znázornené na obr. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =STUDENT.ARV(0,975;12) = 2,1788. teda b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 alebo + 1,328 ≤ p1 ≤ +2,012. Existuje teda pravdepodobnosť 0,95, že sklon populácie leží medzi +1,328 a +2,012 (t.j. 1 328 000 až 2 012 000 USD). Keďže tieto hodnoty sú väčšie ako nula, existuje štatisticky významný lineárny vzťah medzi ročným predajom a plochou predajne. Ak by interval spoľahlivosti obsahoval nulu, medzi premennými by neexistoval žiadny vzťah. Okrem toho interval spoľahlivosti znamená, že každé zvýšenie predajnej plochy o 1 000 m2. ft. vedie k zvýšeniu priemerného objemu predaja medzi 1 328 000 a 2 012 000 USD.

Použitiet -kritériá pre korelačný koeficient. bol zavedený korelačný koeficient r, čo je miera vzťahu medzi dvoma číselnými premennými. Môže sa použiť na určenie, či existuje štatisticky významný vzťah medzi dvoma premennými. Korelačný koeficient medzi populáciami oboch premenných označme symbolom ρ. Nulová a alternatívna hypotéza sú formulované takto: H 0: ρ = 0 (žiadna korelácia), H 1: ρ ≠ 0 (existuje korelácia). Kontrola existencie korelácie:

Kde r = + , Ak b 1 > 0, r = – , Ak b 1 < 0. Тестовая статистика tt-distribúcia s n – 2 stupne slobody.

V probléme o sieti predajní Sunflowers r 2= 0,904, a b 1- +1,670 (pozri obr. 4). Pretože b 1> 0, korelačný koeficient medzi ročným obratom a veľkosťou predajne je r= +√0,904 = +0,951. Otestujme pomocou nulovej hypotézy, že medzi týmito premennými neexistuje žiadna korelácia t- štatistika:

Na hladine významnosti α = 0,05 by mala byť nulová hypotéza zamietnutá, pretože t= 10,64 > 2,1788. Dá sa teda tvrdiť, že medzi ročným obratom a veľkosťou predajne existuje štatisticky významný vzťah.

Pri diskusii o záveroch týkajúcich sa sklonu populácie sa intervaly spoľahlivosti a testy hypotéz používajú zameniteľne. Výpočet intervalu spoľahlivosti obsahujúceho korelačný koeficient sa však ukazuje ako zložitejší, pretože typ rozdelenia vzorky štatistických údajov r závisí od skutočného korelačného koeficientu.

Odhad matematického očakávania a predikcie jednotlivých hodnôt

Táto časť sa zaoberá metódami odhadu matematického očakávania odpovede Y a predpovede jednotlivých hodnôt Y pre dané hodnoty premennej X.

Zostrojenie intervalu spoľahlivosti. V príklade 2 (pozri časť vyššie Metóda najmenších štvorcov) regresná rovnica umožnila predpovedať hodnotu premennej Y X. Pri probléme výberu miesta pre maloobchod je priemerný ročný objem predaja v obchode s rozlohou 4 000 m2. stôp sa rovnalo 7,644 miliónom dolárov. Tento odhad matematických očakávaní všeobecnej populácie je však bodový. Na odhadnutie matematického očakávania populácie bol navrhnutý koncept intervalu spoľahlivosti. Podobne môžeme predstaviť koncept interval spoľahlivosti pre matematické očakávanie odpovede pre danú premennú hodnotu X:

Kde , = b 0 + b 1 X i– predpokladaná hodnota je premenlivá Y pri X = X i, S YX– stredná kvadratická chyba, n- veľkosť vzorky, Xi- špecifikovaná hodnota premennej X, µ Y|X = Xi– matematické očakávanie premennej Y pri X = Xi, SSX =

Analýza vzorca (13) ukazuje, že šírka intervalu spoľahlivosti závisí od viacerých faktorov. Na danej hladine významnosti vedie zvýšenie amplitúdy fluktuácií okolo regresnej priamky, merané pomocou odmocniny strednej štvorcovej chyby, k zväčšeniu šírky intervalu. Na druhej strane, ako by sa dalo očakávať, nárast veľkosti vzorky je sprevádzaný zúžením intervalu. Okrem toho sa šírka intervalu mení v závislosti od hodnôt Xi. Ak je premenná hodnota Y predpovedané pre množstvá X, blízko priemernej hodnoty interval spoľahlivosti sa ukáže byť užší ako pri predpovedaní odozvy pre hodnoty ďaleko od priemeru.

Povedzme, že pri výbere miesta predajne chceme skonštruovať 95% interval spoľahlivosti pre priemerné ročné tržby všetkých predajní, ktorých plocha je 4000 metrov štvorcových. nohy:

Preto je priemerný ročný objem predaja vo všetkých predajniach s rozlohou 4 000 m2. stôp, s 95% pravdepodobnosťou leží v rozmedzí od 6,971 do 8,317 milióna dolárov.

Vypočítajte interval spoľahlivosti pre predpokladanú hodnotu. Okrem intervalu spoľahlivosti pre matematické očakávanie odozvy pre danú hodnotu premennej X, je často potrebné poznať interval spoľahlivosti pre predpovedanú hodnotu. Hoci vzorec na výpočet takéhoto intervalu spoľahlivosti je veľmi podobný vzorcu (13), tento interval obsahuje skôr predpokladanú hodnotu než odhad parametra. Interval pre predpokladanú odpoveď YX = Xi pre konkrétnu premennú hodnotu Xi určený podľa vzorca:

Predpokladajme, že pri výbere miesta pre maloobchodnú predajňu chceme skonštruovať 95 % interval spoľahlivosti pre predpokladaný ročný objem predaja pre predajňu, ktorej plocha je 4 000 metrov štvorcových. nohy:

Preto predpokladaný ročný objem predaja pre obchod s rozlohou 4000 m2. stôp, s 95% pravdepodobnosťou leží v rozmedzí od 5,433 do 9,854 milióna dolárov Ako môžeme vidieť, interval spoľahlivosti pre predpovedanú hodnotu odozvy je oveľa širší ako interval spoľahlivosti pre jej matematické očakávanie. Je to preto, že variabilita pri predpovedaní jednotlivých hodnôt je oveľa väčšia ako pri odhadovaní matematického očakávania.

Úskalia a etické problémy spojené s používaním regresie

Ťažkosti spojené s regresnou analýzou:

  • Ignorovanie podmienok použiteľnosti metódy najmenších štvorcov.
  • Chybné posúdenie podmienok použiteľnosti metódy najmenších štvorcov.
  • Nesprávny výber alternatívnych metód pri porušení podmienok použiteľnosti metódy najmenších štvorcov.
  • Aplikácia regresnej analýzy bez hlbších znalostí predmetu výskumu.
  • Extrapolácia regresie za rozsah vysvetľujúcej premennej.
  • Zámena medzi štatistickými a kauzálnymi vzťahmi.

Široké používanie tabuliek a štatistického softvéru odstránilo problémy s výpočtom, ktoré bránili použitiu regresnej analýzy. To však viedlo k tomu, že regresnú analýzu používali používatelia, ktorí nemali dostatočnú kvalifikáciu a znalosti. Ako môžu používatelia vedieť o alternatívnych metódach, ak mnohí z nich vôbec nemajú potuchy o podmienkach použiteľnosti metódy najmenších štvorcov a nevedia, ako skontrolovať ich implementáciu?

Výskumník by sa nemal nechať unášať lámavými číslami – výpočtom posunu, sklonu a zmiešaného korelačného koeficientu. Potrebuje hlbšie vedomosti. Ilustrujme si to na klasickom príklade prevzatom z učebníc. Anscombe ukázal, že všetky štyri súbory údajov zobrazené na obr. 23, majú rovnaké regresné parametre (obr. 24).

Ryža. 23. Štyri umelé súbory údajov

Ryža. 24. Regresná analýza štyroch súborov umelých údajov; hotovo Analytický balík(kliknutím na obrázok sa obrázok zväčší)

Takže z pohľadu regresnej analýzy sú všetky tieto súbory údajov úplne identické. Ak by tam analýza skončila, prišli by sme o množstvo užitočných informácií. Dôkazom toho sú bodové grafy (obrázok 25) a zvyškové grafy (obrázok 26) vytvorené pre tieto súbory údajov.

Ryža. 25. Bodové grafy pre štyri súbory údajov

Bodové grafy a reziduálne grafy naznačujú, že tieto údaje sa navzájom líšia. Jediná množina rozložená pozdĺž priamky je množina A. Graf rezíduí vypočítaný zo množiny A nemá žiadny vzor. To sa nedá povedať o súboroch B, C a D. Bodový graf vynesený pre súbor B ukazuje výrazný kvadratický vzor. Tento záver potvrdzuje zvyškový graf, ktorý má parabolický tvar. Bodový graf a reziduálny graf ukazujú, že súbor údajov B ​​obsahuje odľahlú hodnotu. V tejto situácii je potrebné vylúčiť zo súboru údajov odľahlú hodnotu a zopakovať analýzu. Metóda detekcie a eliminácie odľahlých hodnôt v pozorovaniach sa nazýva analýza vplyvu. Po odstránení odľahlej hodnoty môže byť výsledok opätovného odhadu modelu úplne iný. Bodový graf vynesený z údajov zo súboru G ilustruje neobvyklú situáciu, v ktorej empirický model výrazne závisí od individuálnej reakcie ( X 8 = 19, Y 8 = 12,5). Takéto regresné modely musia byť vypočítané obzvlášť starostlivo. Takže rozptylové a reziduálne grafy sú základným nástrojom regresnej analýzy a mali by byť jej neoddeliteľnou súčasťou. Bez nich nie je regresná analýza dôveryhodná.

Ryža. 26. Grafy zvyškov pre štyri súbory údajov

Ako sa vyhnúť nástrahám regresnej analýzy:

  • Analýza možných vzťahov medzi premennými X A Y vždy začnite kreslením bodového grafu.
  • Pred interpretáciou výsledkov regresnej analýzy skontrolujte podmienky jej použiteľnosti.
  • Zostavte rezíduá oproti nezávislej premennej. To umožní určiť, ako dobre sa empirický model zhoduje s výsledkami pozorovania a odhaliť porušenie konštanty rozptylu.
  • Na testovanie predpokladu normálneho rozdelenia chýb použite histogramy, grafy stonky a listu, krabicové grafy a grafy normálneho rozdelenia.
  • Ak nie sú splnené podmienky použiteľnosti metódy najmenších štvorcov, použite alternatívne metódy (napríklad kvadratické alebo viacnásobné regresné modely).
  • Ak sú splnené podmienky použiteľnosti metódy najmenších štvorcov, je potrebné otestovať hypotézu o štatistickej významnosti regresných koeficientov a zostrojiť intervaly spoľahlivosti obsahujúce matematické očakávanie a predpovedanú hodnotu odozvy.
  • Vyhnite sa predpovedaniu hodnôt závislej premennej mimo rozsahu nezávislej premennej.
  • Majte na pamäti, že štatistické vzťahy nie sú vždy príčinou a následkom. Pamätajte, že korelácia medzi premennými neznamená, že medzi nimi existuje vzťah príčina-následok.

Zhrnutie. Ako je znázornené na blokovom diagrame (obrázok 27), poznámka popisuje jednoduchý lineárny regresný model, podmienky jeho použiteľnosti a spôsob testovania týchto podmienok. Zvážené t-kritérium pre testovanie štatistickej významnosti regresnej smernice. Na predpovedanie hodnôt závislej premennej bol použitý regresný model. Príklad sa považuje za súvisiaci s výberom miesta pre maloobchod, v ktorom sa skúma závislosť ročného objemu predaja od predajnej plochy. Získané informácie vám umožňujú presnejšie vybrať miesto pre predajňu a predpovedať jej ročný objem predaja. Nasledujúce poznámky budú pokračovať v diskusii o regresnej analýze a tiež sa budú zaoberať viacerými regresnými modelmi.

Ryža. 27. Schéma štruktúry poznámky

Používajú sa materiály z knihy Levin et al Štatistika pre manažérov. – M.: Williams, 2004. – s. 792–872

Ak je závislá premenná kategorická, musí sa použiť logistická regresia.