Účel regresnej analýzy. Metódy matematickej štatistiky

Hlavným cieľom regresnej analýzy spočíva v určení analytickej formy vzťahu, v ktorom je zmena výsledného atribútu spôsobená vplyvom jedného alebo viacerých faktorových znakov a množina všetkých ostatných faktorov, ktoré ovplyvňujú aj výsledný atribút, sa berie ako konštantné a priemerné hodnoty. .
Úlohy regresnej analýzy:
a) Stanovenie formy závislosti. Čo sa týka povahy a formy vzťahu medzi javmi, existujú pozitívne lineárne a nelineárne a negatívne lineárne a nelineárne regresie.
b) Definícia regresnej funkcie vo forme matematickej rovnice jedného alebo druhého typu a stanovenie vplyvu vysvetľujúcich premenných na závislú premennú.
c) Odhad neznámych hodnôt závislej premennej. Pomocou regresnej funkcie môžete reprodukovať hodnoty závislej premennej v rámci intervalu daných hodnôt vysvetľujúcich premenných (t.j. vyriešiť interpolačný problém) alebo vyhodnotiť priebeh procesu mimo zadaného intervalu (t.j. vyriešiť problém extrapolácie). Výsledkom je odhad hodnoty závislej premennej.

Párová regresia - rovnica vzťahu dvoch premenných y a x: , kde y je závislá premenná (efektívne znamienko); x - nezávislá, vysvetľujúca premenná (vlastnosť-faktor).

Existujú lineárne a nelineárne regresie.
Lineárna regresia: y = a + bx + ε
Nelineárne regresie sú rozdelené do dvoch tried: regresie, ktoré sú nelineárne vzhľadom na vysvetľujúce premenné zahrnuté v analýze, ale lineárne vzhľadom na odhadované parametre, a regresie, ktoré sú nelineárne vzhľadom na odhadované parametre.
Regresie, ktoré sú vo vysvetľujúcich premenných nelineárne:

Regresie, ktoré sú nelineárne z hľadiska odhadovaných parametrov: Zostavenie regresnej rovnice sa redukuje na odhad jej parametrov. Na odhad parametrov regresií, ktoré sú v parametroch lineárne, sa používa metóda najmenších štvorcov (LSM). LSM umožňuje získať také odhady parametrov, pri ktorých je súčet kvadrátov odchýlok skutočných hodnôt výsledného znaku y od teoretických minimálny, t.j.
.
Pre lineárne a nelineárne rovnice redukovateľné na lineárne je pre a a b vyriešený nasledujúci systém:

Môžete použiť hotové vzorce, ktoré vyplývajú z tohto systému:

Tesnosť spojenia medzi skúmanými javmi sa odhaduje pomocou lineárneho koeficientu párovej korelácie pre lineárnu regresiu:

a korelačný index - pre nelineárnu regresiu:

Hodnotenie kvality vytvoreného modelu bude dané koeficientom (indexom) determinácie, ako aj priemernou chybou aproximácie.
Priemerná chyba aproximácie je priemerná odchýlka vypočítaných hodnôt od skutočných:
.
Prípustný limit hodnôt - nie viac ako 8-10%.
Priemerný koeficient elasticity ukazuje, o koľko percent sa v priemere zmení výsledok y od svojej priemernej hodnoty, keď sa faktor x zmení o 1 % od svojej priemernej hodnoty:
.

Úlohou analýzy rozptylu je analyzovať rozptyl závislej premennej:
,
kde je celkový súčet štvorcových odchýlok;
- súčet štvorcových odchýlok spôsobených regresiou („vysvetlené“ alebo „faktoriálne“);
- zvyškový súčet štvorcových odchýlok.
Podiel rozptylu vysvetleného regresiou na celkovom rozptyle efektívneho znaku y charakterizuje koeficient (index) determinácie R2:

Koeficient determinácie je druhou mocninou koeficientu alebo korelačného indexu.

F-test - hodnotenie kvality regresnej rovnice - spočíva v testovaní hypotézy Ale o štatistickej nevýznamnosti regresnej rovnice a indikátora tesnej súvislosti. Na tento účel sa vykoná porovnanie skutočnej F skutočnosti a kritickej (tabuľkovej) tabuľky F hodnôt Fisherovho F-kritéria. F fact sa určí z pomeru hodnôt faktoriálu a reziduálnych rozptylov vypočítaných pre jeden stupeň voľnosti:
,
kde n je počet jednotiek populácie; m je počet parametrov pre premenné x.
F tabuľka je maximálna možná hodnota kritéria pod vplyvom náhodných faktorov pre dané stupne voľnosti a hladinu významnosti a. Úroveň významnosti a - pravdepodobnosť zamietnutia správnej hypotézy za predpokladu, že je pravdivá. Zvyčajne sa a rovná 0,05 alebo 0,01.
Ak F tabuľka< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F je fakt, potom hypotéza H o nie je zamietnutá a je uznaná štatistická nevýznamnosť, nespoľahlivosť regresnej rovnice.
Na posúdenie štatistickej významnosti regresných a korelačných koeficientov sa vypočíta Studentov t-test a intervaly spoľahlivosti pre každý z ukazovateľov. Predkladá sa hypotéza H o náhodnom charaktere ukazovateľov, t.j. o ich nepatrnom rozdiele od nuly. Hodnotenie významnosti regresných a korelačných koeficientov pomocou Studentovho t-testu sa vykonáva porovnaním ich hodnôt s veľkosťou náhodnej chyby:
; ; .
Náhodné chyby parametrov lineárnej regresie a korelačného koeficientu sú určené vzorcami:



Porovnaním skutočných a kritických (tabuľkových) hodnôt t-štatistiky - t tabl a t fact - prijímame alebo odmietame hypotézu H o.
Vzťah medzi Fisherovým F-testom a Studentovou t-štatistikou vyjadruje rovnosť

Ak t tabuľka< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t skutočnosť, že hypotéza H o nie je zamietnutá a je uznaná náhodná povaha vzniku a, b alebo.
Na výpočet intervalu spoľahlivosti určíme hraničnú chybu D pre každý ukazovateľ:
, .
Vzorce na výpočet intervalov spoľahlivosti sú nasledovné:
; ;
; ;
Ak nula spadá do hraníc intervalu spoľahlivosti, t.j. Ak je spodná hranica záporná a horná hranica kladná, potom sa predpokladá, že odhadovaný parameter je nulový, pretože nemôže súčasne nadobúdať kladné aj záporné hodnoty.
Predpovedná hodnota sa určí dosadením zodpovedajúcej (predpovednej) hodnoty do regresnej rovnice. Priemerná štandardná chyba prognózy sa vypočíta:
,
kde
a interval spoľahlivosti prognózy je zostavený:
; ;
kde .

Príklad riešenia

Úloha číslo 1. Pre sedem území regiónu Ural Pre 199X sú známe hodnoty dvoch znakov.
Stôl 1.
Požadovaný: 1. Na charakterizovanie závislosti y od x vypočítajte parametre nasledujúcich funkcií:
a) lineárne;
b) mocninný zákon (predtým bolo potrebné vykonať postup linearizácie premenných logaritmovaním oboch častí);
c) demonštratívne;
d) rovnostranná hyperbola (treba tiež zistiť, ako tento model predlinearizovať).
2. Vyhodnoťte každý model pomocou strednej chyby aproximácie a Fisherovho F-testu.

Riešenie (Možnosť č. 1)

Na výpočet parametrov aab lineárnej regresie (výpočet je možné vykonať pomocou kalkulačky).
riešiť sústavu normálnych rovníc vzhľadom na a a b:
Na základe počiatočných údajov vypočítame :
r X yx x2 y2 Ai
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Celkom 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
St hodnotu (celkom/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s2 32,92 34,34 X X X X X X


Regresná rovnica: y= 76,88 - 0,35X. So zvýšením priemernej dennej mzdy o 1 rub. podiel výdavkov na nákup potravinárskych výrobkov sa znižuje v priemere o 0,35 % bodu.
Vypočítajte lineárny koeficient párovej korelácie:

Komunikácia je mierna, reverzná.
Definujme koeficient determinácie:

12,7 % odchýlka vo výsledku sa vysvetľuje odchýlkou ​​v x faktore. Nahradenie skutočných hodnôt do regresnej rovnice X, určiť teoretické (vypočítané) hodnoty . Nájdite hodnotu priemernej chyby aproximácie:

V priemere sa vypočítané hodnoty líšia od skutočných o 8,1%.
Vypočítajme F-kritérium:

od 1< F < ¥ , malo by sa brať do úvahy F -1 .
Výsledná hodnota naznačuje potrebu prijatia hypotézy Ale oh náhodný charakter odhalenej závislosti a štatistická nevýznamnosť parametrov rovnice a indikátora blízkosti súvislosti.
1b. Konštrukcii výkonového modelu predchádza procedúra linearizácie premenných. V tomto príklade sa linearizácia vykonáva logaritmovaním oboch strán rovnice:


kdeY=lg(y), X=lg(x), C=lg(a).

Na výpočty používame údaje v tabuľke. 1.3.

Tabuľka 1.3

Y X YX Y2 x2 Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Celkom 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Priemerná 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ2 0,0018 0,0023 X X X X X X X

Vypočítajte C a b:


Dostaneme lineárnu rovnicu: .
Jeho potenciovaním získame:

Nahradením tejto rovnice skutočnými hodnotami X, získame teoretické hodnoty výsledku. Na ich základe vypočítame ukazovatele: tesnosť spojenia - korelačný index a priemernú chybu aproximácie

Charakteristiky mocenského modelu naznačujú, že opisuje vzťah o niečo lepšie ako lineárna funkcia.

1c. Zostrojenie rovnice exponenciálnej krivky

predchádza mu postup na linearizáciu premenných pri logaritmovaní oboch častí rovnice:

Na výpočty používame údaje z tabuľky.

Y X Yx Y2 x2 Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Celkom 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
St zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ2 0,0018 34,339 X X X X X X X

Hodnoty regresných parametrov A a AT zosumarizované do celkovej sumy:


Získa sa lineárna rovnica: . Výslednú rovnicu potencujeme a napíšeme v obvyklom tvare:

Tesnosť spojenia odhadujeme pomocou korelačného indexu:

Cieľom regresnej analýzy je zmerať vzťah medzi závislou premennou a jednou (párová regresná analýza) alebo viacerými (viacnásobnými) nezávislými premennými. Nezávislé premenné sa tiež nazývajú faktoriálne, vysvetľujúce, determinanty, regresory a prediktory.

Závislá premenná sa niekedy označuje ako definovaná, vysvetlená alebo premenná s „odpoveďou“. Extrémne široké rozšírenie regresnej analýzy v empirickom výskume nie je spôsobené len tým, že ide o vhodný nástroj na testovanie hypotéz. Regresia, najmä viacnásobná regresia, je efektívna technika modelovania a prognózovania.

Začnime vysvetľovať princípy práce s regresnou analýzou jednoduchšou – párovou metódou.

Párová regresná analýza

Prvé kroky pri použití regresnej analýzy budú takmer totožné s tými, ktoré sme urobili v rámci výpočtu korelačného koeficientu. Pre viacnásobnú regresiu sú relevantné aj tri hlavné podmienky účinnosti korelačnej analýzy pomocou Pearsonovej metódy – normálne rozdelenie premenných, intervalové meranie premenných, lineárny vzťah medzi premennými. Podľa toho sa v prvej fáze skonštruujú rozptylové grafy, vykoná sa štatistická a deskriptívna analýza premenných a vypočíta sa regresná čiara. Rovnako ako v rámci korelačnej analýzy sú regresné čiary zostavené pomocou metódy najmenších štvorcov.

Aby sme jasnejšie ilustrovali rozdiely medzi týmito dvoma metódami analýzy údajov, vráťme sa k už uvažovanému príkladu s premennými „podpora SPS“ a „podiel vidieckej populácie“. Pôvodné údaje sú identické. Rozdiel v bodových grafoch bude v tom, že pri regresnej analýze je správne vykresliť závislú premennú - v našom prípade „podporu SPS“ pozdĺž osi Y, zatiaľ čo pri korelačnej analýze na tom nezáleží. Po vyčistení odľahlých hodnôt vyzerá bodový graf takto:

Základnou myšlienkou regresnej analýzy je, že ak máte všeobecný trend pre premenné - vo forme regresnej čiary - môžete predpovedať hodnotu závislej premennej, ktorá má hodnoty nezávisle.

Predstavme si obyčajnú matematickú lineárnu funkciu. Akákoľvek čiara v euklidovskom priestore môže byť opísaná vzorcom:

kde a je konštanta, ktorá udáva posun pozdĺž osi y; b - koeficient, ktorý určuje uhol čiary.

Keď poznáte sklon a konštantu, môžete vypočítať (predpovedať) hodnotu y pre ľubovoľné x.

Táto najjednoduchšia funkcia tvorila základ modelu regresnej analýzy s upozornením, že hodnotu y nebudeme predpovedať presne, ale v rámci určitého intervalu spoľahlivosti, t.j. približne.

Konštanta je priesečník regresnej priamky a osi y (priesečník F, v štatistických balíkoch zvyčajne označovaný ako "prienik"). V našom príklade hlasovania za SPS bude jeho zaokrúhlená hodnota 10,55. Koeficient sklonu b sa bude rovnať približne -0,1 (ako v korelačnej analýze, znamienko ukazuje typ vzťahu - priamy alebo inverzný). Výsledný model teda bude vyzerať SP C = -0,1 x Sel. nás. + 10,55.

ATP \u003d -0,10 x 47 + 10,55 \u003d 5,63.

Rozdiel medzi pôvodnými a predpokladanými hodnotami sa nazýva rezíduum (s týmto pojmom – zásadným pre štatistiku – sme sa už stretli pri analýze kontingenčných tabuliek). Takže v prípade Adygejskej republiky bude zvyšok 3,92 - 5,63 = -1,71. Čím väčšia je hodnota modulo zvyšku, tým je hodnota menej dobre predpovedaná.

Vypočítame predpokladané hodnoty a rezíduá pre všetky prípady:
Deje sa So. nás. Vďaka

(originál)

Vďaka

(predpokladané)

Zvyšky
Adygejská republika 47 3,92 5,63 -1,71 -
Altajská republika 76 5,4 2,59 2,81
Baškirská republika 36 6,04 6,78 -0,74
Burjatská republika 41 8,36 6,25 2,11
Dagestanská republika 59 1,22 4,37 -3,15
Ingušská republika 59 0,38 4,37 3,99
Atď.

Analýza pomeru počiatočných a predpokladaných hodnôt slúži na posúdenie kvality výsledného modelu, jeho predikčnej schopnosti. Jedným z hlavných ukazovateľov regresnej štatistiky je viacnásobný korelačný koeficient R - korelačný koeficient medzi pôvodnou a predpovedanou hodnotou závislej premennej. V párovej regresnej analýze sa rovná obvyklému Pearsonovmu korelačnému koeficientu medzi závislou a nezávislou premennou, v našom prípade - 0,63. Na zmysluplnú interpretáciu násobku R je potrebné ho previesť na koeficient determinácie. Robí sa to rovnakým spôsobom ako pri korelačnej analýze - kvadratúre. Koeficient determinácie R-štvorec (R 2) ukazuje podiel variácie v závisle premennej vysvetlenej nezávislými (nezávislými) premennými.

V našom prípade R2 = 0,39 (0,63 2); to znamená, že premenná „podiel vidieckeho obyvateľstva“ vysvetľuje asi 40 % variácií v premennej „podpora CPS“. Čím väčšia je hodnota koeficientu determinácie, tým je model kvalitnejší.

Ďalším meradlom kvality modelu je štandardná chyba odhadu. Toto je miera toho, do akej miery sú body „rozptýlené“ okolo regresnej priamky. Mierou rozptylu pre intervalové premenné je štandardná odchýlka. V súlade s tým je štandardná chyba odhadu štandardná odchýlka rozdelenia rezíduí. Čím je jeho hodnota vyššia, tým je spread väčší a model je horší. V našom prípade je štandardná chyba 2,18. Práve o túto hodnotu sa náš model „v priemere pomýli“ pri predpovedaní hodnoty premennej „podpora SPS“.

Regresná štatistika zahŕňa aj analýzu rozptylu. Pomocou nej zisťujeme: 1) aký podiel variácie (disperzie) závisle premennej vysvetľuje nezávislá premenná; 2) aký podiel rozptylu závislej premennej tvoria rezíduá (nevysvetlená časť); 3) aký je pomer týchto dvoch hodnôt (/ "-pomer). Štatistika rozptylu je obzvlášť dôležitá pre štúdie vzoriek - ukazuje, aká je pravdepodobnosť, že bude mať vzťah medzi nezávislými a závislými premennými vo všeobecnej populácii. , pre kontinuálne štúdie (ako v našom príklade) štúdia V tomto prípade sa kontroluje, či odhalená štatistická pravidelnosť je spôsobená zhodou náhodných okolností, nakoľko je charakteristická pre komplex podmienok, v ktorých sa skúmaná populácia nachádza. , t. j. nie je preukázané, že získaný výsledok neplatí pre nejaký rozsiahlejší všeobecný agregát, ale stupeň jeho pravidelnosti, oslobodenie od náhodných vplyvov.

V našom prípade je analýza štatistiky rozptylu nasledovná:

SS df PANI F význam
Regresia. 258,77 1,00 258,77 54,29 0.000000001
Zostávajúce 395,59 83,00 L,11
Celkom 654,36

Pomer F 54,29 je významný na úrovni 0,0000000001. V súlade s tým môžeme pokojne zamietnuť nulovú hypotézu (že vzťah, ktorý sme našli, je náhodný).

Podobnú funkciu plní kritérium t, ale s ohľadom na regresné koeficienty (uhlové a F-kríženie). Pomocou kritéria / testujeme hypotézu, že regresné koeficienty vo všeobecnej populácii sú rovné nule. V našom prípade môžeme opäť s istotou zamietnuť nulovú hypotézu.

Viacnásobná regresná analýza

Viacnásobný regresný model je takmer identický s párovým regresným modelom; jediný rozdiel je v tom, že do lineárnej funkcie je postupne zahrnutých niekoľko nezávislých premenných:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ak existuje viac ako dve nezávislé premenné, nie sme schopní získať vizuálnu reprezentáciu ich vzťahu; v tomto ohľade je viacnásobná regresia menej „viditeľná“ ako párová regresia. Ak existujú dve nezávislé premenné, môže byť užitočné zobraziť údaje v 3D bodovom grafe. V profesionálnych štatistických softvérových balíkoch (napríklad Statistica) existuje možnosť otáčania trojrozmerného grafu, čo umožňuje dobré vizuálne znázornenie štruktúry údajov.

Pri práci s viacnásobnou regresiou je na rozdiel od párovej regresie potrebné určiť algoritmus analýzy. Štandardný algoritmus zahŕňa všetky dostupné prediktory v konečnom regresnom modeli. Algoritmus krok za krokom zahŕňa postupné začlenenie (vylúčenie) nezávislých premenných na základe ich vysvetľujúcej „váhy“. Postupná metóda je dobrá, keď existuje veľa nezávislých premenných; „čistí“ model od úprimne slabých prediktorov, čím sa stáva kompaktnejším a stručnejším.

Ďalšou podmienkou pre správnosť viacnásobnej regresie (spolu s intervalom, normalitou a linearitou) je absencia multikolinearity – prítomnosť silných korelácií medzi nezávislými premennými.

Interpretácia viacnásobnej regresnej štatistiky zahŕňa všetky prvky, ktoré sme uvažovali pre prípad párovej regresie. Okrem toho existujú ďalšie dôležité zložky v štatistike viacnásobnej regresnej analýzy.

Prácu s viacnásobnou regresiou ilustrujeme na príklade testovania hypotéz, ktoré vysvetľujú rozdiely v úrovni volebnej aktivity v regiónoch Ruska. Špecifické empirické štúdie naznačujú, že volebnú účasť ovplyvňujú:

Národný faktor (premenná „ruská populácia“; operacionalizovaná ako podiel ruského obyvateľstva na zakladajúcich subjektoch Ruskej federácie). Predpokladá sa, že zvýšenie podielu ruského obyvateľstva vedie k zníženiu volebnej účasti;

Urbanizačný faktor (variabilné „mestské obyvateľstvo“; operacionalizované ako podiel mestského obyvateľstva v jednotlivých subjektoch Ruskej federácie, s týmto faktorom sme už pracovali v rámci korelačnej analýzy). Predpokladá sa, že nárast podielu mestského obyvateľstva vedie aj k poklesu volebnej účasti.

Závislá premenná - "intenzita volebnej aktivity" ("aktívna") je operacionalizovaná prostredníctvom údajov o priemernej volebnej účasti podľa krajov vo federálnych voľbách v rokoch 1995 až 2003. Počiatočná tabuľka údajov pre dve nezávislé a jednu závislú premennú bude mať nasledovnú podobu:

Deje sa Premenné
Aktíva. Gor. nás. Rus. nás.
Adygejská republika 64,92 53 68
Altajská republika 68,60 24 60
Burjatská republika 60,75 59 70
Dagestanská republika 79,92 41 9
Ingušská republika 75,05 41 23
Kalmycká republika 68,52 39 37
Karačajsko-čerkesská republika 66,68 44 42
Karelijská republika 61,70 73 73
republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

Atď. (po vyčistení emisií zostáva 83 prípadov z 88)

Štatistiky popisujúce kvalitu modelu:

1. Násobok R = 0,62; L-štvorec = 0,38. Národný faktor a faktor urbanizácie preto spolu vysvetľujú asi 38 % variácie premennej „volebná aktivita“.

2. Priemerná chyba je 3,38. Takto sa „v priemere“ mýli skonštruovaný model pri predikcii úrovne volebnej účasti.

3. /l-pomer vysvetlenej a nevysvetlenej variácie je 25,2 na úrovni 0,000000003. Nulová hypotéza o náhodnosti odhalených vzťahov sa zamieta.

4. Kritérium / pre konštantné a regresné koeficienty premenných „mestské obyvateľstvo“ a „ruské obyvateľstvo“ je významné na úrovni 0,0000001; 0,00005 a 0,007. Nulová hypotéza o náhodnosti koeficientov sa zamieta.

Ďalšie užitočné štatistiky pri analýze pomeru počiatočných a predpokladaných hodnôt závislej premennej sú Mahalanobisova vzdialenosť a Cookova vzdialenosť. Prvým je miera jedinečnosti prípadu (ukazuje, ako veľmi sa kombinácia hodnôt všetkých nezávislých premenných pre daný prípad odchyľuje od priemernej hodnoty pre všetky nezávislé premenné súčasne). Druhým je miera vplyvu prípadu. Rôzne pozorovania ovplyvňujú sklon regresnej priamky rôznymi spôsobmi a pomocou Cookovej vzdialenosti ich môžete porovnať podľa tohto ukazovateľa. Je to užitočné pri čistení odľahlých hodnôt (odľahlé hodnoty možno považovať za príliš vplyvný prípad).

V našom príklade je Dagestan jedným z jedinečných a vplyvných prípadov.

Deje sa Počiatočné

hodnoty

Predska

hodnoty

Zvyšky Vzdialenosť

Mahalanobis

Vzdialenosť
Adygea 64,92 66,33 -1,40 0,69 0,00
Altajská republika 68,60 69.91 -1,31 6,80 0,01
Burjatská republika 60,75 65,56 -4,81 0,23 0,01
Dagestanská republika 79,92 71,01 8,91 10,57 0,44
Ingušská republika 75,05 70,21 4,84 6,73 0,08
Kalmycká republika 68,52 69,59 -1,07 4,20 0,00

Aktuálny regresný model má nasledujúce parametre: Y-priesečník (konštanta) = 75,99; b (Hor. sat.) \u003d -0,1; b (Rus. nas.) = -0,06. Konečný vzorec.

Hlavnou črtou regresnej analýzy je, že ju možno použiť na získanie špecifických informácií o forme a povahe vzťahu medzi skúmanými premennými.

Postupnosť fáz regresnej analýzy

Pozrime sa stručne na fázy regresnej analýzy.

    Formulácia úlohy. V tomto štádiu sa vytvárajú predbežné hypotézy o závislosti študovaných javov.

    Definícia závislých a nezávislých (vysvetľujúcich) premenných.

    Zber štatistických údajov. Údaje sa musia zbierať pre každú z premenných zahrnutých v regresnom modeli.

    Formulácia hypotézy o forme spojenia (jednoduchá alebo viacnásobná, lineárna alebo nelineárna).

    Definícia regresné funkcie (spočíva vo výpočte číselných hodnôt parametrov regresnej rovnice)

    Hodnotenie presnosti regresnej analýzy.

    Interpretácia získaných výsledkov. Výsledky regresnej analýzy sú porovnané s predbežnými hypotézami. Hodnotí sa správnosť a hodnovernosť získaných výsledkov.

    Predikcia neznámych hodnôt závislej premennej.

Pomocou regresnej analýzy je možné vyriešiť problém prognózovania a klasifikácie. Prediktívne hodnoty sa vypočítajú nahradením hodnôt vysvetľujúcich premenných do regresnej rovnice. Klasifikačný problém je vyriešený týmto spôsobom: regresná čiara rozdeľuje celú množinu objektov do dvoch tried a časť množiny, kde je hodnota funkcie väčšia ako nula, patrí do jednej triedy a časť, kde je menšia ako nula patrí do inej triedy.

Úlohy regresnej analýzy

Zvážte hlavné úlohy regresnej analýzy: stanovenie formy závislosti, určenie regresné funkcie, odhad neznámych hodnôt závislej premennej.

Stanovenie formy závislosti.

Povaha a forma vzťahu medzi premennými môže tvoriť nasledujúce typy regresie:

    pozitívna lineárna regresia (vyjadrená ako rovnomerný rast funkcie);

    pozitívna rovnomerne sa zrýchľujúca regresia;

    pozitívna rovnomerne rastúca regresia;

    negatívna lineárna regresia (vyjadrená ako rovnomerný pokles funkcie);

    negatívna rovnomerne zrýchlená klesajúca regresia;

    negatívna rovnomerne klesajúca regresia.

Popísané odrody sa však zvyčajne nenachádzajú v čistej forme, ale vo vzájomnej kombinácii. V tomto prípade sa hovorí o kombinovaných formách regresie.

Definícia regresnej funkcie.

Druhou úlohou je určiť vplyv hlavných faktorov alebo príčin na závislú premennú, pričom všetky ostatné veci sú rovnaké a s výnimkou vplyvu náhodných prvkov na závislú premennú. regresná funkcia definované ako matematická rovnica jedného alebo druhého typu.

Odhad neznámych hodnôt závislej premennej.

Riešenie tohto problému sa redukuje na riešenie problému jedného z nasledujúcich typov:

    Odhad hodnôt závislej premennej v rámci uvažovaného intervalu počiatočných údajov, t.j. chýbajúce hodnoty; to rieši problém interpolácie.

    Odhad budúcich hodnôt závislej premennej, t.j. nájdenie hodnôt mimo daného intervalu počiatočných údajov; to rieši problém extrapolácie.

Oba problémy sa riešia dosadením nájdených odhadov parametrov hodnôt nezávislých premenných do regresnej rovnice. Výsledkom riešenia rovnice je odhad hodnoty cieľovej (závislej) premennej.

Pozrime sa na niektoré predpoklady, o ktoré sa regresná analýza opiera.

Predpoklad linearity, t.j. predpokladá sa, že vzťah medzi uvažovanými premennými je lineárny. Takže v tomto príklade sme vytvorili bodový graf a boli sme schopní vidieť jasný lineárny vzťah. Ak na rozptylovom grafe premenných vidíme jasnú absenciu lineárneho vzťahu, t.j. existuje nelineárny vzťah, mali by sa použiť nelineárne metódy analýzy.

Predpoklad normality zvyšky jedla. Predpokladá, že rozdelenie rozdielu medzi predpovedanými a pozorovanými hodnotami je normálne. Ak chcete vizuálne určiť povahu distribúcie, môžete použiť histogramy zvyšky jedla.

Pri použití regresnej analýzy je potrebné vziať do úvahy jej hlavné obmedzenie. Spočíva v tom, že regresná analýza vám umožňuje odhaliť iba závislosti a nie vzťahy, ktoré sú základom týchto závislostí.

Regresná analýza umožňuje posúdiť mieru asociácie medzi premennými výpočtom očakávanej hodnoty premennej na základe niekoľkých známych hodnôt.

Regresná rovnica.

Regresná rovnica vyzerá takto: Y=a+b*X

Pomocou tejto rovnice je premenná Y vyjadrená ako konštanta a a sklon priamky (alebo sklonu) b vynásobený hodnotou premennej X. Konštanta a sa tiež nazýva priesečník a sklon je regresia. koeficient alebo B-faktor.

Vo väčšine prípadov (ak nie vždy) existuje určitý rozptyl pozorovaní o regresnej priamke.

Zvyšok je odchýlka jednotlivého bodu (pozorovania) od regresnej priamky (predpovedaná hodnota).

Ak chcete vyriešiť problém regresnej analýzy v MS Excel, vyberte z ponuky servis"Balík analýzy" a nástroj regresnej analýzy. Zadajte vstupné intervaly X a Y. Vstupný interval Y je rozsah analyzovaných závislých údajov a musí obsahovať jeden stĺpec. Vstupný interval X je rozsah nezávislých údajov, ktoré sa majú analyzovať. Počet vstupných rozsahov nesmie presiahnuť 16.

Na výstupe procedúry vo výstupnom rozsahu dostaneme zostavu uvedenú v tabuľka 8.3a-8,3v.

VÝSLEDKY

Tabuľka 8.3a. Regresná štatistika

Regresná štatistika

Viacnásobné R

R-štvorec

Normalizovaný R-štvorec

štandardná chyba

Pozorovania

Najprv zvážte hornú časť výpočtov uvedených v tabuľka 8.3a, - regresná štatistika.

Hodnota R-štvorec, nazývaná aj miera istoty, charakterizuje kvalitu výslednej regresnej priamky. Táto kvalita je vyjadrená mierou zhody medzi pôvodnými údajmi a regresným modelom (vypočítané údaje). Miera istoty je vždy v rámci intervalu .

Vo väčšine prípadov hodnota R-štvorec je medzi týmito hodnotami, nazýva sa extrémna, t.j. medzi nulou a jednotkou.

Ak je hodnota R-štvorec blízko k jednote, to znamená, že skonštruovaný model vysvetľuje takmer všetku variabilitu zodpovedajúcich premenných. Naopak, hodnota R-štvorec, blízka nule, znamená zlú kvalitu skonštruovaného modelu.

V našom príklade je miera istoty 0,99673, čo naznačuje veľmi dobré prispôsobenie regresnej priamky pôvodným údajom.

množné číslo R - koeficient viacnásobnej korelácie R - vyjadruje mieru závislosti nezávisle premenných (X) a závisle premennej (Y).

Viacnásobné R rovná druhej odmocnine koeficientu determinácie, táto hodnota nadobúda hodnoty v rozsahu od nuly do jednej.

V jednoduchej lineárnej regresnej analýze množné číslo R rovná Pearsonovmu korelačnému koeficientu. naozaj, množné číslo R v našom prípade sa rovná Pearsonovmu korelačnému koeficientu z predchádzajúceho príkladu (0,998364).

Tabuľka 8.3b. Regresné koeficienty

Odds

štandardná chyba

t-štatistika

Priesečník Y

Premenná X1

* Uvádza sa skrátená verzia výpočtov

Teraz zvážte strednú časť výpočtov uvedených v tabuľka 8.3b. Tu je uvedený regresný koeficient b (2,305454545) a posun pozdĺž osi y, t.j. konštanta a (2,694545455).

Na základe výpočtov môžeme napísať regresnú rovnicu takto:

Y= x*2,305454545 + 2,694545455

Smer vzťahu medzi premennými je určený na základe znamienok (záporných alebo pozitívnych) regresných koeficientov (koeficient b).

Ak je znamienko regresného koeficientu kladné, vzťah medzi závislou premennou a nezávislou premennou bude pozitívny. V našom prípade je znamienko regresného koeficientu kladné, teda aj vzťah je kladný.

Ak je znamienko regresného koeficientu záporné, vzťah medzi závislou premennou a nezávisle premennou je negatívny (inverzný).

AT tabuľka 8.3c. sú prezentované výstupné výsledky zvyšky jedla. Aby sa tieto výsledky zobrazili v prehľade, je potrebné pri spustení nástroja "Regresia" aktivovať zaškrtávacie políčko "Residuals".

ZOSTÁVAJÚCE VYŤAŽENIE

Tabuľka 8.3c. Zvyšky

Pozorovanie

Predpokladaný Y

Zvyšky

Štandardné zostatky

Pomocou tejto časti správy môžeme vidieť odchýlky každého bodu od zostrojenej regresnej priamky. Najvyššia absolútna hodnota zvyšok v našom prípade - 0,778, najmenšia - 0,043. Pre lepšiu interpretáciu týchto údajov použijeme graf pôvodných údajov a zostrojenú regresnú priamku uvedenú na obr. ryža. 8.3. Ako vidíte, regresná čiara je celkom presne „prispôsobená“ hodnotám pôvodných údajov.

Treba vziať do úvahy, že uvažovaný príklad je pomerne jednoduchý a nie vždy je možné kvalitatívne zostrojiť lineárnu regresnú priamku.

Ryža. 8.3. Počiatočné údaje a regresná čiara

Problém odhadu neznámych budúcich hodnôt závislej premennej na základe známych hodnôt nezávislej premennej zostal nezohľadnený, t.j. prognostická úloha.

S regresnou rovnicou sa problém prognózy redukuje na vyriešenie rovnice Y= x*2,305454545+2,694545455 so známymi hodnotami x. Prezentované sú výsledky predikcie závislej premennej Y o šesť krokov dopredu v tabuľke 8.4.

Tabuľka 8.4. Výsledky predikcie premennej Y

Y (predpokladané)

V dôsledku použitia regresnej analýzy v balíku Microsoft Excel teda:

    zostavil regresnú rovnicu;

    stanovená forma závislosti a smer vzťahu medzi premennými - pozitívna lineárna regresia, ktorá je vyjadrená rovnomerným rastom funkcie;

    určil smer vzťahu medzi premennými;

    posúdil kvalitu výslednej regresnej priamky;

    boli schopní vidieť odchýlky vypočítaných údajov od údajov pôvodného súboru;

    predpovedal budúce hodnoty závislej premennej.

Ak regresná funkcia je definovaný, interpretovaný a odôvodnený a posúdenie presnosti regresnej analýzy spĺňa požiadavky, môžeme predpokladať, že skonštruovaný model a prediktívne hodnoty sú dostatočne spoľahlivé.

Predpovedané hodnoty získané týmto spôsobom sú priemerné hodnoty, ktoré možno očakávať.

V tomto článku sme zhodnotili hlavné charakteristiky deskriptívna štatistika a medzi nimi také pojmy ako priemerný,medián,maximálne,minimálne a ďalšie charakteristiky variácie údajov.

Prebehla aj krátka diskusia o koncepte emisie. Uvažované charakteristiky sa týkajú tzv. prieskumnej analýzy údajov, jej závery sa nemusia vzťahovať na všeobecnú populáciu, ale len na vzorku údajov. Prieskumná analýza údajov sa používa na vyvodenie primárnych záverov a vytvorenie hypotéz o všeobecnej populácii.

Zvážili sa aj základy korelačnej a regresnej analýzy, ich úlohy a možnosti praktického využitia.

Pojmy korelácia a regresia spolu priamo súvisia. Existuje mnoho bežných výpočtových techník v korelačnej a regresnej analýze. Používajú sa na identifikáciu príčinno-dôsledkových vzťahov medzi javmi a procesmi. Ak však korelačná analýza umožňuje vyhodnotiť silu a smer stochastického spojenia regresná analýza Je to tiež forma závislosti.

Regresia môže byť:

a) v závislosti od počtu javov (premenných):

Jednoduché (regresia medzi dvoma premennými);

Multiple (regresia medzi závislou premennou (y) a niekoľkými premennými, ktoré ju vysvetľujú (x1, x2 ... xn);

b) v závislosti od formy:

Lineárne (zobrazuje sa ako lineárna funkcia a medzi skúmanými premennými existujú lineárne vzťahy);

Nelineárne (zobrazené ako nelineárna funkcia, vzťah medzi skúmanými premennými je nelineárny);

c) podľa povahy vzťahu medzi premennými zahrnutými do úvahy:

Pozitívne (zvýšenie hodnoty vysvetľujúcej premennej vedie k zvýšeniu hodnoty závislej premennej a naopak);

Negatívne (so zvýšením hodnoty vysvetľujúcej premennej klesá hodnota vysvetľovanej premennej);

d) podľa typu:

Okamžité (v tomto prípade má príčina priamy vplyv na účinok, t. j. závislé a vysvetľujúce premenné spolu priamo súvisia);

Nepriame (vysvetľujúca premenná má nepriamy vplyv prostredníctvom tretej alebo viacerých iných premenných na závislú premennú);

Falošná (nezmyselná regresia) – môže vzniknúť pri povrchnom a formálnom prístupe k skúmaným procesom a javom. Príkladom nezmyslu je regresia, ktorá stanovuje vzťah medzi poklesom množstva vypitého alkoholu u nás a poklesom predaja pracieho prášku.

Pri vykonávaní regresnej analýzy sa riešia tieto hlavné úlohy:

1. Určenie formy závislosti.

2. Definícia regresnej funkcie. Na tento účel sa používa matematická rovnica jedného alebo druhého typu, ktorá umožňuje po prvé stanoviť všeobecný trend v zmene závislej premennej a po druhé vypočítať vplyv vysvetľujúcej premennej (alebo viacerých premenných) na závislá premenná.

3. Odhad neznámych hodnôt závislej premennej. Výsledná matematická závislosť (regresná rovnica) umožňuje určiť hodnotu závislej premennej tak v rozsahu daných hodnôt vysvetľujúcich premenných, ako aj mimo neho. V druhom prípade funguje regresná analýza ako užitočný nástroj pri predpovedaní zmien v sociálno-ekonomických procesoch a javoch (za predpokladu, že sa zachovajú existujúce trendy a vzťahy). Obyčajne sa dĺžka časového intervalu, pre ktorý sa vykonáva prognóza, volí tak, aby nepresahovala polovicu časového intervalu, počas ktorého sa vykonávali pozorovania počiatočných ukazovateľov. Je možné vykonať pasívnu predpoveď, ktorá rieši problém extrapolácie, aj aktívnu, uvažovanie podľa známej schémy „ak ... tak“ a dosadenie rôznych hodnôt do jednej alebo viacerých vysvetľujúcich regresných premenných.



Pre budovanie regresie používa špeciálnu metódu tzv metóda najmenších štvorcov. Táto metóda má oproti iným metódam vyhladzovania výhody: relatívne jednoduché matematické definovanie požadovaných parametrov a dobré teoretické zdôvodnenie z pravdepodobnostného hľadiska.

Pri výbere regresného modelu je jednou z podstatných požiadaviek naň zabezpečenie čo najväčšej jednoduchosti, ktorá umožňuje získať riešenie s dostatočnou presnosťou. Preto, aby sme vytvorili štatistické vzťahy, najprv spravidla uvažujme model z triedy lineárnych funkcií (ako najjednoduchšiu zo všetkých možných tried funkcií):

kde bi, b2...bj - koeficienty, ktoré určujú vplyv nezávislých premenných хij na hodnotu yi; ai - voľný člen; ei - náhodná odchýlka, ktorá odráža vplyv nezohľadnených faktorov na závislú premennú; n je počet nezávislých premenných; N je počet pozorovaní a podmienka (N . n+1) musí byť splnená.

Lineárny model môže popísať veľmi širokú triedu rôznych problémov. V praxi, najmä v sociálno-ekonomických systémoch, je však niekedy ťažké použiť lineárne modely z dôvodu veľkých aproximačných chýb. Preto sa často používajú nelineárne viacnásobné regresné funkcie, ktoré umožňujú linearizáciu. Medzi nimi je napríklad produkčná funkcia (mocinová funkcia Cobb-Douglasa), ktorá našla uplatnenie v rôznych sociálno-ekonomických štúdiách. Vyzerá to ako:

kde b 0 - normalizačný faktor, b 1 ...b j - neznáme koeficienty, e i - náhodná odchýlka.

Pomocou prirodzených logaritmov môžeme túto rovnicu previesť do lineárneho tvaru:

Výsledný model umožňuje použiť štandardné postupy lineárnej regresie opísané vyššie. Po zostavení modelov dvoch typov (aditívnych a multiplikatívnych) je možné vybrať tie najlepšie a vykonať ďalšie štúdie s menšími chybami aproximácie.

Existuje dobre vyvinutý systém výberu aproximačných funkcií - metóda skupinového účtovania argumentov(MGUA).

Správnosť zvoleného modelu možno posúdiť na základe výsledkov štúdie rezíduí, čo sú rozdiely medzi pozorovanými hodnotami y i a zodpovedajúcimi hodnotami predpovedanými pomocou regresnej rovnice y i. V tomto prípade na kontrolu vhodnosti modelu vypočítané priemerná chyba aproximácie:

Model sa považuje za primeraný, ak je e v rámci 15 % alebo menej.

Zdôrazňujeme najmä, že vo vzťahu k sociálno-ekonomickým systémom nie sú v žiadnom prípade vždy splnené základné podmienky primeranosti klasického regresného modelu.

Bez toho, aby sme sa pozastavili nad všetkými príčinami vzniknutej neadekvátnosti, budeme len menovať multikolinearita- najťažší problém efektívnej aplikácie postupov regresnej analýzy pri štúdiu štatistických závislostí. Pod multikolinearita rozumie sa prítomnosť lineárneho vzťahu medzi vysvetľujúcimi premennými.

Tento jav:

a) skresľuje význam regresných koeficientov pri ich zmysluplnej interpretácii;

b) znižuje presnosť odhadu (zvyšuje sa rozptyl odhadov);

c) zvyšuje citlivosť odhadov koeficientov na vzorové údaje (zväčšenie veľkosti vzorky môže výrazne ovplyvniť hodnoty odhadov).

Existujú rôzne techniky na zníženie multikolinearity. Najdostupnejším spôsobom je eliminovať jednu z dvoch premenných, ak korelačný koeficient medzi nimi prekročí hodnotu rovnajúcu sa absolútnej hodnote 0,8. O tom, ktorá z premenných sa má zachovať, sa rozhoduje na základe zmysluplných úvah. Potom sa znovu vypočítajú regresné koeficienty.

Použitie krokového regresného algoritmu vám umožňuje konzistentne zahrnúť jednu nezávislú premennú do modelu a analyzovať význam regresných koeficientov a multikolinearitu premenných. Nakoniec v skúmanej závislosti zostávajú len tie premenné, ktoré poskytujú potrebný význam regresných koeficientov a minimálny efekt multikolinearity.

V predchádzajúcich poznámkach sa pozornosť často zameriavala na jednu číselnú premennú, ako sú výnosy podielových fondov, čas načítania webovej stránky alebo spotreba nealkoholických nápojov. V tejto a nasledujúcich poznámkach zvážime metódy predpovedania hodnôt číselnej premennej v závislosti od hodnôt jednej alebo viacerých ďalších číselných premenných.

Materiál bude ilustrovaný pomocou príkladu. Predpovedanie objemu predaja v obchode s odevmi. Sieť diskontných predajní oblečenia Sunflowers sa už 25 rokov neustále rozširuje. Spoločnosť však v súčasnosti nemá systematický prístup k výberu nových predajní. Miesto, kde má spoločnosť v úmysle otvoriť novú predajňu, sa určuje na základe subjektívnych úvah. Kritériom výberu sú výhodné podmienky prenájmu alebo predstava manažéra o ideálnom umiestnení predajne. Predstavte si, že ste vedúcim oddelenia špeciálnych projektov a plánovania. Dostali ste za úlohu vypracovať strategický plán otvárania nových predajní. Tento plán by mal obsahovať prognózu ročného predaja v novootvorených predajniach. Domnievate sa, že predajný priestor priamo súvisí s príjmami a chcete túto skutočnosť zohľadniť vo svojom rozhodovacom procese. Ako vytvoríte štatistický model, ktorý predpovedá ročné tržby na základe novej veľkosti obchodu?

Regresná analýza sa zvyčajne používa na predpovedanie hodnôt premennej. Jeho cieľom je vyvinúť štatistický model, ktorý predpovedá hodnoty závislej premennej alebo odozvy z hodnôt aspoň jednej nezávislej alebo vysvetľujúcej premennej. V tejto poznámke zvážime jednoduchú lineárnu regresiu - štatistickú metódu, ktorá vám umožňuje predpovedať hodnoty závislej premennej Y hodnotami nezávislej premennej X. Nasledujúce poznámky budú popisovať viacnásobný regresný model určený na predpovedanie hodnôt nezávislej premennej Y hodnotami niekoľkých závislých premenných ( X1, X2, ..., X k).

Stiahnite si poznámku vo formáte alebo formáte, príklady vo formáte

Typy regresných modelov

kde ρ 1 je autokorelačný koeficient; ak ρ 1 = 0 (žiadna autokorelácia), D= 2; ak ρ 1 ≈ 1 (pozitívna autokorelácia), D= 0; ak ρ 1 = -1 (negatívna autokorelácia), D ≈ 4.

V praxi je použitie Durbin-Watsonovho kritéria založené na porovnaní hodnoty D s kritickými teoretickými hodnotami d L a d U pre daný počet pozorovaní n, počet nezávislých premenných modelu k(pre jednoduchú lineárnu regresiu k= 1) a hladina významnosti α. Ak D< d L , hypotéza nezávislosti náhodných odchýlok je zamietnutá (preto existuje pozitívna autokorelácia); ak D > d U, hypotéza nie je zamietnutá (to znamená, že neexistuje autokorelácia); ak dl< D < d U nie je dostatočný dôvod na rozhodnutie. Keď vypočítaná hodnota D potom presahuje 2 d L a d U nie samotný koeficient sa porovnáva D a výraz (4 – D).

Ak chcete vypočítať štatistiku Durbin-Watson v Exceli, obrátime sa na spodnú tabuľku na obr. štrnásť Výber zostatku. Čitateľ vo výraze (10) sa vypočíta pomocou funkcie = SUMMQDIFF(pole1, pole2) a menovateľ = SUMMQ(pole) (obr. 16).

Ryža. 16. Vzorce na výpočet Durbin-Watsonovej štatistiky

V našom príklade D= 0,883. Hlavná otázka znie: akú hodnotu Durbinovej-Watsonovej štatistiky treba považovať za dostatočne malú na to, aby sme dospeli k záveru, že existuje pozitívna autokorelácia? Je potrebné korelovať hodnotu D s kritickými hodnotami ( d L a d U) v závislosti od počtu pozorovaní n a hladina významnosti α (obr. 17).

Ryža. 17. Kritické hodnoty štatistiky Durbin-Watson (fragment tabuľky)

V probléme objemu predaja v predajni doručujúcej tovar až k vám domov teda existuje jedna nezávislá premenná ( k= 1), 15 pozorovaní ( n= 15) a hladina významnosti α = 0,05. v dôsledku toho d L= 1,08 a dU= 1,36. Pretože D = 0,883 < d L= 1,08, medzi rezíduami je pozitívna autokorelácia, nemožno použiť metódu najmenších štvorcov.

Testovanie hypotéz o sklone a korelačných koeficientoch

Vyššie uvedená regresia sa použila výlučne na prognózovanie. Určiť regresné koeficienty a predpovedať hodnotu premennej Y pre danú premennú hodnotu X bola použitá metóda najmenších štvorcov. Okrem toho sme zvážili štandardnú chybu odhadu a koeficient zmiešanej korelácie. Ak reziduálna analýza potvrdí, že podmienky použiteľnosti metódy najmenších štvorcov nie sú porušené a jednoduchý lineárny regresný model je na základe údajov zo vzorky primeraný, možno tvrdiť, že medzi premennými v populácii existuje lineárny vzťah.

Aplikáciat -kritériá pre sklon. Kontrolou, či je sklon populácie β 1 rovný nule, je možné určiť, či existuje štatisticky významný vzťah medzi premennými X a Y. Ak je táto hypotéza zamietnutá, možno tvrdiť, že medzi premennými X a Y existuje lineárny vzťah. Nulová a alternatívna hypotéza sú formulované takto: H 0: β 1 = 0 (žiadny lineárny vzťah), H1: β 1 ≠ 0 (existuje lineárny vzťah). Podľa definície t-štatistika sa rovná rozdielu medzi sklonom vzorky a hypotetickým sklonom populácie vydeleným štandardnou chybou odhadu sklonu:

(11) t = (b 1 β 1 ) / Sb 1

kde b 1 je sklon priamej regresie na základe údajov vzorky, β1 je hypotetický sklon priamej všeobecnej populácie, a štatistiky testov tt- distribúcia s n - 2 stupne slobody.

Overme si, či existuje štatisticky významný vzťah medzi veľkosťou predajne a ročným obratom pri α = 0,05. t-kritériá sa pri používaní zobrazujú spolu s ďalšími parametrami Analytický balík(možnosť Regresia). Úplné výsledky analytického balíka sú znázornené na obr. 4 fragment súvisiaci s t-štatistikou - na obr. osemnásť.

Ryža. 18. Výsledky aplikácie t

Pretože počet obchodov n= 14 (pozri obr. 3), kritická hodnota t-štatistiku na hladine významnosti α = 0,05 možno nájsť podľa vzorca: t L=STUDENT.INV(0,025;12) = -2,1788, kde 0,025 je polovica hladiny významnosti a 12 = n – 2; t U\u003d STUDENT.INV (0,975; 12) \u003d +2,1788.

Pretože t-štatistika = 10,64 > t U= 2,1788 (obr. 19), nulová hypotéza H 0 sa odmieta. Na druhej strane, R- hodnota za X\u003d 10,6411, vypočítané podľa vzorca \u003d 1-STUDENT.DIST (D3, 12, TRUE), sa približne rovná nule, takže hypotéza H 0 je opäť zamietnutá. Skutočnosť, že R-hodnota je takmer nulová, čo znamená, že ak by neexistoval skutočný lineárny vzťah medzi veľkosťou predajne a ročným obratom, bolo by takmer nemožné ju odhaliť pomocou lineárnej regresie. Preto existuje štatisticky významný lineárny vzťah medzi priemerným ročným predajom predajne a veľkosťou predajne.

Ryža. 19. Testovanie hypotézy o sklone všeobecnej populácie na hladine významnosti 0,05 a 12 stupňov voľnosti

AplikáciaF -kritériá pre sklon. Alternatívnym prístupom k testovaniu hypotéz o sklone jednoduchej lineárnej regresie je použitie F-kritériá. Pripomeň si to F-kritérium sa používa na testovanie vzťahu medzi dvoma rozptylmi (pozri podrobnosti). Pri testovaní hypotézy sklonu je mierou náhodných chýb rozptyl chýb (súčet štvorcových chýb delený počtom stupňov voľnosti), takže F-test používa pomer rozptylu vysvetleného regresiou (t.j. hodnoty SSR delené počtom nezávislých premenných k), na odchýlku chyby ( MSE=S YX 2 ).

Podľa definície F-štatistika sa rovná priemernej štvorcovej odchýlke v dôsledku regresie (MSR) vydelenej odchýlkou ​​chyby (MSE): F = MSR/ MSE, kde MSR=SSR / k, MSE =SSE/(n– k – 1), k je počet nezávislých premenných v regresnom modeli. Testovacie štatistiky FF- distribúcia s k a n– k – 1 stupne slobody.

Pre danú hladinu významnosti α je rozhodovacie pravidlo formulované takto: ak F > FU, nulová hypotéza je zamietnutá; v opačnom prípade sa neodmieta. Výsledky, prezentované vo forme súhrnnej tabuľky analýzy rozptylu, sú znázornené na obr. dvadsať.

Ryža. 20. Tabuľka analýzy rozptylu na testovanie hypotézy štatistickej významnosti regresného koeficientu

Podobne t-kritérium F-kritériá sú zobrazené v tabuľke pri použití Analytický balík(možnosť Regresia). Kompletné výsledky práce Analytický balík znázornené na obr. 4, fragment súvisiaci s F-štatistika - na obr. 21.

Ryža. 21. Výsledky aplikácie F- Kritériá získané pomocou Excel Analysis ToolPack

F-štatistika je 113,23 a R-hodnota blízka nule (bunka VýznamF). Ak je hladina významnosti α 0,05, určte kritickú hodnotu F-zo vzorca možno získať rozdelenia s jedným a 12 stupňami voľnosti F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (obr. 22). Pretože F = 113,23 > F U= 4,7472 a R- hodnota blízka 0< 0,05, нулевая гипотеза H 0 odchyľuje, t.j. Veľkosť predajne úzko súvisí s jej ročným objemom predaja.

Ryža. 22. Testovanie hypotézy o sklone všeobecnej populácie na hladine významnosti 0,05, s jedným a 12 stupňami voľnosti

Interval spoľahlivosti obsahujúci sklon β 1 . Na testovanie hypotézy o existencii lineárneho vzťahu medzi premennými môžete zostaviť interval spoľahlivosti obsahujúci sklon β 1 a uistiť sa, že hypotetická hodnota β 1 ​​= 0 patrí do tohto intervalu. Stred intervalu spoľahlivosti obsahujúceho sklon β 1 je sklon vzorky b 1 , a jeho hranicami sú množstvá b 1 ±t n –2 Sb 1

Ako je znázornené na obr. osemnásť, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975; 12) \u003d 2,1788. v dôsledku toho b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 alebo + 1,328 ≤ p1 ≤ +2,012. Sklon populácie teda s pravdepodobnosťou 0,95 leží v rozmedzí od +1,328 do +2,012 (t.j. od 1 328 000 do 2 012 000 USD). Pretože tieto hodnoty sú väčšie ako nula, existuje štatisticky významný lineárny vzťah medzi ročným predajom a plochou predajne. Ak by interval spoľahlivosti obsahoval nulu, medzi premennými by neexistoval žiadny vzťah. Okrem toho interval spoľahlivosti znamená, že každých 1 000 m2. stôp má za následok zvýšenie priemerného predaja o 1 328 000 USD na 2 012 000 USD.

Použitiet -kritériá pre korelačný koeficient. bol zavedený korelačný koeficient r, čo je miera vzťahu medzi dvoma číselnými premennými. Môže sa použiť na určenie, či existuje štatisticky významný vzťah medzi dvoma premennými. Korelačný koeficient medzi populáciami oboch premenných označme symbolom ρ. Nulová a alternatívna hypotéza sú formulované takto: H 0: ρ = 0 (žiadna korelácia), H 1: ρ ≠ 0 (existuje korelácia). Kontrola existencie korelácie:

kde r = + , ak b 1 > 0, r = – , ak b 1 < 0. Тестовая статистика tt- distribúcia s n - 2 stupne slobody.

V probléme obchodného reťazca Sunflowers r2= 0,904 a b 1- +1,670 (pozri obr. 4). Pretože b 1> 0, korelačný koeficient medzi ročným obratom a veľkosťou predajne je r= +√0,904 = +0,951. Otestujme pomocou nulovej hypotézy, že medzi týmito premennými neexistuje žiadna korelácia t- štatistiky:

Na hladine významnosti α = 0,05 by mala byť nulová hypotéza zamietnutá, pretože t= 10,64 > 2,1788. Dá sa teda tvrdiť, že medzi ročným obratom a veľkosťou predajne existuje štatisticky významný vzťah.

Pri diskusii o záveroch o sklone populácie sú intervaly spoľahlivosti a kritériá na testovanie hypotéz vzájomne zameniteľné nástroje. Výpočet intervalu spoľahlivosti obsahujúceho korelačný koeficient sa však ukazuje ako zložitejší, keďže forma výberového rozdelenia štatistických údajov r závisí od skutočného korelačného koeficientu.

Odhad matematického očakávania a predikcie jednotlivých hodnôt

Táto časť pojednáva o metódach odhadu očakávanej odozvy Y a predpovede jednotlivých hodnôt Y pre dané hodnoty premennej X.

Konštrukcia intervalu spoľahlivosti. V príklade 2 (pozri časť vyššie Metóda najmenších štvorcov) regresná rovnica umožnila predpovedať hodnotu premennej Y X. Pri probléme výberu miesta pre maloobchod je priemerný ročný obrat v obchode s rozlohou 4000 m2. stôp sa rovnalo 7,644 miliónom dolárov. Tento odhad matematických očakávaní všeobecnej populácie je však bodom. na odhadnutie matematických očakávaní všeobecnej populácie bol navrhnutý koncept intervalu spoľahlivosti. Podobne je možné zaviesť koncept interval spoľahlivosti pre matematické očakávanie odpovede pre danú hodnotu premennej X:

kde , = b 0 + b 1 X i– premenná predpokladanej hodnoty Y pri X = X i, S YX je stredná kvadratická chyba, n je veľkosť vzorky, Xi- daná hodnota premennej X, µ Y|X = Xi– matematické očakávanie premennej Y pri X = Х i,SSX=

Analýza vzorca (13) ukazuje, že šírka intervalu spoľahlivosti závisí od viacerých faktorov. Na danej hladine významnosti vedie zvýšenie amplitúdy fluktuácií okolo regresnej priamky, merané pomocou strednej štvorcovej chyby, k zväčšeniu šírky intervalu. Na druhej strane, ako sa očakávalo, nárast veľkosti vzorky je sprevádzaný zúžením intervalu. Okrem toho sa šírka intervalu mení v závislosti od hodnôt Xi. Ak je hodnota premennej Y predpovedané pre množstvá X, blízko priemernej hodnoty interval spoľahlivosti sa ukáže byť užší ako pri predpovedaní odozvy pre hodnoty ďaleko od priemeru.

Povedzme, že pri výbere miesta pre predajňu chceme vybudovať 95% interval spoľahlivosti pre priemerné ročné tržby vo všetkých predajniach s rozlohou 4000 metrov štvorcových. nohy:

Preto je priemerný ročný objem predaja vo všetkých predajniach s rozlohou 4000 metrov štvorcových. stôp, s 95% pravdepodobnosťou leží v rozmedzí od 6,971 do 8,317 milióna dolárov.

Vypočítajte interval spoľahlivosti pre predpokladanú hodnotu. Okrem intervalu spoľahlivosti pre matematické očakávanie odozvy pre danú hodnotu premennej X, je často potrebné poznať interval spoľahlivosti pre predpovedanú hodnotu. Hoci vzorec na výpočet takéhoto intervalu spoľahlivosti je veľmi podobný vzorcu (13), tento interval obsahuje predpokladanú hodnotu a nie odhad parametra. Interval pre predpokladanú odpoveď YX = Xi pre konkrétnu hodnotu premennej Xi sa určuje podľa vzorca:

Predpokladajme, že pri výbere miesta pre predajňu chceme vybudovať 95% interval spoľahlivosti pre predpokladaný ročný objem predaja v predajni s rozlohou 4000 metrov štvorcových. nohy:

Preto predpokladaný ročný objem predaja pre 4 000 m2. stôp, s 95% pravdepodobnosťou leží v rozmedzí od 5,433 do 9,854 milióna dolárov Ako vidíte, interval spoľahlivosti pre predpovedanú hodnotu odozvy je oveľa širší ako interval spoľahlivosti pre jej matematické očakávania. Je to preto, že variabilita pri predpovedaní jednotlivých hodnôt je oveľa väčšia ako pri odhadovaní očakávanej hodnoty.

Úskalia a etické problémy spojené s používaním regresie

Ťažkosti spojené s regresnou analýzou:

  • Ignorovanie podmienok použiteľnosti metódy najmenších štvorcov.
  • Chybný odhad podmienok použiteľnosti metódy najmenších štvorcov.
  • Nesprávny výber alternatívnych metód v rozpore s podmienkami použiteľnosti metódy najmenších štvorcov.
  • Aplikácia regresnej analýzy bez hlbších znalostí predmetu štúdia.
  • Extrapolácia regresie za rozsah vysvetľujúcej premennej.
  • Zámena medzi štatistickými a kauzálnymi vzťahmi.

Široké používanie tabuliek a štatistického softvéru odstránilo problémy s výpočtom, ktoré bránili použitiu regresnej analýzy. To však viedlo k tomu, že regresnú analýzu začali využívať používatelia, ktorí nemajú dostatočnú kvalifikáciu a znalosti. Ako sa používatelia dozvedia o alternatívnych metódach, ak mnohí z nich vôbec netušia o podmienkach použiteľnosti metódy najmenších štvorcov a nevedia, ako skontrolovať ich implementáciu?

Výskumník by sa nemal nechať unášať brúsením čísel – výpočtom posunu, sklonu a zmiešaného korelačného koeficientu. Potrebuje hlbšie vedomosti. Ilustrujme si to na klasickom príklade prevzatom z učebníc. Anscombe ukázal, že všetky štyri súbory údajov zobrazené na obr. 23 majú rovnaké regresné parametre (obr. 24).

Ryža. 23. Štyri umelé súbory údajov

Ryža. 24. Regresná analýza štyroch súborov umelých údajov; hotovo Analytický balík(kliknutím na obrázok sa obrázok zväčší)

Takže z pohľadu regresnej analýzy sú všetky tieto súbory údajov úplne identické. Ak by tam analýza skončila, prišli by sme o množstvo užitočných informácií. Dôkazom toho sú bodové grafy (obr. 25) a reziduálne grafy (obr. 26) vytvorené pre tieto súbory údajov.

Ryža. 25. Bodové grafy pre štyri súbory údajov

Bodové grafy a reziduálne grafy ukazujú, že tieto údaje sa navzájom líšia. Jediná množina rozložená pozdĺž priamky je množina A. Graf rezíduí vypočítaný zo množiny A nesleduje žiadnu pravidelnosť. To isté nemožno povedať o súboroch B, C a D. Bodový graf vynesený pre súbor B ukazuje výrazný kvadratický vzor. Tento záver potvrdzuje graf zvyškov, ktorý má parabolický tvar. Bodový graf a reziduálny graf ukazujú, že súbor údajov B ​​obsahuje odľahlú hodnotu. V tejto situácii je potrebné vylúčiť zo súboru údajov odľahlú hodnotu a zopakovať analýzu. Technika detekcie a eliminácie odľahlých hodnôt z pozorovaní sa nazýva analýza vplyvu. Po odstránení odľahlej hodnoty môže byť výsledok prehodnotenia modelu úplne iný. Bodový graf zo súboru údajov D ilustruje neobvyklú situáciu, v ktorej je empirický model vysoko závislý od jedinej odpovede ( X 8 = 19, Y 8 = 12,5). Takéto regresné modely je potrebné vypočítať obzvlášť opatrne. Takže rozptylové a reziduálne grafy sú základným nástrojom regresnej analýzy a mali by byť jej neoddeliteľnou súčasťou. Bez nich nie je regresná analýza dôveryhodná.

Ryža. 26. Grafy rezíduí pre štyri súbory údajov

Ako sa vyhnúť nástrahám regresnej analýzy:

  • Analýza možného vzťahu medzi premennými X a Y vždy začnite bodovým grafom.
  • Pred interpretáciou výsledkov regresnej analýzy skontrolujte podmienky jej použiteľnosti.
  • Zostavte rezíduá oproti nezávislej premennej. To nám umožní určiť, do akej miery empirický model zodpovedá výsledkom pozorovania, a odhaliť porušenie stálosti rozptylu.
  • Na testovanie predpokladu normálneho rozdelenia chýb použite histogramy, grafy stonky a listov, krabicové grafy a grafy normálneho rozloženia.
  • Ak nie sú splnené podmienky použiteľnosti metódy najmenších štvorcov, použite alternatívne metódy (napríklad kvadratické alebo viacnásobné regresné modely).
  • Ak sú splnené podmienky použiteľnosti metódy najmenších štvorcov, je potrebné otestovať hypotézu o štatistickej významnosti regresných koeficientov a zostrojiť intervaly spoľahlivosti obsahujúce matematické očakávanie a predpovedanú hodnotu odozvy.
  • Vyhnite sa predpovedaniu hodnôt závislej premennej mimo rozsahu nezávislej premennej.
  • Majte na pamäti, že štatistické závislosti nie sú vždy kauzálne. Pamätajte, že korelácia medzi premennými neznamená, že medzi nimi existuje kauzálny vzťah.

Zhrnutie. Ako ukazuje bloková schéma (obr. 27), poznámka popisuje jednoduchý lineárny regresný model, podmienky jeho použiteľnosti a spôsoby testovania týchto podmienok. Zvážené t-kritérium na testovanie štatistickej významnosti sklonu regresie. Na predpovedanie hodnôt závislej premennej bol použitý regresný model. Príklad sa považuje za súvisiaci s výberom miesta pre maloobchod, v ktorom sa študuje závislosť ročného objemu predaja od predajnej plochy. Získané informácie vám umožňujú presnejšie vybrať miesto pre predajňu a predpovedať jej ročné tržby. V nasledujúcich poznámkach bude diskusia o regresnej analýze pokračovať, ako aj o viacerých regresných modeloch.

Ryža. 27. Bloková schéma noty

Využívajú sa materiály z knihy Levin et al Štatistika pre manažérov. - M.: Williams, 2004. - s. 792–872

Ak je závislá premenná kategorická, mala by sa použiť logistická regresia.