Regressioyhtälön tilastot. Etsitään lineaarisen regressioyhtälön parametrit ja annetaan taloudellinen tulkinta regressiokertoimesta

x:tä kutsutaan ennustajaksi, joka on riippumaton tai selittävä muuttuja.

Tietylle suurelle x Y on arviointirivillä olevan y-muuttujan (jota kutsutaan riippuvaiseksi, lähtö- tai vastemuuttujaksi) arvo. Tämä on arvo, jonka odotamme y:lle (keskimäärin), jos tiedämme x:n arvon, ja sitä kutsutaan "y:n ennustetuksi arvoksi" (kuva 5).

a on arviointiviivan vapaa termi (leikkauskohta); tämä on Y:n arvo, kun x = 0.

b on estimoidun viivan kaltevuus tai gradientti; se edustaa määrää, jolla Y kasvaa keskimäärin, jos lisäämme x:ää yhdellä yksiköllä (kuva 5). Kerrointa b kutsutaan regressiokertoimeksi.

Esimerkiksi: Kun henkilön ruumiinlämpö nousee 1 o C, syke nousee keskimäärin 10 lyöntiä minuutissa.

Kuva 5. Lineaarinen regressioviiva, joka esittää kertoimen A ja kaltevuus b(lisäyksen määrä Y kasvaessa X yksikköä kohti)

Matemaattisesti lineaarisen regressioyhtälön ratkaiseminen rajoittuu parametrien a ja b laskemiseen siten, että korrelaatiokentän alkutietojen pisteet olla mahdollisimman lähellä suoraa regressiota .

Sanan regressio tilastollinen käyttö tulee ilmiöstä, joka tunnetaan nimellä regressio keskiarvoon ja jonka Francis Galtonin (1889) ansioksi luetaan. Hän osoitti, että vaikka pitkillä isillä on yleensä pitkiä poikia, poikien keskipituus on lyhyempi kuin pitkien isien. Poikien keskipituus "regressi" tai "siirtyi taaksepäin" kohti väestön kaikkien isien keskipituutta. Siten pitkillä isillä on keskimäärin lyhyempiä (mutta silti melko pitkiä) poikia, ja lyhyillä isillä on pitkiä (mutta silti melko lyhyitä) poikia.

Näemme regression keskiarvoon seulonnassa ja kliinisissä kokeissa, joissa potilaiden alaryhmä voidaan valita hoitoon, koska heidän tietyn muuttujan, esimerkiksi kolesterolin, tasot ovat erittäin korkeat (tai matalat). Jos tämä mittaus toistetaan ajan mittaan, alaryhmän toisen lukeman keskiarvo on yleensä pienempi kuin ensimmäisen lukeman, ja se suuntautuu (eli regressioi) kohti iän ja sukupuolen mukaan vastaavan väestön keskiarvoa riippumatta siitä, mitä hoitoa he ovat saaneet. Potilaat, jotka on värvätty kliiniseen tutkimukseen korkean kolesterolitason perusteella ensimmäisessä tutkimuksessaan, todennäköisesti osoittavat keskimäärin kolesterolitason laskua toisessa tutkimuksessa, vaikka heitä ei olisi hoidettu tänä aikana.

Usein regressioanalyysimenetelmää käytetään fyysisen kehityksen normatiivisten asteikkojen ja standardien kehittämiseen.


Kuinka hyvin regressioviiva sopii dataan, voidaan arvioida laskemalla kerroin R (yleensä ilmaistuna prosentteina ja jota kutsutaan determinaatiokertoimeksi), joka on yhtä suuri kuin korrelaatiokertoimen (r2) neliö. Se edustaa y:n varianssin osuutta tai prosenttiosuutta, joka voidaan selittää sen suhteella x:n kanssa, ts. riippumattoman attribuutin vaikutuksesta kehittyneen tulos-attribuutin vaihtelun osuus. Voi ottaa arvoja välillä 0 - 1 tai 0 - 100%. Ero (100 % - R) edustaa y:n varianssin prosenttiosuutta, jota ei voida selittää tällä vuorovaikutuksella.

Esimerkki

Pituuden (mitattuna cm) ja systolisen verenpaineen (SBP, mitattuna mmHg) välinen suhde lapsilla. Teimme parillisen lineaarisen regressioanalyysin SBP:n ja pituuden välisestä suhteesta (kuva 6). Korkeuden ja SBP:n välillä on merkittävä lineaarinen suhde.

Kuva 6. Kaksiulotteinen kaavio, joka esittää systolisen verenpaineen ja pituuden välistä suhdetta. Arvioitu regressioviiva, systolinen verenpaine, on kuvattu.

Arvioidun regressioviivan yhtälö on seuraava:

SBP = 46,28 + 0,48 x korkeus.

Tässä esimerkissä leikkauspiste ei ole kiinnostava (nollan kasvu on selvästi tutkimuksessa havaittujen arvojen alueen ulkopuolella). Voimme kuitenkin tulkita kaltevuuden; Verenpaineen ennustetaan kohoavan näillä lapsilla keskimäärin 0,48 mmHg. korkeuden nousulla senttimetrillä

Voimme käyttää regressioyhtälöä ennustamaan SBP:tä, jonka odotamme lapsella olevan tietyllä pituudella. Esimerkiksi 115 cm pituisen lapsen ennustettu SBP on 46,28 + (0,48 x 115) = 101,48 mmHg. Art., 130-pitkän lapsen ennustettu verenpaine on 46,28 + (0,48 x 130) = 108,68 mmHg. Taide.

Korrelaatiokerrointa laskettaessa havaittiin, että se oli 0,55, mikä osoittaa keskimääräisen voimakkuuden suoraa korrelaatiota. Tässä tapauksessa determinaatiokerroin r 2 = 0,55 2 = 0,3. Siten voidaan sanoa, että pituuden vaikutuksen osuus lasten verenpainetasoon ei ylitä 30%; vastaavasti muut tekijät muodostavat 70% vaikutuksesta.

Lineaarinen (yksinkertainen) regressio rajoittuu riippuvan muuttujan ja vain yhden riippumattoman muuttujan välisen suhteen tarkasteluun. Jos suhteessa on useampi kuin yksi riippumaton muuttuja, meidän on käännyttävä moninkertaiseen regressioon. Tällaisen regression yhtälö näyttää tältä:

y = a + bx 1 +b 2 x 2 +.... + b n x n

Voi olla kiinnostunut useiden riippumattomien muuttujien x 1, x 2, .., x n vaikutuksesta vastemuuttujaan y. Jos uskomme, että nämä x:t voivat olla toisistaan ​​riippuvaisia, meidän ei pitäisi tarkastella erikseen yhden x:n arvon muutoksen vaikutusta y:ään, vaan samanaikaisesti on otettava huomioon kaikkien muiden x:ien suuruus.

Esimerkki

Koska lapsen pituuden ja painon välillä on vahva yhteys, voidaan miettiä, muuttuuko pituuden ja systolisen verenpaineen suhde myös, kun lapsen paino ja sukupuoli otetaan huomioon. Moninkertainen lineaarinen regressio tutkii näiden useiden riippumattomien muuttujien yhteisvaikutusta y:hen.

Tässä tapauksessa moninkertainen regressioyhtälö voi näyttää tältä:

SBP = 79,44 – (0,03 x pituus) + (1,18 x paino) + (4,23 x sukupuoli)*

* - (sukupuoli-attribuutille arvot ovat 0 - poika, 1 - tyttö)

Tämän yhtälön mukaan tytöllä, jonka pituus on 115 cm ja paino 37 kg, on ennustettu SBP:

SBP = 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) = 123,88 mmHg.

Logistinen regressio on hyvin samanlainen kuin lineaarinen regressio; sitä käytetään, kun on olemassa kiinnostava binaarinen tulos (eli oireen esiintyminen/puuttuminen tai henkilö, jolla on/ei ole sairautta) ja useita ennustajia. Logistisen regressioyhtälön perusteella voidaan määrittää, mitkä ennustajat vaikuttavat lopputulokseen, ja arvioida potilaan ennustusarvojen avulla todennäköisyys, että hänellä on tietty lopputulos. Esimerkiksi: syntyykö komplikaatioita vai ei, onko hoito tehokasta vai ei.

Aloita binäärimuuttujan luominen edustamaan kahta lopputulosta (esim. "on sairaus" = 1, "ei ole sairautta" = 0). Emme kuitenkaan voi soveltaa näitä kahta arvoa riippuvaisena muuttujana lineaarisessa regressioanalyysissä, koska normaaliolooletus on rikottu, emmekä voi tulkita ennustettuja arvoja, jotka eivät ole yhtä suuria kuin nolla tai yksi.

Itse asiassa otamme sen sijaan todennäköisyyden, että kohde luokitellaan riippuvaisen muuttujan lähimpään luokkaan (eli "on sairaus"), ja matemaattisten vaikeuksien voittamiseksi käytämme regressioyhtälöön logistista muutosta - luonnollista "sairauden" (p) todennäköisyyssuhteen logaritmi todennäköisyyteen "ei sairautta" (1-p).

Integratiivinen prosessi, jota kutsutaan maksimitodennäköisyydeksi tavallisen regression sijaan (koska emme voi soveltaa lineaarista regressiomenettelyä), luo arvion logistisesta regressioyhtälöstä näytetiedoista.

logit (p) = a + bx 1 +b 2 x 2 +.... + b n x n

logit (p) - arvio todellisesta todennäköisyydestä, että potilaalla, jolla on yksilöllinen arvosarja x 1 ... x n, on sairaus;

a on vakion estimaatti (vapaa termi, leikkauspiste);

b 1, b 2,..., b n - logististen regressiokertoimien estimaatit.

1. Kysymyksiä oppitunnin aiheesta:

1. Määrittele toiminnalliset ja korrelaatioyhteydet.

2. Anna esimerkkejä suorista ja käänteisistä korrelaatioista.

3. Ilmoita ominaisuuksien välisten heikkojen, keskisuurten ja vahvojen yhteyksien korrelaatiokertoimien koot.

4. Missä tapauksissa korrelaatiokertoimen laskennassa käytetään rank-menetelmää?

5. Missä tapauksissa Pearson-korrelaatiokertoimen laskentaa käytetään?

6. Mitkä ovat tärkeimmät vaiheet korrelaatiokertoimen laskennassa rank-menetelmällä?

7. Määrittele "regressio". Mikä on regressiomenetelmän ydin?

8. Kuvaile yksinkertaisen lineaarisen regressioyhtälön kaava.

9. Määritä regressiokerroin.

10. Millaisen johtopäätöksen voi tehdä, jos painon regressiokerroin pituuteen on 0,26 kg/cm?

11. Mihin regressioyhtälön kaavaa käytetään?

12. Mikä on determinaatiokerroin?

13. Missä tapauksissa käytetään moninkertaista regressioyhtälöä?

14. Mihin logistista regressiomenetelmää käytetään?

Tehtävä.

Alueen kevyen teollisuuden yrityksistä saatiin tietoa, joka luonnehtii tuotannon määrän (Y, milj. ruplaa) riippuvuutta pääomainvestointien määrästä (Y, milj. ruplaa).

Pöytä 1.

Tuotantovolyymin riippuvuus pääomainvestointien määrästä.

X
Y

Edellytetään:

1. Etsi lineaarisen regressioyhtälön parametrit, anna taloudellinen tulkinta regressiokertoimesta.

2. Laske jäännökset; etsi neliöiden jäännössumma; arvioida jäännösten varianssi; piirrä jäännökset.

3. Tarkista MNC:n edellytysten täyttyminen.

4. Tarkista regressioyhtälön parametrien merkitsevyys Studentin t-testillä (α = 0,05).

5. Laske determinaatiokerroin, tarkista regressioyhtälön merkitsevyys Fisherin F-testillä (α = 0,05), selvitä approksimoinnin keskimääräinen suhteellinen virhe. Tee johtopäätös mallin laadusta.

6. Ennusta indikaattorin Y keskiarvo merkitsevyystasolla α = 0,1, jos tekijän X ennustettu arvo on 80 % sen maksimiarvosta.

7. Esitä graafisesti ennustepisteen todelliset ja mallin Y-arvot.

8. Luo epälineaariset regressioyhtälöt ja piirrä ne:

Hyperbolinen;

Voimakas;

Suuntaa antava.

9. Etsi osoitetuille malleille determinaatiokertoimet ja keskimääräiset suhteelliset approksimaatiovirheet. Vertaa malleja näiden ominaisuuksien perusteella ja tee johtopäätös.

Etsitään lineaarisen regressioyhtälön parametrit ja annetaan taloudellinen tulkinta regressiokertoimesta.

Lineaarisen regression yhtälö on: ,

Laskelmat parametrien a ja b löytämiseksi on esitetty taulukossa 2.

Taulukko 2.

Arvojen laskeminen lineaarisen regressioyhtälön parametrien löytämiseksi.

Regressioyhtälö näyttää tältä: y = 13,8951 + 2,4016*x.

Pääomasijoitusten määrän kasvu (X) miljoonalla ruplalla. tuotannon määrä (Y) kasvaa keskimäärin 2,4016 miljoonaa ruplaa. Näin ollen on olemassa positiivinen merkkien korrelaatio, joka kertoo yritysten tehokkuudesta ja niiden toimintaan tehtyjen investointien kannattavuudesta.

2. Laske jäännökset; etsi neliöiden jäännössumma; Arvioidaan jäännösten varianssi ja piirrä jäännökset.

Jäännös lasketaan kaavalla: e i = y i - y ennuste.

Poikkeamien neliösumma: = 207,74.

Jäännösten dispersio: 25.97.

Laskelmat on esitetty taulukossa 3.

Taulukko 3.

Y X Y=a+b*xi e i = y i - y ennuste. e i 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Summa 0,00 207,74
Keskiverto 111,4 40,6

Tasapainokaavio näyttää tältä:


Kuva 1. Tasapainokaavio

3. Tarkistetaan MNC:n edellytysten täyttyminen, joka sisältää elementit:

- tarkistetaan, että satunnaiskomponentin matemaattinen odotus on nolla;

- jäänteiden satunnainen luonne;

- riippumattomuustarkastus;

- useiden tähteiden vastaavuus normaalijakauman lain kanssa.

Tarkistetaan jäännössarjan tasojen matemaattisen odotuksen yhtäläisyys nollaan.

Suoritettu vastaavan nollahypoteesin H 0: testauksen aikana. Tätä tarkoitusta varten muodostetaan t-tilasto, jossa .

, joten hypoteesi hyväksytään.

Jäämien satunnainen luonne.

Tarkastetaan useiden jäämien tasojen satunnaisuus käännepistekriteerillä:

Käännepisteiden lukumäärä määritetään jäännöstaulukosta:

e i = y i - y ennuste. Käännepisteitä e i 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Summa 0,00 207,74 354,62
Keskiverto

= 6 > , joten jäännösten satunnaisuusominaisuus täyttyy.

Lopun riippumattomuus tarkistettu Durbin-Watsonin testillä:

=4 - 1,707 = 2,293.

Koska se osui väliin d 2 - 2, niin tämän kriteerin mukaan voimme päätellä, että riippumattomuusominaisuus täyttyy. Tämä tarkoittaa, että dynamiikkasarjassa ei ole autokorrelaatiota, joten malli on riittävä tämän kriteerin mukaan.

Useiden tähteiden vastaavuus normaalijakauman lain kanssa määritetty käyttämällä R/S-kriteeriä kriittisillä tasoilla (2,7-3,7);

Lasketaan RS-arvo:

RS = (e max - e min)/ S,

jossa e max on jäämien määrän enimmäisarvo E(t) = 8,07;

e min - jäämien määrän vähimmäisarvo E(t) = -6,54.

S - keskihajonta, = 4,8044.

RS = (e max - e min)/ S = (8,07 + 6,54)/4,8044 = 3,04.

2.7 alkaen< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Näin ollen, kun on pohdittu erilaisia ​​kriteerejä MNC:n edellytysten täyttymiselle, tulemme siihen tulokseen, että MNC:n edellytykset täyttyvät.

4. Tarkistetaan regressioyhtälön parametrien merkitsevyys Studentin t-testillä α = 0,05.

Yksittäisten regressiokertoimien merkitsevyyden tarkistaminen liittyy laskettujen arvojen määrittämiseen t-testi (t-tilastot) vastaaville regressiokertoimille:

Sitten laskettuja arvoja verrataan taulukoituihin t pöytä= 2,3060. Kriteerin taulukkoarvo määritetään ( n- 2) vapausasteet ( n- havaintojen määrä) ja vastaava merkitsevyystaso a (0,05)

Jos t-testin laskettu arvo (n- 2) vapausasteet ylittävät sen taulukon arvon tietyllä merkitsevyystasolla, regressiokerrointa pidetään merkittävänä.

Meidän tapauksessamme regressiokertoimet a 0 ovat merkityksettömiä ja 1 merkitseviä kertoimia.

Regressioviiva on graafinen heijastus ilmiöiden välisestä suhteesta. Voit hyvin selkeästi rakentaa regressioviivan Excelissä.

Tätä varten tarvitset:

1.Avaa Excel

2.Luo tietosarakkeita. Esimerkissämme rakennamme regressioviivan eli suhteen aggressiivisuuden ja itseluottamuksen välille ekaluokkalaisilla. Kokeeseen osallistui 30 lasta, tiedot on esitetty Excel-taulukossa:

1 sarake - aiheen numero

2 sarake - aggressiivisuus pisteissä

3 sarake - epävarmuus pisteissä

3. Sitten sinun on valittava molemmat sarakkeet (ilman sarakkeen nimeä), napsauta välilehteä lisää , valita paikalla , ja valitse ensimmäinen ehdotetuista asetteluista piste tussilla .

4. Meillä on siis malli regressioviivalle - ns. hajakuvaaja. Siirry regressioviivalle napsauttamalla tuloksena olevaa kuvaa ja painamalla sarkainta rakentaja, löytää paneelista kaavion asettelut ja valitse M A ket9 , se myös sanoo f(x)

5. Meillä on siis regressioviiva. Kaaviossa näkyy myös sen yhtälö ja korrelaatiokertoimen neliö

6. Jäljelle jää vain graafin ja akselien nimen lisääminen. Voit myös halutessasi poistaa selitteen, vähentää vaakasuuntaisten ruudukon viivojen määrää (välilehti layout , sitten netto ). Perusmuutokset ja -asetukset tehdään välilehdellä Layout

Regressioviiva muodostettiin MS Excelissä. Nyt voit lisätä sen teoksen tekstiin.

Aiemmissa viesteissä analyysi keskittyi usein yhteen numeeriseen muuttujaan, kuten sijoitusrahastojen tuottoon, verkkosivujen latausaikoihin tai virvoitusjuomien kulutukseen. Tässä ja seuraavissa huomautuksissa tarkastelemme menetelmiä numeerisen muuttujan arvojen ennustamiseksi yhden tai useamman muun numeerisen muuttujan arvoista riippuen.

Aineistoa havainnollistetaan poikkileikkaavan esimerkin avulla. Myyntivolyymin ennustaminen vaatekaupassa. Sunflowersin halpavaatekauppojen ketju on laajentunut jatkuvasti 25 vuoden ajan. Yrityksellä ei kuitenkaan tällä hetkellä ole systemaattista lähestymistapaa uusien toimipisteiden valintaan. Paikka, jossa yritys aikoo avata uuden myymälän, määräytyy subjektiivisten näkökohtien perusteella. Valintakriteereinä ovat edulliset vuokraehdot tai johtajan käsitys ihanteellisesta myymäläpaikasta. Kuvittele, että olet erikoisprojekti- ja suunnitteluosaston johtaja. Sinulle on annettu tehtäväksi laatia strateginen suunnitelma uusien myymälöiden avaamiseksi. Suunnitelmaan tulee sisältyä ennuste uusien myymälöiden vuosimyynnistä. Uskot, että liiketila liittyy suoraan tuloihin ja haluat ottaa tämän huomioon päätöksentekoprosessissasi. Miten kehität tilastollisen mallin vuosimyynnin ennustamiseksi uuden myymälän koon perusteella?

Tyypillisesti regressioanalyysiä käytetään muuttujan arvojen ennustamiseen. Sen tavoitteena on kehittää tilastollinen malli, joka pystyy ennustamaan riippuvan muuttujan tai vasteen arvot vähintään yhden riippumattoman tai selittävän muuttujan arvoista. Tässä huomautuksessa tarkastellaan yksinkertaista lineaarista regressiota - tilastollista menetelmää, jonka avulla voit ennustaa riippuvan muuttujan arvot Y riippumattomien muuttujien arvoilla X. Myöhemmissä huomautuksissa kuvataan moninkertainen regressiomalli, joka on suunniteltu ennustamaan riippumattoman muuttujan arvot Y useiden riippuvien muuttujien arvojen perusteella ( X 1, X 2, …, X k).

Lataa muistiinpano muodossa tai muodossa, esimerkit muodossa

Regressiomallien tyypit

Missä ρ 1 – autokorrelaatiokerroin; Jos ρ 1 = 0 (ei autokorrelaatiota), D≈ 2; Jos ρ 1 ≈ 1 (positiivinen autokorrelaatio), D≈ 0; Jos ρ 1 = -1 (negatiivinen autokorrelaatio), D ≈ 4.

Käytännössä Durbin-Watson-kriteerin soveltaminen perustuu arvon vertailuun D kriittisillä teoreettisilla arvoilla d L Ja dU tietylle määrälle havaintoja n, mallin riippumattomien muuttujien lukumäärä k(yksinkertaista lineaarista regressiota varten k= 1) ja merkitsevyystaso α. Jos D< d L , hypoteesi satunnaisten poikkeamien riippumattomuudesta hylätään (siis on positiivinen autokorrelaatio); Jos D>dU, hypoteesia ei hylätä (eli ei ole autokorrelaatiota); Jos d L< D < d U , ei ole riittäviä perusteita päätöksen tekemiselle. Kun laskettu arvo D ylittää 2, sitten kanssa d L Ja dU Itse kerrointa ei verrata D, ja lauseke (4 – D).

Laskeaksesi Durbin-Watsonin tilastot Excelissä, siirrytään kuvan 1 alimmaiseen taulukkoon. 14 Tasapainon poistaminen. Lausekkeen (10) osoittaja lasketaan käyttämällä funktiota =SUMMAR(taulukko1;matriisi2) ja nimittäjä =SUMMAR(taulukko) (kuva 16).

Riisi. 16. Durbin-Watson-tilastojen laskentakaavat

Meidän esimerkissämme D= 0,883. Pääkysymys on: mitä Durbin-Watson-tilaston arvoa pitäisi pitää tarpeeksi pienenä, jotta voidaan päätellä, että positiivinen autokorrelaatio on olemassa? On tarpeen korreloida D:n arvo kriittisiin arvoihin ( d L Ja dU), riippuen havaintojen määrästä n ja merkitsevyystaso α (kuva 17).

Riisi. 17. Durbin-Watsonin tilastojen kriittiset arvot (taulukon fragmentti)

Siten myyntimäärien ongelmassa myymälässä, joka toimittaa tavarat kotiin, on yksi riippumaton muuttuja ( k= 1), 15 havaintoa ( n= 15) ja merkitsevyystaso α = 0,05. Siten, d L= 1,08 ja dU= 1,36. Koska D = 0,883 < d L= 1,08, jäännösten välillä on positiivinen autokorrelaatio, pienimmän neliösumman menetelmää ei voida käyttää.

Kaltevuuden ja korrelaatiokertoimen hypoteesien testaus

Yllä regressiota käytettiin vain ennustamiseen. Regressiokertoimien määrittäminen ja muuttujan arvon ennustaminen Y tietylle muuttujan arvolle X Käytettiin pienimmän neliösumman menetelmää. Lisäksi tarkastelimme estimaatin neliövirhettä ja sekakorrelaatiokerrointa. Jos residuaalien analyysi vahvistaa, että pienimmän neliösumman menetelmän sovellettavuuden ehtoja ei rikota ja yksinkertainen lineaarinen regressiomalli on riittävä, voidaan otantatietojen perusteella väittää, että muuttujien välillä on lineaarinen suhde. väestö.

Sovellust - kaltevuuden kriteerit. Testaamalla, onko populaation jyrkkyys β 1 yhtä suuri kuin nolla, voit määrittää, onko muuttujien välillä tilastollisesti merkitsevä yhteys X Ja Y. Jos tämä hypoteesi hylätään, voidaan väittää, että muuttujien välillä X Ja Y on lineaarinen suhde. Nollahypoteesi ja vaihtoehtoinen hypoteesi muotoillaan seuraavasti: H 0: β 1 = 0 (ei ole lineaarista riippuvuutta), H1: β 1 ≠ 0 (on lineaarinen riippuvuus). A-priory t-tilasto on yhtä suuri kuin otoksen kaltevuuden ja populaation kaltevuuden hypoteettisen arvon erotus jaettuna kaltevuusestimaatin neliökeskiarvon virheellä:

(11) t = (b 1 β 1 ) / Sb 1

Missä b 1 – suoran regression kaltevuus otostietojen perusteella, β1 – suoran populaation hypoteettinen kaltevuus, ja testitilastot t Sillä on t-jakelu kanssa n-2 vapauden asteet.

Tarkastetaan, onko kaupan koon ja vuosimyynnin välillä tilastollisesti merkitsevä suhde, kun α = 0,05. t-kriteeri näytetään yhdessä muiden parametrien kanssa, kun sitä käytetään Analyysipaketti(vaihtoehto Regressio). Analyysipaketin täydelliset tulokset on esitetty kuvassa. 4, t-tilastoihin liittyvä fragmentti - kuvassa 4. 18.

Riisi. 18. Hakemuksen tulokset t

Koska kauppojen määrä n= 14 (katso kuva 3), kriittinen arvo t-tilastot merkitsevyystasolla α = 0,05 voidaan löytää kaavalla: tL=OPPILAS.ARV(0,025;12) = –2,1788, jossa 0,025 on puolet merkitsevyystasosta ja 12 = n – 2; tU=OPPILAS.OBR(0.975;12) = +2.1788.

Koska t-tilastot = 10,64 > tU= 2,1788 (kuva 19), nollahypoteesi H 0 hylätty. Toisella puolella, R- arvo X= 10,6411, laskettuna kaavalla =1-OPPILAS.JAKAUMA(D3,12,TOSI), on suunnilleen nolla, joten hypoteesi H 0 jälleen hylätty. Se, että R-arvo lähes nolla tarkoittaa, että jos myymälöiden koon ja vuosimyynnin välillä ei olisi todellista lineaarista suhdetta, sen havaitseminen lineaarisen regression avulla olisi käytännössä mahdotonta. Siksi keskimääräisen vuosittaisen myymälämyynnin ja kaupan koon välillä on tilastollisesti merkitsevä lineaarinen suhde.

Riisi. 19. Populaatiokaltevuuden hypoteesin testaus merkitsevyystasolla 0,05 ja 12 vapausastetta

SovellusF - kaltevuuden kriteerit. Vaihtoehtoinen lähestymistapa yksinkertaisen lineaarisen regression kaltevuutta koskevien hypoteesien testaamiseen on käyttää F-kriteeri. Muistutetaan tästä F-testiä käytetään kahden varianssin välisen suhteen testaamiseen (katso lisätietoja). Kaltevuushypoteesia testattaessa satunnaisvirheiden mittana on virhevarianssi (virheiden neliösumma jaettuna vapausasteiden lukumäärällä), joten F-kriteeri käyttää regression selittämän varianssin suhdetta (eli arvoa SSR, jaettuna riippumattomien muuttujien lukumäärällä k), virhevarianssiin ( MSE = S YX 2 ).

A-priory F-tilasto on yhtä kuin regression keskineliö (MSR) jaettuna virhevarianssilla (MSE): F = MSR/ MSE, Missä MSR=SSR / k, MSE =SSE/(n– k – 1), k– riippumattomien muuttujien lukumäärä regressiomallissa. Testitilastot F Sillä on F-jakelu kanssa k Ja n– k – 1 vapauden asteet.

Tietylle merkitsevyystasolle α päätössääntö muotoillaan seuraavasti: jos F>FU, nollahypoteesi hylätään; muuten sitä ei hylätä. Tulokset, jotka on esitetty varianssianalyysin yhteenvetotaulukon muodossa, on esitetty kuvassa. 20.

Riisi. 20. Varianssianalyysitaulukko regressiokertoimen tilastollista merkitsevyyttä koskevan hypoteesin testaamiseksi

Samoin t-kriteeri F-kriteeri näkyy taulukossa, kun sitä käytetään Analyysipaketti(vaihtoehto Regressio). Työn täydet tulokset Analyysipaketti on esitetty kuvassa. 4, fragmentti liittyy F-tilastot - kuvassa. 21.

Riisi. 21. Hakemuksen tulokset F-kriteerit, jotka on saatu käyttämällä Excel Analysis Packagea

F-tilasto on 113,23 ja R-arvo lähellä nollaa (solu MerkitysF). Jos merkitsevyystaso α on 0,05, määritä kriittinen arvo F-jakaumat 1 ja 12 vapausasteella voidaan saada kaavalla F U=F.OBR(1-0,05;1;12) = 4,7472 (kuvio 22). Koska F = 113,23 > F U= 4,7472 ja R-arvo lähellä 0< 0,05, нулевая гипотеза H 0 hylätään, ts. Liikkeen koko liittyy läheisesti sen vuosimyyntiin.

Riisi. 22. Populaatiokaltevuuden hypoteesin testaus merkitsevyystasolla 0,05 yhdellä ja 12 vapausasteella

Luottamusväli, joka sisältää kulmakertoimen β 1 . Testataksesi hypoteesin, että muuttujien välillä on lineaarinen suhde, voit muodostaa luottamusvälin, joka sisältää kulmakertoimen β 1, ja varmistaa, että hypoteettinen arvo β 1 = 0 kuuluu tähän väliin. Kulmakertoimen β 1 sisältävän luottamusvälin keskipiste on otosjyrkkyys b 1 , ja sen rajat ovat suuret b 1 ±tn –2 Sb 1

Kuten kuvassa näkyy. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =OPPILAS.ARV(0,975;12) = 2,1788. Siten, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 tai + 1,328 ≤ β 1 ≤ +2,012. Näin ollen on todennäköisyys 0,95, että väestön kaltevuus on välillä +1,328 ja +2,012 (eli 1 328 000 - 2 012 000 dollaria). Koska nämä arvot ovat suurempia kuin nolla, vuosimyynnin ja myymäläpinta-alan välillä on tilastollisesti merkitsevä lineaarinen suhde. Jos luottamusväli olisi nolla, muuttujien välillä ei olisi suhdetta. Lisäksi luottamusväli tarkoittaa, että jokainen myymäläpinta-ala kasvaa 1 000 neliömetrillä. ft. lisää keskimääräistä myyntimäärää 1 328 000 ja 2 012 000 dollarin välillä.

Käyttöt -korrelaatiokertoimen kriteerit. korrelaatiokerroin otettiin käyttöön r, joka on kahden numeerisen muuttujan välisen suhteen mitta. Sitä voidaan käyttää määrittämään, onko kahden muuttujan välillä tilastollisesti merkitsevä suhde. Merkitään molempien muuttujien populaatioiden välinen korrelaatiokerroin symbolilla ρ. Nolla- ja vaihtoehtoiset hypoteesit muotoillaan seuraavasti: H 0: ρ = 0 (ei korrelaatiota), H 1: ρ ≠ 0 (korrelaatio on olemassa). Korrelaation olemassaolon tarkistaminen:

Missä r = + , Jos b 1 > 0, r = – , Jos b 1 < 0. Тестовая статистика t Sillä on t-jakelu kanssa n-2 vapauden asteet.

Sunflowers-kauppaketjun ongelmassa r 2= 0,904, a b 1- +1,670 (katso kuva 4). Koska b 1> 0, vuosimyynnin ja myymäläkoon välinen korrelaatiokerroin on r= +√0,904 = +0,951. Testataan nollahypoteesia, että näiden muuttujien välillä ei ole korrelaatiota käyttämällä t-tilastot:

Merkitsevyystasolla α = 0,05 nollahypoteesi tulee hylätä, koska t= 10,64 > 2,1788. Voidaan siis väittää, että vuosimyynnin ja myymäläkoon välillä on tilastollisesti merkitsevä yhteys.

Keskusteltaessa populaation kaltevuuden päätelmistä, luottamusväliä ja hypoteesitestejä käytetään vaihtokelpoisina. Korrelaatiokertoimen sisältävän luottamusvälin laskeminen osoittautuu kuitenkin vaikeammaksi, koska tilaston otosjakauman tyyppi on r riippuu todellisesta korrelaatiokertoimesta.

Matemaattisten odotusten estimointi ja yksittäisten arvojen ennustaminen

Tässä osiossa käsitellään menetelmiä vastauksen matemaattisen odotuksen arvioimiseksi Y ja yksittäisten arvojen ennusteet Y muuttujan annetuille arvoille X.

Luottamusvälin muodostaminen. Esimerkissä 2 (katso kohta yllä Pienimmän neliön menetelmä) regressioyhtälö mahdollisti muuttujan arvon ennustamisen Y X. Vähittäismyymälän sijainnin valintaongelmassa keskimääräinen vuotuinen myyntimäärä myymälässä, jonka pinta-ala on 4000 neliömetriä. jalka oli 7,644 miljoonaa dollaria, mutta tämä arvio väestön matemaattisista odotuksista on pisteellinen. Perusjoukon matemaattisen odotuksen arvioimiseksi ehdotettiin luottamusvälin käsitettä. Samalla tavalla voimme esitellä konseptin vasteen matemaattisen odotuksen luottamusväli tietylle muuttujan arvolle X:

Missä , = b 0 + b 1 X i– ennustettu arvo on muuttuva Y klo X = X i, S YX- juuren keskimääräinen neliövirhe, n- otoskoko, Xi- muuttujan määritetty arvo X, µ Y|X = Xi– muuttujan matemaattinen odotus Y klo X = Xi, SSX =

Kaavan (13) analyysi osoittaa, että luottamusvälin leveys riippuu useista tekijöistä. Tietyllä merkitsevyystasolla regressioviivan ympärillä olevien vaihteluiden amplitudin kasvu, mitattuna neliövirheen keskiarvon avulla, johtaa intervallin leveyden kasvuun. Toisaalta, kuten odottaa, otoskoon kasvuun liittyy intervallin kaventuminen. Lisäksi intervallin leveys muuttuu arvojen mukaan Xi. Jos muuttujan arvo Y ennustettu määrille X, lähellä keskiarvoa , luottamusväli osoittautuu kapeammaksi kuin ennustettaessa vastetta arvoille, jotka ovat kaukana keskiarvosta.

Oletetaan, että myymäläpaikkaa valittaessa haluamme rakentaa 95 %:n luottamusvälin kaikkien 4000 neliömetrin myymälöiden keskimääräiselle vuosimyynnille. jalat:

Siksi keskimääräinen vuotuinen myyntivolyymi kaikissa myymälöissä, joiden pinta-ala on 4 000 neliömetriä. jalat, 95 % todennäköisyydellä on välillä 6,971-8,317 miljoonaa dollaria.

Laske ennustetun arvon luottamusväli. Muuttujan tietyn arvon vasteen matemaattisen odotuksen luottamusvälin lisäksi X, on usein tarpeen tietää ennustetun arvon luottamusväli. Vaikka tällaisen luottamusvälin laskentakaava on hyvin samankaltainen kuin kaava (13), tämä väli sisältää ennustetun arvon eikä parametriestimaatin. Ennustetun vastauksen aikaväli YX = Xi tietylle muuttujan arvolle Xi määräytyy kaavalla:

Oletetaan, että myymälän paikkaa valittaessa haluamme rakentaa 95 %:n luottamusvälin ennustetulle vuotuiselle myyntivolyymille myymälälle, jonka pinta-ala on 4000 neliömetriä. jalat:

Siksi 4000 neliömetrin myymälän ennustettu vuotuinen myyntimäärä. jalkaa, 95 %:n todennäköisyydellä on välillä 5,433-9,854 miljoonaa dollaria Kuten näemme, ennustetun vastearvon luottamusväli on paljon leveämpi kuin sen matemaattisen odotuksen luottamusväli. Tämä johtuu siitä, että vaihtelu yksittäisten arvojen ennustamisessa on paljon suurempi kuin matemaattisen odotuksen arvioinnissa.

Regression käyttöön liittyvät sudenkuopat ja eettiset ongelmat

Regressioanalyysiin liittyvät vaikeudet:

  • Pienimmän neliösumman menetelmän soveltuvuusehtojen huomioimatta jättäminen.
  • Pienimmän neliösumman menetelmän soveltuvuusehtojen virheellinen arviointi.
  • Vaihtoehtoisten menetelmien virheellinen valinta, kun pienimmän neliösumman menetelmän soveltuvuusehtoja rikotaan.
  • Regressioanalyysin soveltaminen ilman syvällistä tutkimusaiheen tuntemusta.
  • Regression ekstrapolointi selittävän muuttujan alueen ulkopuolelle.
  • Sekaannus tilastollisten ja syy-suhteiden välillä.

Taulukkolaskenta- ja tilastoohjelmistojen laaja käyttö on poistanut regressioanalyysin käyttöä vaikeuttaneet laskentaongelmat. Tämä johti kuitenkin siihen, että regressioanalyysiä käyttivät käyttäjät, joilla ei ollut riittävää pätevyyttä ja tietoa. Mistä käyttäjät voivat tietää vaihtoehtoisista menetelmistä, jos monilla heistä ei ole ollenkaan aavistustakaan pienimmän neliösumman menetelmän sovellettavuuden ehdoista eivätkä osaa tarkistaa niiden toteutusta?

Tutkija ei saa hurahtautua murskaavaan numeroon - siirtymän, kaltevuuden ja sekakorrelaatiokertoimen laskemiseen. Hän tarvitsee syvempää tietoa. Havainnollistetaan tätä klassisella esimerkillä, joka on otettu oppikirjoista. Anscombe osoitti, että kaikki neljä kuvassa näkyvää tietojoukkoa. 23, niillä on samat regressioparametrit (kuvio 24).

Riisi. 23. Neljä keinotekoista tietojoukkoa

Riisi. 24. Neljän keinotekoisen tietojoukon regressioanalyysi; tehty kanssa Analyysipaketti(klikkaa kuvaa suurentaaksesi kuvan)

Joten regressioanalyysin näkökulmasta kaikki nämä tietojoukot ovat täysin identtisiä. Jos analyysi päättyisi tähän, menetämme paljon hyödyllistä tietoa. Tästä on osoituksena näille tietojoukoille muodostetut sirontakuvaajat (kuva 25) ja jäännöskäyrät (kuva 26).

Riisi. 25. Sirontakuvaajat neljälle tietojoukolle

Sirontakuvaajat ja jäännöskäyrät osoittavat, että nämä tiedot eroavat toisistaan. Ainoa suoraa pitkin jakautunut joukko on A. Joukosta A laskettujen jäännösten kuvaajalla ei ole kuviota. Tätä ei voida sanoa joukoista B, C ja D. Joukolle B piirretty hajontakäyrä näyttää selkeän neliöllisen kuvion. Tämän päätelmän vahvistaa jäännöskuvaaja, jolla on parabolinen muoto. Sirontadiagrammi ja jäännösdiagrammi osoittavat, että tietojoukko B sisältää poikkeavan arvon. Tässä tilanteessa on välttämätöntä jättää poikkeava arvo pois tietojoukosta ja toistaa analyysi. Menetelmää poikkeavien havaintojen havaitsemiseksi ja poistamiseksi kutsutaan vaikutusanalyysiksi. Poikkeaman eliminoinnin jälkeen mallin uudelleenarvioinnin tulos voi olla täysin erilainen. Joukon G tiedoista piirretty sirontakaavio kuvaa epätavallista tilannetta, jossa empiirinen malli on merkittävästi riippuvainen yksittäisestä vastauksesta ( X 8 = 19, Y 8 = 12,5). Tällaiset regressiomallit on laskettava erityisen huolellisesti. Joten sironta- ja jäännöskuvaajat ovat olennainen työkalu regressioanalyysissä, ja niiden tulisi olla olennainen osa sitä. Ilman niitä regressioanalyysi ei ole uskottava.

Riisi. 26. Jäännöskuvaajat neljälle tietojoukolle

Kuinka välttää sudenkuopat regressioanalyysissä:

  • Muuttujien välisten mahdollisten suhteiden analyysi X Ja Y aloita aina piirtämällä sirontakaavio.
  • Ennen kuin tulkitset regressioanalyysin tuloksia, tarkista sen soveltuvuuden ehdot.
  • Piirrä jäännökset riippumattoman muuttujan funktiona. Tämä mahdollistaa sen määrittämisen, kuinka hyvin empiirinen malli vastaa havainnointituloksia, ja havaita poikkeama varianssin vakioinnissa.
  • Käytä histogrammeja, varsi- ja lehtidiagrammeja, laatikkokaavioita ja normaalijakaumakaavioita normaalin virhejakauman oletuksen testaamiseen.
  • Jos pienimmän neliösumman menetelmän sovellettavuuden ehdot eivät täyty, käytä vaihtoehtoisia menetelmiä (esimerkiksi neliö- tai moniregressiomalleja).
  • Mikäli pienimmän neliösumman menetelmän soveltuvuuden ehdot täyttyvät, on tarpeen testata hypoteesia regressiokertoimien tilastollisesta merkitsevyydestä ja muodostaa luottamusvälit, jotka sisältävät matemaattisen odotuksen ja ennustetun vastearvon.
  • Vältä riippuvan muuttujan arvojen ennustamista riippumattoman muuttujan alueen ulkopuolella.
  • Muista, että tilastolliset suhteet eivät aina ole syy-seuraussuhteita. Muista, että muuttujien välinen korrelaatio ei tarkoita, että niiden välillä olisi syy-seuraussuhde.

Yhteenveto. Kuten lohkokaaviossa (Kuva 27) näkyy, huomautuksessa kuvataan yksinkertainen lineaarinen regressiomalli, sen sovellettavuuden ehdot ja näiden ehtojen testaus. Harkitaan t-regression kulmakertoimen tilastollisen merkitsevyyden testauskriteeri. Riippuvan muuttujan arvojen ennustamiseen käytettiin regressiomallia. Esimerkkinä tarkastellaan myymälän sijainnin valintaa, jossa tarkastellaan vuosittaisen myyntivolyymin riippuvuutta myymälän pinta-alasta. Saatujen tietojen avulla voit valita myymälän sijainnin tarkemmin ja ennustaa sen vuosittaisen myyntimäärän. Seuraavissa muistiinpanoissa jatketaan keskustelua regressioanalyysistä ja tarkastellaan myös useita regressiomalleja.

Riisi. 27. Huomaa rakennekaavio

Materiaalina on käytetty kirjaa Levin et al. Statistics for Managers. – M.: Williams, 2004. – s. 792–872

Jos riippuva muuttuja on kategorinen, on käytettävä logistista regressiota.