Mga istatistika ng equation ng regression. Hanapin natin ang mga parameter ng linear regression equation at magbigay ng economic interpretation ng regression coefficient

x ay tinatawag na predictor - isang independiyente o nagpapaliwanag na variable.

Para sa isang naibigay na dami x, ang Y ay ang halaga ng y variable (tinatawag na dependent, output, o response variable) na nasa linya ng pagsusuri. Ito ang halaga na inaasahan natin para sa y (sa karaniwan) kung alam natin ang halaga ng x, at tinatawag na "hulaang halaga ng y" (Figure 5).

a ay ang libreng termino (intersection) ng linya ng pagsusuri; ito ang halaga ng Y kapag x = 0.

b ay ang slope o gradient ng tinantyang linya; ito ay kumakatawan sa halaga kung saan ang Y ay tumataas sa karaniwan kung dagdagan natin ang x ng isang yunit (Figure 5). Ang coefficient b ay tinatawag na regression coefficient.

Halimbawa: kapag ang temperatura ng katawan ng isang tao ay tumaas ng 1 o C, ang pulso ay tumataas ng average na 10 beats bawat minuto.

Figure 5. Linear regression line na nagpapakita ng koepisyent A at slope b(dami ng pagtaas Y sa pagtaas X bawat yunit)

Sa matematika, ang paglutas ng linear regression equation ay binabawasan sa pagkalkula ng mga parameter a at b sa paraang ang mga punto ng paunang data ng field ng ugnayan maglagay nang mas malapit hangga't maaari sa direktang pagbabalik .

Ang istatistikal na paggamit ng salitang regression ay nagmula sa phenomenon na kilala bilang regression to the mean, na iniuugnay kay Francis Galton (1889). Ipinakita niya na kahit na ang matatangkad na ama ay may posibilidad na magkaroon ng matatangkad na anak na lalaki, ang karaniwang taas ng mga anak na lalaki ay mas maikli kaysa sa kanilang matatangkad na ama. Ang average na taas ng mga anak na lalaki ay "regressed" o "moved backward" patungo sa average na taas ng lahat ng ama sa populasyon. Kaya, sa karaniwan, ang matatangkad na ama ay may mas maiikli (ngunit medyo matangkad pa rin) na mga anak na lalaki, at ang mga maiikling ama ay may mas matatangkad (ngunit medyo maikli pa rin) na mga anak na lalaki.

Nakikita namin ang pagbabalik sa mean sa screening at mga klinikal na pagsubok, kung saan maaaring mapili ang isang subgroup ng mga pasyente para sa paggamot dahil ang kanilang mga antas ng isang partikular na variable, halimbawa ng kolesterol, ay napakataas (o mababa). Kung ang pagsukat na ito ay uulitin sa paglipas ng panahon, ang ibig sabihin ng pangalawang pagbasa para sa subgroup ay karaniwang mas mababa kaysa sa unang pagbasa, na humahantong (i.e. regressing) patungo sa ibig sabihin ng populasyon na tugma sa edad at kasarian, anuman ang paggamot na maaaring natanggap nila . Ang mga pasyenteng na-recruit sa isang klinikal na pagsubok batay sa mataas na antas ng kolesterol sa kanilang unang pagsusuri ay malamang na magpakita, sa karaniwan, ng pagbaba sa mga antas ng kolesterol sa ikalawang pagsusuri, kahit na hindi sila ginagamot sa panahong ito.

Kadalasan, ang paraan ng pagsusuri ng regression ay ginagamit upang bumuo ng mga normatibong kaliskis at mga pamantayan ng pisikal na pag-unlad.


Kung gaano kahusay ang isang linya ng pagbabalik sa data ay maaaring hatulan sa pamamagitan ng pagkalkula ng koepisyent R (karaniwang ipinahayag bilang isang porsyento at tinatawag na koepisyent ng pagpapasiya), na katumbas ng parisukat ng koepisyent ng ugnayan (r2). Kinakatawan nito ang proporsyon o porsyento ng variance sa y na maaaring ipaliwanag sa pamamagitan ng kaugnayan nito sa x, i.e. ang bahagi ng pagkakaiba-iba sa resulta-attribute na nabuo sa ilalim ng impluwensya ng isang independiyenteng katangian. Maaaring kumuha ng mga halaga sa saklaw mula 0 hanggang 1, o mula 0 hanggang 100%. Ang pagkakaiba (100% - R) ay kumakatawan sa porsyento ng pagkakaiba sa y na hindi maipaliwanag ng pakikipag-ugnayan na ito.

Halimbawa

Ang kaugnayan sa pagitan ng taas (sinusukat sa cm) at systolic na presyon ng dugo (SBP, sinusukat sa mmHg) sa mga bata. Nagsagawa kami ng isang ipinares na linear regression analysis ng relasyon sa pagitan ng SBP at taas (Larawan 6). Mayroong makabuluhang linear na ugnayan sa pagitan ng taas at SBP.

Figure 6. Two-dimensional graph na nagpapakita ng kaugnayan sa pagitan ng systolic blood pressure at taas. Ang tinantyang linya ng regression, systolic blood pressure, ay inilalarawan.

Ang equation ng tinantyang linya ng regression ay ang mga sumusunod:

SBP = 46.28 + 0.48 x taas.

Sa halimbawang ito, ang intercept ay hindi interesado (ang paglago ng zero ay malinaw na nasa labas ng hanay ng mga halaga na sinusunod sa pag-aaral). Gayunpaman, maaari nating bigyang-kahulugan ang slope; Ang SBP ay hinuhulaan na tataas ng average na 0.48 mm Hg sa mga batang ito. na may pagtaas ng taas ng isang sentimetro

Maaari tayong gumamit ng equation ng regression upang mahulaan ang SBP na inaasahan nating magkakaroon ng isang bata para sa isang partikular na taas. Halimbawa, ang isang batang may taas na 115 cm ay may hinulaang SBP na 46.28 + (0.48 x 115) = 101.48 mmHg. Art., ang isang batang 130 ang taas ay may hinulaang SBP na 46.28 + (0.48 x 130) = 108.68 mm Hg. Art.

Kapag kinakalkula ang koepisyent ng ugnayan, natagpuan na ito ay katumbas ng 0.55, na nagpapahiwatig ng direktang ugnayan ng average na lakas. Sa kasong ito, ang koepisyent ng pagpapasiya r 2 = 0.55 2 = 0.3. Kaya, maaari nating sabihin na ang bahagi ng impluwensya ng taas sa antas ng presyon ng dugo sa mga bata ay hindi lalampas sa 30%, nang naaayon, ang iba pang mga kadahilanan ay account para sa 70% ng impluwensya.

Ang linear (simple) na regression ay limitado sa pagtingin sa relasyon sa pagitan ng dependent variable at isang independent variable lamang. Kung mayroong higit sa isang independyenteng variable sa isang relasyon, kailangan nating bumaling sa maramihang regression. Ang equation para sa naturang regression ay ganito ang hitsura:

y = a + bx 1 +b 2 x 2 +.... + b n x n

Maaaring interesado ang isa sa epekto ng ilang independyenteng variable x 1, x 2, .., x n sa variable na tugon y. Kung naniniwala tayo na ang mga x na ito ay maaaring magkakaugnay, hindi natin dapat tingnan nang hiwalay ang epekto ng pagbabago ng halaga ng isang x sa y, ngunit dapat sabay na isaalang-alang ang magnitude ng lahat ng iba pang mga x.

Halimbawa

Dahil may matibay na ugnayan sa pagitan ng taas at bigat ng isang bata, maaaring magtaka ang isa kung ang kaugnayan sa pagitan ng taas at systolic na presyon ng dugo ay nagbabago rin kapag ang timbang at kasarian ng bata ay isinasaalang-alang din. Sinusuri ng multiple linear regression ang magkasanib na epekto ng maraming independyenteng variable na ito sa y.

Ang multiple regression equation sa kasong ito ay maaaring magmukhang ganito:

SBP = 79.44 - (0.03 x taas) + (1.18 x timbang) + (4.23 x kasarian)*

* - (para sa katangian ng kasarian ang mga halaga ay 0 - lalaki, 1 - babae)

Ayon sa equation na ito, ang isang batang babae na ang taas ay 115 cm at ang timbang ng katawan ay 37 kg ay magkakaroon ng hinulaang SBP:

SBP = 79.44 - (0.03 x 115) + (1.18 x 37) + (4.23 x 1) = 123.88 mmHg.

Ang logistic regression ay halos kapareho sa linear regression; ito ay ginagamit kapag may binary na kinalabasan ng interes (ibig sabihin, ang pagkakaroon/kawalan ng sintomas o isang paksa na may/walang sakit) at isang bilang ng mga predictors. Mula sa logistic regression equation, matutukoy ng isa kung aling mga predictor ang nakakaimpluwensya sa kinalabasan at, gamit ang mga halaga ng predictor ng pasyente, tantiyahin ang posibilidad na magkakaroon siya ng partikular na resulta. Halimbawa: kung ang mga komplikasyon ay lilitaw o hindi, kung ang paggamot ay magiging epektibo o hindi.

Simulan ang paglikha ng binary variable upang kumatawan sa dalawang kinalabasan (hal., "may sakit" = 1, "walang sakit" = 0). Gayunpaman, hindi natin mailalapat ang dalawang value na ito bilang dependent variable sa isang linear regression analysis dahil nilalabag ang normality assumption at hindi natin mabibigyang-kahulugan ang mga hinulaang value na hindi katumbas ng zero o isa.

Sa katunayan, kinuha namin ang posibilidad na ang isang paksa ay nauuri sa pinakamalapit na kategorya (i.e., "may sakit") ng dependent variable, at, upang malampasan ang mga paghihirap sa matematika, maglapat ng logistic transformation sa regression equation - ang natural logarithm ng probability ratio ng "sakit" (p) sa probabilidad na "walang sakit" (1-p).

Isang integrative na proseso na tinatawag na maximum likelihood, sa halip na ordinaryong regression (dahil hindi natin mailalapat ang linear regression procedure), lumilikha ng pagtatantya ng logistic regression equation mula sa sample na data

logit (p) = a + bx 1 +b 2 x 2 +.... + b n x n

logit (p) - isang pagtatantya ng tunay na posibilidad na ang isang pasyente na may indibidwal na hanay ng mga halaga para sa x 1 ... x n ay may sakit;

a ay ang pagtatantya ng pare-pareho (libreng termino, intersection);

b 1, b 2,..., b n - mga pagtatantya ng logistic regression coefficients.

1. Mga tanong sa paksa ng aralin:

1. Tukuyin ang functional at correlation na mga koneksyon.

2. Magbigay ng mga halimbawa ng tuwiran at kabaligtaran na ugnayan.

3. Ipahiwatig ang mga sukat ng mga coefficient ng ugnayan para sa mahina, katamtaman at malakas na koneksyon sa pagitan ng mga katangian.

4. Sa anong mga kaso ginagamit ang paraan ng ranggo ng pagkalkula ng koepisyent ng ugnayan?

5. Sa anong mga kaso ginagamit ang pagkalkula ng koepisyent ng ugnayan ng Pearson?

6. Ano ang mga pangunahing yugto ng pagkalkula ng koepisyent ng ugnayan gamit ang paraan ng ranggo?

7. Tukuyin ang "regression." Ano ang kakanyahan ng pamamaraan ng regression?

8. Ilarawan ang formula para sa isang simpleng linear regression equation.

9. Tukuyin ang coefficient ng regression.

10. Anong konklusyon ang mabubuo kung ang regression coefficient ng timbang sa taas ay 0.26 kg/cm?

11. Para saan ang regression equation formula ang ginamit?

12. Ano ang koepisyent ng determinasyon?

13. Sa anong mga kaso ginagamit ang multiple regression equation?

14. Para saan ang paraan ng logistic regression na ginamit?

Gawain.

Para sa mga magaan na negosyo sa industriya sa rehiyon, nakuha ang impormasyon na nagpapakilala sa pagtitiwala sa dami ng output (Y, milyong rubles) sa dami ng mga pamumuhunan sa kapital (Y, milyong rubles).

Talahanayan 1.

Depende sa dami ng output sa dami ng pamumuhunan sa kapital.

X
Y

Kailangan:

1. Hanapin ang mga parameter ng linear regression equation, magbigay ng economic interpretation ng regression coefficient.

2. Kalkulahin ang mga natitira; hanapin ang natitirang kabuuan ng mga parisukat; tantyahin ang pagkakaiba-iba ng mga nalalabi; i-plot ang mga nalalabi.

3. Suriin ang katuparan ng mga kinakailangan ng MNC.

4. Suriin ang kahalagahan ng mga parameter ng regression equation gamit ang Student's t-test (α = 0.05).

5. Kalkulahin ang koepisyent ng determinasyon, suriin ang kahalagahan ng equation ng regression gamit ang Fisher's F test (α = 0.05), hanapin ang average na relatibong error ng approximation. Gumawa ng konklusyon tungkol sa kalidad ng modelo.

6. Hulaan ang average na halaga ng indicator Y sa antas ng kabuluhan na α = 0.1, kung ang hinulaang halaga ng factor X ay 80% ng pinakamataas na halaga nito.

7. Ipakita sa graphic na paraan ang aktwal at modelong Y value ng forecast point.

8. Lumikha ng mga nonlinear regression equation at i-plot ang mga ito:

Hyperbolic;

Makapangyarihan;

Nagpapahiwatig.

9. Para sa mga ipinahiwatig na modelo, hanapin ang mga coefficient ng determinasyon at average na kamag-anak na mga error ng approximation. Ihambing ang mga modelo batay sa mga katangiang ito at gumawa ng konklusyon.

Hanapin natin ang mga parameter ng linear regression equation at magbigay ng economic interpretation ng regression coefficient.

Ang linear regression equation ay: ,

Ang mga kalkulasyon para sa paghahanap ng mga parameter a at b ay ibinibigay sa Talahanayan 2.

Talahanayan 2.

Pagkalkula ng mga halaga upang mahanap ang mga parameter ng isang linear regression equation.

Ang equation ng regression ay mukhang: y = 13.8951 + 2.4016*x.

Sa isang pagtaas sa dami ng mga pamumuhunan sa kapital (X) ng 1 milyong rubles. ang dami ng output (Y) ay tataas ng average na 2.4016 milyong rubles. Kaya, mayroong isang positibong ugnayan ng mga palatandaan, na nagpapahiwatig ng kahusayan ng mga negosyo at ang kakayahang kumita ng mga pamumuhunan sa kanilang mga aktibidad.

2. Kalkulahin ang mga natitira; hanapin ang natitirang kabuuan ng mga parisukat; tantyahin natin ang pagkakaiba ng mga nalalabi at i-plot ang mga nalalabi.

Ang mga natitira ay kinakalkula gamit ang formula: e i = y i - y prog.

Ang natitirang kabuuan ng mga squared deviations: = 207.74.

Pagpapakalat ng mga nalalabi: 25.97.

Ang mga kalkulasyon ay ipinapakita sa Talahanayan 3.

Talahanayan 3.

Y X Y=a+b*xi e i = y i - y progn. e ako 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Sum 0,00 207,74
Katamtaman 111,4 40,6

Ang tsart ng balanse ay ganito ang hitsura:


Fig.1. Tsart ng balanse

3. Suriin natin ang katuparan ng mga kinakailangan ng MNC, na kinabibilangan ng mga elemento:

- pagsuri na ang mathematical na inaasahan ng random na bahagi ay katumbas ng zero;

- random na kalikasan ng mga labi;

- pagsusuri ng kalayaan;

- pagsusulatan ng isang bilang ng mga nalalabi sa normal na batas sa pamamahagi.

Sinusuri ang pagkakapantay-pantay ng mathematical na inaasahan ng mga antas ng isang serye ng mga nalalabi sa zero.

Isinagawa sa panahon ng pagsubok ng kaukulang null hypothesis H 0: . Para sa layuning ito, ang t-statistics ay itinayo, kung saan .

, kaya, ang hypothesis ay tinatanggap.

Random na katangian ng mga nalalabi.

Suriin natin ang randomness ng mga antas ng isang bilang ng mga residues gamit ang turning point criterion:

Ang bilang ng mga turning point ay tinutukoy mula sa talahanayan ng mga nalalabi:

e i = y i - y progn. Mga punto ng pagliko e ako 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Sum 0,00 207,74 354,62
Katamtaman

= 6 > , samakatuwid, ang randomness property ng mga natitira ay nasiyahan.

Kalayaan ng natitira sinuri gamit ang Durbin-Watson test:

=4 - 1,707 = 2,293.

Dahil nahulog ito sa pagitan mula d 2 hanggang 2, ayon sa pamantayang ito maaari nating tapusin na ang pag-aari ng kalayaan ay nasiyahan. Nangangahulugan ito na walang autocorrelation sa serye ng dinamika, samakatuwid, ang modelo ay sapat ayon sa pamantayang ito.

Korespondensiya ng ilang nalalabi sa normal na batas sa pamamahagi tinutukoy gamit ang R/S criterion na may mga kritikal na antas (2.7-3.7);

Kalkulahin natin ang halaga ng RS:

RS = (e max - e min)/ S,

kung saan ang e max ay ang pinakamataas na halaga ng mga antas ng bilang ng mga nalalabi E(t) = 8.07;

e min - ang pinakamababang halaga ng mga antas ng bilang ng mga nalalabi E(t) = -6.54.

S - karaniwang paglihis, = 4,8044.

RS = (e max - e min)/ S = (8.07 + 6.54)/4.8044 = 3.04.

Mula noong 2.7< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Kaya, sa pagsasaalang-alang ng iba't ibang pamantayan para sa pagtupad sa mga kinakailangan ng MNC, kami ay dumating sa konklusyon na ang mga kinakailangan ng MNC ay natutugunan.

4. Suriin natin ang kahalagahan ng mga parameter ng regression equation gamit ang Student's t-test α = 0.05.

Ang pagsuri sa kahalagahan ng mga indibidwal na coefficient ng regression ay nauugnay sa pagtukoy ng mga kinakalkula na halaga t-test (t-statistics) para sa kaukulang regression coefficients:

Pagkatapos ang mga kinakalkula na halaga ay inihambing sa mga naka-tabulate t mesa= 2.3060. Ang halaga ng tabular ng criterion ay tinutukoy sa ( n- 2) antas ng kalayaan ( n- bilang ng mga obserbasyon) at ang kaukulang antas ng kahalagahan a (0.05)

Kung ang kinakalkula na halaga ng t-test na may (n- 2) ang mga antas ng kalayaan ay lumampas sa halaga ng talahanayan nito sa isang naibigay na antas ng kahalagahan, ang coefficient ng regression ay itinuturing na makabuluhan.

Sa aming kaso, ang regression coefficients a 0 ay hindi gaanong mahalaga, at 1 ay makabuluhang coefficients.

Ang linya ng regression ay isang graphical na pagmuni-muni ng relasyon sa pagitan ng mga phenomena. Malinaw kang makakabuo ng linya ng regression sa Excel.

Upang gawin ito kailangan mo:

1. Buksan ang Excel

2.Gumawa ng mga column ng data. Sa aming halimbawa, bubuo kami ng linya ng regression, o relasyon, sa pagitan ng pagiging agresibo at pagdududa sa sarili sa mga unang baitang. 30 bata ang lumahok sa eksperimento, ang data ay ipinakita sa talahanayan ng Excel:

1 column - numero ng paksa

2 hanay - pagiging agresibo sa mga puntos

3 hanay - difidence sa mga puntos

3. Pagkatapos ay kailangan mong piliin ang parehong mga hanay (nang walang pangalan ng hanay), i-click ang tab ipasok , pumili puwesto , at piliin ang pinakauna mula sa mga iminungkahing layout tuldok na may mga marker .

4. Kaya mayroon kaming isang template para sa linya ng regression - ang tinatawag na - scatter plot. Upang pumunta sa linya ng regression, mag-click sa resultang figure at pindutin ang tab tagabuo, hanapin sa panel mga layout ng tsart at pumili M A ket9 , sabi din nito f(x)

5. So, meron tayong regression line. Ipinapakita rin ng graph ang equation nito at ang square ng correlation coefficient

6. Ang natitira na lang ay idagdag ang pangalan ng graph at ang pangalan ng mga axes. Gayundin, kung ninanais, maaari mong alisin ang alamat, bawasan ang bilang ng mga pahalang na linya ng grid (tab layout , pagkatapos net ). Ang mga pangunahing pagbabago at setting ay ginawa sa tab Layout

Ang linya ng regression ay itinayo sa MS Excel. Ngayon ay maaari mo na itong idagdag sa teksto ng gawain.

Sa mga nakaraang post, ang pagsusuri ay madalas na nakatuon sa isang solong numerical variable, tulad ng pagbabalik ng mutual fund, mga oras ng paglo-load ng Web page, o pagkonsumo ng soft drink. Sa ito at sa kasunod na mga tala, titingnan natin ang mga pamamaraan para sa paghula ng mga halaga ng isang numeric variable depende sa mga halaga ng isa o higit pang mga numeric variable.

Ang materyal ay ilalarawan gamit ang isang cross-cutting na halimbawa. Pagtataya ng dami ng benta sa isang tindahan ng damit. Ang Sunflowers chain ng mga discount na tindahan ng damit ay patuloy na lumalawak sa loob ng 25 taon. Gayunpaman, ang kumpanya ay kasalukuyang walang sistematikong diskarte sa pagpili ng mga bagong outlet. Ang lokasyon kung saan nilalayon ng isang kumpanya na magbukas ng bagong tindahan ay tinutukoy batay sa mga pansariling pagsasaalang-alang. Ang mga pamantayan sa pagpili ay ang mga kanais-nais na kondisyon sa pag-upa o ang ideya ng manager ng perpektong lokasyon ng tindahan. Isipin na ikaw ang pinuno ng mga espesyal na proyekto at departamento ng pagpaplano. Ikaw ay naatasang bumuo ng isang estratehikong plano para sa pagbubukas ng mga bagong tindahan. Ang planong ito ay dapat magsama ng pagtataya ng taunang benta para sa mga bagong bukas na tindahan. Naniniwala ka na ang retail space ay direktang nauugnay sa kita at gusto mong isama ito sa iyong proseso ng paggawa ng desisyon. Paano ka bubuo ng istatistikal na modelo upang mahulaan ang mga taunang benta batay sa laki ng isang bagong tindahan?

Karaniwan, ang pagsusuri ng regression ay ginagamit upang mahulaan ang mga halaga ng isang variable. Ang layunin nito ay bumuo ng isang istatistikal na modelo na maaaring mahulaan ang mga halaga ng isang umaasa na variable, o tugon, mula sa mga halaga ng hindi bababa sa isang independyente, o nagpapaliwanag, na variable. Sa tala na ito, titingnan natin ang simpleng linear regression - isang istatistikal na paraan na nagbibigay-daan sa iyo upang mahulaan ang mga halaga ng isang dependent variable. Y sa pamamagitan ng mga independiyenteng variable na halaga X. Ang mga kasunod na tala ay maglalarawan ng maraming modelo ng regression na idinisenyo upang mahulaan ang mga halaga ng isang independiyenteng variable Y batay sa mga halaga ng ilang dependent variable ( X 1, X 2, …, X k).

I-download ang tala sa o format, mga halimbawa sa format

Mga uri ng mga modelo ng regression

saan ρ 1 – koepisyent ng autocorrelation; Kung ρ 1 = 0 (walang autocorrelation), D≈ 2; Kung ρ 1 ≈ 1 (positibong autocorrelation), D≈ 0; Kung ρ 1 = -1 (negatibong autocorrelation), D ≈ 4.

Sa pagsasagawa, ang paggamit ng Durbin-Watson criterion ay batay sa paghahambing ng halaga D na may mga kritikal na teoretikal na halaga dL At d U para sa isang naibigay na bilang ng mga obserbasyon n, bilang ng mga independiyenteng variable ng modelo k(para sa simpleng linear regression k= 1) at antas ng kahalagahan α. Kung D< d L , ang hypothesis tungkol sa kalayaan ng mga random na paglihis ay tinanggihan (kaya, mayroong isang positibong autocorrelation); Kung D>dU, ang hypothesis ay hindi tinatanggihan (iyon ay, walang autocorrelation); Kung dL< D < d U , walang sapat na batayan para gumawa ng desisyon. Kapag ang kinakalkula na halaga D lumampas sa 2, pagkatapos ay may dL At d U Hindi ang koepisyent mismo ang inihambing D, at ang expression (4 – D).

Upang kalkulahin ang mga istatistika ng Durbin-Watson sa Excel, buksan natin ang talahanayan sa ibaba sa Fig. 14 Pag-withdraw ng balanse. Ang numerator sa expression (10) ay kinakalkula gamit ang function na =SUMMAR(array1;array2), at ang denominator =SUMMAR(array) (Fig. 16).

kanin. 16. Mga formula para sa pagkalkula ng mga istatistika ng Durbin-Watson

Sa ating halimbawa D= 0.883. Ang pangunahing tanong ay: anong halaga ng istatistika ng Durbin-Watson ang dapat ituring na sapat na maliit upang tapusin na mayroong isang positibong autocorrelation? Kinakailangan na iugnay ang halaga ng D sa mga kritikal na halaga ( dL At d U), depende sa bilang ng mga obserbasyon n at antas ng kahalagahan α (Larawan 17).

kanin. 17. Mga kritikal na halaga ng mga istatistika ng Durbin-Watson (table fragment)

Kaya, sa problema ng dami ng benta sa isang tindahan na naghahatid ng mga kalakal sa bahay, mayroong isang malayang variable ( k= 1), 15 obserbasyon ( n= 15) at antas ng kabuluhan α = 0.05. Kaya naman, dL= 1.08 at dU= 1.36. Dahil ang D = 0,883 < dL= 1.08, mayroong isang positibong autocorrelation sa pagitan ng mga residual, hindi maaaring gamitin ang hindi bababa sa mga parisukat na paraan.

Pagsubok ng Hypotheses tungkol sa Slope at Correlation Coefficient

Sa itaas, ang regression ay ginamit lamang para sa pagtataya. Upang matukoy ang mga coefficient ng regression at mahulaan ang halaga ng isang variable Y para sa isang naibigay na variable na halaga X Ginamit ang paraan ng least squares. Bilang karagdagan, sinuri namin ang root mean square error ng pagtatantya at ang mixed correlation coefficient. Kung ang pagsusuri ng mga nalalabi ay nagpapatunay na ang mga kondisyon ng pagkakalapat ng pamamaraan ng hindi bababa sa mga parisukat ay hindi nilalabag, at ang simpleng linear regression na modelo ay sapat, batay sa sample na data, maaari itong maitalo na mayroong isang linear na relasyon sa pagitan ng mga variable sa populasyon.

Aplikasyont -pamantayan para sa slope. Sa pamamagitan ng pagsubok kung ang slope ng populasyon β 1 ay katumbas ng zero, matutukoy mo kung mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng mga variable. X At Y. Kung ang hypothesis na ito ay tinanggihan, ito ay maaaring argued na sa pagitan ng mga variable X At Y mayroong isang linear na relasyon. Ang mga null at alternatibong hypotheses ay nabuo tulad ng sumusunod: H 0: β 1 = 0 (walang linear dependence), H1: β 1 ≠ 0 (may linear dependence). A-priory t-statistic ay katumbas ng pagkakaiba sa pagitan ng sample na slope at hypothetical na halaga ng slope ng populasyon, na hinati sa root mean square error ng slope estimate:

(11) t = (b 1 β 1 ) / Sb 1

saan b 1 – slope ng direktang regression sa sample na data, β1 – hypothetical slope ng direktang populasyon, , at mga istatistika ng pagsubok t Mayroon itong t-pamamahagi na may n – 2 antas ng kalayaan.

Suriin natin kung may makabuluhang kaugnayan sa istatistika sa pagitan ng laki ng tindahan at taunang benta sa α = 0.05. t-ang criterion ay ipinapakita kasama ng iba pang mga parameter kapag ginamit Pakete ng pagsusuri(pagpipilian Regression). Ang kumpletong mga resulta ng Package ng Pagsusuri ay ipinapakita sa Fig. 4, fragment na nauugnay sa t-statistics - sa Fig. 18.

kanin. 18. Mga resulta ng aplikasyon t

Dahil sa dami ng mga tindahan n= 14 (tingnan ang Fig. 3), kritikal na halaga t-Ang mga istatistika sa antas ng kahalagahan ng α = 0.05 ay matatagpuan gamit ang formula: t L=STUDENT.ARV(0.025,12) = –2.1788, kung saan ang 0.025 ay kalahati ng antas ng kahalagahan, at 12 = n – 2; t U=ESTUDYANTE.OBR(0.975,12) = +2.1788.

Dahil ang t-statistics = 10.64 > t U= 2.1788 (Larawan 19), null hypothesis H 0 tinanggihan. Sa kabila, R-halaga para sa X= 10.6411, na kinakalkula ng formula =1-STUDENT.DIST(D3,12,TRUE), ay tinatayang katumbas ng zero, kaya ang hypothesis H 0 muling tinanggihan. Ang katotohanan na R-Ang halaga ng halos zero ay nangangahulugan na kung walang totoong linear na ugnayan sa pagitan ng mga laki ng tindahan at taunang benta, halos imposible itong matukoy gamit ang linear regression. Samakatuwid, mayroong makabuluhang linear na kaugnayan sa istatistika sa pagitan ng average na taunang benta ng tindahan at laki ng tindahan.

kanin. 19. Pagsubok sa hypothesis tungkol sa slope ng populasyon sa antas ng kahalagahan na 0.05 at 12 degrees ng kalayaan

AplikasyonF -pamantayan para sa slope. Ang isang alternatibong diskarte sa pagsubok ng mga hypotheses tungkol sa slope ng simpleng linear regression ay ang paggamit F-pamantayan. Paalalahanan ka namin F-test ay ginagamit upang subukan ang relasyon sa pagitan ng dalawang mga pagkakaiba-iba (para sa higit pang mga detalye, tingnan). Kapag sinusubukan ang slope hypothesis, ang sukatan ng mga random na error ay ang error variance (ang kabuuan ng mga squared error na hinati sa bilang ng mga degree ng kalayaan), kaya F-criterion ay gumagamit ng ratio ng variance na ipinaliwanag ng regression (i.e. ang value SSR, na hinati sa bilang ng mga independent variable k), sa pagkakaiba-iba ng error ( MSE = S YX 2 ).

A-priory F-statistic ay katumbas ng mean square of regression (MSR) na hinati sa error variance (MSE): F = MSR/ MSE, Saan MSR=SSR / k, MSE =SSE/(n– k – 1), k– bilang ng mga independiyenteng variable sa modelo ng regression. Mga istatistika ng pagsubok F Mayroon itong F-pamamahagi na may k At n– k – 1 antas ng kalayaan.

Para sa isang naibigay na antas ng kabuluhan α, ang tuntunin ng desisyon ay binabalangkas tulad ng sumusunod: kung F>FU, ang null hypothesis ay tinanggihan; kung hindi, hindi ito tinatanggihan. Ang mga resulta, na ipinakita sa anyo ng isang talahanayan ng buod ng pagsusuri ng pagkakaiba-iba, ay ipinapakita sa Fig. 20.

kanin. 20. Pagsusuri ng talahanayan ng pagkakaiba-iba para sa pagsubok ng hypothesis tungkol sa istatistikal na kahalagahan ng koepisyent ng regression

Ganun din t-pamantayan F-ang criterion ay ipinapakita sa talahanayan kapag ginamit Pakete ng pagsusuri(pagpipilian Regression). Buong resulta ng trabaho Pakete ng pagsusuri ay ipinapakita sa Fig. 4, fragment na may kaugnayan sa F-mga istatistika - sa Fig. 21.

kanin. 21. Mga resulta ng aplikasyon F-pamantayan na nakuha gamit ang Excel Analysis Package

Ang F-statistic ay 113.23, at R-value na malapit sa zero (cell KahalagahanF). Kung ang antas ng kahalagahan α ay 0.05, tukuyin ang kritikal na halaga F-Ang mga distribusyon na may isa at 12 degree ng kalayaan ay maaaring makuha gamit ang formula F U=F.OBR(1-0.05;1;12) = 4.7472 (Larawan 22). Dahil ang F = 113,23 > F U= 4.7472, at R-value na malapit sa 0< 0,05, нулевая гипотеза H 0 ay tinanggihan, i.e. Ang laki ng isang tindahan ay malapit na nauugnay sa taunang benta nito.

kanin. 22. Pagsubok sa hypothesis ng slope ng populasyon sa antas ng kahalagahan na 0.05 na may isa at 12 degree ng kalayaan

Confidence interval na naglalaman ng slope β 1 . Upang subukan ang hypothesis na mayroong linear na ugnayan sa pagitan ng mga variable, maaari kang bumuo ng confidence interval na naglalaman ng slope β 1 at i-verify na ang hypothetical value na β 1 ​​= 0 ay kabilang sa interval na ito. Ang sentro ng agwat ng kumpiyansa na naglalaman ng slope β 1 ay ang sample na slope b 1 , at ang mga hangganan nito ay ang mga dami b 1 ±tn –2 Sb 1

Gaya ng ipinapakita sa Fig. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =ESTUDYANTE.ARV(0.975,12) = 2.1788. Kaya naman, b 1 ±tn –2 Sb 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, o + 1.328 ≤ β 1 ≤ +2.012. Kaya, may posibilidad na 0.95 na ang slope ng populasyon ay nasa pagitan ng +1.328 at +2.012 (ibig sabihin, $1,328,000 hanggang $2,012,000). Dahil ang mga halagang ito ay mas malaki kaysa sa zero, mayroong istatistikal na makabuluhang linear na relasyon sa pagitan ng taunang mga benta at lugar ng tindahan. Kung ang pagitan ng kumpiyansa ay naglalaman ng zero, walang ugnayan sa pagitan ng mga variable. Bilang karagdagan, ang confidence interval ay nangangahulugan na ang bawat pagtaas sa lugar ng tindahan ng 1,000 sq. ft. ay nagreresulta sa pagtaas ng average na dami ng benta sa pagitan ng $1,328,000 at $2,012,000.

Paggamitt -pamantayan para sa koepisyent ng ugnayan. ipinakilala ang koepisyent ng ugnayan r, na isang sukatan ng ugnayan sa pagitan ng dalawang numeric na variable. Maaari itong magamit upang matukoy kung mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng dalawang variable. Tukuyin natin ang koepisyent ng ugnayan sa pagitan ng mga populasyon ng parehong mga variable sa pamamagitan ng simbolo na ρ. Ang mga null at alternatibong hypotheses ay nabuo tulad ng sumusunod: H 0: ρ = 0 (walang ugnayan), H 1: ρ ≠ 0 (may ugnayan). Sinusuri ang pagkakaroon ng isang ugnayan:

saan r = + , Kung b 1 > 0, r = – , Kung b 1 < 0. Тестовая статистика t Mayroon itong t-pamamahagi na may n – 2 antas ng kalayaan.

Sa problema tungkol sa Sunflowers chain ng mga tindahan r 2= 0.904, a b 1- +1.670 (tingnan ang Fig. 4). Dahil ang b 1> 0, ang koepisyent ng ugnayan sa pagitan ng taunang benta at laki ng tindahan ay r= +√0.904 = +0.951. Subukan natin ang null hypothesis na walang ugnayan sa pagitan ng mga variable na ito gamit t-mga istatistika:

Sa antas ng kabuluhan na α = 0.05, ang null hypothesis ay dapat tanggihan dahil t= 10.64 > 2.1788. Kaya, maaari itong maitalo na mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng taunang mga benta at laki ng tindahan.

Kapag tinatalakay ang mga hinuha patungkol sa slope ng populasyon, ang mga pagitan ng kumpiyansa at mga pagsubok sa hypothesis ay ginagamit nang magkapalit. Gayunpaman, ang pagkalkula ng agwat ng kumpiyansa na naglalaman ng koepisyent ng ugnayan ay lumalabas na mas mahirap, dahil ang uri ng sampling distribution ng istatistika r depende sa totoong correlation coefficient.

Pagtatantya ng inaasahan sa matematika at hula ng mga indibidwal na halaga

Tinatalakay ng seksyong ito ang mga pamamaraan para sa pagtantya ng inaasahan sa matematika ng isang tugon Y at mga hula ng mga indibidwal na halaga Y para sa mga ibinigay na halaga ng variable X.

Pagbuo ng agwat ng kumpiyansa. Sa halimbawa 2 (tingnan ang seksyon sa itaas Pinakamababang parisukat na pamamaraan) ginawang posible ng regression equation na mahulaan ang halaga ng variable Y X. Sa problema ng pagpili ng isang lokasyon para sa isang retail outlet, ang average na taunang dami ng benta sa isang tindahan na may lugar na 4000 sq. feet ay katumbas ng 7.644 million dollars. Gayunpaman, ang pagtatantya na ito ng matematikal na inaasahan ng pangkalahatang populasyon ay point-wise. Upang matantya ang mathematical na inaasahan ng populasyon, iminungkahi ang konsepto ng isang agwat ng kumpiyansa. Katulad nito, maaari nating ipakilala ang konsepto agwat ng kumpiyansa para sa mathematical na inaasahan ng tugon para sa isang naibigay na variable na halaga X:

saan , = b 0 + b 1 X i– variable ang hinulaang halaga Y sa X = X i, S YX– root mean square error, n- laki ng sample, Xi- tinukoy na halaga ng variable X, µ Y|X = Xi– mathematical na inaasahan ng variable Y sa X = Xi, SSX =

Ang pagsusuri ng formula (13) ay nagpapakita na ang lapad ng agwat ng kumpiyansa ay nakasalalay sa ilang mga kadahilanan. Sa isang naibigay na antas ng kahalagahan, ang pagtaas sa amplitude ng mga pagbabago sa paligid ng linya ng regression, na sinusukat gamit ang root mean square error, ay humahantong sa isang pagtaas sa lapad ng agwat. Sa kabilang banda, tulad ng inaasahan ng isa, ang pagtaas sa laki ng sample ay sinamahan ng pagpapaliit ng pagitan. Bilang karagdagan, ang lapad ng agwat ay nagbabago depende sa mga halaga Xi. Kung ang variable na halaga Y hinulaang para sa dami X, malapit sa average na halaga , ang agwat ng kumpiyansa ay lumalabas na mas makitid kaysa sa paghula ng tugon para sa mga halaga na malayo sa karaniwan.

Sabihin nating kapag pumipili ng lokasyon ng tindahan, gusto naming bumuo ng 95% na agwat ng kumpiyansa para sa average na taunang benta ng lahat ng mga tindahan na ang lugar ay 4000 metro kuwadrado. paa:

Samakatuwid, ang average na taunang dami ng benta sa lahat ng mga tindahan na may lugar na 4,000 sq. talampakan, na may 95% na posibilidad ay nasa hanay mula 6.971 hanggang 8.317 milyong dolyar.

Kalkulahin ang agwat ng kumpiyansa para sa hinulaang halaga. Bilang karagdagan sa agwat ng kumpiyansa para sa inaasahan ng matematika ng tugon para sa isang naibigay na halaga ng variable X, kadalasang kailangang malaman ang agwat ng kumpiyansa para sa hinulaang halaga. Bagama't ang formula para sa pagkalkula ng naturang agwat ng kumpiyansa ay halos kapareho sa formula (13), ang agwat na ito ay naglalaman ng hinulaang halaga sa halip na ang pagtatantya ng parameter. Interval para sa hinulaang tugon YX = Xi para sa isang tiyak na halaga ng variable Xi tinutukoy ng formula:

Ipagpalagay na, kapag pumipili ng lokasyon para sa isang retail outlet, gusto naming bumuo ng 95% confidence interval para sa hinulaang taunang dami ng benta para sa isang tindahan na ang lugar ay 4000 square meters. paa:

Samakatuwid, ang hinulaang taunang dami ng benta para sa isang tindahan na may lawak na 4000 sq. feet, na may 95% na posibilidad ay nasa saklaw mula 5.433 hanggang 9.854 milyong dolyar. Gaya ng nakikita natin, ang agwat ng kumpiyansa para sa hinulaang halaga ng tugon ay mas malawak kaysa sa pagitan ng kumpiyansa para sa inaasahan sa matematika nito. Ito ay dahil ang pagkakaiba-iba sa paghula ng mga indibidwal na halaga ay mas malaki kaysa sa pagtatantya ng inaasahan sa matematika.

Mga pitfalls at etikal na isyu na nauugnay sa paggamit ng regression

Mga paghihirap na nauugnay sa pagsusuri ng regression:

  • Hindi pinapansin ang mga kundisyon ng pagiging angkop ng pamamaraan ng least squares.
  • Maling pagtatasa ng mga kundisyon para sa applicability ng least squares method.
  • Maling pagpili ng mga alternatibong pamamaraan kapag nilabag ang mga kundisyon ng pagkakalapat ng least squares method.
  • Application ng regression analysis nang walang malalim na kaalaman sa paksa ng pananaliksik.
  • Extrapolating isang regression na lampas sa hanay ng paliwanag na variable.
  • Pagkalito sa pagitan ng istatistikal at sanhi ng mga relasyon.

Ang malawakang paggamit ng mga spreadsheet at statistical software ay nag-alis ng mga problema sa computational na humadlang sa paggamit ng regression analysis. Gayunpaman, humantong ito sa katotohanan na ang pagsusuri ng regression ay ginamit ng mga user na walang sapat na kwalipikasyon at kaalaman. Paano malalaman ng mga gumagamit ang tungkol sa mga alternatibong pamamaraan kung marami sa kanila ang walang ideya sa lahat tungkol sa mga kondisyon ng pagiging angkop ng pamamaraang least squares at hindi alam kung paano suriin ang kanilang pagpapatupad?

Ang mananaliksik ay hindi dapat madala sa mga crunching na numero - pagkalkula ng shift, slope at mixed correlation coefficient. Kailangan niya ng mas malalim na kaalaman. Ilarawan natin ito sa isang klasikong halimbawa na kinuha mula sa mga aklat-aralin. Ipinakita ng Anscombe na ang lahat ng apat na set ng data na ipinapakita sa Fig. 23, ay may parehong mga parameter ng regression (Larawan 24).

kanin. 23. Apat na artipisyal na set ng data

kanin. 24. Pagsusuri ng regression ng apat na artipisyal na set ng data; tapos na Pakete ng pagsusuri(i-click ang larawan upang palakihin ang larawan)

Kaya, mula sa punto ng view ng pagsusuri ng regression, ang lahat ng mga set ng data na ito ay ganap na magkapareho. Kung doon natapos ang pagsusuri, mawawalan tayo ng maraming kapaki-pakinabang na impormasyon. Ito ay pinatunayan ng mga scatter plot (Larawan 25) at mga natitirang plot (Larawan 26) na binuo para sa mga set ng data na ito.

kanin. 25. Scatter plot para sa apat na data set

Ang mga scatter plot at natitirang plot ay nagpapahiwatig na ang mga data na ito ay naiiba sa bawat isa. Ang tanging set na ibinahagi sa isang tuwid na linya ay nakatakdang A. Ang plot ng mga residual na kinakalkula mula sa set A ay walang anumang pattern. Hindi ito masasabi tungkol sa set B, C at D. Ang scatter plot na naka-plot para sa set B ay nagpapakita ng binibigkas na quadratic pattern. Ang konklusyon na ito ay nakumpirma ng natitirang balangkas, na may parabolic na hugis. Ipinapakita ng scatter plot at residual plot na ang data set B ay naglalaman ng outlier. Sa sitwasyong ito, kinakailangang ibukod ang outlier mula sa set ng data at ulitin ang pagsusuri. Ang isang paraan para sa pag-detect at pag-aalis ng mga outlier sa mga obserbasyon ay tinatawag na influence analysis. Pagkatapos alisin ang outlier, ang resulta ng muling pagtatantya sa modelo ay maaaring ganap na naiiba. Ang scatterplot na naka-plot mula sa data mula sa set G ay naglalarawan ng isang hindi pangkaraniwang sitwasyon kung saan ang empirical na modelo ay lubos na nakadepende sa isang indibidwal na tugon ( X 8 = 19, Y 8 = 12.5). Ang ganitong mga modelo ng regression ay dapat na kalkulahin nang mabuti. Kaya, ang mga scatter at natitirang plot ay isang mahalagang tool para sa pagsusuri ng regression at dapat ay isang mahalagang bahagi nito. Kung wala ang mga ito, ang pagsusuri ng regression ay hindi kapani-paniwala.

kanin. 26. Mga natitirang plot para sa apat na set ng data

Paano maiwasan ang mga pitfalls sa regression analysis:

  • Pagsusuri ng mga posibleng ugnayan sa pagitan ng mga variable X At Y laging magsimula sa pamamagitan ng pagguhit ng scatter plot.
  • Bago bigyang-kahulugan ang mga resulta ng pagsusuri ng regression, suriin ang mga kondisyon para sa pagiging angkop nito.
  • I-plot ang mga residual laban sa independent variable. Ito ay magiging posible upang matukoy kung gaano kahusay ang empirical na modelo ay tumutugma sa mga resulta ng obserbasyon at upang matukoy ang isang paglabag sa pagkakaiba-iba.
  • Gumamit ng mga histogram, stem-and-leaf plot, boxplot, at normal na distribution plot upang subukan ang pagpapalagay ng isang normal na pamamahagi ng error.
  • Kung hindi natutugunan ang mga kundisyon para sa applicability ng least squares method, gumamit ng mga alternatibong pamamaraan (halimbawa, quadratic o multiple regression models).
  • Kung natutugunan ang mga kundisyon para sa applicability ng least squares method, kailangang subukan ang hypothesis tungkol sa statistical significance ng regression coefficients at bumuo ng confidence intervals na naglalaman ng mathematical expectation at ang predicted response value.
  • Iwasang hulaan ang mga halaga ng dependent variable sa labas ng hanay ng independent variable.
  • Tandaan na ang mga istatistikal na relasyon ay hindi palaging sanhi-at-epekto. Tandaan na ang ugnayan sa pagitan ng mga variable ay hindi nangangahulugang mayroong sanhi-at-epekto na relasyon sa pagitan ng mga ito.

Buod. Gaya ng ipinapakita sa block diagram (Figure 27), inilalarawan ng tala ang simpleng linear regression na modelo, ang mga kondisyon para sa pagiging angkop nito, at kung paano subukan ang mga kundisyong ito. Isinasaalang-alang t-criterion para sa pagsubok sa istatistikal na kahalagahan ng slope ng regression. Ang isang modelo ng regression ay ginamit upang mahulaan ang mga halaga ng dependent variable. Ang isang halimbawa ay isinasaalang-alang na nauugnay sa pagpili ng lokasyon para sa isang retail outlet, kung saan ang pagtitiwala sa taunang dami ng benta sa lugar ng tindahan ay sinusuri. Ang impormasyong nakuha ay nagbibigay-daan sa iyo na mas tumpak na pumili ng isang lokasyon para sa isang tindahan at mahulaan ang taunang dami ng benta nito. Ang mga sumusunod na tala ay magpapatuloy sa pagtalakay sa pagsusuri ng regression at titingnan din ang maramihang mga modelo ng regression.

kanin. 27. Tandaan structure diagram

Mga materyales mula sa aklat na Levin et al. Ginagamit ang Statistics for Managers. – M.: Williams, 2004. – p. 792–872

Kung ang dependent variable ay kategorya, ang logistic regression ay dapat gamitin.