Layunin ng pagsusuri ng regression. Mga pamamaraan ng mga istatistika ng matematika

Ang pangunahing layunin ng pagsusuri ng regression ay binubuo sa pagtukoy ng analitikal na anyo ng komunikasyon kung saan ang pagbabago sa epektibong katangian ay dahil sa impluwensya ng isa o higit pang mga katangian ng salik, at ang hanay ng lahat ng iba pang mga salik na nakakaimpluwensya rin sa epektibong katangian ay kinukuha bilang pare-pareho at karaniwang mga halaga.
Mga Problema sa Pagsusuri ng Pagbabalik:
a) Pagtatatag ng anyo ng pagtitiwala. Tungkol sa kalikasan at anyo ng ugnayan sa pagitan ng mga penomena, ang isang pagkakaiba ay ginawa sa pagitan ng positibong linear at nonlinear at negatibong linear at nonlinear na regression.
b) Pagtukoy sa function ng regression sa anyo ng isang mathematical equation ng isang uri o iba pa at pagtatatag ng impluwensya ng mga paliwanag na variable sa dependent variable.
c) Pagtatantya ng hindi kilalang mga halaga ng dependent variable. Gamit ang pag-andar ng regression, maaari mong kopyahin ang mga halaga ng dependent variable sa loob ng pagitan ng mga tinukoy na halaga ng mga paliwanag na variable (i.e., lutasin ang problema sa interpolation) o suriin ang kurso ng proseso sa labas ng tinukoy na agwat (i.e., lutasin ang problema sa extrapolation). Ang resulta ay isang pagtatantya ng halaga ng dependent variable.

Ang paired regression ay isang equation para sa relasyon sa pagitan ng dalawang variable na y at x: , kung saan ang y ay ang dependent variable (resultative attribute); Ang x ay isang independiyenteng paliwanag na variable (feature-factor).

May mga linear at nonlinear na regression.
Linear regression: y = a + bx + ε
Ang mga nonlinear na regression ay nahahati sa dalawang klase: mga regression na nonlinear na may kinalaman sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may kinalaman sa mga tinantyang parameter, at mga regression na nonlinear na may kinalaman sa mga tinantyang parameter.
Mga regression na nonlinear sa mga variable na nagpapaliwanag:

Mga regression na nonlinear na may kinalaman sa mga tinantyang parameter: Ang pagbuo ng isang regression equation ay bumababa sa pagtatantya ng mga parameter nito. Upang matantya ang mga parameter ng mga regression linear sa mga parameter, ang least squares method (OLS) ay ginagamit. Ang paraan ng hindi bababa sa mga parisukat ay ginagawang posible upang makakuha ng naturang mga pagtatantya ng parameter kung saan ang kabuuan ng mga parisukat na paglihis ng mga aktwal na halaga ng resultang katangian y mula sa mga teoretikal ay minimal, i.e.
.
Para sa mga linear at nonlinear na equation na mababawasan sa mga linear, ang sumusunod na sistema ay nalulutas para sa a at b:

Maaari mong gamitin ang mga handa na formula na sumusunod mula sa system na ito:

Ang lapit ng koneksyon sa pagitan ng mga phenomena na pinag-aaralan ay tinasa ng linear coefficient ng ugnayan ng pares para sa linear regression:

at correlation index - para sa nonlinear regression:

Ang kalidad ng itinayong modelo ay susuriin ng koepisyent (index) ng pagpapasiya, pati na rin ang average na error ng approximation.
Average na error sa pagtatantya - average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:
.
Ang pinahihintulutang limitasyon ng mga halaga ay hindi hihigit sa 8-10%.
Ang average na elasticity coefficient ay nagpapakita sa kung anong porsyento sa average ang resulta y ay magbabago mula sa average na halaga nito kapag ang factor x ay nagbago ng 1% mula sa average na halaga nito:
.

Ang layunin ng pagsusuri ng pagkakaiba-iba ay upang suriin ang pagkakaiba-iba ng umaasang baryabol:
,
saan ang kabuuang kabuuan ng mga squared deviations;
- ang kabuuan ng mga squared deviations dahil sa regression ("ipinaliwanag" o "factorial");
- natitirang kabuuan ng mga squared deviations.
Ang bahagi ng pagkakaiba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng resultang katangian y ay nailalarawan sa pamamagitan ng koepisyent (index) ng determinasyon R2:

Ang coefficient of determination ay ang parisukat ng coefficient o correlation index.

Ang F-test - pagtatasa ng kalidad ng regression equation - ay binubuo ng pagsubok sa hypothesis No tungkol sa statistical insignificance ng regression equation at ang indicator ng lapit ng relasyon. Upang gawin ito, ang isang paghahambing ay ginawa sa pagitan ng aktwal na F fact at ang kritikal (tabular) F na mga halaga ng talahanayan ng Fisher F-criterion. Ang F fact ay tinutukoy mula sa ratio ng mga halaga ng kadahilanan at natitirang mga pagkakaiba-iba na kinakalkula sa bawat antas ng kalayaan:
,
kung saan ang n ay ang bilang ng mga yunit ng populasyon; m ay ang bilang ng mga parameter para sa mga variable x.
Ang F table ay ang pinakamataas na posibleng halaga ng criterion sa ilalim ng impluwensya ng mga random na salik sa ibinigay na antas ng kalayaan at antas ng kahalagahan a. Ang antas ng kahalagahan a ay ang posibilidad na tanggihan ang tamang hypothesis, dahil ito ay totoo. Karaniwan ang a ay kinukuha na katumbas ng 0.05 o 0.01.
Kung F talahanayan< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F katotohanan, pagkatapos ay ang hypothesis H o ay hindi tinanggihan at ang istatistika insignificance at hindi mapagkakatiwalaan ng regression equation ay kinikilala.
Upang masuri ang statistical significance ng regression at correlation coefficients, kinakalkula ang t-test at confidence interval ng Mag-aaral para sa bawat indicator. Ang isang hypothesis ay iniharap tungkol sa random na katangian ng mga tagapagpahiwatig, i.e. tungkol sa kanilang hindi gaanong pagkakaiba mula sa zero. Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's t-test ay isinasagawa sa pamamagitan ng paghahambing ng kanilang mga halaga sa magnitude ng random error:
; ; .
Ang mga random na error ng linear regression na mga parameter at ang correlation coefficient ay tinutukoy ng mga formula:



Paghahambing ng aktwal at kritikal (tabular) na mga halaga ng t-statistics - t table at t fact - tinatanggap o tinatanggihan namin ang hypothesis H o.
Ang relasyon sa pagitan ng Fisher F-test at ng Student t-statistic ay ipinahayag ng pagkakapantay-pantay

Kung t talahanayan< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t ay isang katotohanan na ang hypothesis H o ay hindi tinatanggihan at ang random na katangian ng pagbuo ng a, b o ay kinikilala.
Upang kalkulahin ang agwat ng kumpiyansa, tinutukoy namin ang maximum na error D para sa bawat tagapagpahiwatig:
, .
Ang mga formula para sa pagkalkula ng mga agwat ng kumpiyansa ay ang mga sumusunod:
; ;
; ;
Kung ang zero ay nasa loob ng agwat ng kumpiyansa, i.e. Kung negatibo ang mababang limitasyon at positibo ang pinakamataas na limitasyon, ang tinantyang parameter ay ituturing na zero, dahil hindi ito maaaring sabay na kumuha ng parehong positibo at negatibong mga halaga.
Natutukoy ang halaga ng pagtataya sa pamamagitan ng pagpapalit ng katumbas na (pagtataya) na halaga sa equation ng regression. Ang average na karaniwang error ng forecast ay kinakalkula:
,
saan
at isang agwat ng kumpiyansa para sa hula ay binuo:
; ;
saan .

Halimbawang solusyon

Gawain Blg. 1. Para sa pitong teritoryo ng rehiyon ng Ural noong 199X, ang mga halaga ng dalawang katangian ay kilala.
Talahanayan 1.
Kailangan: 1. Upang makilala ang dependence ng y sa x, kalkulahin ang mga parameter ng mga sumusunod na function:
a) linear;
b) kapangyarihan (kailangan mo munang isagawa ang pamamaraan ng linearization ng mga variable sa pamamagitan ng pagkuha ng logarithm ng parehong bahagi);
c) nagpapakita;
d) isang equilateral hyperbola (kailangan mo ring malaman kung paano i-pre-linearize ang modelong ito).
2. Suriin ang bawat modelo gamit ang average na error ng approximation at Fisher's F test.

Solusyon (Option No. 1)

Upang kalkulahin ang mga parameter a at b ng linear regression (maaaring gawin ang pagkalkula gamit ang isang calculator).
lutasin ang isang sistema ng mga normal na equation para sa A At b:
Batay sa paunang data, kinakalkula namin :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Kabuuan 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ikasal. ibig sabihin (Kabuuan/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Regression equation: y = 76,88 - 0,35X. Sa pagtaas ng average na pang-araw-araw na sahod ng 1 kuskusin. ang bahagi ng mga gastos para sa pagbili ng mga produktong pagkain ay bumababa ng average na 0.35 na porsyentong puntos.
Kalkulahin natin ang linear pair correlation coefficient:

Ang koneksyon ay katamtaman, kabaligtaran.
Tukuyin natin ang koepisyent ng determinasyon:

Ang 12.7% variation sa resulta ay ipinaliwanag ng variation sa x factor. Ang pagpapalit ng mga aktwal na halaga sa equation ng regression X, tukuyin natin ang teoretikal (kinakalkula) na mga halaga . Hanapin natin ang halaga ng average na error sa pagtatantya:

Sa karaniwan, ang mga kinakalkula na halaga ay lumihis mula sa aktwal na mga halaga ng 8.1%.
Kalkulahin natin ang F-criterion:

mula noong 1< F < ¥ , dapat isaalang-alang F -1 .
Ang resultang halaga ay nagpapahiwatig ng pangangailangang tanggapin ang hypothesis Pero oh ang random na kalikasan ng natukoy na pag-asa at ang hindi gaanong kahalagahan ng istatistika ng mga parameter ng equation at ang tagapagpahiwatig ng pagiging malapit ng koneksyon.
1b. Ang pagtatayo ng isang modelo ng kapangyarihan ay nauuna sa pamamaraan ng linearization ng mga variable. Sa halimbawa, ang linearization ay ginagawa sa pamamagitan ng pagkuha ng logarithms ng magkabilang panig ng equation:


saanY=lg(y), X=lg(x), C=lg(a).

Para sa mga kalkulasyon ginagamit namin ang data sa talahanayan. 1.3.

Talahanayan 1.3

Y X YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Kabuuan 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Average na halaga 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Kalkulahin natin ang C at b:


Kumuha kami ng linear equation: .
Nang maisagawa ang potentiation nito, nakukuha natin:

Ang pagpapalit ng mga aktwal na halaga sa equation na ito X, nakakakuha kami ng mga teoretikal na halaga ng resulta. Gamit ang mga ito, kakalkulahin namin ang mga tagapagpahiwatig: higpit ng koneksyon - index ng ugnayan at average na error sa pagtatantya

Ang mga katangian ng modelo ng power-law ay nagpapahiwatig na inilalarawan nito ang relasyon na medyo mas mahusay kaysa sa linear function.

1c. Pagbuo ng equation ng isang exponential curve

sinundan ng isang pamamaraan para sa linearizing variable sa pamamagitan ng pagkuha ng logarithms ng magkabilang panig ng equation:

Para sa mga kalkulasyon ginagamit namin ang data ng talahanayan.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Kabuuan 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ikasal. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Mga halaga ng mga parameter ng regression A at SA ay umabot sa:


Ang resultang linear equation ay: . Gawin nating potentiate ang resultang equation at isulat ito sa karaniwang anyo:

Susuriin namin ang pagiging malapit ng koneksyon sa pamamagitan ng index ng ugnayan:

Ang layunin ng pagsusuri ng regression ay sukatin ang ugnayan sa pagitan ng isang dependent variable at isa (pairwise regression analysis) o higit pa (multiple) independent variable. Ang mga independyenteng variable ay tinatawag ding factor, explanatory, determinant, regressor at predictor variable.

Ang dependent variable ay tinatawag na variable na tinutukoy, ipinaliwanag, o "tugon". Ang napakalawak na paggamit ng pagsusuri ng regression sa empirical na pananaliksik ay hindi lamang dahil sa katotohanan na ito ay isang maginhawang tool para sa pagsubok ng mga hypotheses. Ang regression, lalo na ang multiple regression, ay isang epektibong paraan para sa pagmomodelo at pagtataya.

Simulan nating ipaliwanag ang mga prinsipyo ng pagtatrabaho sa pagsusuri ng regression sa isang mas simple - ang paraan ng pares.

Pagsusuri ng Pares na Pagbabalik

Ang mga unang hakbang kapag gumagamit ng pagsusuri ng regression ay halos magkapareho sa mga ginawa namin sa pagkalkula ng koepisyent ng ugnayan. Ang tatlong pangunahing kondisyon para sa pagiging epektibo ng pagsusuri ng ugnayan gamit ang pamamaraang Pearson - normal na distribusyon ng mga variable, pagsukat ng pagitan ng mga variable, linear na relasyon sa pagitan ng mga variable - ay may kaugnayan din para sa maramihang pagbabalik. Alinsunod dito, sa unang yugto, ang mga scatterplot ay itinayo, isang istatistika at mapaglarawang pagsusuri ng mga variable ay isinasagawa, at isang linya ng regression ay kinakalkula. Tulad ng sa balangkas ng pagsusuri ng ugnayan, ang mga linya ng pagbabalik ay itinayo gamit ang pamamaraang least squares.

Upang mas malinaw na mailarawan ang mga pagkakaiba sa pagitan ng dalawang paraan ng pagsusuri ng data, buksan natin ang halimbawang tinalakay na kasama ng mga variable na "SPS support" at "rural population share". Ang pinagmulan ng data ay magkapareho. Ang pagkakaiba sa mga scatterplots ay na sa pagsusuri ng regression ay tama na i-plot ang dependent variable - sa aming kaso, "SPS support" sa Y-axis, samantalang sa correlation analysis hindi ito mahalaga. Pagkatapos maglinis ng mga outlier, ganito ang hitsura ng scatterplot:

Ang pangunahing ideya ng pagsusuri ng regression ay ang pagkakaroon ng isang pangkalahatang trend para sa mga variable - sa anyo ng isang linya ng regression - posible na mahulaan ang halaga ng umaasa na variable, na ibinigay ang mga halaga ng independiyenteng isa.

Isipin natin ang isang ordinaryong mathematical linear function. Anumang tuwid na linya sa Euclidean space ay maaaring ilarawan ng formula:

kung saan ang a ay isang pare-pareho na tumutukoy sa displacement kasama ang ordinate axis; b ay isang koepisyent na tumutukoy sa anggulo ng pagkahilig ng linya.

Alam ang slope at pare-pareho, maaari mong kalkulahin (hulaan) ang halaga ng y para sa anumang x.

Ang pinakasimpleng function na ito ay nabuo ang batayan ng modelo ng pagsusuri ng regression na may caveat na hindi namin mahulaan ang halaga ng y nang eksakto, ngunit sa loob ng isang tiyak na agwat ng kumpiyansa, i.e. humigit-kumulang.

Ang pare-pareho ay ang punto ng intersection ng linya ng regression at ang y-axis (F-intersection, karaniwang tinutukoy na "interceptor" sa mga statistical package). Sa aming halimbawa sa pagboto para sa Union of Right Forces, ang bilugan na halaga nito ay magiging 10.55. Ang angular coefficient b ay magiging humigit-kumulang -0.1 (tulad ng sa pagsusuri ng ugnayan, ipinapakita ng tanda ang uri ng koneksyon - direkta o kabaligtaran). Kaya, ang resultang modelo ay magkakaroon ng form na SP C = -0.1 x Sel. sa amin. + 10.55.

ATP = -0.10 x 47 + 10.55 = 5.63.

Ang pagkakaiba sa pagitan ng orihinal at hinulaang mga halaga ay tinatawag na natitira (natagpo na natin ang terminong ito, na mahalaga para sa mga istatistika, kapag sinusuri ang mga talahanayan ng contingency). Kaya, para sa kaso ng "Republika ng Adygea" ang natitira ay magiging katumbas ng 3.92 - 5.63 = -1.71. Kung mas malaki ang modular na halaga ng natitira, hindi gaanong matagumpay ang hinulaang halaga.

Kinakalkula namin ang mga hinulaang halaga at nalalabi para sa lahat ng kaso:
Nangyayari Umupo. sa amin. Salamat

(orihinal)

Salamat

(hinulaan)

Mga natira
Republika ng Adygea 47 3,92 5,63 -1,71 -
Republika ng Altai 76 5,4 2,59 2,81
Republika ng Bashkortostan 36 6,04 6,78 -0,74
Ang Republika ng Buryatia 41 8,36 6,25 2,11
Ang Republika ng Dagestan 59 1,22 4,37 -3,15
Ang Republika ng Ingushetia 59 0,38 4,37 3,99
atbp.

Ang pagtatasa ng ratio ng paunang at hinulaang mga halaga ay nagsisilbi upang masuri ang kalidad ng resultang modelo at ang kakayahang hulaan nito. Ang isa sa mga pangunahing tagapagpahiwatig ng mga istatistika ng regression ay ang multiple correlation coefficient R - ang correlation coefficient sa pagitan ng orihinal at hinulaang mga halaga ng dependent variable. Sa paired regression analysis, ito ay katumbas ng karaniwang Pearson correlation coefficient sa pagitan ng dependent at independent variable, sa aming kaso - 0.63. Upang makabuluhang bigyang-kahulugan ang maramihang R, dapat itong i-convert sa isang koepisyent ng determinasyon. Ginagawa ito sa parehong paraan tulad ng sa pagsusuri ng ugnayan - sa pamamagitan ng pag-squaring. Ang coefficient of determination R-squared (R 2) ay nagpapakita ng proporsyon ng variation sa dependent variable na ipinaliwanag ng independent variable(s).

Sa aming kaso, R 2 = 0.39 (0.63 2); nangangahulugan ito na ang variable na “rural population share” ay nagpapaliwanag ng humigit-kumulang 40% ng variation sa variable na “SPS support”. Kung mas malaki ang koepisyent ng pagpapasiya, mas mataas ang kalidad ng modelo.

Ang isa pang tagapagpahiwatig ng kalidad ng modelo ay ang karaniwang error ng pagtatantya. Ito ay isang sukatan kung gaano kalawak ang mga punto ay "nakakalat" sa paligid ng linya ng regression. Ang sukatan ng spread para sa mga variable ng interval ay ang standard deviation. Alinsunod dito, ang karaniwang error ng pagtatantya ay ang karaniwang paglihis ng pamamahagi ng mga nalalabi. Kung mas mataas ang halaga nito, mas malaki ang scatter at mas malala ang modelo. Sa aming kaso, ang karaniwang error ay 2.18. Sa halagang ito, ang aming modelo ay "magkakamali sa karaniwan" kapag hinuhulaan ang halaga ng variable na "suporta sa SPS".

Kasama rin sa mga istatistika ng regression ang pagsusuri ng pagkakaiba. Sa tulong nito, malalaman natin: 1) anong proporsyon ng variation (dispersion) ng dependent variable ang ipinaliwanag ng independent variable; 2) kung anong proporsyon ng pagkakaiba ng umaasang baryabol ang binibilang ng mga nalalabi (hindi maipaliwanag na bahagi); 3) ano ang ratio ng dalawang dami na ito (/"-ratio). Ang mga istatistika ng dispersion ay lalong mahalaga para sa mga sample na pag-aaral - ipinapakita nito kung gaano kalamang na mayroong relasyon sa pagitan ng mga independiyente at umaasa na mga variable sa populasyon. Gayunpaman, para sa patuloy na pag-aaral (tulad ng sa aming halimbawa) ang mga resulta ng pag-aaral ng variance analysis ay hindi kapaki-pakinabang. Sa kasong ito, sinusuri nila kung ang natukoy na istatistikal na pattern ay sanhi ng kumbinasyon ng mga random na pangyayari, kung gaano ito katangian para sa kumplikadong mga kondisyon kung saan ang populasyong sinusuri ay matatagpuan, ibig sabihin, ito ay itinatag na ang resulta na nakuha ay hindi totoo para sa ilang mas malawak na pangkalahatang pinagsama-samang, ngunit ang antas ng pagiging regular nito, kalayaan mula sa mga random na impluwensya.

Sa aming kaso, ang mga istatistika ng ANOVA ay ang mga sumusunod:

SS df MS F ibig sabihin
Regress. 258,77 1,00 258,77 54,29 0.000000001
Natitira 395,59 83,00 L,11
Kabuuan 654,36

Ang F-ratio na 54.29 ay makabuluhan sa 0.0000000001 na antas. Alinsunod dito, maaari naming kumpiyansa na tanggihan ang null hypothesis (na ang relasyon na aming natuklasan ay dahil sa pagkakataon).

Ang t criterion ay gumaganap ng isang katulad na function, ngunit may kaugnayan sa mga coefficient ng regression (angular at F-intersection). Gamit ang / criterion, sinusubok namin ang hypothesis na sa pangkalahatang populasyon ang regression coefficients ay katumbas ng zero. Sa aming kaso, maaari naming muling kumpiyansa na tanggihan ang null hypothesis.

Pagsusuri ng maramihang pagbabalik

Ang modelo ng multiple regression ay halos magkapareho sa ipinares na modelo ng regression; ang pagkakaiba lamang ay ang ilang mga independyenteng variable ay sunud-sunod na kasama sa linear function:

Y = b1X1 + b2X2 + …+ bpXp + a.

Kung mayroong higit sa dalawang independyenteng mga variable, hindi tayo makakakuha ng visual na ideya ng kanilang relasyon; sa bagay na ito, ang multiple regression ay hindi gaanong "visual" kaysa sa pairwise regression. Kapag mayroon kang dalawang independent variable, maaaring maging kapaki-pakinabang na ipakita ang data sa isang 3D scatterplot. Sa mga propesyonal na statistical software packages (halimbawa, Statistica) mayroong isang opsyon upang paikutin ang isang three-dimensional na tsart, na nagbibigay-daan sa iyo upang biswal na kumatawan sa istruktura ng data nang maayos.

Kapag nagtatrabaho sa maramihang regression, bilang kabaligtaran sa pairwise regression, kinakailangan upang matukoy ang algorithm ng pagsusuri. Kasama sa karaniwang algorithm ang lahat ng magagamit na mga predictor sa huling modelo ng regression. Ang step-by-step na algorithm ay nagsasangkot ng sunud-sunod na pagsasama (pagbubukod) ng mga independiyenteng variable batay sa kanilang paliwanag na "timbang". Ang stepwise na paraan ay mabuti kapag maraming independyenteng variable; "Nililinis" nito ang modelo ng mga mahinang hula, na ginagawa itong mas compact at maigsi.

Ang isang karagdagang kondisyon para sa kawastuhan ng maramihang regression (kasama ang pagitan, normalidad at linearity) ay ang kawalan ng multicollinearity - ang pagkakaroon ng malakas na ugnayan sa pagitan ng mga independiyenteng variable.

Kasama sa interpretasyon ng maramihang mga istatistika ng regression ang lahat ng elemento na aming isinasaalang-alang para sa kaso ng pairwise regression. Bilang karagdagan, may iba pang mahahalagang bahagi sa mga istatistika ng pagsusuri ng maramihang pagbabalik.

Ilalarawan namin ang gawain na may maraming regression gamit ang halimbawa ng pagsubok ng mga hypotheses na nagpapaliwanag ng mga pagkakaiba sa antas ng aktibidad ng elektoral sa mga rehiyon ng Russia. Ang mga partikular na empirical na pag-aaral ay nagmungkahi na ang mga antas ng turnout ng mga botante ay naiimpluwensyahan ng:

Pambansang kadahilanan (variable na "populasyon ng Russia"; pinapatakbo bilang bahagi ng populasyon ng Russia sa mga nasasakupang entity ng Russian Federation). Ipinapalagay na ang pagtaas sa bahagi ng populasyon ng Russia ay humahantong sa pagbaba ng turnout ng mga botante;

Urbanization factor (ang "urban population" variable; operationalized bilang bahagi ng populasyon ng urban sa mga constituent entity ng Russian Federation; nakatrabaho na namin ang salik na ito bilang bahagi ng pagsusuri ng ugnayan). Ipinapalagay na ang pagtaas sa bahagi ng populasyon sa lunsod ay humahantong din sa pagbaba ng turnout ng mga botante.

Ang dependent variable - "intensity of electoral activity" (“active”) ay pinapatakbo sa pamamagitan ng average na data ng turnout ayon sa rehiyon sa mga pederal na halalan mula 1995 hanggang 2003. Ang unang talahanayan ng data para sa dalawang independent at isang dependent variable ay ang mga sumusunod:

Nangyayari Mga variable
Mga asset. Gor. sa amin. Rus. sa amin.
Republika ng Adygea 64,92 53 68
Republika ng Altai 68,60 24 60
Ang Republika ng Buryatia 60,75 59 70
Ang Republika ng Dagestan 79,92 41 9
Ang Republika ng Ingushetia 75,05 41 23
Republika ng Kalmykia 68,52 39 37
Karachay-Cherkess Republic 66,68 44 42
Republika ng Karelia 61,70 73 73
Republika ng Komi 59,60 74 57
Republika ng Mari El 65,19 62 47

atbp. (pagkatapos linisin ang mga emisyon, 83 kaso sa 88 ang natitira)

Mga istatistika na naglalarawan sa kalidad ng modelo:

1. Maramihang R = 0.62; L-square = 0.38. Dahil dito, ang pambansang salik at ang salik ng urbanisasyon ay magkasamang nagpapaliwanag ng tungkol sa 38% ng pagkakaiba-iba sa variable na "aktibidad ng elektoral".

2. Ang average na error ay 3.38. Ito ay eksakto kung gaano "mali sa karaniwan" ang itinayong modelo kapag hinuhulaan ang antas ng turnout.

3. /l-ratio ng ipinaliwanag at hindi maipaliwanag na pagkakaiba-iba ay 25.2 sa antas na 0.000000003. Ang null hypothesis tungkol sa randomness ng mga natukoy na relasyon ay tinanggihan.

4. Ang criterion / para sa pare-pareho at regression coefficients ng mga variable na "populasyon ng lunsod" at "populasyon ng Russia" ay makabuluhan sa antas ng 0.0000001; 0.00005 at 0.007 ayon sa pagkakabanggit. Ang null hypothesis na ang mga coefficient ay random ay tinanggihan.

Ang mga karagdagang kapaki-pakinabang na istatistika sa pagsusuri ng kaugnayan sa pagitan ng orihinal at hinulaang mga halaga ng dependent variable ay ang distansya ng Mahalanobis at distansya ni Cook. Ang una ay isang sukatan ng pagiging natatangi ng kaso (ipinapakita kung magkano ang kumbinasyon ng mga halaga ng lahat ng mga independiyenteng variable para sa isang partikular na kaso ay lumihis mula sa average na halaga para sa lahat ng mga independiyenteng variable nang sabay-sabay). Ang pangalawa ay isang sukatan ng impluwensya ng kaso. Ang iba't ibang obserbasyon ay may iba't ibang epekto sa slope ng regression line, at ang distansya ni Cook ay maaaring gamitin upang ihambing ang mga ito sa indicator na ito. Maaari itong maging kapaki-pakinabang kapag naglilinis ng mga outlier (maaaring ituring ang isang outlier bilang isang sobrang maimpluwensyang kaso).

Sa aming halimbawa, ang mga natatangi at maimpluwensyang kaso ay kinabibilangan ng Dagestan.

Nangyayari Orihinal

mga halaga

Predska

mga halaga

Mga natira Distansya

Mahalanobis

Distansya
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika ng Altai 68,60 69.91 -1,31 6,80 0,01
Ang Republika ng Buryatia 60,75 65,56 -4,81 0,23 0,01
Ang Republika ng Dagestan 79,92 71,01 8,91 10,57 0,44
Ang Republika ng Ingushetia 75,05 70,21 4,84 6,73 0,08
Republika ng Kalmykia 68,52 69,59 -1,07 4,20 0,00

Ang modelo ng regression mismo ay may mga sumusunod na parameter: Y-intersection (constant) = 75.99; b (pahalang) = -0.1; Kommersant (Russian nas.) = -0.06. Panghuling formula.

Ang pangunahing tampok ng pagsusuri ng regression: sa tulong nito, maaari kang makakuha ng tiyak na impormasyon tungkol sa kung anong anyo at kalikasan ang ugnayan sa pagitan ng mga variable na pinag-aaralan.

Pagkakasunud-sunod ng mga yugto ng pagsusuri ng regression

Isaalang-alang natin sa madaling sabi ang mga yugto ng pagsusuri ng regression.

    Pagbuo ng problema. Sa yugtong ito, nabuo ang mga paunang hypotheses tungkol sa pagtitiwala sa mga phenomena na pinag-aaralan.

    Kahulugan ng umaasa at malaya (nagpapaliwanag) na mga variable.

    Koleksyon ng istatistikal na datos. Dapat kolektahin ang data para sa bawat isa sa mga variable na kasama sa modelo ng regression.

    Pagbubuo ng hypothesis tungkol sa anyo ng koneksyon (simple o maramihan, linear o nonlinear).

    Kahulugan mga function ng regression (binubuo sa pagkalkula ng mga numerical na halaga ng mga parameter ng equation ng regression)

    Pagtatasa sa katumpakan ng pagsusuri ng regression.

    Interpretasyon ng mga resultang nakuha. Ang mga nakuhang resulta ng pagsusuri ng regression ay inihambing sa mga paunang hypotheses. Ang kawastuhan at kredibilidad ng mga resultang nakuha ay tinasa.

    Paghuhula ng hindi kilalang mga halaga ng isang dependent variable.

Gamit ang pagsusuri ng regression, posibleng malutas ang problema ng pagtataya at pag-uuri. Ang mga hinulaang halaga ay kinakalkula sa pamamagitan ng pagpapalit ng mga halaga ng mga paliwanag na variable sa equation ng regression. Ang problema sa pag-uuri ay nalutas sa ganitong paraan: hinahati ng linya ng regression ang buong hanay ng mga bagay sa dalawang klase, at ang bahaging iyon ng hanay kung saan ang halaga ng function ay mas malaki kaysa sa zero ay kabilang sa isang klase, at ang bahagi kung saan ito ay mas mababa sa zero. kabilang sa ibang klase.

Mga Problema sa Pagsusuri ng Pagbabalik

Isaalang-alang natin ang mga pangunahing gawain ng pagsusuri ng regression: pagtatatag ng anyo ng pag-asa, pagtukoy mga function ng regression, pagtatantya ng hindi kilalang mga halaga ng dependent variable.

Pagtatatag ng anyo ng pagtitiwala.

Ang kalikasan at anyo ng ugnayan sa pagitan ng mga variable ay maaaring bumuo ng mga sumusunod na uri ng regression:

    positibong linear regression (ipinahayag sa pare-parehong paglaki ng function);

    positibong pantay na pagtaas ng regression;

    positibong pantay na pagtaas ng regression;

    negatibong linear regression (ipinahayag bilang isang pare-parehong pagtanggi sa function);

    negatibong pare-parehong pinabilis ang pagbaba ng regression;

    negatibong pantay na nagpapababa ng regression.

Gayunpaman, ang mga inilarawan na varieties ay karaniwang hindi matatagpuan sa purong anyo, ngunit sa kumbinasyon sa bawat isa. Sa kasong ito, pinag-uusapan natin ang mga pinagsamang anyo ng regression.

Kahulugan ng regression function.

Ang ikalawang gawain ay bumababa sa pagtukoy ng epekto sa dependent variable ng mga pangunahing salik o sanhi, ang iba pang mga bagay ay pantay, at napapailalim sa pagbubukod ng impluwensya ng mga random na elemento sa dependent variable. Pag-andar ng regression ay tinukoy sa anyo ng isang mathematical equation ng isang uri o iba pa.

Pagtatantya ng hindi kilalang mga halaga ng dependent variable.

Ang solusyon sa problemang ito ay bumababa sa paglutas ng problema ng isa sa mga sumusunod na uri:

    Ang pagtatantya ng mga halaga ng dependent variable sa loob ng itinuturing na pagitan ng paunang data, i.e. nawawalang mga halaga; sa kasong ito, nalutas ang problema sa interpolation.

    Pagtatantya ng mga halaga sa hinaharap ng dependent variable, i.e. paghahanap ng mga halaga sa labas ng tinukoy na agwat ng pinagmulan ng data; sa kasong ito, nalutas ang problema ng extrapolation.

Ang parehong mga problema ay malulutas sa pamamagitan ng pagpapalit ng nahanap na mga pagtatantya ng parameter para sa mga halaga ng mga independiyenteng variable sa equation ng regression. Ang resulta ng paglutas ng equation ay isang pagtatantya ng halaga ng target (dependent) variable.

Tingnan natin ang ilan sa mga pagpapalagay na umaasa sa pagsusuri ng regression.

Linearity assumption, i.e. ang relasyon sa pagitan ng mga variable na isinasaalang-alang ay ipinapalagay na linear. Kaya, sa halimbawang ito, nag-plot kami ng scatterplot at nakakita kami ng malinaw na linear na relasyon. Kung, sa scatter diagram ng mga variable, nakikita natin ang isang malinaw na kawalan ng isang linear na relasyon, i.e. Kung mayroong isang nonlinear na relasyon, ang mga nonlinear na pamamaraan ng pagsusuri ay dapat gamitin.

Normality Assumption mga tira. Ipinapalagay nito na ang pamamahagi ng pagkakaiba sa pagitan ng hinulaang at naobserbahang mga halaga ay normal. Upang biswal na matukoy ang likas na katangian ng pamamahagi, maaari mong gamitin ang mga histogram mga tira.

Kapag gumagamit ng pagsusuri ng regression, dapat isaalang-alang ang pangunahing limitasyon nito. Binubuo ito sa katotohanan na ang pagsusuri ng regression ay nagpapahintulot sa amin na makakita lamang ng mga dependency, at hindi ang mga koneksyon na pinagbabatayan ng mga dependency na ito.

Binibigyang-daan ka ng pagsusuri ng regression na tantyahin ang lakas ng ugnayan sa pagitan ng mga variable sa pamamagitan ng pagkalkula ng tinantyang halaga ng isang variable batay sa ilang kilalang halaga.

Regression equation.

Ang regression equation ay ganito ang hitsura: Y=a+b*X

Gamit ang equation na ito, ang variable Y ay ipinahayag sa mga tuntunin ng isang constant a at ang slope ng linya (o slope) b, na pinarami ng halaga ng variable X. Ang constant a ay tinatawag ding intercept term, at ang slope ay ang regression coefficient o B-coefficient.

Sa karamihan ng mga kaso (kung hindi palaging) mayroong isang tiyak na scatter ng mga obserbasyon na nauugnay sa linya ng regression.

Natitira ay ang paglihis ng isang punto (obserbasyon) mula sa linya ng regression (hulaang halaga).

Upang malutas ang problema ng pagsusuri ng regression sa MS Excel, pumili mula sa menu Serbisyo"Pakete ng pagsusuri" at ang tool sa pagsusuri ng Regression. Itinakda namin ang mga pagitan ng input na X at Y. Ang pagitan ng input na Y ay ang hanay ng umaasa na nasuri na data, dapat itong may kasamang isang column. Ang input interval X ay ang hanay ng mga independiyenteng data na kailangang suriin. Ang bilang ng mga saklaw ng input ay hindi dapat lumampas sa 16.

Sa output ng pamamaraan sa hanay ng output makuha namin ang ulat na ibinigay sa talahanayan 8.3a-8.3v.

KONKLUSYON NG MGA RESULTA

Talahanayan 8.3a. Mga istatistika ng regression

Mga istatistika ng regression

Maramihang R

R-square

Normalized R-squared

Karaniwang error

Mga obserbasyon

Tingnan muna natin ang tuktok na bahagi ng mga kalkulasyon na ipinakita sa talahanayan 8.3a, - mga istatistika ng regression.

Magnitude R-square, na tinatawag ding sukatan ng katiyakan, ay nagpapakilala sa kalidad ng nagreresultang linya ng regression. Ang kalidad na ito ay ipinahayag sa pamamagitan ng antas ng pagsusulatan sa pagitan ng pinagmumulan ng data at ng modelo ng regression (kinakalkulang data). Ang sukatan ng katiyakan ay palaging nasa pagitan.

Sa karamihan ng mga kaso ang halaga R-square ay nasa pagitan ng mga halagang ito, na tinatawag na extreme, i.e. sa pagitan ng zero at isa.

Kung ang halaga R-square malapit sa pagkakaisa, nangangahulugan ito na ipinapaliwanag ng binuong modelo ang halos lahat ng pagkakaiba-iba sa mga kaukulang variable. Sa kabaligtaran, ang kahulugan R-square, malapit sa zero, ay nangangahulugan ng mahinang kalidad ng itinayong modelo.

Sa aming halimbawa, ang sukat ng katiyakan ay 0.99673, na nagpapahiwatig ng isang napakahusay na akma ng linya ng regression sa orihinal na data.

maramihan R - multiple correlation coefficient R - nagpapahayag ng antas ng pag-asa ng mga independiyenteng variable (X) at ng dependent variable (Y).

Maramihang R ay katumbas ng square root ng coefficient of determination; ang dami na ito ay kumukuha ng mga halaga sa hanay mula sa zero hanggang isa.

Sa simpleng pagsusuri ng linear regression maramihan R katumbas ng Pearson correlation coefficient. Talaga, maramihan R sa aming kaso, ito ay katumbas ng Pearson correlation coefficient mula sa nakaraang halimbawa (0.998364).

Talahanayan 8.3b. Mga coefficient ng regression

Logro

Karaniwang error

t-statistic

Y-intersection

Variable X 1

* Ang isang pinutol na bersyon ng mga kalkulasyon ay ibinigay

Ngayon isaalang-alang ang gitnang bahagi ng mga kalkulasyon na ipinakita sa talahanayan 8.3b. Dito ibinibigay ang regression coefficient b (2.305454545) at ang displacement kasama ang ordinate axis, i.e. pare-pareho ang a (2.694545455).

Batay sa mga kalkulasyon, maaari nating isulat ang equation ng regression tulad ng sumusunod:

Y= x*2.305454545+2.694545455

Ang direksyon ng relasyon sa pagitan ng mga variable ay tinutukoy batay sa mga palatandaan (negatibo o positibo) ng mga coefficient ng regression (coefficient b).

Kung positibo ang sign ng regression coefficient, magiging positibo ang relasyon sa pagitan ng dependent variable at ng independent variable. Sa aming kaso, ang tanda ng koepisyent ng regression ay positibo, samakatuwid, ang relasyon ay positibo din.

Kung negatibo ang sign ng regression coefficient, negatibo ang relasyon sa pagitan ng dependent variable at independent variable (inverse).

SA talahanayan 8.3c. ipinakita ang mga resulta ng output mga tira. Upang lumabas ang mga resultang ito sa ulat, dapat mong i-activate ang checkbox na "Residuals" kapag pinapatakbo ang tool na "Regression".

WITHDRAWAL NG NAtitira

Talahanayan 8.3c. Mga natira

Pagmamasid

Hinulaan si Y

Mga natira

Mga karaniwang balanse

Gamit ang bahaging ito ng ulat, makikita natin ang mga paglihis ng bawat punto mula sa itinayong linya ng regression. Pinakamalaking ganap na halaga natitira sa aming kaso - 0.778, ang pinakamaliit - 0.043. Upang mas mahusay na bigyang-kahulugan ang mga datos na ito, gagamitin namin ang graph ng orihinal na data at ang itinayong linya ng regression na ipinakita sa kanin. 8.3. Tulad ng nakikita mo, ang linya ng regression ay tumpak na "nakakabit" sa mga halaga ng orihinal na data.

Dapat itong isaalang-alang na ang halimbawang isinasaalang-alang ay medyo simple at hindi laging posible na qualitatively bumuo ng isang linear regression line.

kanin. 8.3. Pinagmulan ng data at linya ng pagbabalik

Ang problema sa pagtantya ng hindi kilalang mga halaga sa hinaharap ng dependent variable batay sa mga kilalang halaga ng independent variable ay nanatiling hindi isinasaalang-alang, i.e. problema sa pagtataya.

Ang pagkakaroon ng regression equation, ang problema sa pagtataya ay binabawasan sa paglutas ng equation Y= x*2.305454545+2.694545455 na may mga kilalang halaga ng x. Ang mga resulta ng paghula sa dependent variable Y anim na hakbang sa unahan ay ipinakita sa talahanayan 8.4.

Talahanayan 8.4. Y variable na mga resulta ng pagtataya

Y(hinulaang)

Kaya, bilang resulta ng paggamit ng regression analysis sa Microsoft Excel, kami ay:

    bumuo ng isang regression equation;

    itinatag ang anyo ng pag-asa at direksyon ng koneksyon sa pagitan ng mga variable - positibong linear regression, na ipinahayag sa pare-parehong paglago ng function;

    itinatag ang direksyon ng ugnayan sa pagitan ng mga variable;

    tinasa ang kalidad ng nagresultang linya ng pagbabalik;

    ay nakakakita ng mga paglihis ng kinakalkulang data mula sa data ng orihinal na hanay;

    hinulaang mga halaga sa hinaharap ng dependent variable.

Kung function ng regression tinukoy, binibigyang kahulugan at nabigyang-katwiran, at ang pagtatasa ng katumpakan ng pagsusuri ng regression ay nakakatugon sa mga kinakailangan, ang itinayong modelo at hinulaang mga halaga ay maaaring ituring na may sapat na pagiging maaasahan.

Ang mga hinulaang halaga na nakuha sa ganitong paraan ay ang mga average na halaga na maaaring asahan.

Sa gawaing ito, sinuri namin ang mga pangunahing katangian deskriptibong istatistika at kabilang sa mga ito ang mga konsepto tulad ng average na halaga,panggitna,maximum,pinakamababa at iba pang katangian ng pagkakaiba-iba ng data.

Ang konsepto ay tinalakay din sa madaling sabi mga emisyon. Ang mga katangiang isinasaalang-alang ay nauugnay sa tinatawag na exploratory data analysis; ang mga konklusyon nito ay maaaring hindi nalalapat sa pangkalahatang populasyon, ngunit sa isang sample lamang ng data. Ginagamit ang pagsusuri ng data ng pagtuklas upang makakuha ng mga pangunahing konklusyon at bumuo ng mga hypotheses tungkol sa populasyon.

Ang mga pangunahing kaalaman sa pagsusuri ng ugnayan at regression, ang kanilang mga gawain at mga posibilidad para sa praktikal na paggamit ay tinalakay din.

Ang mga konsepto ng ugnayan at regression ay direktang nauugnay. Mayroong maraming mga karaniwang computational techniques sa pagsusuri ng ugnayan at regression. Ginagamit ang mga ito upang matukoy ang mga ugnayang sanhi-at-epekto sa pagitan ng mga phenomena at mga proseso. Gayunpaman, kung pagsusuri ng ugnayan nagbibigay-daan sa amin na tantyahin ang lakas at direksyon ng stochastic na koneksyon, pagkatapos pagsusuri ng regression- isa ring anyo ng pagtitiwala.

Ang pagbabalik ay maaaring:

a) depende sa bilang ng mga phenomena (mga variable):

Simple (regression sa pagitan ng dalawang variable);

Maramihang (regression sa pagitan ng dependent variable (y) at ilang paliwanag na variable (x1, x2...xn);

b) depende sa anyo:

Linear (ipinapakita ng isang linear na function, at may mga linear na relasyon sa pagitan ng mga variable na pinag-aaralan);

Nonlinear (ipinapakita ng isang nonlinear function; ang relasyon sa pagitan ng mga variable na pinag-aaralan ay nonlinear);

c) sa likas na katangian ng ugnayan sa pagitan ng mga variable na kasama sa pagsasaalang-alang:

Positibo (ang pagtaas sa halaga ng nagpapaliwanag na variable ay humahantong sa pagtaas ng halaga ng umaasa na variable at vice versa);

Negatibo (habang tumataas ang halaga ng nagpapaliwanag na variable, bumababa ang halaga ng ipinaliwanag na variable);

d) ayon sa uri:

Direktang (sa kasong ito, ang sanhi ay may direktang epekto sa epekto, ibig sabihin, ang mga umaasa at nagpapaliwanag na mga variable ay direktang nauugnay sa isa't isa);

Di-tuwiran (ang nagpapaliwanag na variable ay may hindi direktang epekto sa pamamagitan ng isang pangatlo o isang bilang ng iba pang mga variable sa umaasa na variable);

Maling (nonsense regression) - maaaring lumitaw sa isang mababaw at pormal na diskarte sa mga proseso at phenomena na pinag-aaralan. Ang isang halimbawa ng isang walang katuturan ay isang regression na nagtatatag ng koneksyon sa pagitan ng pagbawas sa dami ng nainom na alak sa ating bansa at pagbaba sa pagbebenta ng washing powder.

Kapag nagsasagawa ng pagsusuri ng regression, ang mga sumusunod na pangunahing gawain ay malulutas:

1. Pagpapasiya ng anyo ng pagtitiwala.

2. Kahulugan ng regression function. Upang gawin ito, ginagamit ang isang mathematical equation ng isang uri o iba pa, na nagpapahintulot, una, upang maitaguyod ang pangkalahatang trend ng pagbabago sa dependent variable, at, pangalawa, upang kalkulahin ang impluwensya ng explanatory variable (o ilang mga variable) sa ang dependent variable.

3. Pagtatantya ng mga hindi kilalang halaga ng dependent variable. Ang resultang matematikal na relasyon (regression equation) ay nagbibigay-daan sa iyo upang matukoy ang halaga ng dependent variable sa loob ng pagitan ng tinukoy na mga halaga ng mga paliwanag na variable at higit pa dito. Sa huling kaso, ang pagsusuri ng regression ay gumaganap bilang isang kapaki-pakinabang na tool sa paghula ng mga pagbabago sa mga proseso at phenomena ng sosyo-ekonomiko (sa kondisyon na pinananatili ang mga kasalukuyang uso at relasyon). Karaniwan, ang haba ng yugto ng panahon kung saan isinasagawa ang pagtataya ay pinipili na hindi hihigit sa kalahati ng agwat ng oras kung saan isinagawa ang mga obserbasyon ng mga paunang tagapagpahiwatig. Posibleng magsagawa ng parehong passive forecast, paglutas ng extrapolation na problema, at isang aktibo, pangangatwiran ayon sa kilalang "if..., then" scheme at pagpapalit ng iba't ibang mga halaga sa isa o higit pang mga paliwanag na variable ng regression .



Para sa pagbuo ng regression isang espesyal na pamamaraan na tinatawag paraan ng least squares. Ang pamamaraang ito ay may mga pakinabang sa iba pang mga pamamaraan ng pagpapakinis: isang medyo simpleng pagpapasiya sa matematika ng mga kinakailangang parameter at isang mahusay na teoretikal na katwiran mula sa isang probabilistikong punto ng view.

Kapag pumipili ng isang modelo ng regression, isa sa mga mahahalagang kinakailangan para dito ay upang matiyak ang pinakamalaking posibleng pagiging simple, na nagpapahintulot sa iyo na makakuha ng isang solusyon na may sapat na katumpakan. Samakatuwid, upang magtatag ng mga istatistikal na relasyon, una, bilang isang panuntunan, isinasaalang-alang namin ang isang modelo mula sa klase ng mga linear na function (bilang ang pinakasimpleng sa lahat ng posibleng mga klase ng mga function):

kung saan ang bi, b2...bj ay mga coefficient na tumutukoy sa impluwensya ng mga independent variable xij sa halaga yi; ai - libreng miyembro; ei - random deviation, na sumasalamin sa impluwensya ng hindi nabilang na mga kadahilanan sa dependent variable; n - bilang ng mga independiyenteng variable; Ang N ay ang bilang ng mga obserbasyon, at ang kundisyon (N . n+1) ay dapat matugunan.

Linear na modelo maaaring ilarawan ang isang napakalawak na klase ng iba't ibang problema. Gayunpaman, sa pagsasagawa, partikular sa mga sistemang sosyo-ekonomiko, kung minsan ay mahirap gumamit ng mga linear na modelo dahil sa malalaking error sa pagtatantya. Samakatuwid, madalas na ginagamit ang mga nonlinear na multiple regression function na maaaring linearized. Kabilang dito, halimbawa, ang production function (Cobb-Douglas power function), na natagpuan ang aplikasyon sa iba't ibang socio-economic na pag-aaral. Mukhang:

kung saan ang b 0 ay ang normalization factor, b 1 ...b j ay hindi kilalang coefficients, e i ay isang random deviation.

Gamit ang natural na logarithms, maaari mong baguhin ang equation na ito sa linear form:

Ang resultang modelo ay nagpapahintulot sa paggamit ng mga karaniwang pamamaraan ng linear regression na inilarawan sa itaas. Sa pamamagitan ng pagbuo ng mga modelo ng dalawang uri (additive at multiplicative), maaari mong piliin ang pinakamahusay at magsagawa ng karagdagang pananaliksik na may mas maliit na mga error sa pagtatantya.

Mayroong isang mahusay na binuo na sistema para sa pagpili ng approximating function - paraan ng group accounting ng mga argumento(MGUA).

Ang kawastuhan ng napiling modelo ay maaaring hatulan ng mga resulta ng pag-aaral ng mga nalalabi, na kung saan ay ang mga pagkakaiba sa pagitan ng mga sinusunod na halaga y i at ang kaukulang mga halaga y i hinulaang gamit ang regression equation. Sa kasong ito upang suriin ang kasapatan ng modelo kalkulado average na error sa pagtatantya:

Ang modelo ay itinuturing na sapat kung ang e ay nasa loob ng hindi hihigit sa 15%.

Lalo naming binibigyang-diin na may kaugnayan sa mga sistemang sosyo-ekonomiko, ang mga pangunahing kondisyon para sa kasapatan ng modelo ng klasikal na regression ay hindi palaging natutugunan.

Nang hindi isinasaalang-alang ang lahat ng mga dahilan para sa kakulangan na lumitaw, pangalanan lamang natin multicollinearity- ang pinakamahirap na problema ng epektibong paglalapat ng mga pamamaraan ng pagsusuri ng regression sa pag-aaral ng mga dependency sa istatistika. Sa ilalim multicollinearity nauunawaan na mayroong isang linear na relasyon sa pagitan ng mga paliwanag na variable.

Itong kababalaghan:

a) binabaluktot ang kahulugan ng mga coefficient ng regression kapag binibigyang kahulugan ang mga ito nang makahulugan;

b) binabawasan ang katumpakan ng pagtatasa (ang pagpapakalat ng mga pagtatasa ay tumataas);

c) pinapataas ang sensitivity ng mga coefficient na pagtatantya sa sample na data (ang pagtaas ng sample size ay maaaring makaapekto nang malaki sa mga pagtatantya).

Mayroong iba't ibang mga pamamaraan para sa pagbabawas ng multicollinearity. Ang pinaka-naa-access na paraan ay upang alisin ang isa sa dalawang variable kung ang koepisyent ng ugnayan sa pagitan ng mga ito ay lumampas sa isang halaga na katumbas ng ganap na halaga sa 0.8. Alin sa mga variable na dapat panatilihin ang napagpasyahan batay sa mahahalagang pagsasaalang-alang. Pagkatapos ang mga coefficient ng regression ay kinakalkula muli.

Ang paggamit ng stepwise regression algorithm ay nagbibigay-daan sa iyong sunud-sunod na isama ang isang independent variable sa modelo at pag-aralan ang kahalagahan ng regression coefficients at multicollinearity ng mga variable. Sa wakas, ang mga variable na iyon lamang ang nananatili sa relasyon sa ilalim ng pag-aaral na nagbibigay ng kinakailangang kabuluhan ng mga coefficient ng regression at minimal na impluwensya ng multicollinearity.

Sa mga nakaraang post, ang pagsusuri ay madalas na nakatuon sa isang solong numerical variable, tulad ng pagbabalik ng mutual fund, mga oras ng paglo-load ng Web page, o pagkonsumo ng soft drink. Sa ito at sa kasunod na mga tala, titingnan natin ang mga pamamaraan para sa paghula ng mga halaga ng isang numeric variable depende sa mga halaga ng isa o higit pang mga numeric variable.

Ang materyal ay ilalarawan gamit ang isang cross-cutting na halimbawa. Pagtataya ng dami ng benta sa isang tindahan ng damit. Ang Sunflowers chain ng mga discount na tindahan ng damit ay patuloy na lumalawak sa loob ng 25 taon. Gayunpaman, ang kumpanya ay kasalukuyang walang sistematikong diskarte sa pagpili ng mga bagong outlet. Ang lokasyon kung saan nilalayon ng isang kumpanya na magbukas ng bagong tindahan ay tinutukoy batay sa mga pansariling pagsasaalang-alang. Ang mga pamantayan sa pagpili ay ang mga kanais-nais na kondisyon sa pag-upa o ang ideya ng manager ng perpektong lokasyon ng tindahan. Isipin na ikaw ang pinuno ng mga espesyal na proyekto at departamento ng pagpaplano. Ikaw ay naatasang bumuo ng isang estratehikong plano para sa pagbubukas ng mga bagong tindahan. Ang planong ito ay dapat magsama ng pagtataya ng taunang benta para sa mga bagong bukas na tindahan. Naniniwala ka na ang retail space ay direktang nauugnay sa kita at gusto mong isama ito sa iyong proseso ng paggawa ng desisyon. Paano ka bubuo ng istatistikal na modelo upang mahulaan ang mga taunang benta batay sa laki ng isang bagong tindahan?

Karaniwan, ang pagsusuri ng regression ay ginagamit upang mahulaan ang mga halaga ng isang variable. Ang layunin nito ay bumuo ng isang istatistikal na modelo na maaaring mahulaan ang mga halaga ng isang umaasa na variable, o tugon, mula sa mga halaga ng hindi bababa sa isang independyente, o nagpapaliwanag, na variable. Sa tala na ito, titingnan natin ang simpleng linear regression - isang istatistikal na paraan na nagbibigay-daan sa iyo upang mahulaan ang mga halaga ng isang dependent variable. Y sa pamamagitan ng mga independiyenteng variable na halaga X. Ang mga kasunod na tala ay maglalarawan ng maraming modelo ng regression na idinisenyo upang mahulaan ang mga halaga ng isang independiyenteng variable Y batay sa mga halaga ng ilang dependent variable ( X 1, X 2, …, X k).

I-download ang tala sa o format, mga halimbawa sa format

Mga uri ng mga modelo ng regression

saan ρ 1 – koepisyent ng autocorrelation; Kung ρ 1 = 0 (walang autocorrelation), D≈ 2; Kung ρ 1 ≈ 1 (positibong autocorrelation), D≈ 0; Kung ρ 1 = -1 (negatibong autocorrelation), D ≈ 4.

Sa pagsasagawa, ang paggamit ng Durbin-Watson criterion ay batay sa paghahambing ng halaga D na may mga kritikal na teoretikal na halaga dL At d U para sa isang naibigay na bilang ng mga obserbasyon n, bilang ng mga independiyenteng variable ng modelo k(para sa simpleng linear regression k= 1) at antas ng kahalagahan α. Kung D< d L , ang hypothesis tungkol sa kalayaan ng mga random na paglihis ay tinanggihan (kaya, mayroong isang positibong autocorrelation); Kung D>dU, ang hypothesis ay hindi tinatanggihan (iyon ay, walang autocorrelation); Kung dL< D < d U , walang sapat na batayan para gumawa ng desisyon. Kapag ang kinakalkula na halaga D lumampas sa 2, pagkatapos ay may dL At d U Hindi ang koepisyent mismo ang inihambing D, at ang expression (4 – D).

Upang kalkulahin ang mga istatistika ng Durbin-Watson sa Excel, buksan natin ang talahanayan sa ibaba sa Fig. 14 Pag-withdraw ng balanse. Ang numerator sa expression (10) ay kinakalkula gamit ang function na =SUMMAR(array1;array2), at ang denominator =SUMMAR(array) (Fig. 16).

kanin. 16. Mga formula para sa pagkalkula ng mga istatistika ng Durbin-Watson

Sa ating halimbawa D= 0.883. Ang pangunahing tanong ay: anong halaga ng istatistika ng Durbin-Watson ang dapat ituring na sapat na maliit upang tapusin na mayroong isang positibong autocorrelation? Kinakailangan na iugnay ang halaga ng D sa mga kritikal na halaga ( dL At d U), depende sa bilang ng mga obserbasyon n at antas ng kahalagahan α (Larawan 17).

kanin. 17. Mga kritikal na halaga ng mga istatistika ng Durbin-Watson (table fragment)

Kaya, sa problema ng dami ng benta sa isang tindahan na naghahatid ng mga kalakal sa bahay, mayroong isang malayang variable ( k= 1), 15 obserbasyon ( n= 15) at antas ng kabuluhan α = 0.05. Kaya naman, dL= 1.08 at dU= 1.36. Dahil ang D = 0,883 < dL= 1.08, mayroong isang positibong autocorrelation sa pagitan ng mga residual, hindi maaaring gamitin ang hindi bababa sa mga parisukat na paraan.

Pagsubok ng Hypotheses tungkol sa Slope at Correlation Coefficient

Sa itaas, ang regression ay ginamit lamang para sa pagtataya. Upang matukoy ang mga coefficient ng regression at mahulaan ang halaga ng isang variable Y para sa isang naibigay na variable na halaga X Ginamit ang paraan ng least squares. Bilang karagdagan, sinuri namin ang root mean square error ng pagtatantya at ang mixed correlation coefficient. Kung ang pagsusuri ng mga nalalabi ay nagpapatunay na ang mga kondisyon ng pagkakalapat ng pamamaraan ng hindi bababa sa mga parisukat ay hindi nilalabag, at ang simpleng linear regression na modelo ay sapat, batay sa sample na data, maaari itong maitalo na mayroong isang linear na relasyon sa pagitan ng mga variable sa populasyon.

Aplikasyont -pamantayan para sa slope. Sa pamamagitan ng pagsubok kung ang slope ng populasyon β 1 ay katumbas ng zero, matutukoy mo kung mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng mga variable. X At Y. Kung ang hypothesis na ito ay tinanggihan, ito ay maaaring argued na sa pagitan ng mga variable X At Y mayroong isang linear na relasyon. Ang mga null at alternatibong hypotheses ay nabuo tulad ng sumusunod: H 0: β 1 = 0 (walang linear dependence), H1: β 1 ≠ 0 (may linear dependence). A-prioryo t-statistic ay katumbas ng pagkakaiba sa pagitan ng sample na slope at hypothetical na halaga ng slope ng populasyon, na hinati sa root mean square error ng slope estimate:

(11) t = (b 1 β 1 ) / Sb 1

saan b 1 – slope ng direktang regression sa sample na data, β1 – hypothetical slope ng direktang populasyon, , at mga istatistika ng pagsubok t Mayroon itong t-pamamahagi na may n – 2 antas ng kalayaan.

Suriin natin kung may makabuluhang kaugnayan sa istatistika sa pagitan ng laki ng tindahan at taunang benta sa α = 0.05. t-ang criterion ay ipinapakita kasama ng iba pang mga parameter kapag ginamit Pakete ng pagsusuri(pagpipilian Regression). Ang kumpletong mga resulta ng Package ng Pagsusuri ay ipinapakita sa Fig. 4, fragment na nauugnay sa t-statistics - sa Fig. 18.

kanin. 18. Mga resulta ng aplikasyon t

Dahil sa dami ng mga tindahan n= 14 (tingnan ang Fig. 3), kritikal na halaga t-Ang mga istatistika sa antas ng kahalagahan ng α = 0.05 ay matatagpuan gamit ang formula: tL=STUDENT.ARV(0.025,12) = –2.1788, kung saan ang 0.025 ay kalahati ng antas ng kahalagahan, at 12 = n – 2; tU=ESTUDYANTE.OBR(0.975,12) = +2.1788.

Dahil ang t-statistics = 10.64 > tU= 2.1788 (Larawan 19), null hypothesis H 0 tinanggihan. Sa kabila, R-halaga para sa X= 10.6411, na kinakalkula ng formula =1-STUDENT.DIST(D3,12,TRUE), ay tinatayang katumbas ng zero, kaya ang hypothesis H 0 muling tinanggihan. Ang katotohanan na R-Ang halaga ng halos zero ay nangangahulugan na kung walang totoong linear na ugnayan sa pagitan ng mga laki ng tindahan at taunang benta, halos imposible itong matukoy gamit ang linear regression. Samakatuwid, mayroong makabuluhang linear na kaugnayan sa istatistika sa pagitan ng average na taunang benta ng tindahan at laki ng tindahan.

kanin. 19. Pagsubok sa hypothesis tungkol sa slope ng populasyon sa antas ng kahalagahan na 0.05 at 12 degrees ng kalayaan

AplikasyonF -pamantayan para sa slope. Ang isang alternatibong diskarte sa pagsubok ng mga hypotheses tungkol sa slope ng simpleng linear regression ay ang paggamit F-pamantayan. Paalalahanan ka namin F-test ay ginagamit upang subukan ang relasyon sa pagitan ng dalawang mga pagkakaiba-iba (para sa higit pang mga detalye, tingnan). Kapag sinusubukan ang slope hypothesis, ang sukatan ng mga random na error ay ang error variance (ang kabuuan ng mga squared error na hinati sa bilang ng mga degree ng kalayaan), kaya F-criterion ay gumagamit ng ratio ng variance na ipinaliwanag ng regression (i.e. ang value SSR, na hinati sa bilang ng mga independent variable k), sa pagkakaiba-iba ng error ( MSE = S YX 2 ).

A-prioryo F-statistic ay katumbas ng mean square of regression (MSR) na hinati sa error variance (MSE): F = MSR/ MSE, Saan MSR=SSR / k, MSE =SSE/(n– k – 1), k– bilang ng mga independiyenteng variable sa modelo ng regression. Mga istatistika ng pagsubok F Mayroon itong F-pamamahagi na may k At n– k – 1 antas ng kalayaan.

Para sa isang naibigay na antas ng kabuluhan α, ang tuntunin ng desisyon ay binabalangkas tulad ng sumusunod: kung F>FU, ang null hypothesis ay tinanggihan; kung hindi, hindi ito tinatanggihan. Ang mga resulta, na ipinakita sa anyo ng isang talahanayan ng buod ng pagsusuri ng pagkakaiba-iba, ay ipinapakita sa Fig. 20.

kanin. 20. Pagsusuri ng talahanayan ng pagkakaiba-iba para sa pagsubok ng hypothesis tungkol sa istatistikal na kahalagahan ng koepisyent ng regression

Ganun din t-pamantayan F-ang criterion ay ipinapakita sa talahanayan kapag ginamit Pakete ng pagsusuri(pagpipilian Regression). Buong resulta ng trabaho Pakete ng pagsusuri ay ipinapakita sa Fig. 4, fragment na may kaugnayan sa F-mga istatistika - sa Fig. 21.

kanin. 21. Mga resulta ng aplikasyon F-pamantayan na nakuha gamit ang Excel Analysis Package

Ang F-statistic ay 113.23, at R-value na malapit sa zero (cell KahalagahanF). Kung ang antas ng kahalagahan α ay 0.05, tukuyin ang kritikal na halaga F-Ang mga distribusyon na may isa at 12 degree ng kalayaan ay maaaring makuha gamit ang formula F U=F.OBR(1-0.05;1;12) = 4.7472 (Larawan 22). Dahil ang F = 113,23 > F U= 4.7472, at R-value na malapit sa 0< 0,05, нулевая гипотеза H 0 ay tinanggihan, i.e. Ang laki ng isang tindahan ay malapit na nauugnay sa taunang benta nito.

kanin. 22. Pagsubok sa hypothesis ng slope ng populasyon sa antas ng kahalagahan na 0.05 na may isa at 12 degree ng kalayaan

Confidence interval na naglalaman ng slope β 1 . Upang subukan ang hypothesis na mayroong linear na ugnayan sa pagitan ng mga variable, maaari kang bumuo ng isang confidence interval na naglalaman ng slope β 1 at i-verify na ang hypothetical value na β 1 ​​= 0 ay kabilang sa interval na ito. Ang sentro ng agwat ng kumpiyansa na naglalaman ng slope β 1 ay ang sample na slope b 1 , at ang mga hangganan nito ay ang mga dami b 1 ±tn –2 Sb 1

Gaya ng ipinapakita sa Fig. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =ESTUDYANTE.ARV(0.975,12) = 2.1788. Kaya naman, b 1 ±tn –2 Sb 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, o + 1.328 ≤ β 1 ≤ +2.012. Kaya, may posibilidad na 0.95 na ang slope ng populasyon ay nasa pagitan ng +1.328 at +2.012 (ibig sabihin, $1,328,000 hanggang $2,012,000). Dahil ang mga halagang ito ay mas malaki kaysa sa zero, mayroong istatistikal na makabuluhang linear na relasyon sa pagitan ng taunang mga benta at lugar ng tindahan. Kung ang pagitan ng kumpiyansa ay naglalaman ng zero, walang ugnayan sa pagitan ng mga variable. Bilang karagdagan, ang confidence interval ay nangangahulugan na ang bawat pagtaas sa lugar ng tindahan ng 1,000 sq. ft. ay nagreresulta sa pagtaas ng average na dami ng benta sa pagitan ng $1,328,000 at $2,012,000.

Paggamitt -pamantayan para sa koepisyent ng ugnayan. ipinakilala ang koepisyent ng ugnayan r, na isang sukatan ng ugnayan sa pagitan ng dalawang numeric na variable. Maaari itong magamit upang matukoy kung mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng dalawang variable. Tukuyin natin ang koepisyent ng ugnayan sa pagitan ng mga populasyon ng parehong mga variable sa pamamagitan ng simbolo na ρ. Ang mga null at alternatibong hypotheses ay nabuo tulad ng sumusunod: H 0: ρ = 0 (walang ugnayan), H 1: ρ ≠ 0 (may ugnayan). Sinusuri ang pagkakaroon ng isang ugnayan:

saan r = + , Kung b 1 > 0, r = – , Kung b 1 < 0. Тестовая статистика t Mayroon itong t-pamamahagi na may n – 2 antas ng kalayaan.

Sa problema tungkol sa Sunflowers chain ng mga tindahan r 2= 0.904, a b 1- +1.670 (tingnan ang Fig. 4). Dahil ang b 1> 0, ang koepisyent ng ugnayan sa pagitan ng taunang benta at laki ng tindahan ay r= +√0.904 = +0.951. Subukan natin ang null hypothesis na walang ugnayan sa pagitan ng mga variable na ito gamit t-mga istatistika:

Sa antas ng kabuluhan na α = 0.05, ang null hypothesis ay dapat tanggihan dahil t= 10.64 > 2.1788. Kaya, maaari itong maitalo na mayroong makabuluhang kaugnayan sa istatistika sa pagitan ng taunang mga benta at laki ng tindahan.

Kapag tinatalakay ang mga hinuha patungkol sa slope ng populasyon, ang mga pagitan ng kumpiyansa at mga pagsubok sa hypothesis ay ginagamit nang magkapalit. Gayunpaman, ang pagkalkula ng agwat ng kumpiyansa na naglalaman ng koepisyent ng ugnayan ay lumalabas na mas mahirap, dahil ang uri ng pamamahagi ng sampling ng istatistika r depende sa totoong correlation coefficient.

Pagtatantya ng inaasahan sa matematika at hula ng mga indibidwal na halaga

Tinatalakay ng seksyong ito ang mga pamamaraan para sa pagtantya ng inaasahan sa matematika ng isang tugon Y at mga hula ng mga indibidwal na halaga Y para sa mga ibinigay na halaga ng variable X.

Pagbuo ng agwat ng kumpiyansa. Sa halimbawa 2 (tingnan ang seksyon sa itaas Pinakamababang parisukat na pamamaraan) ginawang posible ng regression equation na mahulaan ang halaga ng variable Y X. Sa problema ng pagpili ng isang lokasyon para sa isang retail outlet, ang average na taunang dami ng benta sa isang tindahan na may lugar na 4000 sq. feet ay katumbas ng 7.644 million dollars. Gayunpaman, ang pagtatantya na ito ng matematikal na inaasahan ng pangkalahatang populasyon ay point-wise. Upang matantya ang mathematical na inaasahan ng populasyon, iminungkahi ang konsepto ng isang agwat ng kumpiyansa. Katulad nito, maaari nating ipakilala ang konsepto agwat ng kumpiyansa para sa mathematical na inaasahan ng tugon para sa isang naibigay na variable na halaga X:

saan , = b 0 + b 1 X i– variable ang hinulaang halaga Y sa X = X i, S YX– root mean square error, n- laki ng sample, Xi- tinukoy na halaga ng variable X, µ Y|X = Xi– mathematical na inaasahan ng variable Y sa X = X i, SSX =

Ang pagsusuri ng formula (13) ay nagpapakita na ang lapad ng agwat ng kumpiyansa ay nakasalalay sa ilang mga kadahilanan. Sa isang naibigay na antas ng kahalagahan, ang pagtaas sa amplitude ng mga pagbabago sa paligid ng linya ng regression, na sinusukat gamit ang root mean square error, ay humahantong sa pagtaas ng lapad ng agwat. Sa kabilang banda, tulad ng inaasahan ng isa, ang pagtaas sa laki ng sample ay sinamahan ng pagpapaliit ng pagitan. Bilang karagdagan, ang lapad ng agwat ay nagbabago depende sa mga halaga Xi. Kung ang variable value Y hinulaang para sa dami X, malapit sa average na halaga , ang agwat ng kumpiyansa ay lumalabas na mas makitid kaysa sa paghula ng tugon para sa mga halaga na malayo sa karaniwan.

Sabihin nating kapag pumipili ng lokasyon ng tindahan, gusto naming bumuo ng 95% na agwat ng kumpiyansa para sa average na taunang benta ng lahat ng mga tindahan na ang lawak ay 4000 metro kuwadrado. paa:

Samakatuwid, ang average na taunang dami ng benta sa lahat ng mga tindahan na may lugar na 4,000 sq. talampakan, na may 95% na posibilidad ay nasa hanay mula 6.971 hanggang 8.317 milyong dolyar.

Kalkulahin ang agwat ng kumpiyansa para sa hinulaang halaga. Bilang karagdagan sa agwat ng kumpiyansa para sa inaasahan ng matematika ng tugon para sa isang naibigay na halaga ng variable X, kadalasang kailangang malaman ang agwat ng kumpiyansa para sa hinulaang halaga. Bagama't ang formula para sa pagkalkula ng ganoong agwat ng kumpiyansa ay halos kapareho sa formula (13), ang agwat na ito ay naglalaman ng hinulaang halaga sa halip na ang pagtatantya ng parameter. Interval para sa hinulaang tugon YX = Xi para sa isang tiyak na halaga ng variable Xi tinutukoy ng formula:

Ipagpalagay na, kapag pumipili ng lokasyon para sa isang retail outlet, gusto naming bumuo ng 95% confidence interval para sa hinulaang taunang dami ng benta para sa isang tindahan na ang lugar ay 4000 square meters. paa:

Samakatuwid, ang hinulaang taunang dami ng benta para sa isang tindahan na may lawak na 4000 sq. feet, na may 95% na posibilidad ay nasa hanay mula 5.433 hanggang 9.854 milyong dolyar. Gaya ng nakikita natin, ang agwat ng kumpiyansa para sa hinulaang halaga ng tugon ay mas malawak kaysa sa pagitan ng kumpiyansa para sa inaasahan sa matematika nito. Ito ay dahil ang pagkakaiba-iba sa paghula ng mga indibidwal na halaga ay mas malaki kaysa sa pagtatantya ng inaasahan sa matematika.

Mga pitfalls at etikal na isyu na nauugnay sa paggamit ng regression

Mga paghihirap na nauugnay sa pagsusuri ng regression:

  • Hindi pinapansin ang mga kundisyon ng pagiging angkop ng pamamaraan ng least squares.
  • Maling pagtatasa ng mga kundisyon para sa applicability ng least squares method.
  • Maling pagpili ng mga alternatibong pamamaraan kapag nilabag ang mga kundisyon ng pagkakalapat ng least squares method.
  • Application ng regression analysis nang walang malalim na kaalaman sa paksa ng pananaliksik.
  • Extrapolating isang regression na lampas sa hanay ng paliwanag na variable.
  • Pagkalito sa pagitan ng istatistikal at sanhi ng mga relasyon.

Ang malawakang paggamit ng mga spreadsheet at statistical software ay inalis ang mga problema sa computational na humadlang sa paggamit ng regression analysis. Gayunpaman, humantong ito sa katotohanan na ang pagsusuri ng regression ay ginamit ng mga user na walang sapat na kwalipikasyon at kaalaman. Paano malalaman ng mga gumagamit ang tungkol sa mga alternatibong pamamaraan kung marami sa kanila ang walang ideya sa lahat tungkol sa mga kondisyon ng pagkakalapat ng pamamaraan ng least squares at hindi alam kung paano suriin ang kanilang pagpapatupad?

Ang mananaliksik ay hindi dapat madala sa mga crunching na numero - pagkalkula ng shift, slope at mixed correlation coefficient. Kailangan niya ng mas malalim na kaalaman. Ilarawan natin ito sa isang klasikong halimbawa na kinuha mula sa mga aklat-aralin. Ipinakita ng Anscombe na ang lahat ng apat na set ng data na ipinapakita sa Fig. 23, ay may parehong mga parameter ng regression (Larawan 24).

kanin. 23. Apat na artipisyal na set ng data

kanin. 24. Pagsusuri ng regression ng apat na artipisyal na set ng data; tapos na Pakete ng pagsusuri(i-click ang larawan upang palakihin ang larawan)

Kaya, mula sa punto ng view ng pagsusuri ng regression, ang lahat ng mga set ng data na ito ay ganap na magkapareho. Kung doon natapos ang pagsusuri, mawawalan tayo ng maraming kapaki-pakinabang na impormasyon. Ito ay pinatunayan ng mga scatter plot (Larawan 25) at mga natitirang plot (Larawan 26) na binuo para sa mga set ng data na ito.

kanin. 25. Scatter plot para sa apat na data set

Ang mga scatter plot at natitirang plot ay nagpapahiwatig na ang mga data na ito ay naiiba sa bawat isa. Ang tanging set na ibinahagi sa isang tuwid na linya ay nakatakdang A. Ang plot ng mga residual na kinakalkula mula sa set A ay walang anumang pattern. Hindi ito masasabi tungkol sa set B, C at D. Ang scatter plot na naka-plot para sa set B ay nagpapakita ng binibigkas na quadratic pattern. Ang konklusyon na ito ay nakumpirma ng natitirang balangkas, na may parabolic na hugis. Ipinapakita ng scatter plot at residual plot na ang data set B ay naglalaman ng outlier. Sa sitwasyong ito, kinakailangang ibukod ang outlier mula sa set ng data at ulitin ang pagsusuri. Ang isang paraan para sa pag-detect at pag-aalis ng mga outlier sa mga obserbasyon ay tinatawag na influence analysis. Pagkatapos alisin ang outlier, ang resulta ng muling pagtatantya sa modelo ay maaaring ganap na naiiba. Ang scatterplot na naka-plot mula sa data mula sa set G ay naglalarawan ng isang hindi pangkaraniwang sitwasyon kung saan ang empirical na modelo ay lubos na nakadepende sa isang indibidwal na tugon ( X 8 = 19, Y 8 = 12.5). Ang ganitong mga modelo ng regression ay dapat na kalkulahin nang mabuti. Kaya, ang mga scatter at natitirang plot ay isang mahalagang tool para sa pagsusuri ng regression at dapat ay isang mahalagang bahagi nito. Kung wala ang mga ito, ang pagsusuri ng regression ay hindi kapani-paniwala.

kanin. 26. Mga natitirang plot para sa apat na set ng data

Paano maiwasan ang mga pitfalls sa pagsusuri ng regression:

  • Pagsusuri ng mga posibleng ugnayan sa pagitan ng mga variable X At Y laging magsimula sa pamamagitan ng pagguhit ng scatter plot.
  • Bago bigyang-kahulugan ang mga resulta ng pagsusuri ng regression, suriin ang mga kondisyon para sa pagiging angkop nito.
  • I-plot ang mga residual laban sa independent variable. Ito ay magiging posible upang matukoy kung gaano kahusay ang empirical na modelo ay tumutugma sa mga resulta ng obserbasyon at upang matukoy ang isang paglabag sa pagkakaiba-iba.
  • Gumamit ng mga histogram, stem-and-leaf plot, boxplot, at normal na distribution plot upang subukan ang pagpapalagay ng isang normal na pamamahagi ng error.
  • Kung hindi natutugunan ang mga kundisyon para sa applicability ng least squares method, gumamit ng mga alternatibong pamamaraan (halimbawa, quadratic o multiple regression models).
  • Kung natutugunan ang mga kundisyon para sa applicability ng least squares method, kinakailangang subukan ang hypothesis tungkol sa statistical significance ng regression coefficients at bumuo ng confidence intervals na naglalaman ng mathematical expectation at ang predicted response value.
  • Iwasang hulaan ang mga halaga ng dependent variable sa labas ng hanay ng independent variable.
  • Tandaan na ang mga istatistikal na relasyon ay hindi palaging sanhi-at-epekto. Tandaan na ang ugnayan sa pagitan ng mga variable ay hindi nangangahulugang mayroong sanhi-at-epekto na relasyon sa pagitan ng mga ito.

Buod. Gaya ng ipinapakita sa block diagram (Figure 27), inilalarawan ng tala ang simpleng linear regression na modelo, ang mga kondisyon para sa pagiging angkop nito, at kung paano subukan ang mga kundisyong ito. Isinasaalang-alang t-criterion para sa pagsubok sa istatistikal na kahalagahan ng slope ng regression. Ang isang modelo ng regression ay ginamit upang mahulaan ang mga halaga ng dependent variable. Ang isang halimbawa ay isinasaalang-alang na nauugnay sa pagpili ng lokasyon para sa isang retail outlet, kung saan ang pagtitiwala sa taunang dami ng benta sa lugar ng tindahan ay sinusuri. Ang impormasyong nakuha ay nagbibigay-daan sa iyo na mas tumpak na pumili ng isang lokasyon para sa isang tindahan at mahulaan ang taunang dami ng benta nito. Ang mga sumusunod na tala ay magpapatuloy sa pagtalakay sa pagsusuri ng regression at titingnan din ang maramihang mga modelo ng regression.

kanin. 27. Tandaan structure diagram

Mga materyales mula sa aklat na Levin et al. Ginagamit ang Statistics for Managers. – M.: Williams, 2004. – p. 792–872

Kung ang dependent variable ay kategorya, ang logistic regression ay dapat gamitin.