Doel van regressieanalyse. Methoden van wiskundige statistiek

Het hoofddoel van regressieanalyse bestaat uit het bepalen van de analytische vorm van de relatie, waarbij de verandering in het resulterende attribuut het gevolg is van de invloed van een of meer factortekens, en de verzameling van alle andere factoren die ook het resulterende attribuut beïnvloeden, als constante en gemiddelde waarden wordt genomen .
Taken van regressieanalyse:
a) Het vaststellen van de vorm van afhankelijkheid. Wat de aard en vorm van de relatie tussen verschijnselen betreft, zijn er positieve lineaire en niet-lineaire en negatieve lineaire en niet-lineaire regressie.
b) Definitie van de regressiefunctie in de vorm van een wiskundige vergelijking van een of ander type en vaststelling van de invloed van verklarende variabelen op de afhankelijke variabele.
c) Schatting van onbekende waarden van de afhankelijke variabele. Met behulp van de regressiefunctie kunt u de waarden van de afhankelijke variabele reproduceren binnen het interval van gegeven waarden van de verklarende variabelen (d.w.z. het interpolatieprobleem oplossen) of het verloop van het proces buiten het gespecificeerde interval evalueren (d.w.z. het extrapolatieprobleem oplossen). Het resultaat is een schatting van de waarde van de afhankelijke variabele.

Paarregressie - de vergelijking van de relatie tussen twee variabelen y en x: , waarbij y de afhankelijke variabele is (effectief teken); x - onafhankelijke, verklarende variabele (kenmerkfactor).

Er zijn lineaire en niet-lineaire regressies.
Lineaire regressie: y = a + bx + ε
Niet-lineaire regressies worden in twee klassen verdeeld: regressies die niet-lineair zijn met betrekking tot de verklarende variabelen die in de analyse zijn opgenomen, maar lineair met betrekking tot de geschatte parameters, en regressies die niet-lineair zijn met betrekking tot de geschatte parameters.
Regressies die niet-lineair zijn in verklarende variabelen:

Regressies die niet-lineair zijn in termen van geschatte parameters: het opstellen van een regressievergelijking wordt beperkt tot het schatten van de parameters ervan. Om de parameters van regressies die lineair zijn in parameters te schatten, wordt de methode van de kleinste kwadraten (LSM) gebruikt. LSM maakt het mogelijk om dergelijke schattingen van parameters te verkrijgen waarbij de som van de kwadratische afwijkingen van de werkelijke waarden van het resulterende kenmerk y van de theoretische minimaal is, d.w.z.
.
Voor lineaire en niet-lineaire vergelijkingen die herleidbaar zijn tot lineair, wordt het volgende stelsel opgelost voor a en b:

U kunt kant-en-klare formules gebruiken die uit dit systeem volgen:

De nauwheid van het verband tussen de onderzochte verschijnselen wordt geschat door de lineaire coëfficiënt van paarcorrelatie voor lineaire regressie:

en correlatie-index - voor niet-lineaire regressie:

Een beoordeling van de kwaliteit van het geconstrueerde model zal worden gegeven aan de hand van de determinatiecoëfficiënt (index) en de gemiddelde benaderingsfout.
De gemiddelde benaderingsfout is de gemiddelde afwijking van de berekende waarden van de werkelijke waarden:
.
Toegestane limiet van waarden - niet meer dan 8-10%.
De gemiddelde elasticiteitscoëfficiënt laat zien hoeveel procent het resultaat y gemiddeld zal veranderen van de gemiddelde waarde wanneer de factor x met 1% verandert van de gemiddelde waarde:
.

De taak van variantieanalyse is het analyseren van de variantie van de afhankelijke variabele:
,
waar is de totale som van de gekwadrateerde afwijkingen;
- som van gekwadrateerde afwijkingen als gevolg van regressie (“verklaard” of “factorieel”);
- resterende som van gekwadrateerde afwijkingen.
Het aandeel van de variantie dat wordt verklaard door regressie in de totale variantie van het effectieve kenmerk y wordt gekenmerkt door de determinatiecoëfficiënt (index) R2:

De determinatiecoëfficiënt is het kwadraat van de coëfficiënt of correlatie-index.

F-test - evaluatie van de kwaliteit van de regressievergelijking - bestaat uit het testen van de hypothese. Maar over de statistische onbeduidendheid van de regressievergelijking en de indicator van de nauwe verbinding. Hiervoor wordt een vergelijking uitgevoerd van het feitelijke F-feit en de kritische (tabelvormige) F-tabel van de waarden van het Fisher F-criterium. F-feit wordt bepaald uit de verhouding van de waarden van de factoriële en residuele varianties berekend voor één vrijheidsgraad:
,
waarbij n het aantal bevolkingseenheden is; m is het aantal parameters voor variabelen x.
F-tabel is de maximaal mogelijke waarde van het criterium onder invloed van willekeurige factoren voor gegeven vrijheidsgraden en significantieniveau a. Significantieniveau a - de waarschijnlijkheid dat de juiste hypothese wordt verworpen, op voorwaarde dat deze waar is. Meestal wordt a gelijk gesteld aan 0,05 of 0,01.
Als F-tabel< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F een feit is, dan wordt de hypothese H waarover het gaat niet verworpen en wordt de statistische onbeduidendheid, de onbetrouwbaarheid van de regressievergelijking onderkend.
Om de statistische significantie van de regressie- en correlatiecoëfficiënten te beoordelen, worden de Student's t-test en betrouwbaarheidsintervallen voor elk van de indicatoren berekend. Er wordt een hypothese H naar voren gebracht over het willekeurige karakter van de indicatoren, d.w.z. over hun onbeduidende verschil met nul. De beoordeling van de significantie van de regressie- en correlatiecoëfficiënten met behulp van de Student's t-test wordt uitgevoerd door hun waarden te vergelijken met de omvang van de willekeurige fout:
; ; .
Willekeurige fouten van lineaire regressieparameters en correlatiecoëfficiënt worden bepaald door de formules:



Als we de werkelijke en kritische (tabelvormige) waarden van t-statistieken vergelijken - t tabl en t fact - accepteren of verwerpen we de hypothese H o.
De relatie tussen Fisher's F-test en Student's t-statistieken wordt uitgedrukt door de gelijkheid

Als t tafel< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t het feit dat de hypothese H over niet wordt verworpen en het willekeurige karakter van de vorming van a, b of wordt erkend.
Om het betrouwbaarheidsinterval te berekenen, bepalen we voor elke indicator de marginale fout D:
, .
De formules voor het berekenen van betrouwbaarheidsintervallen zijn als volgt:
; ;
; ;
Als nul binnen de grenzen van het betrouwbaarheidsinterval valt, d.w.z. Als de ondergrens negatief is en de bovengrens positief, wordt aangenomen dat de geschatte parameter nul is, aangezien deze niet tegelijkertijd zowel positieve als negatieve waarden kan aannemen.
De voorspelde waarde wordt bepaald door de overeenkomstige (verwachte) waarde in de regressievergelijking in te vullen. De gemiddelde standaardfout van de voorspelling wordt berekend:
,
Waar
en het betrouwbaarheidsinterval van de voorspelling wordt opgebouwd:
; ;
Waar .

Oplossing voorbeeld

Taak nummer 1. Voor zeven gebieden van de Oeralregio Voor 199X zijn de waarden van twee tekens bekend.
Tafel 1.
Vereist: 1. Om de afhankelijkheid van y van x te karakteriseren, berekent u de parameters van de volgende functies:
a) lineair;
b) machtswet (voorheen is het noodzakelijk om de procedure voor het lineariseren van variabelen uit te voeren door de logaritme van beide delen te nemen);
c) demonstratief;
d) gelijkzijdige hyperbool (je moet ook uitzoeken hoe je dit model vooraf kunt lineariseren).
2. Evalueer elk model met behulp van de gemiddelde benaderingsfout en de Fisher's F-test.

Oplossing (Optie #1)

Om de parameters a en b van een lineaire regressie te berekenen (berekening kan worden gedaan met behulp van een rekenmachine).
los het stelsel van normaalvergelijkingen op met betrekking tot A En B:
Op basis van de initiële gegevens berekenen we :
j X yx x2 j2 Een ik
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Totaal 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
wo waarde (Totaal/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
S 5,74 5,86 X X X X X X
s2 32,92 34,34 X X X X X X


Regressievergelijking: j= 76,88 - 0,35X. Met een stijging van het gemiddelde dagloon met 1 wrijven. het aandeel van de bestedingen aan de aankoop van voedingsmiddelen daalt met gemiddeld 0,35%-punt.
Bereken de lineaire coëfficiënt van paarcorrelatie:

De communicatie is gematigd, omgekeerd.
Laten we de determinatiecoëfficiënt definiëren:

De variatie van 12,7% in het resultaat wordt verklaard door de variatie in de x-factor. Het vervangen van de werkelijke waarden in de regressievergelijking X, bepaal de theoretische (berekende) waarden . Zoek de waarde van de gemiddelde benaderingsfout:

Gemiddeld wijken de berekende waarden 8,1% af van de werkelijke waarden.
Laten we het F-criterium berekenen:

omdat 1< F < ¥ , moet overwogen worden F -1 .
De resulterende waarde geeft de noodzaak aan om de hypothese te accepteren Maar o de willekeurige aard van de onthulde afhankelijkheid en de statistische onbeduidendheid van de parameters van de vergelijking en de indicator van de strakheid van de verbinding.
1b. De constructie van een machtsmodel wordt voorafgegaan door de procedure van linearisatie van variabelen. In het voorbeeld wordt linearisatie uitgevoerd door de logaritme van beide zijden van de vergelijking te nemen:


WaarY=lg(y), X=lg(x), C=lg(a).

Voor berekeningen gebruiken we de gegevens in Tabel. 1.3.

Tabel 1.3

Y X YX J2 x2 Een ik
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Totaal 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Gemiddelde waarde 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ2 0,0018 0,0023 X X X X X X X

Bereken C en b:


We krijgen een lineaire vergelijking: .
Door het te versterken krijgen we:

Vervang in deze vergelijking de werkelijke waarden X, we krijgen de theoretische waarden van het resultaat. Op basis daarvan berekenen we de indicatoren: de strakheid van de verbinding - de correlatie-index en de gemiddelde benaderingsfout

De kenmerken van het machtsmodel geven aan dat het de relatie iets beter beschrijft dan de lineaire functie.

1v. Constructie van een exponentiële curvevergelijking

voorafgegaan door een procedure voor het lineariseren van variabelen bij het nemen van de logaritme van beide delen van de vergelijking:

Voor berekeningen gebruiken we de tabelgegevens.

Y X Yx J2 x2 Een ik
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Totaal 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
wo zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ2 0,0018 34,339 X X X X X X X

De waarden van de regressieparameters A en IN bedroeg:


Er wordt een lineaire vergelijking verkregen: . We versterken de resulterende vergelijking en schrijven deze in de gebruikelijke vorm:

We schatten de nauwheid van de verbinding via de correlatie-index:

Het doel van regressieanalyse is het meten van de relatie tussen een afhankelijke variabele en één (paarsgewijze regressieanalyse) of meer (meerdere) onafhankelijke variabelen. Onafhankelijke variabelen worden ook factoriële, verklarende, determinante, regressoren en voorspellers genoemd.

De afhankelijke variabele wordt soms de gedefinieerde, verklaarde of "respons" -variabele genoemd. Het extreem wijdverbreide gebruik van regressieanalyse in empirisch onderzoek is niet alleen te danken aan het feit dat het een handig hulpmiddel is om hypothesen te testen. Regressie, vooral meervoudige regressie, is een effectieve modellerings- en voorspellingstechniek.

Laten we beginnen met het uitleggen van de principes van het werken met regressieanalyse met een eenvoudiger methode: de paarmethode.

Paarsgewijze regressieanalyse

De eerste stappen bij het gebruik van regressieanalyse zullen vrijwel identiek zijn aan die welke wij hebben genomen in het kader van de berekening van de correlatiecoëfficiënt. De drie belangrijkste voorwaarden voor de effectiviteit van correlatieanalyse met behulp van de Pearson-methode - de normale verdeling van variabelen, de intervalmeting van variabelen, de lineaire relatie tussen variabelen - zijn ook relevant voor meervoudige regressie. Dienovereenkomstig worden in de eerste fase spreidingsdiagrammen geconstrueerd, wordt een statistische en beschrijvende analyse van de variabelen uitgevoerd en wordt een regressielijn berekend. Net als in het raamwerk van correlatieanalyse worden regressielijnen gebouwd met behulp van de kleinste kwadratenmethode.

Om de verschillen tussen de twee methoden voor gegevensanalyse duidelijker te illustreren, kijken we naar het voorbeeld dat we al hebben besproken met de variabelen "BTR-steun" en "aandeel plattelandsbevolking". De originele gegevens zijn identiek. Het verschil in scatterplots zal zijn dat het in de regressieanalyse correct is om de afhankelijke variabele - in ons geval "SPS-ondersteuning" langs de Y-as te plotten, terwijl dit in de correlatieanalyse er niet toe doet. Na het opschonen van de uitschieters ziet het spreidingsdiagram er als volgt uit:

Het fundamentele idee van regressieanalyse is dat je, met een algemene trend voor variabelen - in de vorm van een regressielijn - de waarde van de afhankelijke variabele kunt voorspellen, met de waarden van de onafhankelijke.

Laten we ons een gewone wiskundige lineaire functie voorstellen. Elke lijn in de Euclidische ruimte kan worden beschreven met de formule:

waarbij a een constante is die de verschuiving langs de y-as specificeert; b - coëfficiënt die de hoek van de lijn bepaalt.

Als u de helling en de constante kent, kunt u de waarde van y voor elke x berekenen (voorspellen).

Deze eenvoudigste functie vormde de basis van het regressieanalysemodel met het voorbehoud dat we de waarde van y niet exact zullen voorspellen, maar binnen een bepaald betrouwbaarheidsinterval, d.w.z. ongeveer.

De constante is het snijpunt van de regressielijn en de y-as (het F-snijpunt, in statistische pakketten gewoonlijk "interceptor" genoemd). In ons voorbeeld van stemmen voor de BTR is de afgeronde waarde 10,55. De hellingscoëfficiënt b zal gelijk zijn aan ongeveer -0,1 (zoals in de correlatieanalyse geeft het teken het type relatie weer: direct of omgekeerd). Het resulterende model ziet er dus uit als SP C = -0,1 x Sel. ons. + 10.55.

ATP \u003d -0,10 x 47 + 10,55 \u003d 5,63.

Het verschil tussen de oorspronkelijke en voorspelde waarden wordt het residu genoemd (deze term - fundamenteel voor statistieken - zijn we al tegengekomen bij het analyseren van kruistabellen). In het geval van de Republiek Adygea zal de rest dus 3,92 - 5,63 = -1,71 zijn. Hoe groter de modulowaarde van de rest, hoe minder goed de waarde werd voorspeld.

We berekenen de voorspelde waarden en residuen voor alle gevallen:
Gebeurt Za. ons. Dankje

(origineel)

Dankje

(voorspelde)

Stoffelijk overschot
Republiek Adygea 47 3,92 5,63 -1,71 -
Republiek Altaj 76 5,4 2,59 2,81
Republiek Basjkortostan 36 6,04 6,78 -0,74
De Republiek Boerjatië 41 8,36 6,25 2,11
De Republiek Dagestan 59 1,22 4,37 -3,15
De Republiek Ingoesjetië 59 0,38 4,37 3,99
Enz.

Analyse van de verhouding tussen initiële en voorspelde waarden dient om de kwaliteit van het resulterende model, het voorspellende vermogen ervan, te beoordelen. Een van de belangrijkste indicatoren van regressiestatistieken is de meervoudige correlatiecoëfficiënt R - de correlatiecoëfficiënt tussen de oorspronkelijke en voorspelde waarden van de afhankelijke variabele. In gepaarde regressieanalyse is deze gelijk aan de gebruikelijke Pearson-correlatiecoëfficiënt tussen de afhankelijke en onafhankelijke variabele, in ons geval - 0,63. Om het veelvoud R betekenisvol te interpreteren, moet het worden omgezet in een determinatiecoëfficiënt. Dit gebeurt op dezelfde manier als bij correlatieanalyse: kwadrateren. De determinatiecoëfficiënt R-kwadraat (R 2) toont het aandeel van de variatie in de afhankelijke variabele, verklaard door de onafhankelijke (onafhankelijke) variabelen.

In ons geval is R 2 = 0,39 (0,63 2); dit betekent dat de variabele "aandeel van de plattelandsbevolking" ongeveer 40% van de variatie in de variabele "steun voor CPS" verklaart. Hoe groter de waarde van de determinatiecoëfficiënt, hoe hoger de kwaliteit van het model.

Een andere maatstaf voor de modelkwaliteit is de standaardschattingsfout. Dit is een maatstaf voor de mate waarin de punten "verspreid" zijn rond de regressielijn. De spreidingsmaat voor intervalvariabelen is de standaarddeviatie. Dienovereenkomstig is de standaardfout van de schatting de standaardafwijking van de verdeling van de residuen. Hoe hoger de waarde, hoe groter de spreiding en hoe slechter het model. In ons geval is de standaardfout 2,18. Met dit bedrag zal ons model “gemiddeld fout gaan” bij het voorspellen van de waarde van de variabele “SPS-ondersteuning”.

Regressiestatistieken omvatten ook variantieanalyse. Met behulp hiervan komen we erachter: 1) welk deel van de variatie (spreiding) van de afhankelijke variabele wordt verklaard door de onafhankelijke variabele; 2) welk deel van de variantie van de afhankelijke variabele wordt verklaard door de residuen (onverklaard deel); 3) wat is de verhouding tussen deze twee waarden (/ "-ratio). Dispersiestatistieken zijn vooral belangrijk voor steekproefstudies - het laat zien hoe waarschijnlijk het is dat er een verband bestaat tussen de onafhankelijke en afhankelijke variabelen in de algemene bevolking. , voor continue studies (zoals in ons voorbeeld), de studie. In dit geval wordt gecontroleerd of het onthulde statistische patroon wordt veroorzaakt door een samenloop van willekeurige omstandigheden, hoe kenmerkend het is voor het complex van omstandigheden waarin de ondervraagde populatie zich bevindt , dat wil zeggen dat wordt vastgesteld dat het verkregen resultaat niet geldt voor een uitgebreider algemeen aggregaat, maar voor de mate van regelmaat ervan, vrij van willekeurige invloeden.

In ons geval is de analyse van variantiestatistieken als volgt:

SS df MEVR F betekenis
Regressie. 258,77 1,00 258,77 54,29 0.000000001
Overig 395,59 83,00 L, 11
Totaal 654,36

De F-ratio van 54,29 is significant op het 0,0000000001-niveau. Dienovereenkomstig kunnen we de nulhypothese (dat de gevonden relatie willekeurig is) veilig verwerpen.

Een soortgelijke functie wordt uitgevoerd door het t-criterium, maar dan met betrekking tot regressiecoëfficiënten (hoek- en F-kruisingen). Met behulp van het criterium / testen we de hypothese dat de regressiecoëfficiënten in de algemene bevolking gelijk zijn aan nul. In ons geval kunnen we de nulhypothese opnieuw vol vertrouwen verwerpen.

Meervoudige regressie-analyse

Het meervoudige regressiemodel is vrijwel identiek aan het paarsgewijze regressiemodel; het enige verschil is dat verschillende onafhankelijke variabelen opeenvolgend zijn opgenomen in de lineaire functie:

Y = b1X1 + b2X2 + …+ bpXp + a.

Als er meer dan twee onafhankelijke variabelen zijn, kunnen we geen visuele weergave krijgen van hun relatie; in dit opzicht is meervoudige regressie minder "zichtbaar" dan paarregressie. Als er twee onafhankelijke variabelen zijn, kan het handig zijn om de gegevens in een 3D-spreidingsdiagram weer te geven. In professionele statistische softwarepakketten (bijvoorbeeld Statistica) is er een optie om een ​​driedimensionale grafiek te roteren, wat een goede visuele weergave van de datastructuur mogelijk maakt.

Bij het werken met meervoudige regressie is het, in tegenstelling tot paarregressie, noodzakelijk om het analysealgoritme te bepalen. Het standaardalgoritme omvat alle beschikbare voorspellers in het uiteindelijke regressiemodel. Het stapsgewijze algoritme gaat uit van de sequentiële opname (uitsluiting) van onafhankelijke variabelen, gebaseerd op hun verklarende "gewicht". De stapsgewijze methode is goed als er veel onafhankelijke variabelen zijn; het ‘zuivert’ het model van ronduit zwakke voorspellers, waardoor het compacter en beknopter wordt.

Een extra voorwaarde voor de juistheid van meervoudige regressie (samen met interval, normaliteit en lineariteit) is de afwezigheid van multicollineariteit: de aanwezigheid van sterke correlaties tussen onafhankelijke variabelen.

De interpretatie van meervoudige regressiestatistieken omvat alle elementen die we in overweging hebben genomen in het geval van paarsgewijze regressie. Daarnaast zijn er nog andere belangrijke componenten in de statistieken van meervoudige regressieanalyse.

We zullen het werk illustreren met meervoudige regressie aan de hand van het voorbeeld van het testen van hypothesen die de verschillen in het niveau van electorale activiteit in de regio's van Rusland verklaren. Specifieke empirische studies hebben gesuggereerd dat de opkomst bij verkiezingen wordt beïnvloed door:

Nationale factor (variabele "Russische bevolking"; geoperationaliseerd als het aandeel van de Russische bevolking in de samenstellende entiteiten van de Russische Federatie). Aangenomen wordt dat een toename van het aandeel van de Russische bevolking leidt tot een afname van de opkomst;

Verstedelijkingsfactor (variabele ‘stedelijke bevolking’; geoperationaliseerd als het aandeel van de stedelijke bevolking in de samenstellende entiteiten van de Russische Federatie; we hebben al met deze factor gewerkt als onderdeel van de correlatieanalyse). Aangenomen wordt dat een toename van het aandeel van de stedelijke bevolking ook leidt tot een afname van de opkomst bij de verkiezingen.

De afhankelijke variabele - "intensiteit van electorale activiteit" ("actief") wordt geoperationaliseerd via de gemiddelde gegevens over de opkomst per regio bij de federale verkiezingen van 1995 tot 2003. De initiële gegevenstabel voor twee onafhankelijke en één afhankelijke variabele zal de volgende vorm hebben :

Gebeurt Variabelen
Activa. Gor. ons. Rus. ons.
Republiek Adygea 64,92 53 68
Republiek Altaj 68,60 24 60
De Republiek Boerjatië 60,75 59 70
De Republiek Dagestan 79,92 41 9
De Republiek Ingoesjetië 75,05 41 23
Republiek Kalmukkië 68,52 39 37
Republiek Karatsjaj-Tsjerkess 66,68 44 42
Republiek Karelië 61,70 73 73
Republiek Komi 59,60 74 57
Mari El Republiek 65,19 62 47

Enz. (na het opruimen van de uitstoot blijven er 83 van de 88 gevallen over)

Statistieken die de kwaliteit van het model beschrijven:

1. Veelvoud R = 0,62; L-kwadraat = 0,38. Daarom verklaren de nationale factor en de factor verstedelijking samen ongeveer 38% van de variatie in de variabele ‘electorale activiteit’.

2. Gemiddelde fout is 3,38. Dit is hoe “gemiddeld” het geconstrueerde model ongelijk heeft bij het voorspellen van het opkomstniveau.

3. De /l-verhouding van verklaarde en onverklaarde variatie is 25,2 op het niveau van 0,000000003. De nulhypothese over de willekeur van de onthulde relaties wordt verworpen.

4. Het criterium / voor de constante en regressiecoëfficiënten van de variabelen "stedelijke bevolking" en "Russische bevolking" is significant op het niveau van 0,0000001; respectievelijk 0,00005 en 0,007. De nulhypothese over de willekeur van de coëfficiënten wordt verworpen.

Bijkomende nuttige statistieken bij de analyse van de verhouding tussen de initiële en voorspelde waarden van de afhankelijke variabele zijn de Mahalanobis-afstand en de Cook-afstand. De eerste is een maatstaf voor het unieke karakter van het geval (laat zien hoeveel de combinatie van waarden van alle onafhankelijke variabelen voor een bepaald geval tegelijkertijd afwijkt van de gemiddelde waarde voor alle onafhankelijke variabelen). De tweede is een maatstaf voor de invloed van de zaak. Verschillende waarnemingen beïnvloeden de helling van de regressielijn op verschillende manieren, en met behulp van de Cook's afstand kunt u ze vergelijken op basis van deze indicator. Dit is handig bij het opruimen van uitbijters (een uitbijter kan worden gezien als een geval dat te invloedrijk is).

In ons voorbeeld is Dagestan een van de unieke en invloedrijke gevallen.

Gebeurt Voorletter

waarden

Predska

waarden

Stoffelijk overschot Afstand

Mahalanobis

Afstand
Adygea 64,92 66,33 -1,40 0,69 0,00
Republiek Altaj 68,60 69.91 -1,31 6,80 0,01
De Republiek Boerjatië 60,75 65,56 -4,81 0,23 0,01
De Republiek Dagestan 79,92 71,01 8,91 10,57 0,44
De Republiek Ingoesjetië 75,05 70,21 4,84 6,73 0,08
Republiek Kalmukkië 68,52 69,59 -1,07 4,20 0,00

Het feitelijke regressiemodel heeft de volgende parameters: Y-snijpunt (constant) = 75,99; b (Hor. zat.) \u003d -0,1; b (Rus. nas.) = -0,06. Definitieve formule.

Het belangrijkste kenmerk van regressieanalyse is dat het kan worden gebruikt om specifieke informatie te verkrijgen over de vorm en aard van de relatie tussen de onderzochte variabelen.

De opeenvolging van fasen van regressieanalyse

Laten we kort de fasen van regressieanalyse bekijken.

    Taakformulering. In dit stadium worden voorlopige hypothesen over de afhankelijkheid van de bestudeerde verschijnselen gevormd.

    Definitie van afhankelijke en onafhankelijke (verklarende) variabelen.

    Verzameling van statistische gegevens. Er moeten gegevens worden verzameld voor elk van de variabelen die in het regressiemodel zijn opgenomen.

    Formulering van een hypothese over de vorm van de verbinding (eenvoudig of meervoudig, lineair of niet-lineair).

    Definitie regressie functies (bestaat uit de berekening van de numerieke waarden van de parameters van de regressievergelijking)

    Evaluatie van de nauwkeurigheid van regressieanalyse.

    Interpretatie van de verkregen resultaten. De resultaten van de regressieanalyse worden vergeleken met voorlopige hypothesen. De juistheid en plausibiliteit van de verkregen resultaten worden beoordeeld.

    Voorspelling van onbekende waarden van de afhankelijke variabele.

Met behulp van regressieanalyse is het mogelijk het probleem van voorspellen en classificeren op te lossen. Voorspellende waarden worden berekend door de waarden van de verklarende variabelen in de regressievergelijking te vervangen. Het classificatieprobleem wordt op deze manier opgelost: de regressielijn verdeelt de gehele set objecten in twee klassen, en het deel van de set waar de waarde van de functie groter is dan nul behoort tot één klasse, en het deel waar deze kleiner is dan nul behoort tot een andere klasse.

Taken van regressieanalyse

Overweeg de belangrijkste taken van regressieanalyse: de vorm van afhankelijkheid vaststellen, bepalen regressie functies, een schatting van de onbekende waarden van de afhankelijke variabele.

Het vaststellen van de vorm van afhankelijkheid.

De aard en vorm van de relatie tussen variabelen kan de volgende soorten regressie vormen:

    positieve lineaire regressie (uitgedrukt als een uniforme groei van de functie);

    positieve uniform versnellende regressie;

    positieve uniform toenemende regressie;

    negatieve lineaire regressie (uitgedrukt als een uniforme functiedaling);

    negatieve uniform versnelde afnemende regressie;

    negatieve uniform afnemende regressie.

De beschreven variëteiten komen echter meestal niet in pure vorm voor, maar in combinatie met elkaar. In dit geval spreekt men van gecombineerde vormen van regressie.

Definitie van de regressiefunctie.

De tweede taak is het achterhalen van het effect op de afhankelijke variabele van de belangrijkste factoren of oorzaken, waarbij alle overige factoren gelijk blijven, en onder voorbehoud van de uitsluiting van de impact op de afhankelijke variabele van willekeurige elementen. regressie functie gedefinieerd als een wiskundige vergelijking van een of ander type.

Schatting van onbekende waarden van de afhankelijke variabele.

De oplossing van dit probleem wordt gereduceerd tot het oplossen van een probleem van een van de volgende typen:

    Schatting van de waarden van de afhankelijke variabele binnen het beschouwde interval van de initiële gegevens, d.w.z. ontbrekende waarden; dit lost het probleem van interpolatie op.

    Het schatten van de toekomstige waarden van de afhankelijke variabele, d.w.z. waarden vinden buiten het gegeven interval van de initiële gegevens; dit lost het probleem van extrapolatie op.

Beide problemen worden opgelost door de gevonden schattingen van de parameters van de waarden van de onafhankelijke variabelen in de regressievergelijking te vervangen. Het resultaat van het oplossen van de vergelijking is een schatting van de waarde van de doelvariabele (afhankelijke).

Laten we eens kijken naar enkele aannames waarop regressieanalyse berust.

Lineariteitsaanname, d.w.z. Er wordt aangenomen dat de relatie tussen de beschouwde variabelen lineair is. In dit voorbeeld hebben we dus een spreidingsdiagram gemaakt en konden we een duidelijk lineair verband zien. Als we op het spreidingsdiagram van variabelen een duidelijke afwezigheid van een lineair verband zien, d.w.z. er een niet-lineair verband bestaat, moeten niet-lineaire analysemethoden worden gebruikt.

Normaliteitsveronderstelling restjes. Er wordt van uitgegaan dat de verdeling van het verschil tussen voorspelde en waargenomen waarden normaal is. Om de aard van de verdeling visueel te bepalen, kunt u histogrammen gebruiken restjes.

Bij het gebruik van regressieanalyse moet rekening worden gehouden met de belangrijkste beperking ervan. Het bestaat uit het feit dat u met regressieanalyse alleen afhankelijkheden kunt detecteren, en niet de relaties die aan deze afhankelijkheden ten grondslag liggen.

Regressieanalyse maakt het mogelijk om de mate van associatie tussen variabelen te beoordelen door de verwachte waarde van een variabele te berekenen op basis van verschillende bekende waarden.

Regressievergelijking.

De regressievergelijking ziet er als volgt uit: Y=a+b*X

Met behulp van deze vergelijking wordt de variabele Y uitgedrukt in termen van de constante a en de helling van de lijn (of helling) b vermenigvuldigd met de waarde van de variabele X. De constante a wordt ook wel het snijpunt genoemd, en de helling is de regressie coëfficiënt of B-factor.

In de meeste gevallen (zo niet altijd) is er een zekere spreiding van waarnemingen over de regressielijn.

Rest is de afwijking van een individueel punt (waarneming) van de regressielijn (voorspelde waarde).

Om het probleem van regressieanalyse in MS Excel op te lossen, selecteert u in het menu Dienst"Analysepakket" en de regressieanalysetool. Geef de invoerintervallen X en Y op. Het invoerinterval Y is het bereik van afhankelijke gegevens die worden geanalyseerd en moet één kolom bevatten. Het invoerinterval X is het bereik van onafhankelijke gegevens die moeten worden geanalyseerd. Het aantal ingangsbereiken mag niet groter zijn dan 16.

Bij de uitvoer van de procedure in het uitvoerbereik krijgen we het opgegeven rapport tabel 8.3a-8,3v.

RESULTATEN

Tabel 8.3a. Regressiestatistieken

Regressiestatistieken

Meerdere R

R-vierkant

Genormaliseerd R-vierkant

standaardfout

Waarnemingen

Beschouw eerst het bovenste deel van de berekeningen die worden gepresenteerd in tabel 8.3a, - regressiestatistieken.

Waarde R-vierkant, ook wel de mate van zekerheid genoemd, karakteriseert de kwaliteit van de resulterende regressielijn. Deze kwaliteit komt tot uiting in de mate van overeenstemming tussen de oorspronkelijke gegevens en het regressiemodel (berekende gegevens). De mate van zekerheid ligt altijd binnen het interval.

In de meeste gevallen de waarde R-vierkant ligt tussen deze waarden, extreem genoemd, d.w.z. tussen nul en één.

Als de waarde R-kwadraat dicht bij de eenheid betekent dit dat het geconstrueerde model bijna alle variabiliteit van de overeenkomstige variabelen verklaart. Omgekeerd de waarde R-kwadraat, dichtbij nul, betekent slechte kwaliteit van het geconstrueerde model.

In ons voorbeeld is de zekerheidsmaatstaf 0,99673, wat aangeeft dat de regressielijn zeer goed aansluit bij de oorspronkelijke gegevens.

meervoud R - coëfficiënt van meervoudige correlatie R - drukt de mate van afhankelijkheid uit van onafhankelijke variabelen (X) en afhankelijke variabele (Y).

Meerdere R gelijk aan de vierkantswortel van de determinatiecoëfficiënt, neemt deze waarde waarden aan in het bereik van nul tot één.

In eenvoudige lineaire regressieanalyse meervoud R gelijk aan de Pearson-correlatiecoëfficiënt. Echt, meervoud R in ons geval is deze gelijk aan de Pearson-correlatiecoëfficiënt uit het vorige voorbeeld (0,998364).

Tabel 8.3b. Regressiecoëfficiënten

Kansen

standaardfout

t-statistiek

Y-kruising

Variabele X 1

* Er wordt een ingekorte versie van de berekeningen gegeven

Beschouw nu het middelste deel van de berekeningen in tabel 8.3b. Hier worden de regressiecoëfficiënt b (2,305454545) en de offset langs de y-as gegeven, d.w.z. constante a (2,694545455).

Op basis van de berekeningen kunnen we de regressievergelijking als volgt schrijven:

Y= x*2,305454545+2,694545455

De richting van het verband tussen de variabelen wordt bepaald op basis van de tekens (negatief of positief) van de regressiecoëfficiënten (coëfficiënt b).

Als het teken van de regressiecoëfficiënt positief is, zal de relatie tussen de afhankelijke variabele en de onafhankelijke variabele positief zijn. In ons geval is het teken van de regressiecoëfficiënt positief, daarom is de relatie ook positief.

Als het teken van de regressiecoëfficiënt negatief is, is de relatie tussen de afhankelijke variabele en de onafhankelijke variabele negatief (invers).

IN tabel 8.3c. outputresultaten worden gepresenteerd restjes. Om deze resultaten in het rapport te laten verschijnen, is het noodzakelijk om het selectievakje "Residuen" te activeren bij het starten van de tool "Regressie".

RESTERENDE INTREKKING

Tabel 8.3c. Stoffelijk overschot

Observatie

Voorspelde Y

Stoffelijk overschot

Standaard saldi

Met behulp van dit deel van het rapport kunnen we de afwijkingen van elk punt ten opzichte van de geconstrueerde regressielijn zien. Grootste absolute waarde rest in ons geval - 0,778, de kleinste - 0,043. Voor een betere interpretatie van deze gegevens zullen we de plot van de originele gegevens en de geconstrueerde regressielijn gebruiken die in figuur 1 wordt weergegeven. rijst. 8.3. Zoals u kunt zien, is de regressielijn vrij nauwkeurig "aangepast" aan de waarden van de originele gegevens.

Er moet rekening mee worden gehouden dat het beschouwde voorbeeld vrij eenvoudig is en dat het lang niet altijd mogelijk is om kwalitatief een lineaire regressielijn te construeren.

Rijst. 8.3. Initiële gegevens en regressielijn

Het probleem van het schatten van onbekende toekomstige waarden van de afhankelijke variabele op basis van de bekende waarden van de onafhankelijke variabele bleef onoverwogen, d.w.z. voorspellende taak.

Met een regressievergelijking wordt het voorspellingsprobleem gereduceerd tot het oplossen van de vergelijking Y= x*2,305454545+2,694545455 met bekende waarden van x. De resultaten van het voorspellen van de afhankelijke variabele Y zes stappen vooruit worden gepresenteerd in tabel 8.4.

Tabel 8.4. Voorspellingsresultaten van Y-variabelen

Y(voorspeld)

Als gevolg van het gebruik van regressieanalyse in het Microsoft Excel-pakket kunnen we dus:

    bouwde een regressievergelijking;

    stelde de vorm van afhankelijkheid en de richting van de relatie tussen de variabelen vast - een positieve lineaire regressie, die tot uitdrukking komt in een uniforme groei van de functie;

    de richting van de relatie tussen de variabelen vastgesteld;

    beoordeelde de kwaliteit van de resulterende regressielijn;

    waren in staat om de afwijkingen van de berekende gegevens ten opzichte van de gegevens van de originele set te zien;

    voorspelde de toekomstige waarden van de afhankelijke variabele.

Als regressie functie gedefinieerd, geïnterpreteerd en gerechtvaardigd is, en de beoordeling van de nauwkeurigheid van de regressieanalyse aan de eisen voldoet, kunnen we ervan uitgaan dat het geconstrueerde model en de voorspellende waarden voldoende betrouwbaar zijn.

De aldus verkregen voorspelde waarden zijn de gemiddelde waarden die kunnen worden verwacht.

In dit artikel hebben we de belangrijkste kenmerken besproken beschrijvende statistieken en onder hen concepten als gemiddelde waarde,mediaan,maximaal,minimum en andere kenmerken van datavariatie.

Er was ook een korte discussie over het concept uitstoot. De beschouwde kenmerken hebben betrekking op de zogenaamde verkennende data-analyse; de ​​conclusies ervan zijn mogelijk niet van toepassing op de algemene bevolking, maar alleen op een datamonster. Verkennende data-analyse wordt gebruikt om primaire conclusies te trekken en hypothesen over de populatie te vormen.

Ook werden de basisprincipes van correlatie- en regressieanalyse, hun taken en mogelijkheden voor praktisch gebruik besproken.

De concepten correlatie en regressie houden rechtstreeks verband met elkaar. Er zijn veel algemene computationele technieken in correlatie- en regressieanalyse. Ze worden gebruikt om oorzaak-gevolgrelaties tussen verschijnselen en processen te identificeren. Echter, als correlatie analyse Hiermee kunt u vervolgens de sterkte en richting van de stochastische verbinding evalueren regressie analyse Het is ook een vorm van verslaving.

Regressie kan zijn:

a) afhankelijk van het aantal verschijnselen (variabelen):

Eenvoudig (regressie tussen twee variabelen);

Meerdere (regressie tussen de afhankelijke variabele (y) en verschillende variabelen die dit verklaren (x1, x2 ... xn);

b) afhankelijk van de vorm:

Lineair (weergegeven als een lineaire functie, en er zijn lineaire relaties tussen de onderzochte variabelen);

Niet-lineair (weergegeven als een niet-lineaire functie, de relatie tussen de onderzochte variabelen is niet-lineair);

c) door de aard van de relatie tussen de variabelen die in de overweging zijn meegenomen:

Positief (een toename van de waarde van de verklarende variabele leidt tot een toename van de waarde van de afhankelijke variabele en omgekeerd);

Negatief (bij een toename van de waarde van de verklarende variabele neemt de waarde van de verklaarde variabele af);

d) per soort:

Onmiddellijk (in dit geval heeft de oorzaak een direct effect op het effect, d.w.z. de afhankelijke en verklarende variabelen houden rechtstreeks verband met elkaar);

Indirect (de verklarende variabele heeft via een derde of een aantal andere variabelen een indirect effect op de afhankelijke variabele);

Vals (onzinregressie) - kan ontstaan ​​bij een oppervlakkige en formele benadering van de processen en verschijnselen die worden bestudeerd. Een voorbeeld van onzin is een regressie die een verband legt tussen een afname van de hoeveelheid alcohol die in ons land wordt geconsumeerd en een afname van de verkoop van waspoeder.

Bij het uitvoeren van regressieanalyses worden de volgende hoofdtaken opgelost:

1. Bepaling van de vorm van afhankelijkheid.

2. Definitie van de regressiefunctie. Om dit te doen, wordt een wiskundige vergelijking van een of ander type gebruikt, waarmee ten eerste een algemene trend in de verandering van de afhankelijke variabele kan worden vastgesteld, en ten tweede het effect van de verklarende variabele (of meerdere variabelen) kan worden berekend. op de afhankelijke variabele.

3. Schatting van onbekende waarden van de afhankelijke variabele. Met de resulterende wiskundige afhankelijkheid (regressievergelijking) kunt u de waarde van de afhankelijke variabele bepalen, zowel binnen het bereik van gegeven waarden van de verklarende variabelen als daarbuiten. In het laatste geval fungeert regressieanalyse als een nuttig hulpmiddel bij het voorspellen van veranderingen in sociaal-economische processen en verschijnselen (op voorwaarde dat bestaande trends en relaties behouden blijven). Meestal wordt de lengte van het tijdsinterval waarvoor voorspellingen worden gedaan niet meer dan de helft van het tijdsinterval waarover de waarnemingen van de initiële indicatoren zijn gedaan, gekozen. Het is mogelijk om zowel een passieve voorspelling uit te voeren, waarbij het extrapolatieprobleem wordt opgelost, als een actieve voorspelling, waarbij wordt geredeneerd volgens het bekende "als ... dan" -schema en verschillende waarden worden vervangen door een of meer verklarende regressievariabelen.



Voor een regressie opbouwen gebruikt een speciale methode genaamd kleinste kwadratenmethode. Deze methode heeft voordelen ten opzichte van andere afvlakkingsmethoden: een relatief eenvoudige wiskundige definitie van de vereiste parameters en een goede theoretische onderbouwing vanuit probabilistisch oogpunt.

Bij het kiezen van een regressiemodel is een van de essentiële vereisten het waarborgen van de grootst mogelijke eenvoud, waardoor een oplossing met voldoende nauwkeurigheid kan worden verkregen. Om statistische relaties vast te stellen, wordt daarom in de regel eerst een model uit de klasse van lineaire functies beschouwd (als de eenvoudigste van alle mogelijke klassen van functies):

waarbij bi, b2...bj - coëfficiënten die de invloed van onafhankelijke variabelen хij op de waarde yi bepalen; ai - gratis lid; ei - willekeurige afwijking, die de invloed weerspiegelt van niet-verklaarde factoren op de afhankelijke variabele; n is het aantal onafhankelijke variabelen; N is het aantal waarnemingen, en aan de voorwaarde (N. n+1) moet worden voldaan.

Lineair model kan een zeer brede klasse van verschillende problemen beschrijven. In de praktijk, vooral in sociaal-economische systemen, is het echter soms moeilijk om lineaire modellen te gebruiken vanwege grote benaderingsfouten. Daarom worden vaak niet-lineaire meervoudige regressiefuncties gebruikt die linearisatie mogelijk maken. Daartoe behoort bijvoorbeeld de productiefunctie (machtsfunctie van Cobb-Douglas), die toepassing heeft gevonden in verschillende sociaal-economische studies. Het lijkt op:

waarbij b 0 - normalisatiefactor, b 1 ...b j - onbekende coëfficiënten, ei - willekeurige afwijking.

Met behulp van natuurlijke logaritmen kunnen we deze vergelijking omzetten in een lineaire vorm:

Met het resulterende model kunt u de hierboven beschreven standaard lineaire regressieprocedures gebruiken. Nadat men modellen van twee typen heeft gebouwd (additief en multiplicatief), kan men de beste kiezen en verdere onderzoeken uitvoeren met kleinere benaderingsfouten.

Er is een goed ontwikkeld systeem voor het selecteren van benaderende functies - methode voor groepsboekhouding van argumenten(MGUA).

De juistheid van het gekozen model kan worden beoordeeld aan de hand van de resultaten van de studie van de residuen, dit zijn de verschillen tussen de waargenomen waarden y i en de overeenkomstige voorspelde waarden y i met behulp van de regressievergelijking. In dit geval om de geschiktheid van het model te controleren berekend gemiddelde benaderingsfout:

Het model wordt als adequaat beschouwd als e binnen 15% of minder ligt.

We benadrukken in het bijzonder dat met betrekking tot sociaal-economische systemen lang niet altijd aan de basisvoorwaarden voor de geschiktheid van het klassieke regressiemodel is voldaan.

Zonder stil te staan ​​bij alle oorzaken van de resulterende ontoereikendheid, zullen we slechts een naam noemen multicollineariteit- het moeilijkste probleem van de effectieve toepassing van regressieanalyseprocedures bij het bestuderen van statistische afhankelijkheden. Onder multicollineariteit de aanwezigheid van een lineair verband tussen de verklarende variabelen wordt begrepen.

Dit fenomeen:

a) vervormt de betekenis van de regressiecoëfficiënten in hun betekenisvolle interpretatie;

b) vermindert de nauwkeurigheid van de schatting (de variantie van schattingen neemt toe);

c) verbetert de gevoeligheid van coëfficiëntschattingen voor steekproefgegevens (een toename van de steekproefomvang kan de waarden van de schattingen sterk beïnvloeden).

Er zijn verschillende technieken om multicollineariteit te verminderen. De meest toegankelijke manier is om een ​​van de twee variabelen te elimineren als de correlatiecoëfficiënt daartussen een waarde overschrijdt die in absolute waarde gelijk is aan 0,8. Welke van de variabelen behouden moet worden, wordt bepaald op basis van betekenisvolle overwegingen. Vervolgens worden de regressiecoëfficiënten opnieuw berekend.

Met behulp van het stapsgewijze regressie-algoritme kunt u consistent één onafhankelijke variabele in het model opnemen en de significantie van de regressiecoëfficiënten en de multicollineariteit van de variabelen analyseren. Ten slotte blijven in de bestudeerde afhankelijkheid alleen die variabelen over die de noodzakelijke significantie van de regressiecoëfficiënten en het minimale effect van multicollineariteit opleveren.

In de voorgaande opmerkingen lag de nadruk vaak op één enkele numerieke variabele, zoals de rendementen van beleggingsfondsen, de laadtijd van webpagina's of de consumptie van frisdranken. In deze en de volgende opmerkingen zullen we methoden overwegen voor het voorspellen van de waarden van een numerieke variabele, afhankelijk van de waarden van een of meer andere numerieke variabelen.

De stof wordt geïllustreerd met een voorbeeld. Het voorspellen van het verkoopvolume in een kledingwinkel. De Sunflowers-keten van discountkledingwinkels breidt zich al 25 jaar voortdurend uit. Het bedrijf hanteert momenteel echter geen systematische aanpak bij het selecteren van nieuwe verkooppunten. De locatie waar het bedrijf een nieuwe winkel wil openen, wordt bepaald op basis van subjectieve overwegingen. De selectiecriteria zijn gunstige huurvoorwaarden of het idee van de manager over de ideale locatie van de winkel. Stel je voor dat je hoofd bent van de afdeling Speciale Projecten en Planning. Je hebt de taak gekregen om een ​​strategisch plan te ontwikkelen voor het openen van nieuwe winkels. Dit plan moet een prognose bevatten van de jaarlijkse omzet in nieuw geopende winkels. U bent van mening dat het verkopen van ruimte direct verband houdt met de omzet en u wilt dat feit meenemen in uw besluitvormingsproces. Hoe ontwikkel je een statistisch model dat de jaarlijkse omzet voorspelt op basis van de nieuwe winkelgrootte?

Meestal wordt regressieanalyse gebruikt om de waarden van een variabele te voorspellen. Het doel is om een ​​statistisch model te ontwikkelen dat de waarden van de afhankelijke variabele, of respons, voorspelt op basis van de waarden van ten minste één onafhankelijke of verklarende variabele. In deze notitie zullen we een eenvoudige lineaire regressie beschouwen - een statistische methode waarmee we de waarden van de afhankelijke variabele kunnen voorspellen Y door de waarden van de onafhankelijke variabele X. De volgende opmerkingen beschrijven een meervoudig regressiemodel dat is ontworpen om de waarden van de onafhankelijke variabele te voorspellen Y door de waarden van verschillende afhankelijke variabelen ( X 1 , X 2 , …, X k).

Download notitie in of formaat, voorbeelden in formaat

Soorten regressiemodellen

Waar ρ 1 is de autocorrelatiecoëfficiënt; Als ρ 1 = 0 (geen autocorrelatie), D≈ 2; Als ρ 1 ≈ 1 (positieve autocorrelatie), D≈ 0; Als ρ 1 = -1 (negatieve autocorrelatie), D ≈ 4.

In de praktijk berust de toepassing van het Durbin-Watson-criterium op een vergelijking van de waarde D met kritische theoretische waarden d L En d U voor een bepaald aantal waarnemingen N, het aantal onafhankelijke variabelen van het model k(voor eenvoudige lineaire regressie k= 1) en significantieniveau α. Als D< d L , wordt de hypothese van de onafhankelijkheid van willekeurige afwijkingen verworpen (er is dus sprake van een positieve autocorrelatie); Als D > d U, de hypothese wordt niet verworpen (dat wil zeggen, er is geen autocorrelatie); Als d L< D < d U er is niet genoeg reden om een ​​beslissing te nemen. Wanneer de berekende waarde D dan groter is dan 2 d L En d U het is niet de coëfficiënt zelf die wordt vergeleken D, en de uitdrukking (4 – D).

Om de Durbin-Watson-statistieken in Excel te berekenen, gaan we naar de onderste tabel in Fig. 14 Saldo opname. De teller in uitdrukking (10) wordt berekend met behulp van de functie = SUMMQDIFF(array1, array2) en de noemer = SUMMQ(array) (Fig. 16).

Rijst. 16. Formules voor het berekenen van Durbin-Watson-statistieken

In ons voorbeeld D= 0,883. De belangrijkste vraag is: welke waarde van de Durbin-Watson-statistiek moet als klein genoeg worden beschouwd om te concluderen dat er een positieve autocorrelatie bestaat? Het is noodzakelijk om de waarde van D te correleren met de kritische waarden ( d L En d U) afhankelijk van het aantal waarnemingen N en significantieniveau α (Fig. 17).

Rijst. 17. Kritische waarden van Durbin-Watson-statistieken (tabelfragment)

In het probleem van het verkoopvolume in een winkel die goederen bij u thuis bezorgt, is er dus één onafhankelijke variabele ( k= 1), 15 waarnemingen ( N= 15) en significantieniveau α = 0,05. Vandaar, d L= 1,08 en DU= 1,36. Omdat de D = 0,883 < d L= 1,08, er is een positieve autocorrelatie tussen de residuen, de kleinste kwadratenmethode kan niet worden toegepast.

Hypotheses testen over helling en correlatiecoëfficiënt

De bovenstaande regressie werd uitsluitend toegepast voor prognoses. Om regressiecoëfficiënten te bepalen en de waarde van een variabele te voorspellen Y voor een gegeven variabele waarde X Er werd gebruik gemaakt van de methode van de kleinste kwadraten. Daarnaast hebben we rekening gehouden met de standaardfout van de schatting en de coëfficiënt van gemengde correlatie. Als de residuele analyse bevestigt dat de toepasbaarheidsvoorwaarden van de kleinste kwadratenmethode niet worden geschonden, en het eenvoudige lineaire regressiemodel adequaat is, kan op basis van de steekproefgegevens worden beargumenteerd dat er een lineair verband bestaat tussen de variabelen in de populatie.

SollicitatieT -criteria voor helling. Door te controleren of de populatiehelling β 1 gelijk is aan nul, kan worden bepaald of er een statistisch significant verband bestaat tussen de variabelen X En Y. Als deze hypothese wordt verworpen, kan worden gesteld dat er sprake is van een tussenvariabelen X En Y er is een lineair verband. De nul- en alternatieve hypothesen zijn als volgt geformuleerd: H 0: β 1 = 0 (geen lineair verband), H1: β 1 ≠ 0 (er is een lineair verband). A-priorij T-statistiek is gelijk aan het verschil tussen de steekproefhelling en de hypothetische populatiehelling, gedeeld door de standaardfout van de hellingsschatting:

(11) T = (B 1 β 1 ) / Zb 1

Waar B 1 is de helling van de directe regressie op basis van steekproefgegevens, β1 is de hypothetische helling van de directe algemene bevolking, en teststatistieken T Het heeft T- distributie met n - 2 graden van vrijheid.

Laten we eens kijken of er een statistisch significant verband bestaat tussen de winkelgrootte en de jaarlijkse omzet bij α = 0,05. T-criteria worden samen met andere parameters weergegeven bij gebruik Analysepakket(keuze Regressie). De volledige resultaten van het Analysepakket worden getoond in Fig. 4, een fragment gerelateerd aan t-statistieken - in Fig. 18.

Rijst. 18. Applicatieresultaten T

Vanwege het aantal winkels N= 14 (zie figuur 3), kritische waarde T-statistieken op een significantieniveau α = 0,05 kunnen worden gevonden met de formule: t L=STUDENT.INV(0,025;12) = -2,1788 waarbij 0,025 de helft van het significantieniveau is en 12 = N – 2; t U\u003d STUDENT.INR (0,975, 12) \u003d +2,1788.

Omdat de T-statistieken = 10,64 > t U= 2,1788 (Fig. 19), nulhypothese H 0 wordt afgewezen. Aan de andere kant, R-waarde voor X\u003d 10,6411, berekend met de formule \u003d 1-STUDENT.DIST (D3, 12, TRUE), is ongeveer gelijk aan nul, dus de hypothese H 0 wordt opnieuw afgewezen. Het feit dat R-waarde is bijna nul, wat betekent dat als er geen echt lineair verband zou bestaan ​​tussen winkelomvang en jaarlijkse omzet, het vrijwel onmogelijk zou zijn om dit te vinden met behulp van lineaire regressie. Daarom is er een statistisch significant lineair verband tussen de gemiddelde jaarlijkse winkelomzet en de winkelgrootte.

Rijst. 19. Het testen van de hypothese over de helling van de algemene bevolking op een significantieniveau van 0,05 en 12 vrijheidsgraden

SollicitatieF -criteria voor helling. Een alternatieve benadering voor het testen van hypothesen over de helling van een eenvoudige lineaire regressie is het gebruik F-criteria. Herhaal dat F-criterium wordt gebruikt om de relatie tussen twee varianties te testen (zie details). Bij het testen van de hellingshypothese is de maatstaf voor willekeurige fouten de foutvariantie (de som van de kwadratische fouten gedeeld door het aantal vrijheidsgraden), dus F-test gebruikt de verhouding van de variantie die wordt verklaard door de regressie (d.w.z. de waarden SSR gedeeld door het aantal onafhankelijke variabelen k), naar de foutvariantie ( MSE=S YX 2 ).

A-priorij F-statistiek is gelijk aan de gemiddelde kwadratische afwijkingen als gevolg van regressie (MSR) gedeeld door de foutvariantie (MSE): F = MSR/ MSE, Waar MSR=SSR / k, MSE =SSE/(N– k – 1), k is het aantal onafhankelijke variabelen in het regressiemodel. Statistieken testen F Het heeft F- distributie met k En N– k – 1 graden van vrijheid.

Voor een gegeven significantieniveau α wordt de beslisregel als volgt geformuleerd: als F > FU, wordt de nulhypothese verworpen; anders wordt het niet afgewezen. De resultaten, gepresenteerd in de vorm van een samenvattende tabel van de variantieanalyse, worden getoond in Fig. 20.

Rijst. 20. Variantieanalysetabel om de hypothese van de statistische significantie van de regressiecoëfficiënt te testen

Op dezelfde manier T-criterium F-criteria worden bij gebruik in de tabel weergegeven Analysepakket(keuze Regressie). Volledige resultaten van het werk Analysepakket getoond in afb. 4, fragment gerelateerd aan F-statistieken - in afb. 21.

Rijst. 21. Applicatieresultaten F- Criteria verkregen met behulp van het Excel Analysis ToolPack

F-statistiek is 113,23 en R-waarde dichtbij nul (cel BetekenisF). Als het significantieniveau α 0,05 is, bepaal dan de kritische waarde F-verdelingen met één en twaalf vrijheidsgraden kunnen worden verkregen uit de formule FU\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Fig. 22). Omdat de F = 113,23 > FU= 4,7472, en R-waarde dichtbij 0< 0,05, нулевая гипотеза H 0 wijkt af, d.w.z. De grootte van een winkel hangt nauw samen met het jaarlijkse verkoopvolume.

Rijst. 22. Het testen van de hypothese over de helling van de algemene bevolking op een significantieniveau van 0,05, met één en twaalf vrijheidsgraden

Betrouwbaarheidsinterval met helling β 1 . Om de hypothese van het bestaan ​​van een lineair verband tussen variabelen te testen, kunt u een betrouwbaarheidsinterval opbouwen dat de helling β 1 bevat en ervoor zorgen dat de hypothetische waarde β 1 = 0 tot dit interval behoort. Het midden van het betrouwbaarheidsinterval dat de helling β 1 bevat, is de steekproefhelling B 1 , en de grenzen ervan zijn de hoeveelheden b1±t n –2 Zb 1

Zoals weergegeven in afb. 18, B 1 = +1,670, N = 14, Zb 1 = 0,157. T 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Vandaar, b1±t n –2 Zb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, of + 1,328 ≤ β 1 ≤ +2,012. De helling van de populatie met een waarschijnlijkheid van 0,95 ligt dus in het bereik van +1,328 tot +2,012 (d.w.z. van $1.328.000 tot $2.012.000). Omdat deze waarden groter zijn dan nul, is er een statistisch significant lineair verband tussen de jaarlijkse omzet en de winkeloppervlakte. Als het betrouwbaarheidsinterval nul zou zijn, zou er geen verband tussen de variabelen zijn. Bovendien betekent het betrouwbaarheidsinterval dat elke 1.000 vierkante meter. voet resulteert in een stijging van de gemiddelde omzet van $1.328.000 naar $2.012.000.

GebruikT -criteria voor de correlatiecoëfficiënt. correlatiecoëfficiënt werd geïntroduceerd R, wat een maat is voor de relatie tussen twee numerieke variabelen. Het kan worden gebruikt om te bepalen of er een statistisch significant verband bestaat tussen twee variabelen. Laten we de correlatiecoëfficiënt tussen de populaties van beide variabelen aangeven met het symbool ρ. De nul- en alternatieve hypothesen zijn als volgt geformuleerd: H 0: ρ = 0 (geen correlatie), H 1: ρ ≠ 0 (er is een correlatie). Controleren op het bestaan ​​van een correlatie:

Waar R = + , Als B 1 > 0, R = – , Als B 1 < 0. Тестовая статистика T Het heeft T- distributie met n - 2 graden van vrijheid.

In de problematiek van winkelketen Zonnebloemen r2= 0,904, en b1- +1,670 (zie Afb. 4). Omdat de b1> 0, de correlatiecoëfficiënt tussen de jaarlijkse omzet en de winkelgrootte is R= +√0,904 = +0,951. Laten we de nulhypothese testen dat er geen correlatie bestaat tussen deze variabelen T- statistieken:

Bij een significantieniveau van α = 0,05 moet de nulhypothese worden verworpen omdat T= 10,64 > 2,1788. Er kan dus worden gesteld dat er een statistisch significant verband bestaat tussen de jaarlijkse omzet en de winkelgrootte.

Bij het bespreken van gevolgtrekkingen over populatiehellingen zijn betrouwbaarheidsintervallen en criteria voor het testen van hypothesen uitwisselbare hulpmiddelen. De berekening van het betrouwbaarheidsinterval dat de correlatiecoëfficiënt bevat, blijkt echter moeilijker te zijn, omdat de vorm van de steekproefverdeling van de statistiek R hangt af van de werkelijke correlatiecoëfficiënt.

Schatting van wiskundige verwachtingen en voorspelling van individuele waarden

In deze sectie worden methoden besproken voor het schatten van de verwachte respons Y en voorspellingen van individuele waarden Y voor gegeven waarden van de variabele X.

Constructie van een betrouwbaarheidsinterval. In voorbeeld 2 (zie bovenstaande paragraaf Kleinste kwadratenmethode) maakte de regressievergelijking het mogelijk om de waarde van de variabele te voorspellen Y X. Bij het probleem van het kiezen van een locatie voor een winkel, is de gemiddelde jaarlijkse omzet in een winkel met een oppervlakte van 4000 vierkante meter. voet was gelijk aan 7,644 miljoen dollar, maar deze schatting van de wiskundige verwachting van de algemene bevolking is een punt. Om de wiskundige verwachting van de algemene bevolking te schatten, werd het concept van een betrouwbaarheidsinterval voorgesteld. Op dezelfde manier kan men het concept introduceren betrouwbaarheidsinterval voor de wiskundige verwachting van het antwoord voor een gegeven waarde van een variabele X:

Waar , = B 0 + B 1 X ik– voorspelde waardevariabele Y bij X = X ik, S YX is de gemiddelde kwadratische fout, N is de steekproefomvang, Xi- de gegeven waarde van de variabele X, µ Y|X = Xi– wiskundige verwachting van een variabele Y bij X = Х ik,SSX=

Analyse van formule (13) laat zien dat de breedte van het betrouwbaarheidsinterval van verschillende factoren afhangt. Bij een bepaald significantieniveau leidt een toename van de amplitude van fluctuaties rond de regressielijn, gemeten met behulp van de gemiddelde kwadratische fout, tot een toename van de breedte van het interval. Aan de andere kant gaat, zoals verwacht, een toename van de steekproefomvang gepaard met een verkleining van het interval. Bovendien verandert de breedte van het interval afhankelijk van de waarden Xi. Als de waarde van de variabele Y voorspeld voor hoeveelheden X, dicht bij de gemiddelde waarde blijkt het betrouwbaarheidsinterval smaller te zijn dan bij het voorspellen van de respons voor waarden ver van het gemiddelde.

Laten we zeggen dat we bij het kiezen van een locatie voor een winkel een betrouwbaarheidsinterval van 95% willen opbouwen voor de gemiddelde jaaromzet in alle winkels met een oppervlakte van 4000 vierkante meter. voeten:

Daarom is het gemiddelde jaarlijkse verkoopvolume in alle winkels met een oppervlakte van 4.000 vierkante meter. voet, ligt met een waarschijnlijkheid van 95% in het bereik van 6,971 tot 8,317 miljoen dollar.

Bereken het betrouwbaarheidsinterval voor de voorspelde waarde. Naast het betrouwbaarheidsinterval voor de wiskundige verwachting van het antwoord voor een gegeven waarde van de variabele X, is het vaak nodig om het betrouwbaarheidsinterval voor de voorspelde waarde te kennen. Hoewel de formule voor het berekenen van een dergelijk betrouwbaarheidsinterval sterk lijkt op formule (13), bevat dit interval een voorspelde waarde en geen schatting van de parameter. Interval voor voorspelde respons YX = Xi voor een specifieke waarde van de variabele Xi wordt bepaald door de formule:

Laten we aannemen dat we bij het kiezen van een locatie voor een winkel een betrouwbaarheidsinterval van 95% willen opbouwen voor het voorspelde jaarlijkse verkoopvolume in een winkel met een oppervlakte van 4000 vierkante meter. voeten:

Daarom is het voorspelde jaarlijkse verkoopvolume voor een winkel van 4.000 m² groot. voet, met een waarschijnlijkheid van 95% ligt in het bereik van 5,433 tot 9,854 miljoen dollar.Zoals u kunt zien, is het betrouwbaarheidsinterval voor de voorspelde responswaarde veel breder dan het betrouwbaarheidsinterval voor de wiskundige verwachting ervan. Dit komt omdat de variabiliteit bij het voorspellen van individuele waarden veel groter is dan bij het schatten van de verwachte waarde.

Valkuilen en ethische kwesties die verband houden met het gebruik van regressie

Moeilijkheden in verband met regressieanalyse:

  • Het negeren van de voorwaarden voor toepasbaarheid van de methode van de kleinste kwadraten.
  • Een foutieve inschatting van de voorwaarden voor toepasbaarheid van de methode van de kleinste kwadraten.
  • Verkeerde keuze voor alternatieve methoden in strijd met de toepassingsvoorwaarden van de kleinste kwadratenmethode.
  • Toepassing van regressieanalyse zonder diepgaande kennis van het studieonderwerp.
  • Extrapolatie van de regressie buiten het bereik van de verklarende variabele.
  • Verwarring tussen statistische en causale relaties.

Het wijdverbreide gebruik van spreadsheets en statistische software heeft de rekenproblemen geëlimineerd die het gebruik van regressieanalyse in de weg stonden. Dit leidde er echter toe dat regressieanalyse werd gebruikt door gebruikers die niet over voldoende kwalificaties en kennis beschikken. Hoe weten gebruikers over alternatieve methoden als velen van hen helemaal geen idee hebben van de voorwaarden voor toepasbaarheid van de kleinste kwadratenmethode en niet weten hoe ze de implementatie ervan moeten controleren?

De onderzoeker moet zich niet laten meeslepen door cijfers te vermalen - het berekenen van de verschuiving, helling en gemengde correlatiecoëfficiënt. Hij heeft diepere kennis nodig. Laten we dit illustreren met een klassiek voorbeeld uit schoolboeken. Anscombe toonde aan dat alle vier de datasets getoond in Fig. 23 hebben dezelfde regressieparameters (Fig. 24).

Rijst. 23. Vier kunstmatige datasets

Rijst. 24. Regressieanalyse van vier kunstmatige datasets; klaar met Analysepakket(klik op de afbeelding om de afbeelding te vergroten)

Vanuit het oogpunt van regressieanalyse zijn al deze datasets dus volledig identiek. Als de analyse daar zou eindigen, zouden we veel nuttige informatie verliezen. Dit blijkt uit de spreidingsdiagrammen (Fig. 25) en restgrafieken (Fig. 26) die voor deze datasets zijn geconstrueerd.

Rijst. 25. Spreidingsdiagrammen voor vier datasets

Spreidingsgrafieken en restgrafieken laten zien dat deze gegevens van elkaar verschillen. De enige set die langs een rechte lijn is verdeeld, is set A. De grafiek van de residuen berekend op basis van set A heeft geen patroon. Hetzelfde kan niet worden gezegd voor sets B, C en D. Het spreidingsdiagram voor set B vertoont een uitgesproken kwadratisch patroon. Deze conclusie wordt bevestigd door de grafiek van residuen, die een parabolische vorm heeft. Uit het spreidingsdiagram en het residuele diagram blijkt dat dataset B een uitbijter bevat. In deze situatie is het noodzakelijk om de uitschieter uit de dataset uit te sluiten en de analyse te herhalen. De techniek voor het detecteren en elimineren van uitbijters uit waarnemingen wordt invloedanalyse genoemd. Na het elimineren van de uitschieter kan het resultaat van de herevaluatie van het model compleet anders zijn. Een spreidingsdiagram uit dataset D illustreert een ongebruikelijke situatie waarin het empirische model sterk afhankelijk is van één enkele respons ( X8 = 19, Y 8 = 12,5). Dergelijke regressiemodellen moeten bijzonder zorgvuldig worden berekend. Verspreidings- en residuele plots zijn dus een essentieel hulpmiddel voor regressieanalyse en zouden er een integraal onderdeel van moeten zijn. Zonder hen is regressieanalyse niet geloofwaardig.

Rijst. 26. Percelen met residuen voor vier datasets

Hoe valkuilen bij regressieanalyse te vermijden:

  • Analyse van de mogelijke relatie tussen variabelen X En Y Begin altijd met een spreidingsdiagram.
  • Voordat u de resultaten van een regressieanalyse interpreteert, controleert u de voorwaarden op toepasbaarheid.
  • Zet de residuen uit tegen de onafhankelijke variabele. Dit zal het mogelijk maken om te bepalen hoe het empirische model overeenkomt met de resultaten van observatie, en om schending van de constantheid van de variantie te detecteren.
  • Gebruik histogrammen, stengel- en bladplots, boxplots en normale verdelingsplots om de aanname van een normale verdeling van fouten te testen.
  • Als niet aan de toepasbaarheidsvoorwaarden van de kleinste kwadratenmethode wordt voldaan, gebruik dan alternatieve methoden (bijvoorbeeld kwadratische of meervoudige regressiemodellen).
  • Als aan de toepasbaarheidsvoorwaarden van de kleinste kwadratenmethode is voldaan, is het noodzakelijk om de hypothese over de statistische significantie van de regressiecoëfficiënten te testen en betrouwbaarheidsintervallen te construeren die de wiskundige verwachting en de voorspelde responswaarde bevatten.
  • Vermijd het voorspellen van waarden van de afhankelijke variabele buiten het bereik van de onafhankelijke variabele.
  • Houd er rekening mee dat statistische afhankelijkheden niet altijd causaal zijn. Bedenk dat correlatie tussen variabelen niet betekent dat er een oorzakelijk verband tussen bestaat.

Samenvatting. Zoals weergegeven in het blokdiagram (Fig. 27) beschrijft de notitie een eenvoudig lineair regressiemodel, de voorwaarden voor de toepasbaarheid ervan, en manieren om deze voorwaarden te testen. Beschouwd T-criterium voor het testen van de statistische significantie van de helling van de regressie. Om de waarden van de afhankelijke variabele te voorspellen, werd een regressiemodel gebruikt. Een voorbeeld wordt beschouwd in verband met de keuze van een plaats voor een winkel, waarbij de afhankelijkheid van het jaarlijkse verkoopvolume van de winkeloppervlakte wordt bestudeerd. Met de verkregen informatie kunt u nauwkeuriger een locatie voor de winkel selecteren en de jaarlijkse omzet ervan voorspellen. In de volgende opmerkingen wordt de bespreking van regressieanalyse voortgezet, evenals van meervoudige regressiemodellen.

Rijst. 27. Blokdiagram van een notitie

Materialen uit het boek Levin et al. Er wordt gebruik gemaakt van statistieken voor managers. - M.: Williams, 2004. - p. 792–872

Als de afhankelijke variabele categorisch is, moet logistische regressie worden toegepast.