Formål med regressionsanalyse. Metoder til matematisk statistik

Hovedformålet med regressionsanalyse består i at bestemme den analytiske kommunikationsform, hvor ændringen i den effektive karakteristik skyldes påvirkning af en eller flere faktorkarakteristika, og mængden af ​​alle andre faktorer, der også påvirker den effektive karakteristik, tages som konstante og gennemsnitlige værdier.
Problemer med regressionsanalyse:
a) Etablering af afhængighedsform. Vedrørende arten og formen af ​​forholdet mellem fænomener skelnes der mellem positiv lineær og ikke-lineær og negativ lineær og ikke-lineær regression.
b) Bestemmelse af regressionsfunktionen i form af en matematisk ligning af den ene eller anden type og fastlæggelse af forklarende variables indflydelse på den afhængige variabel.
c) Estimering af ukendte værdier af den afhængige variabel. Ved hjælp af regressionsfunktionen kan du reproducere værdierne af den afhængige variabel inden for intervallet af specificerede værdier af de forklarende variabler (dvs. løse interpolationsproblemet) eller evaluere forløbet af processen uden for det specificerede interval (dvs. løse ekstrapolationsproblemet). Resultatet er et skøn over værdien af ​​den afhængige variabel.

Parret regression er en ligning for sammenhængen mellem to variable y og x: , hvor y er den afhængige variabel (resultategenskab); x er en uafhængig forklarende variabel (feature-factor).

Der er lineære og ikke-lineære regressioner.
Lineær regression: y = a + bx + ε
Ikke-lineære regressioner er opdelt i to klasser: regressioner, der er ikke-lineære med hensyn til de forklarende variabler, der indgår i analysen, men lineære med hensyn til de estimerede parametre, og regressioner, der er ikke-lineære i forhold til de estimerede parametre.
Regressioner, der er ikke-lineære i forklarende variable:

Regressioner, der er ikke-lineære med hensyn til de estimerede parametre: Konstruktionen af ​​en regressionsligning kommer ned til at estimere dens parametre. For at estimere parametrene for regressioner, der er lineære i parametre, anvendes mindste kvadraters metode (OLS). Mindste kvadraters metode gør det muligt at opnå sådanne parameterestimater, hvor summen af ​​kvadrerede afvigelser af de faktiske værdier af den resulterende karakteristik y fra de teoretiske er minimal, dvs.
.
For lineære og ikke-lineære ligninger, der kan reduceres til lineære, løses følgende system for a og b:

Du kan bruge færdige formler, der følger af dette system:

Nærheden af ​​forbindelsen mellem de fænomener, der undersøges, vurderes ved den lineære parkorrelationskoefficient for lineær regression:

og korrelationsindeks - for ikke-lineær regression:

Kvaliteten af ​​den konstruerede model vil blive vurderet ved bestemmelseskoefficienten (indekset) samt den gennemsnitlige tilnærmelsesfejl.
Gennemsnitlig tilnærmelsesfejl - gennemsnitlig afvigelse af beregnede værdier fra faktiske:
.
Den tilladte grænse for værdier er ikke mere end 8-10%.
Den gennemsnitlige elasticitetskoefficient viser med, hvor mange procent i gennemsnit resultatet y vil ændre sig fra sin gennemsnitsværdi, når faktoren x ændres med 1 % fra sin gennemsnitsværdi:
.

Formålet med variansanalyse er at analysere variansen af ​​den afhængige variabel:
,
hvor er den samlede sum af kvadrerede afvigelser;
- summen af ​​kvadrerede afvigelser på grund af regression ("forklaret" eller "faktoriel");
- Restsum af kvadrerede afvigelser.
Andelen af ​​varians, der forklares ved regression i den totale varians af den resulterende karakteristik y, er karakteriseret ved koefficienten (indekset) for bestemmelse R2:

Bestemmelseskoefficienten er kvadratet af koefficienten eller korrelationsindekset.

F-testen - vurdering af kvaliteten af ​​regressionsligningen - består i at teste hypotesen Nej om regressionsligningens statistiske insignifikans og indikatoren for sammenhængens nærhed. For at gøre dette foretages en sammenligning mellem det faktiske F-faktum og de kritiske (tabel) F-tabelværdier for Fisher F-kriteriet. F fact bestemmes ud fra forholdet mellem værdierne af faktor og restvarianser beregnet pr. frihedsgrad:
,
hvor n er antallet af befolkningsenheder; m er antallet af parametre for variable x.
F-tabel er den maksimalt mulige værdi af kriteriet under indflydelse af tilfældige faktorer ved givne frihedsgrader og signifikansniveau a. Signifikansniveauet a er sandsynligheden for at forkaste den korrekte hypotese, forudsat at den er sand. Normalt tages a lig med 0,05 eller 0,01.
Hvis F tabel< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F faktum, så forkastes hypotesen H o ikke, og den statistiske insignifikans og upålidelighed af regressionsligningen anerkendes.
For at vurdere den statistiske signifikans af regression og korrelationskoefficienter, beregnes Students t-test og konfidensintervaller for hver indikator. Der opstilles en hypotese om indikatorernes tilfældige karakter, dvs. om deres ubetydelige forskel fra nul. Vurdering af betydningen af ​​regression og korrelationskoefficienter ved hjælp af Students t-test udføres ved at sammenligne deres værdier med størrelsen af ​​den tilfældige fejl:
; ; .
Tilfældige fejl af de lineære regressionsparametre og korrelationskoefficienten bestemmes af formlerne:



Ved at sammenligne de faktiske og kritiske (tabel) værdier af t-statistik - t-tabel og t-faktum - accepterer eller afviser vi hypotesen H o.
Forholdet mellem Fisher F-testen og Student t-statistikken er udtrykt ved ligheden

Hvis t tabel< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t er et faktum, at hypotesen H o ikke forkastes, og den tilfældige karakter af dannelsen af ​​a, b eller erkendes.
For at beregne konfidensintervallet bestemmer vi den maksimale fejl D for hver indikator:
, .
Formlerne til beregning af konfidensintervaller er som følger:
; ;
; ;
Hvis nul falder inden for konfidensintervallet, dvs. Hvis den nedre grænse er negativ, og den øvre grænse er positiv, antages den estimerede parameter at være nul, da den ikke samtidigt kan tage både positive og negative værdier.
Prognoseværdien bestemmes ved at erstatte den tilsvarende (prognose)værdi i regressionsligningen. Den gennemsnitlige standardfejl for prognosen beregnes:
,
Hvor
og et konfidensinterval for prognosen er konstrueret:
; ;
Hvor .

Eksempel løsning

Opgave nr. 1. For syv territorier i Ural-regionen i 199X er værdierne af to karakteristika kendt.
Tabel 1.
Påkrævet: 1. For at karakterisere afhængigheden af ​​y af x, beregne parametrene for følgende funktioner:
a) lineær;
b) power (du skal først udføre proceduren for linearisering af variablerne ved at tage logaritmen af ​​begge dele);
c) demonstrativ;
d) en ligesidet hyperbel (du skal også finde ud af, hvordan du pre-lineariserer denne model).
2. Evaluer hver model ved hjælp af den gennemsnitlige tilnærmelsesfejl og Fishers F-test.

Løsning (mulighed nr. 1)

For at beregne parametrene a og b for lineær regression (beregning kan udføres ved hjælp af en lommeregner).
løse et system af normalligninger for EN Og b:
Ud fra de indledende data beregner vi :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ons. betyder (i alt/n) 57,89 54,90 3166,05 3048,34 3383,68 x x 8,1
s 5,74 5,86 x x x x x x
s 2 32,92 34,34 x x x x x x


Regressionsligning: y = 76,88 - 0,35X. Med en stigning i den gennemsnitlige dagsløn med 1 gnid. andelen af ​​udgifter til indkøb af fødevarer falder i gennemsnit med 0,35 procentpoint.
Lad os beregne den lineære parkorrelationskoefficient:

Forbindelsen er moderat, omvendt.
Lad os bestemme bestemmelseskoefficienten:

Variationen på 12,7 % i resultatet forklares af variationen i x-faktoren. Substitution af faktiske værdier i regressionsligningen X, lad os bestemme de teoretiske (beregnede) værdier . Lad os finde værdien af ​​den gennemsnitlige tilnærmelsesfejl:

I gennemsnit afviger de beregnede værdier fra de faktiske med 8,1 %.
Lad os beregne F-kriteriet:

siden 1< F < ¥ , bør overvejes F -1 .
Den resulterende værdi indikerer behovet for at acceptere hypotesen Men åh den tilfældige karakter af den identificerede afhængighed og den statistiske insignifikans af parametrene i ligningen og indikatoren for forbindelsens tæthed.
1b. Forud for konstruktionen af ​​en effektmodel er proceduren for linearisering af variabler. I eksemplet udføres linearisering ved at tage logaritmer af begge sider af ligningen:


HvorY=lg(y), X=lg(x), C=lg(a).

Til beregninger bruger vi dataene i tabellen. 1.3.

Tabel 1.3

Y x YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Gennemsnits værdi 1,7605 1,7370 3,0572 3,1011 3,0194 x x 28,27 8,0
σ 0,0425 0,0484 x x x x x x x
σ 2 0,0018 0,0023 x x x x x x x

Lad os beregne C og b:


Vi får en lineær ligning: .
Efter at have udført sin potensering får vi:

Substitution af faktiske værdier i denne ligning X, vi opnår teoretiske værdier af resultatet. Ved hjælp af dem vil vi beregne indikatorerne: tæthed af forbindelse - korrelationsindeks og gennemsnitlig tilnærmelsesfejl

Kraftlovsmodellens karakteristika indikerer, at den beskriver sammenhængen noget bedre end den lineære funktion.

1c. Konstruktion af ligningen for en eksponentiel kurve

forudgået af en procedure til linearisering af variable ved at tage logaritmer af begge sider af ligningen:

Til beregninger bruger vi tabeldata.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ons. zn. 1,7605 54,9 96,5711 3,1011 3048,34 x x 28,68 8,0
σ 0,0425 5,86 x x x x x x x
σ 2 0,0018 34,339 x x x x x x x

Værdier af regressionsparametre A og I udgjorde:


Den resulterende lineære ligning er: . Lad os forstærke den resulterende ligning og skrive den i den sædvanlige form:

Vi vil evaluere tætheden af ​​forbindelsen gennem korrelationsindekset:

Formålet med regressionsanalyse er at måle sammenhængen mellem en afhængig variabel og en (parvis regressionsanalyse) eller flere (flere) uafhængige variable. Uafhængige variabler kaldes også faktor-, forklarende, determinant-, regressor- og prædiktorvariable.

Den afhængige variabel kaldes nogle gange den bestemte, forklarede eller "respons"-variabel. Den ekstremt udbredte brug af regressionsanalyse i empirisk forskning skyldes ikke kun, at det er et praktisk værktøj til at teste hypoteser. Regression, især multipel regression, er en effektiv metode til modellering og prognose.

Lad os begynde at forklare principperne for at arbejde med regressionsanalyse med en enklere metode - parmetoden.

Parret regressionsanalyse

De første trin ved brug af regressionsanalyse vil være næsten identiske med dem, vi tog ved beregning af korrelationskoefficienten. De tre hovedbetingelser for effektiviteten af ​​korrelationsanalyse ved brug af Pearson-metoden - normalfordeling af variable, intervalmåling af variable, lineær sammenhæng mellem variable - er også relevante for multipel regression. I overensstemmelse hermed konstrueres scatterplots i første fase, en statistisk og deskriptiv analyse af variablerne udføres, og en regressionslinje beregnes. Som i rammen af ​​korrelationsanalyse konstrueres regressionslinjer ved hjælp af mindste kvadraters metode.

For mere tydeligt at illustrere forskellene mellem de to metoder til dataanalyse, lad os vende os til det eksempel, der allerede er diskuteret med variablerne "SPS-støtte" og "andel af landbefolkningen". Kildedataene er identiske. Forskellen i scatterplots vil være, at det i regressionsanalyse er korrekt at plotte den afhængige variabel - i vores tilfælde "SPS support" på Y-aksen, hvorimod dette i korrelationsanalyse ikke betyder noget. Efter rensning af outliers ser scatterplotten sådan ud:

Den grundlæggende idé med regressionsanalyse er, at med en generel tendens for variablerne - i form af en regressionslinje - er det muligt at forudsige værdien af ​​den afhængige variabel, givet værdierne af den uafhængige.

Lad os forestille os en almindelig matematisk lineær funktion. Enhver ret linje i det euklidiske rum kan beskrives med formlen:

hvor a er en konstant, der angiver forskydningen langs ordinataksen; b er en koefficient, der bestemmer linjens hældningsvinkel.

Ved at kende hældningen og konstanten kan du beregne (forudsige) værdien af ​​y for enhver x.

Denne simpleste funktion dannede grundlaget for regressionsanalysemodellen med det forbehold, at vi ikke vil forudsige værdien af ​​y præcist, men indenfor et vist konfidensinterval, dvs. rundt regnet.

Konstanten er skæringspunktet for regressionslinjen og y-aksen (F-skæringspunktet, normalt betegnet "interceptor" i statistiske pakker). I vores eksempel med at stemme på Union of Right Forces vil dens afrundede værdi være 10,55. Vinkelkoefficienten b vil være cirka -0,1 (som i korrelationsanalyse viser tegnet typen af ​​forbindelse - direkte eller omvendt). Således vil den resulterende model have formen SP C = -0,1 x Sel. os. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Forskellen mellem de oprindelige og forudsagte værdier kaldes resten (vi har allerede stødt på dette udtryk, som er grundlæggende for statistik, når vi analyserer beredskabstabeller). Så for tilfældet med "Republikken Adygea" vil resten være lig med 3,92 - 5,63 = -1,71. Jo større modulværdien af ​​resten er, jo mindre vellykket er den forudsagte værdi.

Vi beregner de forudsagte værdier og residualer for alle tilfælde:
sker Sat ned. os. THX

(original)

THX

(forudsagt)

Rester
Republikken Adygea 47 3,92 5,63 -1,71 -
Republikken Altai 76 5,4 2,59 2,81
Republikken Bashkortostan 36 6,04 6,78 -0,74
Republikken Buryatia 41 8,36 6,25 2,11
Republikken Dagestan 59 1,22 4,37 -3,15
Republikken Ingusjetien 59 0,38 4,37 3,99
Etc.

Analyse af forholdet mellem initiale og forudsagte værdier tjener til at vurdere kvaliteten af ​​den resulterende model og dens forudsigelsesevne. En af hovedindikatorerne for regressionsstatistik er den multiple korrelationskoefficient R - korrelationskoefficienten mellem de oprindelige og forudsagte værdier af den afhængige variabel. I parret regressionsanalyse er den lig med den sædvanlige Pearson-korrelationskoefficient mellem de afhængige og uafhængige variable, i vores tilfælde - 0,63. For at fortolke multiple R meningsfuldt skal det konverteres til en bestemmelseskoefficient. Dette gøres på samme måde som ved korrelationsanalyse – ved kvadrering. Bestemmelseskoefficienten R-kvadratret (R 2) viser andelen af ​​variation i den afhængige variabel, der forklares af den eller de uafhængige variabler.

I vores tilfælde er R2 = 0,39 (0,63 2); det betyder, at variablen "landbefolkningsandel" forklarer cirka 40 % af variationen i variablen "SPS-støtte". Jo større bestemmelseskoefficient, jo højere kvalitet af modellen.

En anden indikator for modelkvalitet er standardfejlen for skøn. Dette er et mål for, hvor bredt punkterne er "spredt" rundt om regressionslinjen. Spredningsmålet for intervalvariable er standardafvigelsen. Som følge heraf er estimatets standardfejl standardafvigelsen for fordelingen af ​​residualer. Jo højere dens værdi, jo større spredning og jo dårligere model. I vores tilfælde er standardfejlen 2.18. Det er med dette beløb, at vores model vil "fejle i gennemsnit", når den forudsiger værdien af ​​"SPS support"-variablen.

Regressionsstatistikker omfatter også variansanalyse. Med dens hjælp finder vi ud af: 1) hvilken andel af variationen (spredningen) af den afhængige variabel, der forklares af den uafhængige variabel; 2) hvor stor en andel af variansen af ​​den afhængige variabel, der står for resterne (uforklaret del); 3) hvad er forholdet mellem disse to størrelser (/"-ratio). Spredningsstatistikker er især vigtige for stikprøveundersøgelser - det viser, hvor sandsynligt det er, at der er en sammenhæng mellem de uafhængige og afhængige variable i populationen. kontinuerlige undersøgelser (som i vores eksempel) undersøgelsesresultaterne af variansanalyse er ikke nyttige. I dette tilfælde kontrollerer de, om det identificerede statistiske mønster er forårsaget af en kombination af tilfældige omstændigheder, hvor karakteristisk det er for komplekset af tilstande, hvor population, der undersøges, er lokaliseret, dvs. det er fastslået, at det opnåede resultat ikke er sandt for et bredere generelt aggregat, men graden af ​​dets regelmæssighed, frihed fra tilfældige påvirkninger.

I vores tilfælde er ANOVA-statistikken som følger:

SS df FRK F betyder
Tilbagegang. 258,77 1,00 258,77 54,29 0.000000001
Resten 395,59 83,00 L,11
Total 654,36

F-forholdet på 54,29 er signifikant på 0,0000000001-niveauet. Derfor kan vi trygt afvise nulhypotesen (at det forhold, vi opdagede, skyldes tilfældigheder).

t-kriteriet udfører en lignende funktion, men i forhold til regressionskoefficienter (vinkel- og F-skæring). Ved hjælp af /-kriteriet tester vi hypotesen om, at i den generelle befolkning er regressionskoefficienterne lig med nul. I vores tilfælde kan vi igen trygt afvise nulhypotesen.

Multipel regressionsanalyse

Den multiple regressionsmodel er næsten identisk med den parrede regressionsmodel; den eneste forskel er, at flere uafhængige variable er sekventielt inkluderet i den lineære funktion:

Y = b1X1 + b2X2 + …+ bpXp + a.

Hvis der er mere end to uafhængige variabler, er vi ikke i stand til at få en visuel idé om deres forhold; i denne henseende er multipel regression mindre "visuel" end parvis regression. Når du har to uafhængige variabler, kan det være nyttigt at vise dataene i et 3D scatterplot. I professionelle statistiske softwarepakker (for eksempel Statistica) er der mulighed for at rotere et tredimensionelt diagram, som giver dig mulighed for visuelt at repræsentere strukturen af ​​dataene godt.

Når man arbejder med multipel regression, i modsætning til parvis regression, er det nødvendigt at bestemme analysealgoritmen. Standardalgoritmen inkluderer alle tilgængelige prædiktorer i den endelige regressionsmodel. Trin-for-trin algoritmen involverer sekventiel inklusion (udelukkelse) af uafhængige variable baseret på deres forklarende "vægt". Den trinvise metode er god, når der er mange uafhængige variable; det "renser" modellen for ærligt talt svage forudsigere, hvilket gør den mere kompakt og kortfattet.

En yderligere betingelse for rigtigheden af ​​multipel regression (sammen med interval, normalitet og linearitet) er fraværet af multikollinearitet - tilstedeværelsen af ​​stærke korrelationer mellem uafhængige variable.

Fortolkningen af ​​multipel regressionsstatistik inkluderer alle de elementer, vi overvejede i tilfælde af parvis regression. Derudover er der andre vigtige komponenter til statistikken for multipel regressionsanalyse.

Vi vil illustrere arbejdet med multipel regression ved at bruge eksemplet med at teste hypoteser, der forklarer forskelle i niveauet af valgaktivitet på tværs af russiske regioner. Specifikke empiriske undersøgelser har antydet, at valgdeltagelsen er påvirket af:

National faktor (variabel "russisk befolkning"; operationaliseret som andelen af ​​den russiske befolkning i de konstituerende enheder i Den Russiske Føderation). Det antages, at en stigning i andelen af ​​den russiske befolkning fører til et fald i valgdeltagelsen;

Urbaniseringsfaktor (variabelen "bybefolkning"; operationaliseret som andelen af ​​bybefolkningen i de konstituerende enheder i Den Russiske Føderation; vi har allerede arbejdet med denne faktor som en del af korrelationsanalysen). Det antages, at en stigning i andelen af ​​bybefolkningen også fører til et fald i valgdeltagelsen.

Den afhængige variabel - "intensitet af valgaktivitet" ("aktiv") er operationaliseret gennem data om gennemsnitlig valgdeltagelse efter region ved føderale valg fra 1995 til 2003. Den indledende datatabel for to uafhængige og en afhængig variabel vil være som følger:

sker Variabler
Aktiver. Gor. os. Rus. os.
Republikken Adygea 64,92 53 68
Republikken Altai 68,60 24 60
Republikken Buryatia 60,75 59 70
Republikken Dagestan 79,92 41 9
Republikken Ingusjetien 75,05 41 23
Republikken Kalmykien 68,52 39 37
Karachay-Cherkess Republik 66,68 44 42
Republikken Karelen 61,70 73 73
Komi republik 59,60 74 57
Mari El Republik 65,19 62 47

Etc. (efter rensning af emissioner, er 83 ud af 88 tilfælde tilbage)

Statistik, der beskriver modellens kvalitet:

1. Multipel R = 0,62; L-kvadrat = 0,38. Som følge heraf forklarer den nationale faktor og urbaniseringsfaktoren tilsammen ca. 38 % af variationen i variablen "valgaktivitet".

2. Den gennemsnitlige fejl er 3,38. Det er præcis, hvor "forkert i gennemsnit" den konstruerede model er, når man forudsiger niveauet af valgdeltagelse.

3. /l-forholdet mellem forklaret og uforklaret variation er 25,2 på 0,000000003 niveau. Nulhypotesen om tilfældigheden af ​​de identificerede relationer forkastes.

4. Kriteriet / for konstant- og regressionskoefficienterne for variablerne "bybefolkning" og "russisk befolkning" er signifikant på niveauet 0,0000001; henholdsvis 0,00005 og 0,007. Nulhypotesen om, at koefficienterne er tilfældige, forkastes.

Yderligere nyttige statistikker til at analysere forholdet mellem de oprindelige og forudsagte værdier af den afhængige variabel er Mahalanobis-afstanden og Cooks afstand. Den første er et mål for sagens unikke karakter (viser, hvor meget kombinationen af ​​værdier af alle uafhængige variable for en given sag afviger fra gennemsnitsværdien for alle uafhængige variable samtidigt). Det andet er et mål for sagens indflydelse. Forskellige observationer har forskellige effekter på hældningen af ​​regressionslinjen, og Cooks afstand kan bruges til at sammenligne dem på denne indikator. Dette kan være nyttigt, når du rydder op i outliers (en outlier kan opfattes som et alt for indflydelsesrigt tilfælde).

I vores eksempel inkluderer unikke og indflydelsesrige sager Dagestan.

sker Original

værdier

Predska

værdier

Rester Afstand

Mahalanobis

Afstand
Adygea 64,92 66,33 -1,40 0,69 0,00
Republikken Altai 68,60 69.91 -1,31 6,80 0,01
Republikken Buryatia 60,75 65,56 -4,81 0,23 0,01
Republikken Dagestan 79,92 71,01 8,91 10,57 0,44
Republikken Ingusjetien 75,05 70,21 4,84 6,73 0,08
Republikken Kalmykien 68,52 69,59 -1,07 4,20 0,00

Selve regressionsmodellen har følgende parametre: Y-skæring (konstant) = 75,99; b (vandret) = -0,1; Kommersant (russisk nas.) = -0,06. Endelig formel.

Hovedtræk ved regressionsanalyse: med dens hjælp kan du få specifik information om, hvilken form og natur forholdet mellem de undersøgte variable har.

Sekvens af stadier af regressionsanalyse

Lad os kort overveje stadierne af regressionsanalyse.

    Problemformulering. På dette stadium dannes foreløbige hypoteser om afhængigheden af ​​de fænomener, der undersøges.

    Definition af afhængige og uafhængige (forklarende) variable.

    Indsamling af statistiske data. Der skal indsamles data for hver af de variable, der indgår i regressionsmodellen.

    Formulering af en hypotese om forbindelsesformen (simpel eller multipel, lineær eller ikke-lineær).

    Definition regressionsfunktioner (består i at beregne de numeriske værdier af parametrene i regressionsligningen)

    Vurdering af nøjagtigheden af ​​regressionsanalyse.

    Fortolkning af de opnåede resultater. De opnåede resultater af regressionsanalyse sammenlignes med foreløbige hypoteser. De opnåede resultaters rigtighed og troværdighed vurderes.

    Forudsigelse af ukendte værdier af en afhængig variabel.

Ved hjælp af regressionsanalyse er det muligt at løse problemet med prognoser og klassificering. Forudsagte værdier beregnes ved at substituere værdierne af forklarende variable i regressionsligningen. Klassifikationsproblemet løses på denne måde: regressionslinjen deler hele sættet af objekter i to klasser, og den del af sættet, hvor funktionsværdien er større end nul, tilhører én klasse, og den del, hvor den er mindre end nul tilhører en anden klasse.

Problemer med regressionsanalyse

Lad os overveje hovedopgaverne for regressionsanalyse: etablering af afhængighedsform, bestemmelse regressionsfunktioner, estimering af ukendte værdier af den afhængige variabel.

Etablering af afhængighedsform.

Arten og formen af ​​forholdet mellem variabler kan danne følgende typer af regression:

    positiv lineær regression (udtrykt i ensartet vækst af funktionen);

    positiv ensartet stigende regression;

    positiv ensartet stigende regression;

    negativ lineær regression (udtrykt som et ensartet fald i funktionen);

    negativ ensartet accelereret aftagende regression;

    negativ ensartet aftagende regression.

De beskrevne sorter findes dog normalt ikke i ren form, men i kombination med hinanden. I dette tilfælde taler vi om kombinerede former for regression.

Definition af regressionsfunktionen.

Den anden opgave kommer ned til at identificere virkningen på den afhængige variabel af hovedfaktorerne eller årsagerne, alt andet lige, og med forbehold for udelukkelse af tilfældige elementers indflydelse på den afhængige variabel. Regressionsfunktion er defineret i form af en matematisk ligning af en eller anden type.

Estimering af ukendte værdier af den afhængige variabel.

Løsningen på dette problem kommer ned til at løse et problem af en af ​​følgende typer:

    Estimering af værdierne af den afhængige variabel inden for det betragtede interval for de indledende data, dvs. manglende værdier; i dette tilfælde er interpolationsproblemet løst.

    Estimering af fremtidige værdier af den afhængige variabel, dvs. finde værdier uden for det specificerede interval for kildedataene; i dette tilfælde er problemet med ekstrapolering løst.

Begge problemer løses ved at erstatte de fundne parameterestimater med værdierne af uafhængige variable i regressionsligningen. Resultatet af at løse ligningen er et estimat af værdien af ​​den målrettede (afhængige) variabel.

Lad os se på nogle af de antagelser, som regressionsanalyse bygger på.

Linearitetsantagelse, dvs. forholdet mellem de undersøgte variable antages at være lineært. Så i dette eksempel plottede vi et scatterplot og var i stand til at se en klar lineær sammenhæng. Hvis vi på variablernes punktdiagram ser et tydeligt fravær af en lineær sammenhæng, dvs. Hvis der er en ikke-lineær sammenhæng, bør der anvendes ikke-lineære analysemetoder.

Normalitetsantagelse rester. Det antager, at fordelingen af ​​forskellen mellem forudsagte og observerede værdier er normal. For visuelt at bestemme arten af ​​fordelingen kan du bruge histogrammer rester.

Når du bruger regressionsanalyse, bør dens vigtigste begrænsning overvejes. Den består i, at regressionsanalysen tillader os kun at detektere afhængigheder, og ikke de sammenhænge, ​​der ligger til grund for disse afhængigheder.

Regressionsanalyse giver dig mulighed for at estimere styrken af ​​sammenhængen mellem variabler ved at beregne den estimerede værdi af en variabel baseret på flere kendte værdier.

Regressionsligning.

Regressionsligningen ser således ud: Y=a+b*X

Ved hjælp af denne ligning udtrykkes variablen Y som en konstant a og hældningen af ​​linjen (eller hældningen) b, ganget med værdien af ​​variablen X. Konstanten a kaldes også skæringsleddet, og hældningen er regressionskoefficienten eller B-koefficienten.

I de fleste tilfælde (hvis ikke altid) er der en vis spredning af observationer i forhold til regressionslinjen.

Resten er afvigelsen af ​​et enkelt punkt (observation) fra regressionslinjen (forudsagt værdi).

For at løse problemet med regressionsanalyse i MS Excel skal du vælge fra menuen Service"Analysepakke" og regressionsanalyseværktøjet. Vi indstiller inputintervallerne X og Y. Inputintervallet Y er rækken af ​​afhængige analyserede data, det skal indeholde en kolonne. Inputintervallet X er rækken af ​​uafhængige data, der skal analyseres. Antallet af inputområder bør ikke overstige 16.

Ved udgangen af ​​proceduren i outputområdet får vi rapporten givet i tabel 8.3a-8,3v.

KONKLUSION AF RESULTATER

Tabel 8.3a. Regressionsstatistik

Regressionsstatistik

Flertal R

R-firkant

Normaliseret R-kvadrat

Standard fejl

Observationer

Lad os først se på den øverste del af beregningerne præsenteret i tabel 8.3a, - regressionsstatistik.

Størrelse R-firkant, også kaldet mål for sikkerhed, karakteriserer kvaliteten af ​​den resulterende regressionslinje. Denne kvalitet udtrykkes ved graden af ​​overensstemmelse mellem kildedata og regressionsmodellen (beregnede data). Målingen af ​​sikkerhed er altid inden for intervallet.

I de fleste tilfælde værdien R-firkant er mellem disse værdier, kaldet ekstreme, dvs. mellem nul og en.

Hvis værdien R-firkant tæt på enhed betyder det, at den konstruerede model forklarer næsten al variabiliteten i de tilsvarende variable. Omvendt betydningen R-firkant, tæt på nul, betyder dårlig kvalitet af den konstruerede model.

I vores eksempel er sikkerhedsmålet 0,99673, hvilket indikerer en meget god tilpasning af regressionslinjen til de originale data.

flertal R - multiple korrelationskoefficient R - udtrykker graden af ​​afhængighed af de uafhængige variable (X) og den afhængige variabel (Y).

Flertal R er lig med kvadratroden af ​​bestemmelseskoefficienten; denne mængde tager værdier i området fra nul til en.

I simpel lineær regressionsanalyse flertal R lig med Pearson-korrelationskoefficienten. Virkelig, flertal R i vores tilfælde er den lig med Pearson-korrelationskoefficienten fra det foregående eksempel (0,998364).

Tabel 8.3b. Regressionskoefficienter

Odds

Standard fejl

t-statistik

Y-kryds

Variabel X 1

* En afkortet version af beregningerne leveres

Overvej nu den midterste del af beregningerne præsenteret i tabel 8.3b. Her angives regressionskoefficienten b (2,305454545) og forskydningen langs ordinataksen, dvs. konstant a (2,694545455).

Ud fra beregningerne kan vi skrive regressionsligningen som følger:

Y= x*2,305454545+2,694545455

Retningen af ​​forholdet mellem variable bestemmes ud fra fortegnene (negative eller positive) af regressionskoefficienterne (koefficient b).

Hvis fortegnet for regressionskoefficienten er positivt, vil forholdet mellem den afhængige variabel og den uafhængige variabel være positiv. I vores tilfælde er tegnet på regressionskoefficienten positivt, derfor er forholdet også positivt.

Hvis fortegnet for regressionskoefficienten er negativt, er forholdet mellem den afhængige variabel og den uafhængige variabel negativ (invers).

I tabel 8.3c. output resultater præsenteres rester. For at disse resultater kan vises i rapporten, skal du aktivere afkrydsningsfeltet "Rester", når du kører værktøjet "Regression".

TILBAGETRÆKNING AF RESTEN

Tabel 8.3c. Rester

Observation

Forudsagt Y

Rester

Standardbalancer

Ved at bruge denne del af rapporten kan vi se hvert punkts afvigelser fra den konstruerede regressionslinje. Største absolutte værdi resten i vores tilfælde - 0,778, den mindste - 0,043. For bedre at fortolke disse data vil vi bruge grafen for de originale data og den konstruerede regressionslinje præsenteret i ris. 8.3. Som du kan se, er regressionslinjen ret nøjagtigt "tilpasset" til værdierne af de originale data.

Det skal tages i betragtning, at eksemplet under overvejelse er ret simpelt, og at det ikke altid er muligt kvalitativt at konstruere en lineær regressionslinje.

Ris. 8.3. Kildedata og regressionslinje

Problemet med at estimere ukendte fremtidige værdier af den afhængige variabel baseret på kendte værdier af den uafhængige variabel er forblevet uovervejet, dvs. prognose problem.

Med en regressionsligning reduceres prognoseproblemet til at løse ligningen Y= x*2.305454545+2.694545455 med kendte værdier af x. Resultaterne af forudsigelse af den afhængige variabel Y seks trin frem præsenteres i tabel 8.4.

Tabel 8.4. Y variable prognose resultater

Y(forudsagt)

Som et resultat af brugen af ​​regressionsanalyse i Microsoft Excel, har vi således:

    bygget en regressionsligning;

    etableret form for afhængighed og retning af forbindelse mellem variabler - positiv lineær regression, som udtrykkes i ensartet vækst af funktionen;

    fastlagt retningen af ​​forholdet mellem variablerne;

    vurderede kvaliteten af ​​den resulterende regressionslinje;

    var i stand til at se afvigelser af de beregnede data fra dataene i det oprindelige sæt;

    forudsagte fremtidige værdier af den afhængige variabel.

Hvis regressionsfunktion defineret, fortolket og begrundet, og vurderingen af ​​regressionsanalysens nøjagtighed opfylder kravene, kan den konstruerede model og forudsagte værdier anses for at have tilstrækkelig pålidelighed.

De forudsagte værdier opnået på denne måde er de gennemsnitlige værdier, der kan forventes.

I dette arbejde har vi gennemgået de vigtigste karakteristika beskrivende statistik og blandt dem sådanne begreber som gennemsnits værdi,median,maksimum,minimum og andre karakteristika ved datavariation.

Konceptet blev også kort diskuteret emissioner. De betragtede karakteristika vedrører den såkaldte eksplorative dataanalyse; dens konklusioner gælder muligvis ikke for den generelle befolkning, men kun for en stikprøve af data. Eksplorativ dataanalyse bruges til at opnå primære konklusioner og danne hypoteser om befolkningen.

Det grundlæggende i korrelations- og regressionsanalyse, deres opgaver og muligheder for praktisk anvendelse blev også diskuteret.

Begreberne korrelation og regression hænger direkte sammen. Der er mange almindelige beregningsteknikker inden for korrelations- og regressionsanalyse. De bruges til at identificere årsag-virkning-forhold mellem fænomener og processer. Men hvis korrelationsanalyse giver os mulighed for at vurdere styrken og retningen af ​​den stokastiske forbindelse regressions analyse- også en form for afhængighed.

Regression kan være:

a) afhængig af antallet af fænomener (variabler):

Simpel (regression mellem to variable);

Multipel (regression mellem den afhængige variabel (y) og flere forklarende variable (x1, x2...xn);

b) afhængigt af formen:

Lineær (vises af en lineær funktion, og der er lineære sammenhænge mellem de variable, der undersøges);

Ikke-lineær (vises af en ikke-lineær funktion; forholdet mellem de variable, der undersøges, er ikke-lineært);

c) af arten af ​​forholdet mellem de variable, der indgår i betragtningen:

Positiv (en stigning i værdien af ​​den forklarende variabel fører til en stigning i værdien af ​​den afhængige variabel og omvendt);

Negativ (efterhånden som værdien af ​​den forklarende variabel stiger, falder værdien af ​​den forklarede variabel);

d) efter type:

Direkte (i dette tilfælde har årsagen en direkte indvirkning på virkningen, dvs. de afhængige og forklarende variabler er direkte relateret til hinanden);

Indirekte (den forklarende variabel har en indirekte effekt gennem en tredje eller en række andre variable på den afhængige variabel);

Falsk (nonsens regression) - kan opstå med en overfladisk og formel tilgang til de processer og fænomener, der undersøges. Et eksempel på en meningsløs er en regression, der etablerer en sammenhæng mellem et fald i mængden af ​​alkohol, der forbruges i vores land og et fald i salget af vaskepulver.

Ved udførelse af regressionsanalyse løses følgende hovedopgaver:

1. Bestemmelse af afhængighedsform.

2. Definition af regressionsfunktionen. For at gøre dette bruges en matematisk ligning af den ene eller anden type, som for det første gør det muligt at fastslå den generelle tendens til ændring i den afhængige variabel, og for det andet at beregne indflydelsen af ​​den forklarende variabel (eller flere variabler) på den afhængige variabel.

3. Estimering af ukendte værdier af den afhængige variabel. Det resulterende matematiske forhold (regressionsligning) giver dig mulighed for at bestemme værdien af ​​den afhængige variabel både inden for intervallet af specificerede værdier af de forklarende variabler og ud over det. I sidstnævnte tilfælde fungerer regressionsanalyse som et nyttigt værktøj til at forudsige ændringer i socioøkonomiske processer og fænomener (forudsat at eksisterende tendenser og sammenhænge opretholdes). Typisk vælges længden af ​​den tidsperiode, som prognosen udføres for, til ikke at være mere end halvdelen af ​​det tidsinterval, hvor observationerne af de indledende indikatorer blev udført. Det er muligt at udføre både en passiv prognose, der løser ekstrapoleringsproblemet, og en aktiv, der ræsonnerer efter det velkendte "hvis..., så"-skema og substituerer forskellige værdier i en eller flere forklarende regressionsvariable .



Til regressionskonstruktion en speciel metode kaldet mindste kvadraters metode. Denne metode har fordele i forhold til andre udjævningsmetoder: en relativt enkel matematisk bestemmelse af de nødvendige parametre og en god teoretisk begrundelse ud fra et sandsynlighedssynspunkt.

Når du vælger en regressionsmodel, er et af de væsentlige krav til den at sikre den størst mulige enkelthed, så du kan opnå en løsning med tilstrækkelig nøjagtighed. Derfor, for at etablere statistiske sammenhænge, ​​betragter vi først som regel en model fra klassen af ​​lineære funktioner (som den enkleste af alle mulige klasser af funktioner):

hvor bi, b2...bj er koefficienter, der bestemmer indflydelsen af ​​uafhængige variable xij på værdien yi; ai - gratis medlem; ei - tilfældig afvigelse, som afspejler indflydelsen af ​​urapporterede faktorer på den afhængige variabel; n - antal uafhængige variable; N er antallet af observationer, og betingelsen (N . n+1) skal være opfyldt.

Lineær model kan beskrive en meget bred klasse af forskellige problemer. Men i praksis, især i socioøkonomiske systemer, er det nogle gange vanskeligt at bruge lineære modeller på grund af store tilnærmelsesfejl. Derfor bruges ofte ikke-lineære multiple regressionsfunktioner, der kan lineariseres. Disse omfatter for eksempel produktionsfunktionen (Cobb-Douglas power-funktion), som har fundet anvendelse i forskellige samfundsøkonomiske undersøgelser. Det ser ud som om:

hvor b 0 er normaliseringsfaktoren, b 1 ...b j er ukendte koefficienter, e i er en tilfældig afvigelse.

Ved hjælp af naturlige logaritmer kan du transformere denne ligning til lineær form:

Den resulterende model tillader brugen af ​​standard lineære regressionsprocedurer beskrevet ovenfor. Ved at konstruere modeller af to typer (additiv og multiplikativ) kan du vælge den bedste og udføre yderligere forskning med mindre tilnærmelsesfejl.

Der er et veludviklet system til valg af tilnærmelsesfunktioner - metode til grupperegnskab af argumenter(MGUA).

Rigtigheden af ​​den valgte model kan bedømmes ud fra resultaterne af at studere residualerne, som er forskellene mellem de observerede værdier y i og de tilsvarende værdier y i forudsagt ved hjælp af regressionsligningen. I dette tilfælde for at kontrollere modellens tilstrækkelighed beregnet gennemsnitlig tilnærmelsesfejl:

Modellen anses for at være tilstrækkelig, hvis e ikke er mere end 15 %.

Vi lægger især vægt på, at i forhold til socioøkonomiske systemer er de grundlæggende betingelser for den klassiske regressionsmodels tilstrækkelighed ikke altid opfyldt.

Uden at dvæle ved alle årsagerne til den utilstrækkelighed, der opstår, vil vi kun nævne multikolinearitet- det sværeste problem med effektiv anvendelse af regressionsanalyseprocedurer i studiet af statistiske afhængigheder. Under multikolinearitet det er underforstået, at der er en lineær sammenhæng mellem de forklarende variable.

Dette fænomen:

a) forvrænger betydningen af ​​regressionskoefficienter, når de fortolkes meningsfuldt;

b) reducerer vurderingens nøjagtighed (spredningen af ​​vurderinger øges);

c) øger følsomheden af ​​koefficientestimater over for stikprøvedata (en forøgelse af stikprøvestørrelsen kan i høj grad påvirke estimaterne).

Der er forskellige teknikker til at reducere multikollinearitet. Den mest tilgængelige måde er at eliminere en af ​​de to variable, hvis korrelationskoefficienten mellem dem overstiger en værdi, der er lig med en absolut værdi på 0,8. Hvilken af ​​variablene, der skal beholdes, besluttes ud fra materielle overvejelser. Derefter beregnes regressionskoefficienterne igen.

Ved at bruge en trinvis regressionsalgoritme kan du sekventielt inkludere en uafhængig variabel i modellen og analysere betydningen af ​​regressionskoefficienter og multikolinearitet af variable. Endelig er der kun de variable tilbage i forholdet under undersøgelse, der giver den nødvendige betydning af regressionskoefficienterne og minimal indflydelse af multikollinearitet.

I tidligere indlæg fokuserede analysen ofte på en enkelt numerisk variabel, såsom investeringsforeningsafkast, websideindlæsningstider eller sodavandsforbrug. I denne og efterfølgende noter vil vi se på metoder til at forudsige værdierne af en numerisk variabel afhængigt af værdierne af en eller flere andre numeriske variable.

Materialet vil blive illustreret med et tværgående eksempel. Forudsigelse af salgsvolumen i en tøjbutik. Sunflowers-kæden af ​​discounttøjsbutikker har konstant ekspanderet i 25 år. Virksomheden har dog på nuværende tidspunkt ikke en systematisk tilgang til at udvælge nye forretninger. Det sted, hvor en virksomhed har til hensigt at åbne en ny butik, bestemmes ud fra subjektive overvejelser. Udvælgelseskriterierne er gunstige lejebetingelser eller lederens idé om den ideelle butiksplacering. Forestil dig, at du er leder af afdelingen for specialprojekter og planlægning. Du har fået til opgave at udvikle en strategisk plan for åbning af nye butikker. Denne plan bør indeholde en prognose for det årlige salg for nyåbnede butikker. Du mener, at butikslokaler er direkte relateret til omsætning og ønsker at inddrage dette i din beslutningsproces. Hvordan udvikler man en statistisk model til at forudsige årligt salg baseret på størrelsen af ​​en ny butik?

Typisk bruges regressionsanalyse til at forudsige værdierne af en variabel. Dens mål er at udvikle en statistisk model, der kan forudsige værdierne af en afhængig variabel eller respons ud fra værdierne af mindst én uafhængig eller forklarende variabel. I denne note vil vi se på simpel lineær regression - en statistisk metode, der giver dig mulighed for at forudsige værdierne af en afhængig variabel Y ved uafhængige variabelværdier x. Efterfølgende noter vil beskrive en multipel regressionsmodel designet til at forudsige værdierne af en uafhængig variabel Y baseret på værdierne af flere afhængige variable ( X 1, X 2, …, X k).

Download noten i eller format, eksempler i format

Typer af regressionsmodeller

Hvor ρ 1 – autokorrelationskoefficient; Hvis ρ 1 = 0 (ingen autokorrelation), D≈ 2; Hvis ρ 1 ≈ 1 (positiv autokorrelation), D≈ 0; Hvis ρ 1 = -1 (negativ autokorrelation), D ≈ 4.

I praksis er anvendelsen af ​​Durbin-Watson-kriteriet baseret på sammenligning af værdien D med kritiske teoretiske værdier d L Og d U for et givet antal observationer n, antallet af uafhængige variable i modellen k(til simpel lineær regression k= 1) og signifikansniveau α. Hvis D< d L , hypotesen om uafhængigheden af ​​tilfældige afvigelser forkastes (derfor er der en positiv autokorrelation); Hvis D>dU, hypotesen forkastes ikke (det vil sige, der er ingen autokorrelation); Hvis dL< D < d U , er der ikke tilstrækkeligt grundlag for at træffe en beslutning. Når den beregnede værdi D overstiger 2, derefter med d L Og d U Det er ikke selve koefficienten, der sammenlignes D, og udtrykket (4 – D).

For at beregne Durbin-Watson-statistikken i Excel, lad os gå til den nederste tabel i fig. 14 Tilbagetrækning af saldo. Tælleren i udtryk (10) beregnes ved hjælp af funktionen =SUMMAR(matrix1;matrix2), og nævneren =SUMMAR(matrix) (fig. 16).

Ris. 16. Formler til beregning af Durbin-Watson-statistikker

I vores eksempel D= 0,883. Hovedspørgsmålet er: hvilken værdi af Durbin-Watson-statistikken bør betragtes som lille nok til at konkludere, at der eksisterer en positiv autokorrelation? Det er nødvendigt at korrelere værdien af ​​D med de kritiske værdier ( d L Og dU), afhængigt af antallet af observationer n og signifikansniveau α (fig. 17).

Ris. 17. Kritiske værdier af Durbin-Watson-statistikker (tabelfragment)

I problemet med salgsvolumen i en butik, der leverer varer til hjemmet, er der således én uafhængig variabel ( k= 1), 15 observationer ( n= 15) og signifikansniveau α = 0,05. Derfor, d L= 1,08 og dU= 1,36. Fordi D = 0,883 < d L= 1,08, er der en positiv autokorrelation mellem residualerne, mindste kvadraters metode kan ikke anvendes.

Test af hypoteser om hældning og korrelationskoefficient

Ovenfor blev regression udelukkende brugt til prognoser. At bestemme regressionskoefficienter og forudsige værdien af ​​en variabel Y for en given variabelværdi x Mindste kvadraters metode blev brugt. Derudover undersøgte vi den gennemsnitlige kvadratiske fejl af estimatet og den blandede korrelationskoefficient. Hvis analysen af ​​residualer bekræfter, at betingelserne for anvendelighed af mindste kvadraters metode ikke er overtrådt, og den simple lineære regressionsmodel er tilstrækkelig, baseret på stikprøvedataene, kan det argumenteres for, at der er en lineær sammenhæng mellem variablerne i befolkning.

Ansøgningt -kriterier for hældning. Ved at teste om populationshældningen β 1 er lig nul, kan man afgøre om der er en statistisk signifikant sammenhæng mellem variablerne x Og Y. Hvis denne hypotese forkastes, kan der argumenteres for, at mellem variablerne x Og Y der er en lineær sammenhæng. Nul- og alternativhypoteserne er formuleret som følger: H 0: β 1 = 0 (der er ingen lineær afhængighed), H1: β 1 ≠ 0 (der er en lineær afhængighed). A-priory t-statistik er lig med forskellen mellem stikprøvens hældning og den hypotetiske værdi af populationshældningen, divideret med den gennemsnitlige kvadratiske fejl af hældningsestimatet:

(11) t = (b 1 β 1 ) / S b 1

Hvor b 1 – hældning af direkte regression på stikprøvedata, β1 – hypotetisk hældning af direkte population, og teststatistikker t Det har t-fordeling med n – 2 grader af frihed.

Lad os tjekke, om der er en statistisk signifikant sammenhæng mellem butiksstørrelse og årligt salg ved α = 0,05. t-kriteriet vises sammen med andre parametre, når det bruges Analysepakke(mulighed Regression). De fuldstændige resultater af analysepakken er vist i fig. 4, fragment relateret til t-statistik - i fig. 18.

Ris. 18. Ansøgningsresultater t

Siden antallet af butikker n= 14 (se fig. 3), kritisk værdi t-statistik på et signifikansniveau på α = 0,05 kan findes ved hjælp af formlen: t L=STUDENT.ARV(0,025;12) = –2,1788, hvor 0,025 er halvdelen af ​​signifikansniveauet, og 12 = n – 2; t U=STUDENT.OBR(0,975;12) = +2,1788.

Fordi t-statistik = 10,64 > t U= 2,1788 (fig. 19), nulhypotese H 0 afvist. På den anden side, R-værdi for x= 10,6411, beregnet ved formlen =1-ELEV.FORDELING(D3,12,SAND), er omtrent lig nul, så hypotesen H 0 igen afvist. Det faktum, at R-værdi på næsten nul betyder, at hvis der ikke var et sandt lineært forhold mellem butiksstørrelser og årligt salg, ville det være praktisk talt umuligt at opdage det ved hjælp af lineær regression. Derfor er der en statistisk signifikant lineær sammenhæng mellem det gennemsnitlige årlige butikssalg og butiksstørrelse.

Ris. 19. Test af hypotesen om befolkningshældningen ved et signifikansniveau på 0,05 og 12 frihedsgrader

AnsøgningF -kriterier for hældning. En alternativ tilgang til at teste hypoteser om hældningen af ​​simpel lineær regression er at bruge F-kriterier. Lad os minde dig om det F-test bruges til at teste forholdet mellem to varianser (se flere detaljer). Når man tester hældningshypotesen, er målet for tilfældige fejl fejlvariansen (summen af ​​kvadratiske fejl divideret med antallet af frihedsgrader), så F-kriteriet bruger forholdet mellem variansen forklaret af regressionen (dvs. værdien SSR, divideret med antallet af uafhængige variable k), til fejlafvigelsen ( MSE = S Yx 2 ).

A-priory F-statistik er lig med middelkvadrat for regression (MSR) divideret med fejlvariansen (MSE): F = MSR/ MSE, Hvor MSR=SSR / k, MSE =SSE/(n– k – 1), k– antal uafhængige variable i regressionsmodellen. Test statistik F Det har F-fordeling med k Og n– k – 1 grader af frihed.

For et givet signifikansniveau α er beslutningsreglen formuleret således: hvis F>FU, nulhypotesen forkastes; ellers afvises det ikke. Resultaterne, præsenteret i form af en oversigtstabel over variansanalyse, er vist i fig. 20.

Ris. 20. Analyse af varianstabel til test af hypotesen om den statistiske signifikans af regressionskoefficienten

Ligeledes t-kriterium F-kriteriet vises i tabellen, når det bruges Analysepakke(mulighed Regression). Fuldstændige resultater af arbejdet Analysepakke er vist i fig. 4, fragment relateret til F-statistik – i fig. 21.

Ris. 21. Ansøgningsresultater F-kriterier opnået ved hjælp af Excel-analysepakken

F-statistikken er 113,23, og R-værdi tæt på nul (celle BetydningF). Hvis signifikansniveauet α er 0,05, bestemmes den kritiske værdi F-fordelinger med en og 12 frihedsgrader kan opnås ved hjælp af formlen F U=F.OBR(1-0,05;1;12) = 4,7472 (fig. 22). Fordi F = 113,23 > F U= 4,7472 og R-værdi tæt på 0< 0,05, нулевая гипотеза H 0 afvises, dvs. Størrelsen af ​​en butik er tæt forbundet med dens årlige salg.

Ris. 22. Test af befolkningshældningshypotesen ved et signifikansniveau på 0,05 med en og 12 frihedsgrader

Konfidensinterval indeholdende hældning β 1 . For at teste hypotesen om, at der er en lineær sammenhæng mellem variable, kan du konstruere et konfidensinterval indeholdende hældningen β 1 og verificere, at den hypotetiske værdi β 1 = 0 hører til dette interval. Centrum af konfidensintervallet, der indeholder hældningen β 1, er prøvehældningen b 1 , og dens grænser er mængderne b 1 ±tn –2 S b 1

Som vist i fig. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =STUDENT.ARV(0,975;12) = 2,1788. Derfor, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, eller + 1,328 ≤ β1 ≤ +2,012. Der er således en sandsynlighed på 0,95 for, at befolkningshældningen ligger mellem +1,328 og +2,012 (dvs. $1.328.000 til $2.012.000). Da disse værdier er større end nul, er der en statistisk signifikant lineær sammenhæng mellem årligt salg og butiksareal. Hvis konfidensintervallet indeholdt nul, ville der ikke være nogen sammenhæng mellem variablerne. Derudover betyder konfidensintervallet, at hver stigning i butiksarealet med 1.000 kvm. ft. resulterer i en stigning i det gennemsnitlige salgsvolumen på mellem $1.328.000 og $2.012.000.

Brugt -kriterier for korrelationskoefficienten. korrelationskoefficient blev indført r, som er et mål for forholdet mellem to numeriske variable. Det kan bruges til at afgøre, om der er en statistisk signifikant sammenhæng mellem to variable. Lad os betegne korrelationskoefficienten mellem populationerne af begge variable med symbolet ρ. Nul- og alternativhypoteserne er formuleret som følger: H 0: ρ = 0 (ingen korrelation), H 1: ρ ≠ 0 (der er en sammenhæng). Kontrol af eksistensen af ​​en sammenhæng:

Hvor r = + , hvis b 1 > 0, r = – , hvis b 1 < 0. Тестовая статистика t Det har t-fordeling med n – 2 grader af frihed.

I problemet om butikskæden Sunflowers r 2= 0,904, a b 1- +1,670 (se fig. 4). Fordi b 1> 0, er korrelationskoefficienten mellem årligt salg og butiksstørrelse r= +√0,904 = +0,951. Lad os teste nulhypotesen om, at der ikke er nogen sammenhæng mellem disse variable ved hjælp af t-Statistikker:

Ved et signifikansniveau på α = 0,05 bør nulhypotesen forkastes pga. t= 10,64 > 2,1788. Der kan således argumenteres for, at der er en statistisk signifikant sammenhæng mellem årligt salg og butiksstørrelse.

Når man diskuterer slutninger vedrørende befolkningshældning, bruges konfidensintervaller og hypotesetest i flæng. At beregne konfidensintervallet, der indeholder korrelationskoefficienten, viser sig imidlertid at være vanskeligere, da typen af ​​stikprøvefordeling af statistikken r afhænger af den sande korrelationskoefficient.

Estimering af matematisk forventning og forudsigelse af individuelle værdier

Dette afsnit diskuterer metoder til at estimere den matematiske forventning til et svar Y og forudsigelser af individuelle værdier Y for givne værdier af variablen x.

Konstruktion af et konfidensinterval. I eksempel 2 (se afsnittet ovenfor Mindste kvadratisk metode) regressionsligningen gjorde det muligt at forudsige variablens værdi Y x. I problemet med at vælge en placering til en detailforretning er den gennemsnitlige årlige salgsvolumen i en butik med et areal på 4000 kvm. fod var lig med 7,644 millioner dollars, men dette estimat af den almindelige befolknings matematiske forventning er punktmæssigt. For at estimere befolkningens matematiske forventning blev konceptet med et konfidensinterval foreslået. På samme måde kan vi introducere konceptet konfidensinterval for den matematiske forventning til svaret for en given variabelværdi x:

Hvor , = b 0 + b 1 X i– forudsagt værdi er variabel Yx = X i, S YX- root mean square fejl, n- prøvestørrelse, xjeg- specificeret værdi af variablen x, µ Y|x = xjeg– matematisk forventning til variablen Yx = Xi, SSX =

Analyse af formel (13) viser, at bredden af ​​konfidensintervallet afhænger af flere faktorer. Ved et givet signifikansniveau fører en stigning i amplituden af ​​fluktuationer omkring regressionslinjen, målt ved hjælp af rodmiddelkvadratfejlen, til en stigning i intervallets bredde. På den anden side, som man kunne forvente, er en stigning i stikprøvestørrelsen ledsaget af en indsnævring af intervallet. Derudover ændres intervallets bredde afhængigt af værdierne xjeg. Hvis den variable værdi Y forudsagt for mængder x, tæt på gennemsnitsværdien , viser konfidensintervallet sig at være smallere, end når man forudsiger svaret for værdier langt fra gennemsnittet.

Lad os sige, at når vi vælger en butiksplacering, ønsker vi at konstruere et 95 % konfidensinterval for det gennemsnitlige årlige salg af alle butikker, hvis areal er 4000 kvadratmeter. fødder:

Derfor er den gennemsnitlige årlige salgsvolumen i alle butikker med et areal på 4.000 kvm. fod, med 95% sandsynlighed ligger i området fra 6,971 til 8,317 millioner dollars.

Beregn konfidensintervallet for den forudsagte værdi. Ud over konfidensintervallet for den matematiske forventning af svaret for en given værdi af variablen x, er det ofte nødvendigt at kende konfidensintervallet for den forudsagte værdi. Selvom formlen til beregning af et sådant konfidensinterval er meget lig formel (13), indeholder dette interval den forudsagte værdi snarere end parameterestimatet. Interval for forudsagt respons Yx = Xi for en bestemt variabelværdi xjeg bestemt af formlen:

Antag, at vi, når vi vælger en lokation for en detailforretning, ønsker at konstruere et 95 % konfidensinterval for det forventede årlige salgsvolumen for en butik, hvis areal er 4000 kvadratmeter. fødder:

Derfor er det forudsagte årlige salgsvolumen for en butik med et areal på 4000 kvm. fod, med en 95 % sandsynlighed ligger i intervallet fra 5,433 til 9,854 millioner dollars. Som vi kan se, er konfidensintervallet for den forudsagte svarværdi meget bredere end konfidensintervallet for dens matematiske forventning. Dette skyldes, at variabiliteten i at forudsige individuelle værdier er meget større end ved at estimere den matematiske forventning.

Faldgruber og etiske problemstillinger forbundet med at bruge regression

Vanskeligheder forbundet med regressionsanalyse:

  • Ignorerer betingelserne for anvendelighed af mindste kvadraters metode.
  • Fejlagtig vurdering af betingelserne for anvendeligheden af ​​mindste kvadraters metode.
  • Forkert valg af alternative metoder, når betingelserne for anvendelighed af mindste kvadraters metode er overtrådt.
  • Anvendelse af regressionsanalyse uden dyb viden om forskningsemnet.
  • Ekstrapolering af en regression uden for rækkevidden af ​​den forklarende variabel.
  • Forvirring mellem statistiske og kausale sammenhænge.

Den udbredte brug af regneark og statistisk software har elimineret de beregningsmæssige problemer, der havde hæmmet brugen af ​​regressionsanalyse. Dette førte dog til, at regressionsanalyse blev brugt af brugere, som ikke havde tilstrækkelige kvalifikationer og viden. Hvordan kan brugere vide om alternative metoder, hvis mange af dem slet ikke har nogen idé om betingelserne for anvendeligheden af ​​mindste kvadraters metode og ikke ved, hvordan de skal kontrollere deres implementering?

Forskeren skal ikke lade sig rive med af knasende tal - beregning af forskydning, hældning og blandet korrelationskoefficient. Han har brug for dybere viden. Lad os illustrere dette med et klassisk eksempel hentet fra lærebøger. Anscombe viste, at alle fire datasæt vist i fig. 23, har de samme regressionsparametre (fig. 24).

Ris. 23. Fire kunstige datasæt

Ris. 24. Regressionsanalyse af fire kunstige datasæt; færdig med Analysepakke(klik på billedet for at forstørre billedet)

Så fra et synspunkt om regressionsanalyse er alle disse datasæt fuldstændig identiske. Hvis analysen sluttede der, ville vi miste en masse nyttig information. Dette fremgår af spredningsplottene (figur 25) og resterende plots (figur 26) konstrueret for disse datasæt.

Ris. 25. Spredningsplot for fire datasæt

Spredningsplot og restplot indikerer, at disse data adskiller sig fra hinanden. Den eneste mængde fordelt langs en ret linje er mængde A. Plottet af residualerne beregnet ud fra mængde A har ikke noget mønster. Dette kan ikke siges om sæt B, C og D. Spredningsplottet plottet for sæt B viser et udtalt kvadratisk mønster. Denne konklusion bekræftes af det resterende plot, som har en parabolsk form. Spredningsplottet og restplottet viser, at datasæt B indeholder en outlier. I denne situation er det nødvendigt at udelukke outlieren fra datasættet og gentage analysen. En metode til at detektere og eliminere outliers i observationer kaldes indflydelsesanalyse. Efter eliminering af outlieren kan resultatet af revurdering af modellen være helt anderledes. Scatterplot plottet fra data fra sæt G illustrerer en usædvanlig situation, hvor den empiriske model er væsentligt afhængig af en individuel respons ( X 8 = 19, Y 8 = 12,5). Sådanne regressionsmodeller skal beregnes særligt omhyggeligt. Så scatter- og residualplot er et vigtigt værktøj til regressionsanalyse og bør være en integreret del af det. Uden dem er regressionsanalyse ikke troværdig.

Ris. 26. Residualplot for fire datasæt

Sådan undgår du faldgruber i regressionsanalyse:

  • Analyse af mulige sammenhænge mellem variable x Og Y start altid med at tegne et punktdiagram.
  • Før du fortolker resultaterne af regressionsanalyse, skal du kontrollere betingelserne for dens anvendelighed.
  • Plot residualerne versus den uafhængige variabel. Dette vil gøre det muligt at bestemme, hvor godt den empiriske model matcher observationsresultaterne, og at detektere en krænkelse af varianskonstansen.
  • Brug histogrammer, stængel- og bladplot, boxplot og normalfordelingsplot til at teste antagelsen om en normal fejlfordeling.
  • Hvis betingelserne for anvendelighed af mindste kvadraters metode ikke er opfyldt, skal du bruge alternative metoder (f.eks. kvadratiske eller multiple regressionsmodeller).
  • Hvis betingelserne for anvendeligheden af ​​mindste kvadraters metode er opfyldt, er det nødvendigt at teste hypotesen om den statistiske signifikans af regressionskoefficienterne og konstruere konfidensintervaller indeholdende den matematiske forventning og den forudsagte responsværdi.
  • Undgå at forudsige værdier af den afhængige variabel uden for rækkevidden af ​​den uafhængige variabel.
  • Husk på, at statistiske sammenhænge ikke altid er årsag og virkning. Husk, at korrelation mellem variabler ikke betyder, at der er en årsag-virkning sammenhæng mellem dem.

Resumé. Som vist i blokdiagrammet (Figur 27), beskriver noten den simple lineære regressionsmodel, betingelserne for dens anvendelighed, og hvordan man tester disse forhold. Taget i betragtning t-kriterium for test af den statistiske signifikans af regressionshældningen. En regressionsmodel blev brugt til at forudsige værdierne af den afhængige variabel. Et eksempel vurderes relateret til valg af beliggenhed for en detailforretning, hvor afhængigheden af ​​årlig salgsvolumen af ​​butiksarealet undersøges. De opnåede oplysninger giver dig mulighed for mere præcist at vælge et sted for en butik og forudsige dens årlige salgsvolumen. De følgende noter vil fortsætte diskussionen af ​​regressionsanalyse og også se på flere regressionsmodeller.

Ris. 27. Bemærk strukturdiagram

Der anvendes materialer fra bogen Levin et al. Statistik for ledere. – M.: Williams, 2004. – s. 792-872

Hvis den afhængige variabel er kategorisk, skal der anvendes logistisk regression.