Formål med regresjonsanalyse. Metoder for matematisk statistikk

Hovedformålet med regresjonsanalyse består i å bestemme den analytiske kommunikasjonsformen der endringen i den effektive karakteristikken skyldes påvirkning av en eller flere faktoregenskaper, og settet av alle andre faktorer som også påvirker den effektive karakteristikken tas som konstante og gjennomsnittlige verdier.
Problemer med regresjonsanalyse:
a) Etablering av avhengighetsform. Når det gjelder arten og formen på forholdet mellom fenomener, skilles det mellom positiv lineær og ikke-lineær og negativ lineær og ikke-lineær regresjon.
b) Bestemme regresjonsfunksjonen i form av en matematisk ligning av en eller annen type og fastslå påvirkningen av forklaringsvariabler på den avhengige variabelen.
c) Estimering av ukjente verdier for den avhengige variabelen. Ved å bruke regresjonsfunksjonen kan du reprodusere verdiene til den avhengige variabelen innenfor intervallet av spesifiserte verdier til forklaringsvariablene (dvs. løse interpolasjonsproblemet) eller evaluere prosessens forløp utenfor det angitte intervallet (dvs. løse ekstrapoleringsproblemet). Resultatet er et estimat av verdien av den avhengige variabelen.

Paret regresjon er en ligning for forholdet mellom to variabler y og x: , hvor y er den avhengige variabelen (resultatattributt); x er en uavhengig forklaringsvariabel (funksjonsfaktor).

Det er lineære og ikke-lineære regresjoner.
Lineær regresjon: y = a + bx + ε
Ikke-lineære regresjoner er delt inn i to klasser: regresjoner som er ikke-lineære med hensyn til de forklaringsvariablene som er inkludert i analysen, men lineære med hensyn til de estimerte parametrene, og regresjoner som er ikke-lineære med hensyn til de estimerte parametrene.
Regresjoner som er ikke-lineære i forklarende variabler:

Regresjoner som er ikke-lineære med hensyn til de estimerte parameterne: Konstruksjonen av en regresjonsligning kommer ned til å estimere parameterne. For å estimere parametrene for regresjoner lineært i parametere, brukes minste kvadraters metode (OLS). Minste kvadraters metode gjør det mulig å oppnå slike parameterestimater der summen av kvadrerte avvik av de faktiske verdiene til den resulterende karakteristikken y fra de teoretiske er minimal, dvs.
.
For lineære og ikke-lineære ligninger som kan reduseres til lineære, løses følgende system for a og b:

Du kan bruke ferdige formler som følger av dette systemet:

Nærheten til forbindelsen mellom fenomenene som studeres vurderes av den lineære koeffisienten av parkorrelasjon for lineær regresjon:

og korrelasjonsindeks - for ikke-lineær regresjon:

Kvaliteten på den konstruerte modellen vil bli vurdert av koeffisienten (indeksen) for bestemmelse, samt gjennomsnittlig tilnærmingsfeil.
Gjennomsnittlig tilnærmingsfeil - gjennomsnittlig avvik av beregnede verdier fra faktiske:
.
Den tillatte grensen for verdier er ikke mer enn 8-10%.
Den gjennomsnittlige elastisitetskoeffisienten viser med hvilken prosentandel i gjennomsnitt resultatet y vil endre seg fra gjennomsnittsverdien når faktoren x endres med 1 % fra gjennomsnittsverdien:
.

Hensikten med variansanalyse er å analysere variansen til den avhengige variabelen:
,
hvor er den totale summen av kvadrerte avvik;
- summen av kvadrerte avvik på grunn av regresjon ("forklart" eller "faktoriell");
- Restsum av kvadrerte avvik.
Andelen av varians forklart av regresjon i den totale variansen til den resulterende karakteristikken y er karakterisert ved koeffisienten (indeksen) for bestemmelse R2:

Bestemmelseskoeffisienten er kvadratet av koeffisienten eller korrelasjonsindeksen.

F-testen - vurdering av kvaliteten på regresjonsligningen - består i å teste hypotesen Nei om den statistiske insignifikansen til regresjonsligningen og indikatoren på sammenhengens nærhet. For å gjøre dette, blir det gjort en sammenligning mellom det faktiske F-faktumet og de kritiske (tabellformede) F-tabellverdiene til Fisher F-kriteriet. F-faktum bestemmes fra forholdet mellom verdiene av faktor og gjenværende varians beregnet per frihetsgrad:
,
hvor n er antall befolkningsenheter; m er antall parametere for variablene x.
F-tabellen er den maksimalt mulige verdien av kriteriet under påvirkning av tilfeldige faktorer ved gitte frihetsgrader og signifikansnivå a. Signifikansnivået a er sannsynligheten for å forkaste den korrekte hypotesen, gitt at den er sann. Vanligvis tas a lik 0,05 eller 0,01.
Hvis F-tabellen< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F faktum, da forkastes ikke hypotesen H o, og den statistiske insignifikansen og upåliteligheten til regresjonsligningen blir anerkjent.
For å vurdere den statistiske signifikansen av regresjon og korrelasjonskoeffisienter, beregnes Students t-test og konfidensintervaller for hver indikator. Det fremsettes en hypotese om indikatorenes tilfeldighet, dvs. om deres ubetydelige forskjell fra null. Å vurdere betydningen av regresjon og korrelasjonskoeffisienter ved å bruke Students t-test utføres ved å sammenligne verdiene deres med størrelsen på den tilfeldige feilen:
; ; .
Tilfeldige feil i de lineære regresjonsparametrene og korrelasjonskoeffisienten bestemmes av formlene:



Ved å sammenligne de faktiske og kritiske (tabellformede) verdiene til t-statistikk - t-tabell og t-faktum - aksepterer eller avviser vi hypotesen H o.
Forholdet mellom Fisher F-testen og Student t-statistikken uttrykkes ved likheten

Hvis t tabell< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t er et faktum at hypotesen H o ikke forkastes og den tilfeldige karakteren av dannelsen av a, b eller er anerkjent.
For å beregne konfidensintervallet, bestemmer vi maksimal feil D for hver indikator:
, .
Formlene for å beregne konfidensintervaller er som følger:
; ;
; ;
Hvis null faller innenfor konfidensintervallet, dvs. Hvis den nedre grensen er negativ og den øvre grensen er positiv, tas den estimerte parameteren til null, siden den ikke kan ta både positive og negative verdier samtidig.
Prognoseverdien bestemmes ved å erstatte den tilsvarende (prognose)verdien i regresjonsligningen. Den gjennomsnittlige standardfeilen for prognosen beregnes:
,
Hvor
og et konfidensintervall for prognosen er konstruert:
; ;
Hvor .

Eksempel løsning

Oppgave nr. 1. For syv territorier i Ural-regionen i 199X er verdiene til to kjennetegn kjent.
Tabell 1.
Påkrevd: 1. For å karakterisere avhengigheten til y av x, beregne parametrene til følgende funksjoner:
a) lineær;
b) kraft (du må først utføre prosedyren for linearisering av variablene ved å ta logaritmen til begge deler);
c) demonstrativt;
d) en likesidet hyperbel (du må også finne ut hvordan du forhåndslineariserer denne modellen).
2. Evaluer hver modell ved å bruke gjennomsnittlig tilnærmingsfeil og Fishers F-test.

Løsning (alternativ nr. 1)

For å beregne parametere a og b for lineær regresjon (beregning kan gjøres ved hjelp av en kalkulator).
løse et system med normalligninger for EN Og b:
Basert på de første dataene, beregner vi :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ons. betydning (Totalt/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Regresjonsligning: y = 76,88 - 0,35X. Med en økning i gjennomsnittlig dagslønn med 1 gni. andelen utgifter til kjøp av matvarer reduseres med i gjennomsnitt 0,35 prosentpoeng.
La oss beregne den lineære parkorrelasjonskoeffisienten:

Forbindelsen er moderat, omvendt.
La oss bestemme bestemmelseskoeffisienten:

Variasjonen på 12,7 % i resultatet forklares med variasjonen i x-faktoren. Erstatter faktiske verdier i regresjonsligningen X, la oss bestemme de teoretiske (kalkulerte) verdiene . La oss finne verdien av den gjennomsnittlige tilnærmingsfeilen:

I gjennomsnitt avviker beregnede verdier fra faktiske med 8,1 %.
La oss beregne F-kriteriet:

siden 1< F < ¥ , bør vurderes F -1 .
Den resulterende verdien indikerer behovet for å akseptere hypotesen Men åh den tilfeldige karakteren av den identifiserte avhengigheten og den statistiske insignifikansen til parametrene til ligningen og indikatoren for nærhet til forbindelsen.
1b. Konstruksjonen av en kraftmodell innledes av prosedyren for linearisering av variabler. I eksemplet utføres linearisering ved å ta logaritmer på begge sider av ligningen:


HvorY=lg(y), X=lg(x), C=lg(a).

For beregninger bruker vi dataene i tabellen. 1.3.

Tabell 1.3

Y X YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Gjennomsnittlig verdi 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

La oss regne ut C og b:


Vi får en lineær ligning: .
Etter å ha utført sin potensering, får vi:

Erstatter faktiske verdier i denne ligningen X, vi får teoretiske verdier av resultatet. Ved å bruke dem vil vi beregne indikatorene: tilkoblingens tetthet - korrelasjonsindeks og gjennomsnittlig tilnærmingsfeil

Egenskapene til maktlovmodellen indikerer at den beskriver forholdet noe bedre enn den lineære funksjonen.

1c. Konstruere ligningen til en eksponentiell kurve

innledet av en prosedyre for linearisering av variabler ved å ta logaritmer på begge sider av ligningen:

For beregninger bruker vi tabelldataene.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ons. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Verdier av regresjonsparametere A og I utgjorde:


Den resulterende lineære ligningen er: . La oss potensere den resulterende ligningen og skrive den i vanlig form:

Vi vil evaluere koblingens nærhet gjennom korrelasjonsindeksen:

Hensikten med regresjonsanalyse er å måle forholdet mellom en avhengig variabel og én (parvis regresjonsanalyse) eller flere (flere) uavhengige variabler. Uavhengige variabler kalles også faktor-, forklarings-, determinant-, regressor- og prediktorvariabler.

Den avhengige variabelen kalles noen ganger den bestemte, forklarte eller "respons"-variabelen. Den ekstremt utbredte bruken av regresjonsanalyse i empirisk forskning skyldes ikke bare at det er et praktisk verktøy for å teste hypoteser. Regresjon, spesielt multippel regresjon, er en effektiv metode for modellering og prognoser.

La oss begynne å forklare prinsippene for å jobbe med regresjonsanalyse med en enklere - parmetoden.

Paret regresjonsanalyse

De første trinnene ved bruk av regresjonsanalyse vil være nesten identiske med de vi tok ved beregning av korrelasjonskoeffisienten. De tre hovedbetingelsene for effektiviteten av korrelasjonsanalyse ved bruk av Pearson-metoden - normalfordeling av variabler, intervallmåling av variabler, lineær sammenheng mellom variabler - er også relevante for multippel regresjon. Følgelig, i det første trinnet, konstrueres spredningsplott, en statistisk og beskrivende analyse av variablene utføres, og en regresjonslinje beregnes. Som i rammeverket for korrelasjonsanalyse, er regresjonslinjer konstruert ved hjelp av minste kvadraters metode.

For å tydeligere illustrere forskjellene mellom de to metodene for dataanalyse, la oss gå til eksemplet som allerede er diskutert med variablene "SPS-støtte" og "andel på landsbygda". Kildedataene er identiske. Forskjellen i spredningsplott vil være at i regresjonsanalyse er det riktig å plotte den avhengige variabelen - i vårt tilfelle "SPS-støtte" på Y-aksen, mens i korrelasjonsanalyse spiller dette ingen rolle. Etter å ha renset utliggere, ser spredningsdiagrammet slik ut:

Den grunnleggende ideen med regresjonsanalyse er at med en generell trend for variablene - i form av en regresjonslinje - er det mulig å forutsi verdien av den avhengige variabelen, gitt verdiene til den uavhengige.

La oss forestille oss en vanlig matematisk lineær funksjon. Enhver rett linje i det euklidiske rom kan beskrives med formelen:

hvor a er en konstant som spesifiserer forskyvningen langs ordinataksen; b er en koeffisient som bestemmer helningsvinkelen til linjen.

Når du kjenner helningen og konstanten, kan du beregne (forutsi) verdien av y for enhver x.

Denne enkleste funksjonen dannet grunnlaget for regresjonsanalysemodellen med forbehold om at vi ikke vil forutsi verdien av y nøyaktig, men innenfor et visst konfidensintervall, dvs. omtrent.

Konstanten er skjæringspunktet mellom regresjonslinjen og y-aksen (F-skjæringspunktet, vanligvis betegnet som "interceptor" i statistiske pakker). I vårt eksempel med å stemme for Union of Right Forces, vil dens avrundede verdi være 10,55. Vinkelkoeffisienten b vil være tilnærmet -0,1 (som i korrelasjonsanalyse viser tegnet typen kobling - direkte eller invers). Dermed vil den resulterende modellen ha formen SP C = -0,1 x Sel. oss. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Forskjellen mellom de opprinnelige og predikerte verdiene kalles resten (vi har allerede møtt dette begrepet, som er grunnleggende for statistikk, når vi analyserer beredskapstabeller). Så for "Republikken Adygea" vil resten være lik 3,92 - 5,63 = -1,71. Jo større modulverdien til resten er, desto mindre vellykket er den forutsagte verdien.

Vi beregner de predikerte verdiene og residualene for alle tilfeller:
Skjer Satt ned. oss. takk

(opprinnelig)

takk

(spådd)

Rester
Republikken Adygea 47 3,92 5,63 -1,71 -
Altai-republikken 76 5,4 2,59 2,81
Republikken Basjkortostan 36 6,04 6,78 -0,74
Republikken Buryatia 41 8,36 6,25 2,11
Republikken Dagestan 59 1,22 4,37 -3,15
Republikken Ingushetia 59 0,38 4,37 3,99
Etc.

Analyse av forholdet mellom initiale og predikerte verdier tjener til å vurdere kvaliteten på den resulterende modellen og dens prediksjonsevne. En av hovedindikatorene for regresjonsstatistikk er den multiple korrelasjonskoeffisienten R - korrelasjonskoeffisienten mellom de opprinnelige og forutsagte verdiene til den avhengige variabelen. I paret regresjonsanalyse er den lik den vanlige Pearson-korrelasjonskoeffisienten mellom de avhengige og uavhengige variablene, i vårt tilfelle - 0,63. For å tolke multiple R meningsfullt, må den konverteres til en bestemmelseskoeffisient. Dette gjøres på samme måte som i korrelasjonsanalyse – ved kvadrering. Bestemmelseskoeffisienten R-kvadrat (R 2) viser andelen variasjon i den avhengige variabelen som forklares av den eller de uavhengige variablene.

I vårt tilfelle er R2 = 0,39 (0,63 2); dette betyr at variabelen «landsbygdsbefolkningsandel» forklarer omtrent 40 % av variasjonen i variabelen «SPS-støtte». Jo større bestemmelseskoeffisienten er, desto høyere er kvaliteten på modellen.

En annen indikator på modellkvalitet er standard estimatfeil. Dette er et mål på hvor bredt punktene er "spredt" rundt regresjonslinjen. Spredningsmålet for intervallvariabler er standardavviket. Følgelig er standardfeilen for estimatet standardavviket for fordelingen av residualer. Jo høyere verdi, jo større spredning og jo dårligere modell. I vårt tilfelle er standardfeilen 2.18. Det er med dette beløpet vår modell vil "feile i gjennomsnitt" når den forutsier verdien av "SPS-støtte"-variabelen.

Regresjonsstatistikk inkluderer også variansanalyse. Med dens hjelp finner vi ut: 1) hvilken andel av variasjonen (spredningen) av den avhengige variabelen som forklares av den uavhengige variabelen; 2) hvor stor andel av variansen til den avhengige variabelen som står for av residualene (uforklart del); 3) hva er forholdet mellom disse to størrelsene (/"-ratio). Spredningsstatistikk er spesielt viktig for utvalgsstudier - den viser hvor sannsynlig det er at det er en sammenheng mellom de uavhengige og avhengige variablene i populasjonen. kontinuerlige studier (som i vårt eksempel) studieresultatene av variansanalyse er ikke nyttige.I dette tilfellet sjekker de om det identifiserte statistiske mønsteret er forårsaket av en kombinasjon av tilfeldige omstendigheter, hvor karakteristisk det er for komplekset av tilstander der populasjonen som undersøkes er lokalisert, dvs. det er fastslått at det oppnådde resultatet ikke er sant for et bredere generelt aggregat, men graden av dets regularitet, frihet fra tilfeldige påvirkninger.

I vårt tilfelle er ANOVA-statistikken som følger:

SS df MS F betydning
Regress. 258,77 1,00 258,77 54,29 0.000000001
Rest 395,59 83,00 L,11
Total 654,36

F-forholdet på 54,29 er signifikant på 0,0000000001-nivået. Følgelig kan vi trygt avvise nullhypotesen (at forholdet vi oppdaget skyldes tilfeldigheter).

t-kriteriet utfører en lignende funksjon, men i forhold til regresjonskoeffisienter (vinkel- og F-kryss). Ved å bruke /-kriteriet tester vi hypotesen om at i den generelle populasjonen er regresjonskoeffisientene lik null. I vårt tilfelle kan vi igjen trygt avvise nullhypotesen.

Multippel regresjonsanalyse

Multippel regresjonsmodellen er nesten identisk med den parede regresjonsmodellen; den eneste forskjellen er at flere uavhengige variabler er sekvensielt inkludert i den lineære funksjonen:

Y = b1X1 + b2X2 + …+ bpXp + a.

Hvis det er mer enn to uavhengige variabler, er vi ikke i stand til å få en visuell ide om forholdet deres; i denne forbindelse er multippel regresjon mindre "visuell" enn parvis regresjon. Når du har to uavhengige variabler, kan det være nyttig å vise dataene i et 3D-spredningsplott. I profesjonelle statistiske programvarepakker (for eksempel Statistica) er det et alternativ for å rotere et tredimensjonalt diagram, som lar deg visuelt representere strukturen til dataene godt.

Når du arbeider med multippel regresjon, i motsetning til parvis regresjon, er det nødvendig å bestemme analysealgoritmen. Standardalgoritmen inkluderer alle tilgjengelige prediktorer i den endelige regresjonsmodellen. Trinn-for-trinn-algoritmen involverer sekvensiell inkludering (ekskludering) av uavhengige variabler basert på deres forklarende "vekt". Den trinnvise metoden er god når det er mange uavhengige variabler; det "renser" modellen for ærlig talt svake prediktorer, noe som gjør den mer kompakt og konsis.

En tilleggsbetingelse for riktigheten av multippel regresjon (sammen med intervall, normalitet og linearitet) er fraværet av multikollinearitet - tilstedeværelsen av sterke korrelasjoner mellom uavhengige variabler.

Tolkningen av multippel regresjonsstatistikk inkluderer alle elementene vi vurderte for tilfellet med parvis regresjon. I tillegg er det andre viktige komponenter til statistikken for multippel regresjonsanalyse.

Vi vil illustrere arbeidet med multippel regresjon ved å bruke eksemplet med å teste hypoteser som forklarer forskjeller i nivået på valgaktivitet på tvers av russiske regioner. Spesifikke empiriske studier har antydet at valgdeltakelse er påvirket av:

Nasjonal faktor (variabel "russisk befolkning"; operasjonalisert som andelen av den russiske befolkningen i den russiske føderasjonens konstituerende enheter). Det antas at en økning i andelen av den russiske befolkningen fører til en nedgang i valgdeltakelsen;

Urbaniseringsfaktor (variabelen "bybefolkning"; operasjonalisert som andelen av bybefolkningen i den russiske føderasjonens konstituerende enheter; vi har allerede jobbet med denne faktoren som en del av korrelasjonsanalysen). Det antas at en økning i andelen av bybefolkningen også fører til en nedgang i valgdeltakelsen.

Den avhengige variabelen - "intensitet av valgaktivitet" ("aktiv") er operasjonalisert gjennom gjennomsnittlig valgdeltakelsesdata etter region i føderale valg fra 1995 til 2003. Den innledende datatabellen for to uavhengige og en avhengig variabel vil være som følger:

Skjer Variabler
Eiendeler. Gor. oss. Rus. oss.
Republikken Adygea 64,92 53 68
Altai-republikken 68,60 24 60
Republikken Buryatia 60,75 59 70
Republikken Dagestan 79,92 41 9
Republikken Ingushetia 75,05 41 23
Republikken Kalmykia 68,52 39 37
Karachay-Tsjerkess-republikken 66,68 44 42
Republikken Karelia 61,70 73 73
Komi-republikken 59,60 74 57
Mari El republikk 65,19 62 47

Etc. (etter rensing av utslipp gjenstår 83 tilfeller av 88)

Statistikk som beskriver kvaliteten på modellen:

1. Multippel R = 0,62; L-kvadrat = 0,38. Følgelig forklarer den nasjonale faktoren og urbaniseringsfaktoren til sammen ca. 38 % av variasjonen i variabelen «valgaktivitet».

2. Gjennomsnittlig feil er 3,38. Dette er nøyaktig hvor "feil i gjennomsnitt" den konstruerte modellen er når den forutsi nivået på valgdeltakelsen.

3. /l-forholdet mellom forklart og uforklarlig variasjon er 25,2 på 0,000000003 nivå. Nullhypotesen om tilfeldigheten til de identifiserte relasjonene forkastes.

4. Kriteriet / for konstant- og regresjonskoeffisienten til variablene "bybefolkning" og "russisk befolkning" er signifikant på nivået 0,0000001; henholdsvis 0,00005 og 0,007. Nullhypotesen om at koeffisientene er tilfeldige forkastes.

Ytterligere nyttig statistikk for å analysere forholdet mellom de opprinnelige og predikerte verdiene til den avhengige variabelen er Mahalanobis-avstanden og Cooks avstand. Den første er et mål på sakens unikhet (viser hvor mye kombinasjonen av verdier av alle uavhengige variabler for et gitt tilfelle avviker fra gjennomsnittsverdien for alle uavhengige variabler samtidig). Det andre er et mål på sakens påvirkning. Ulike observasjoner har ulike effekter på helningen til regresjonslinjen, og Cooks avstand kan brukes til å sammenligne dem på denne indikatoren. Dette kan være nyttig når du skal rydde opp i uteliggere (en uteligger kan betraktes som en altfor innflytelsesrik sak).

I vårt eksempel inkluderer unike og innflytelsesrike saker Dagestan.

Skjer Opprinnelig

verdier

Predska

verdier

Rester Avstand

Mahalanobis

Avstand
Adygea 64,92 66,33 -1,40 0,69 0,00
Altai-republikken 68,60 69.91 -1,31 6,80 0,01
Republikken Buryatia 60,75 65,56 -4,81 0,23 0,01
Republikken Dagestan 79,92 71,01 8,91 10,57 0,44
Republikken Ingushetia 75,05 70,21 4,84 6,73 0,08
Republikken Kalmykia 68,52 69,59 -1,07 4,20 0,00

Selve regresjonsmodellen har følgende parametere: Y-skjæringspunktet (konstant) = 75,99; b (horisontal) = -0,1; Kommersant (russisk nas.) = -0,06. Endelig formel.

Hovedtrekket ved regresjonsanalyse: med dens hjelp kan du få spesifikk informasjon om hvilken form og natur forholdet mellom variablene som studeres har.

Sekvens av stadier av regresjonsanalyse

La oss kort vurdere stadiene av regresjonsanalyse.

    Problemformulering. På dette stadiet dannes foreløpige hypoteser om avhengigheten av fenomenene som studeres.

    Definisjon av avhengige og uavhengige (forklarende) variabler.

    Innsamling av statistiske data. Det skal samles inn data for hver av variablene som inngår i regresjonsmodellen.

    Formulering av en hypotese om forbindelsesformen (enkel eller multippel, lineær eller ikke-lineær).

    Definisjon regresjonsfunksjoner (består i å beregne de numeriske verdiene til parametrene til regresjonsligningen)

    Vurdere nøyaktigheten av regresjonsanalyse.

    Tolkning av oppnådde resultater. De oppnådde resultatene av regresjonsanalyse sammenlignes med foreløpige hypoteser. Riktigheten og troverdigheten til de oppnådde resultatene vurderes.

    Forutsi ukjente verdier for en avhengig variabel.

Ved hjelp av regresjonsanalyse er det mulig å løse problemet med prognoser og klassifisering. Forutsagte verdier beregnes ved å erstatte verdiene til forklarende variabler i regresjonsligningen. Klassifikasjonsproblemet løses på denne måten: regresjonslinjen deler hele settet med objekter i to klasser, og den delen av settet der funksjonsverdien er større enn null tilhører én klasse, og delen der den er mindre enn null tilhører en annen klasse.

Problemer med regresjonsanalyse

La oss vurdere hovedoppgavene til regresjonsanalyse: etablere formen for avhengighet, bestemme regresjonsfunksjoner, estimering av ukjente verdier for den avhengige variabelen.

Etablering av avhengighetsform.

Arten og formen til forholdet mellom variabler kan danne følgende typer regresjon:

    positiv lineær regresjon (uttrykt i jevn vekst av funksjonen);

    positiv jevnt økende regresjon;

    positiv jevnt økende regresjon;

    negativ lineær regresjon (uttrykt som en jevn nedgang i funksjonen);

    negativ jevnt akselerert avtagende regresjon;

    negativ jevnt avtagende regresjon.

Imidlertid finnes de beskrevne variantene vanligvis ikke i ren form, men i kombinasjon med hverandre. I dette tilfellet snakker vi om kombinerte former for regresjon.

Definisjon av regresjonsfunksjonen.

Den andre oppgaven kommer ned til å identifisere effekten på den avhengige variabelen av hovedfaktorene eller årsakene, alt annet like, og med forbehold om påvirkning av tilfeldige elementer på den avhengige variabelen. Regresjonsfunksjon er definert i form av en matematisk ligning av en eller annen type.

Estimering av ukjente verdier for den avhengige variabelen.

Løsningen på dette problemet kommer ned til å løse et problem av en av følgende typer:

    Estimering av verdiene til den avhengige variabelen innenfor det betraktede intervallet til de første dataene, dvs. manglende verdier; i dette tilfellet er interpolasjonsproblemet løst.

    Estimering av fremtidige verdier av den avhengige variabelen, dvs. finne verdier utenfor det angitte intervallet til kildedataene; i dette tilfellet er problemet med ekstrapolering løst.

Begge problemene løses ved å erstatte de funnet parameterestimatene med verdiene til uavhengige variabler i regresjonsligningen. Resultatet av å løse ligningen er et estimat av verdien av målvariabelen (avhengig).

La oss se på noen av forutsetningene som regresjonsanalyse baserer seg på.

Linearitetsantakelse, dvs. forholdet mellom variablene som vurderes antas å være lineært. Så i dette eksemplet plottet vi et spredningsplott og var i stand til å se en klar lineær sammenheng. Hvis vi på spredningsdiagrammet til variablene ser et tydelig fravær av en lineær sammenheng, dvs. Hvis det er en ikke-lineær sammenheng, bør ikke-lineære analysemetoder brukes.

Normalitetsantagelse rester. Den antar at fordelingen av forskjellen mellom predikerte og observerte verdier er normal. For å visuelt bestemme arten av distribusjonen, kan du bruke histogrammer rester.

Når du bruker regresjonsanalyse, bør hovedbegrensningen vurderes. Den består i at regresjonsanalyse lar oss oppdage kun avhengigheter, og ikke sammenhengene som ligger til grunn for disse avhengighetene.

Regresjonsanalyse lar deg estimere styrken til forholdet mellom variabler ved å beregne den estimerte verdien av en variabel basert på flere kjente verdier.

Regresjonsligning.

Regresjonsligningen ser slik ut: Y=a+b*X

Ved å bruke denne ligningen uttrykkes variabelen Y i form av en konstant a og helningen til linjen (eller helningen) b, multiplisert med verdien av variabelen X. Konstanten a kalles også skjæringsleddet, og helningen er regresjonskoeffisienten eller B-koeffisienten.

I de fleste tilfeller (om ikke alltid) er det en viss spredning av observasjoner i forhold til regresjonslinjen.

Rest er avviket til et enkelt punkt (observasjon) fra regresjonslinjen (forutsagt verdi).

For å løse problemet med regresjonsanalyse i MS Excel, velg fra menyen Service"Analysepakke" og regresjonsanalyseverktøyet. Vi setter inngangsintervallene X og Y. Inndataintervallet Y er utvalget av avhengige analyserte data, det må inkludere én kolonne. Inndataintervallet X er rekkevidden av uavhengige data som må analyseres. Antall inndataområder bør ikke overstige 16.

Ved utgangen av prosedyren i utdataområdet får vi rapporten gitt i tabell 8.3a-8,3v.

KONKLUSJON AV RESULTATER

Tabell 8.3a. Regresjonsstatistikk

Regresjonsstatistikk

Flertall R

R-firkant

Normalisert R-kvadrat

Standard feil

Observasjoner

La oss først se på den øverste delen av beregningene presentert i tabell 8.3a, - regresjonsstatistikk.

Omfanget R-firkant, også kalt sikkerhetsmålet, karakteriserer kvaliteten på den resulterende regresjonslinjen. Denne kvaliteten uttrykkes ved graden av samsvar mellom kildedataene og regresjonsmodellen (kalkulerte data). Sikkerhetsmålet er alltid innenfor intervallet.

I de fleste tilfeller verdien R-firkant er mellom disse verdiene, kalt ekstrem, dvs. mellom null og én.

Hvis verdien R-firkant nær enhet betyr dette at den konstruerte modellen forklarer nesten all variabiliteten i de tilsvarende variablene. Omvendt, meningen R-firkant, nær null, betyr dårlig kvalitet på den konstruerte modellen.

I vårt eksempel er sikkerhetsmålet 0,99673, noe som indikerer en veldig god tilpasning av regresjonslinjen til de opprinnelige dataene.

flertall R - multiple korrelasjonskoeffisient R - uttrykker graden av avhengighet av de uavhengige variablene (X) og den avhengige variabelen (Y).

Flertall R er lik kvadratroten av bestemmelseskoeffisienten; denne mengden tar verdier i området fra null til én.

I enkel lineær regresjonsanalyse flertall R lik Pearson-korrelasjonskoeffisienten. Egentlig, flertall R i vårt tilfelle er den lik Pearson-korrelasjonskoeffisienten fra forrige eksempel (0,998364).

Tabell 8.3b. Regresjonskoeffisienter

Odds

Standard feil

t-statistikk

Y-kryss

Variabel X 1

* En avkortet versjon av beregningene er gitt

Vurder nå den midtre delen av beregningene presentert i tabell 8.3b. Her er regresjonskoeffisienten b (2,305454545) og forskyvningen langs ordinataksen gitt, dvs. konstant a (2,694545455).

Basert på beregningene kan vi skrive regresjonsligningen som følger:

Y= x*2,305454545+2,694545455

Retningen til forholdet mellom variabler bestemmes basert på fortegnene (negative eller positive) til regresjonskoeffisientene (koeffisienten b).

Hvis fortegnet på regresjonskoeffisienten er positivt, vil forholdet mellom den avhengige variabelen og den uavhengige variabelen være positiv. I vårt tilfelle er tegnet på regresjonskoeffisienten positivt, derfor er forholdet også positivt.

Hvis fortegnet på regresjonskoeffisienten er negativt, er forholdet mellom den avhengige variabelen og den uavhengige variabelen negativ (invers).

I tabell 8.3c. output resultater presenteres rester. For at disse resultatene skal vises i rapporten, må du aktivere avmerkingsboksen "Rester" når du kjører "Regresjon"-verktøyet.

UTTAKING AV RESTEN

Tabell 8.3c. Rester

Observasjon

Spådde Y

Rester

Standard saldo

Ved å bruke denne delen av rapporten kan vi se avvikene til hvert punkt fra den konstruerte regresjonslinjen. Største absolutte verdi rest i vårt tilfelle - 0,778, den minste - 0,043. For bedre å tolke disse dataene, vil vi bruke grafen til de originale dataene og den konstruerte regresjonslinjen presentert i ris. 8.3. Som du kan se, er regresjonslinjen ganske nøyaktig "tilpasset" til verdiene til de originale dataene.

Det bør tas i betraktning at eksemplet under vurdering er ganske enkelt og det er ikke alltid mulig å kvalitativt konstruere en lineær regresjonslinje.

Ris. 8.3. Kildedata og regresjonslinje

Problemet med å estimere ukjente fremtidige verdier av den avhengige variabelen basert på kjente verdier av den uavhengige variabelen har forblitt uoverveid, dvs. prognoseproblem.

Ved å ha en regresjonsligning, reduseres prognoseproblemet til å løse ligningen Y= x*2,305454545+2,694545455 med kjente verdier på x. Resultatene av å forutsi den avhengige variabelen Y seks trinn fremover presenteres i tabell 8.4.

Tabell 8.4. Y variable prognoseresultater

Y(spådd)

Derfor, som et resultat av bruk av regresjonsanalyse i Microsoft Excel, har vi:

    bygget en regresjonsligning;

    etablert form for avhengighet og retning av forbindelse mellom variabler - positiv lineær regresjon, som uttrykkes i ensartet vekst av funksjonen;

    etablerte retningen for forholdet mellom variablene;

    vurdert kvaliteten på den resulterende regresjonslinjen;

    var i stand til å se avvik fra de beregnede dataene fra dataene til det originale settet;

    predikerte fremtidige verdier av den avhengige variabelen.

Hvis regresjonsfunksjon definert, tolket og begrunnet, og vurderingen av nøyaktigheten av regresjonsanalysen oppfyller kravene, kan den konstruerte modellen og predikerte verdier anses å ha tilstrekkelig reliabilitet.

De predikerte verdiene oppnådd på denne måten er gjennomsnittsverdiene som kan forventes.

I dette arbeidet gjennomgikk vi hovedkarakteristikkene beskrivende statistikk og blant dem slike konsepter som gjennomsnittlig verdi,median,maksimum,minimum og andre kjennetegn ved datavariasjon.

Konseptet ble også kort diskutert utslipp. Karakteristikkene som er vurdert relaterer seg til den såkalte eksplorative dataanalysen; konklusjonene gjelder kanskje ikke for befolkningen generelt, men bare for et utvalg data. Utforskende dataanalyse brukes for å få primære konklusjoner og danne hypoteser om populasjonen.

Det grunnleggende om korrelasjons- og regresjonsanalyse, deres oppgaver og muligheter for praktisk bruk ble også diskutert.

Begrepene korrelasjon og regresjon er direkte relatert. Det er mange vanlige beregningsteknikker innen korrelasjons- og regresjonsanalyse. De brukes til å identifisere årsak-virkning-forhold mellom fenomener og prosesser. Imidlertid, hvis korrelasjonsanalyse lar oss estimere styrken og retningen til den stokastiske forbindelsen, da regresjonsanalyse- også en form for avhengighet.

Regresjon kan være:

a) avhengig av antall fenomener (variabler):

Enkel (regresjon mellom to variabler);

Multippel (regresjon mellom den avhengige variabelen (y) og flere forklaringsvariabler (x1, x2...xn);

b) avhengig av skjemaet:

Lineær (vises med en lineær funksjon, og det er lineære forhold mellom variablene som studeres);

Ikke-lineær (vises med en ikke-lineær funksjon; forholdet mellom variablene som studeres er ikke-lineært);

c) etter arten av forholdet mellom variablene som er inkludert i vurderingen:

Positiv (en økning i verdien av den forklarende variabelen fører til en økning i verdien av den avhengige variabelen og omvendt);

Negativ (når verdien av forklaringsvariabelen øker, synker verdien av den forklarte variabelen);

d) etter type:

Direkte (i dette tilfellet har årsaken en direkte innvirkning på effekten, dvs. de avhengige og forklarende variablene er direkte relatert til hverandre);

Indirekte (forklaringsvariabelen har en indirekte effekt gjennom en tredje eller en rekke andre variabler på den avhengige variabelen);

Falsk (nonsens-regresjon) - kan oppstå med en overfladisk og formell tilnærming til prosessene og fenomenene som studeres. Et eksempel på en useriøs en er en regresjon som etablerer en sammenheng mellom en nedgang i mengden alkohol som konsumeres i vårt land og en nedgang i salget av vaskepulver.

Når du utfører regresjonsanalyse, løses følgende hovedoppgaver:

1. Bestemmelse av avhengighetsform.

2. Definisjon av regresjonsfunksjonen. For å gjøre dette brukes en matematisk ligning av en eller annen type, som for det første gjør det mulig å etablere den generelle trenden for endring i den avhengige variabelen, og for det andre å beregne påvirkningen av forklaringsvariabelen (eller flere variabler) på den avhengige variabelen.

3. Estimering av ukjente verdier for den avhengige variabelen. Det resulterende matematiske forholdet (regresjonsligningen) lar deg bestemme verdien av den avhengige variabelen både innenfor intervallet av spesifiserte verdier til de forklarende variablene og utover det. I sistnevnte tilfelle fungerer regresjonsanalyse som et nyttig verktøy for å forutsi endringer i sosioøkonomiske prosesser og fenomener (forutsatt at eksisterende trender og sammenhenger opprettholdes). Vanligvis velges lengden på tidsperioden som prognoser utføres for å ikke være mer enn halvparten av tidsintervallet som observasjonene av de første indikatorene ble utført over. Det er mulig å utføre både en passiv prognose, løse ekstrapoleringsproblemet, og en aktiv, resonnere i henhold til det velkjente "hvis..., da"-skjemaet og erstatte forskjellige verdier i en eller flere forklarende regresjonsvariabler .



Til regresjonskonstruksjon en spesiell metode kalt minste kvadraters metode. Denne metoden har fordeler fremfor andre utjevningsmetoder: en relativt enkel matematisk bestemmelse av nødvendige parametere og en god teoretisk begrunnelse fra et sannsynlighetssynspunkt.

Når du velger en regresjonsmodell, er et av de vesentlige kravene til den å sikre størst mulig enkelhet, slik at du kan få en løsning med tilstrekkelig nøyaktighet. Derfor, for å etablere statistiske sammenhenger, vurderer vi først som regel en modell fra klassen av lineære funksjoner (som den enkleste av alle mulige funksjonsklasser):

hvor bi, b2...bj er koeffisienter som bestemmer påvirkningen av uavhengige variabler xij på verdien yi; ai - gratis medlem; ei - tilfeldig avvik, som gjenspeiler påvirkningen av urapporterte faktorer på den avhengige variabelen; n - antall uavhengige variabler; N er antall observasjoner, og betingelsen (N . n+1) må være oppfylt.

Lineær modell kan beskrive en veldig bred klasse av forskjellige problemer. Men i praksis, spesielt i sosioøkonomiske systemer, er det noen ganger vanskelig å bruke lineære modeller på grunn av store tilnærmingsfeil. Derfor brukes ofte ikke-lineære multiple regresjonsfunksjoner som kan lineariseres. Disse inkluderer for eksempel produksjonsfunksjonen (Cobb-Douglas kraftfunksjon), som har funnet anvendelse i ulike sosioøkonomiske studier. Det ser ut som:

hvor b 0 er normaliseringsfaktoren, b 1 ...b j er ukjente koeffisienter, e i er et tilfeldig avvik.

Ved å bruke naturlige logaritmer kan du transformere denne ligningen til lineær form:

Den resulterende modellen tillater bruk av standard lineære regresjonsprosedyrer beskrevet ovenfor. Ved å konstruere modeller av to typer (additiv og multiplikativ), kan du velge den beste og utføre videre forskning med mindre tilnærmingsfeil.

Det er et godt utviklet system for å velge tilnærmede funksjoner - metode for grupperegnskap av argumenter(MGUA).

Riktigheten til den valgte modellen kan bedømmes av resultatene av å studere residualene, som er forskjellene mellom de observerte verdiene y i og de tilsvarende verdiene y i forutsagt ved bruk av regresjonsligningen. I dette tilfellet for å sjekke egnetheten til modellen regnet ut gjennomsnittlig tilnærmingsfeil:

Modellen anses som adekvat dersom e er innenfor ikke mer enn 15 %.

Vi understreker spesielt at i forhold til sosioøkonomiske systemer er ikke alltid de grunnleggende betingelsene for tilstrekkeligheten av den klassiske regresjonsmodellen oppfylt.

Uten å dvele ved alle årsakene til utilstrekkeligheten som oppstår, vil vi bare nevne multikollinearitet- det vanskeligste problemet med å effektivt bruke prosedyrer for regresjonsanalyse i studiet av statistiske avhengigheter. Under multikollinearitet det er forstått at det er en lineær sammenheng mellom forklaringsvariablene.

Dette fenomenet:

a) forvrenger betydningen av regresjonskoeffisienter når de tolkes meningsfullt;

b) reduserer nøyaktigheten av vurderingen (spredningen av vurderingene øker);

c) øker sensitiviteten til koeffisientestimater for utvalgsdata (å øke utvalgsstørrelsen kan i stor grad påvirke estimatene).

Det finnes ulike teknikker for å redusere multikollinearitet. Den mest tilgjengelige måten er å eliminere en av de to variablene hvis korrelasjonskoeffisienten mellom dem overskrider en verdi lik absolutt verdi på 0,8. Hvilken av variablene som skal beholdes avgjøres ut fra materielle hensyn. Deretter beregnes regresjonskoeffisientene igjen.

Ved å bruke en trinnvis regresjonsalgoritme kan du sekvensielt inkludere én uavhengig variabel i modellen og analysere betydningen av regresjonskoeffisienter og multikollinearitet til variabler. Til slutt gjenstår bare de variablene i forholdet som studeres som gir den nødvendige betydningen av regresjonskoeffisientene og minimal påvirkning av multikollinearitet.

I tidligere innlegg fokuserte analysen ofte på en enkelt numerisk variabel, for eksempel fondsavkastning, lastetider på nettsider eller brusforbruk. I dette og påfølgende notater vil vi se på metoder for å forutsi verdiene til en numerisk variabel avhengig av verdiene til en eller flere andre numeriske variabler.

Materialet vil bli illustrert med et gjennomgående eksempel. Prognose salgsvolum i en klesbutikk. Sunflowers-kjeden av lavprisklesbutikker har ekspandert konstant i 25 år. Selskapet har imidlertid foreløpig ikke en systematisk tilnærming til valg av nye utsalgssteder. Hvor en bedrift har til hensikt å åpne en ny butikk, bestemmes ut fra subjektive hensyn. Utvalgskriteriene er gunstige leieforhold eller lederens idé om den ideelle butikkbeliggenheten. Tenk deg at du er leder for spesialprosjekter og planleggingsavdelingen. Du har fått i oppgave å utvikle en strategisk plan for åpning av nye butikker. Denne planen bør inneholde en prognose for årlig salg for nyåpnede butikker. Du tror at butikklokaler er direkte relatert til inntekter og ønsker å ta dette med i beslutningsprosessen din. Hvordan utvikler du en statistisk modell for å forutsi årlig salg basert på størrelsen på en ny butikk?

Vanligvis brukes regresjonsanalyse for å forutsi verdiene til en variabel. Målet er å utvikle en statistisk modell som kan forutsi verdiene til en avhengig variabel, eller respons, fra verdiene til minst én uavhengig eller forklarende variabel. I dette notatet vil vi se på enkel lineær regresjon - en statistisk metode som lar deg forutsi verdiene til en avhengig variabel Y ved uavhengige variabelverdier X. Påfølgende notater vil beskrive en multippel regresjonsmodell designet for å forutsi verdiene til en uavhengig variabel Y basert på verdiene til flere avhengige variabler ( X 1, X 2, …, X k).

Last ned notatet i eller format, eksempler i format

Typer regresjonsmodeller

Hvor ρ 1 - autokorrelasjonskoeffisient; Hvis ρ 1 = 0 (ingen autokorrelasjon), D≈ 2; Hvis ρ 1 ≈ 1 (positiv autokorrelasjon), D≈ 0; Hvis ρ 1 = -1 (negativ autokorrelasjon), D ≈ 4.

I praksis er anvendelsen av Durbin-Watson-kriteriet basert på å sammenligne verdien D med kritiske teoretiske verdier dL Og dU for et gitt antall observasjoner n, antall uavhengige variabler i modellen k(for enkel lineær regresjon k= 1) og signifikansnivå α. Hvis D< d L , hypotesen om uavhengigheten til tilfeldige avvik forkastes (derfor er det en positiv autokorrelasjon); Hvis D>dU, hypotesen er ikke forkastet (det vil si at det ikke er noen autokorrelasjon); Hvis dL< D < d U , er det ikke tilstrekkelig grunnlag for å ta en beslutning. Når den beregnede verdien D overstiger 2, da med dL Og dU Det er ikke selve koeffisienten som sammenlignes D, og uttrykket (4 – D).

For å beregne Durbin-Watson-statistikken i Excel, la oss gå til den nederste tabellen i fig. 14 Uttak av saldo. Telleren i uttrykk (10) beregnes ved å bruke funksjonen =SUMMAR(matrise1;matrise2), og nevneren =SUMMAR(matrise) (fig. 16).

Ris. 16. Formler for beregning av Durbin-Watson-statistikk

I vårt eksempel D= 0,883. Hovedspørsmålet er: hvilken verdi av Durbin-Watson-statistikken bør anses som liten nok til å konkludere med at det eksisterer en positiv autokorrelasjon? Det er nødvendig å korrelere verdien av D med de kritiske verdiene ( dL Og dU), avhengig av antall observasjoner n og signifikansnivå α (fig. 17).

Ris. 17. Kritiske verdier av Durbin-Watson-statistikk (tabellfragment)

Således, i problemet med salgsvolum i en butikk som leverer varer til hjemmet, er det én uavhengig variabel ( k= 1), 15 observasjoner ( n= 15) og signifikansnivå α = 0,05. Derfor, dL= 1,08 og dU= 1,36. Fordi det D = 0,883 < dL= 1,08, det er en positiv autokorrelasjon mellom residualene, minste kvadraters metode kan ikke brukes.

Testing av hypoteser om helning og korrelasjonskoeffisient

Ovenfor ble regresjon utelukkende brukt til prognoser. For å bestemme regresjonskoeffisienter og forutsi verdien av en variabel Y for en gitt variabelverdi X Minste kvadraters metode ble brukt. I tillegg undersøkte vi den gjennomsnittlige kvadratfeilen til estimatet og den blandede korrelasjonskoeffisienten. Hvis analysen av residualer bekrefter at vilkårene for anvendelighet av minste kvadraters metode ikke brytes, og den enkle lineære regresjonsmodellen er adekvat, basert på utvalgsdataene, kan det hevdes at det er en lineær sammenheng mellom variablene i befolkning.

applikasjont -kriterier for helning. Ved å teste om populasjonshellingen β 1 er lik null, kan man finne ut om det er en statistisk signifikant sammenheng mellom variablene X Og Y. Hvis denne hypotesen forkastes, kan det hevdes at mellom variablene X Og Y det er en lineær sammenheng. Null- og alternativhypotesene er formulert som følger: H 0: β 1 = 0 (det er ingen lineær avhengighet), H1: β 1 ≠ 0 (det er en lineær avhengighet). A-priory t-statistikk er lik forskjellen mellom prøvehellingen og den hypotetiske verdien av populasjonshellingen, delt på rotmiddelkvadratfeilen til helningsestimatet:

(11) t = (b 1 β 1 ) / S b 1

Hvor b 1 – helling av direkte regresjon på prøvedata, β1 – hypotetisk helning for direkte populasjon, og teststatistikk t Det har t-fordeling med n – 2 grader av frihet.

La oss sjekke om det er en statistisk signifikant sammenheng mellom butikkstørrelse og årlig omsetning ved α = 0,05. t-kriteriet vises sammen med andre parametere når det brukes Analysepakke(alternativ Regresjon). De fullstendige resultatene av analysepakken er vist i fig. 4, fragment relatert til t-statistikk - i fig. 18.

Ris. 18. Søknadsresultater t

Siden antall butikker n= 14 (se fig. 3), kritisk verdi t-statistikk på et signifikansnivå på α = 0,05 kan bli funnet ved å bruke formelen: t L=STUDENT.ARV(0,025;12) = –2,1788, hvor 0,025 er halvparten av signifikansnivået, og 12 = n – 2; t U=STUDENT.OBR(0,975;12) = +2,1788.

Fordi det t-statistikk = 10,64 > t U= 2,1788 (fig. 19), nullhypotese H 0 avvist. På den andre siden, R-verdi for X= 10,6411, beregnet med formelen =1-ELEV.FORDELING(D3,12,SANN), er omtrent lik null, så hypotesen H 0 igjen avvist. Det faktum at R-verdi på nesten null betyr at hvis det ikke var noen sann lineær sammenheng mellom butikkstørrelser og årlig salg, ville det være praktisk talt umulig å oppdage det ved hjelp av lineær regresjon. Derfor er det en statistisk signifikant lineær sammenheng mellom gjennomsnittlig årlig butikksalg og butikkstørrelse.

Ris. 19. Testing av hypotesen om befolkningshellingen på et signifikansnivå på 0,05 og 12 frihetsgrader

applikasjonF -kriterier for helning. En alternativ tilnærming til å teste hypoteser om helningen til enkel lineær regresjon er å bruke F-kriterier. La oss minne deg på det F-test brukes til å teste forholdet mellom to varianser (for mer detaljer, se). Når du tester helningshypotesen, er målet for tilfeldige feil feilvariansen (summen av kvadrerte feil delt på antall frihetsgrader), så F-kriteriet bruker forholdet mellom variansen forklart av regresjonen (dvs. verdien SSR, delt på antall uavhengige variabler k), til feilavviket ( MSE = S YX 2 ).

A-priory F-statistikk er lik middelkvadrat for regresjon (MSR) delt på feilvariansen (MSE): F = MSR/ MSE, Hvor MSR=SSR / k, MSE =SSE/(n– k – 1), k– antall uavhengige variabler i regresjonsmodellen. Teststatistikk F Det har F-fordeling med k Og n– k – 1 grader av frihet.

For et gitt signifikansnivå α er beslutningsregelen formulert slik: if F>FU, nullhypotesen forkastes; ellers blir det ikke avvist. Resultatene, presentert i form av en oppsummeringstabell for variansanalyse, er vist i fig. 20.

Ris. 20. Varianstabell for å teste hypotesen om den statistiske signifikansen av regresjonskoeffisienten

like måte t-kriterium F-kriteriet vises i tabellen når det brukes Analysepakke(alternativ Regresjon). Fullstendige resultater av arbeidet Analysepakke er vist i fig. 4, fragment relatert til F-statistikk - i fig. 21.

Ris. 21. Søknadsresultater F-kriterier oppnådd ved bruk av Excel-analysepakken

F-statistikken er 113,23, og R-verdi nær null (celle BetydningF). Hvis signifikansnivået α er 0,05, bestemmer du den kritiske verdien F-fordelinger med én og 12 frihetsgrader kan oppnås ved hjelp av formelen F U=F.OBR(1-0,05;1;12) = 4,7472 (fig. 22). Fordi det F = 113,23 > F U= 4,7472, og R-verdi nær 0< 0,05, нулевая гипотеза H 0 blir avvist, dvs. Størrelsen på en butikk er nært knyttet til dens årlige omsetning.

Ris. 22. Testing av populasjonshelningshypotesen på et signifikansnivå på 0,05 med én og 12 frihetsgrader

Konfidensintervall som inneholder helning β 1 . For å teste hypotesen om at det er en lineær sammenheng mellom variabler, kan du konstruere et konfidensintervall som inneholder helningen β 1 og verifisere at den hypotetiske verdien β 1 = 0 tilhører dette intervallet. Sentrum av konfidensintervallet som inneholder helningen β 1 er prøvehellingen b 1 , og dens grenser er mengdene b 1 ±tn –2 S b 1

Som vist i fig. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =STUDENT.ARV(0,975;12) = 2,1788. Derfor, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, eller + 1,328 ≤ β 1 ≤ +2,012. Dermed er det en sannsynlighet på 0,95 for at befolkningshellingen ligger mellom +1,328 og +2,012 (dvs. $1,328,000 til $2,012,000). Siden disse verdiene er større enn null, er det en statistisk signifikant lineær sammenheng mellom årlig omsetning og butikkareal. Hvis konfidensintervallet inneholdt null, ville det ikke være noen sammenheng mellom variablene. I tillegg betyr konfidensintervallet at hver butikkareal øker med 1000 kvm. ft. resulterer i en økning i gjennomsnittlig salgsvolum på mellom $1.328.000 og $2.012.000.

Brukt -kriterier for korrelasjonskoeffisienten. korrelasjonskoeffisient ble introdusert r, som er et mål på forholdet mellom to numeriske variabler. Den kan brukes til å finne ut om det er en statistisk signifikant sammenheng mellom to variabler. La oss betegne korrelasjonskoeffisienten mellom populasjonene til begge variablene med symbolet ρ. Null- og alternativhypotesene er formulert som følger: H 0: ρ = 0 (ingen korrelasjon), H 1: ρ ≠ 0 (det er en korrelasjon). Sjekke eksistensen av en korrelasjon:

Hvor r = + , Hvis b 1 > 0, r = – , Hvis b 1 < 0. Тестовая статистика t Det har t-fordeling med n – 2 grader av frihet.

I problemet om Sunflowers-butikkkjeden r 2= 0,904, a b 1- +1,670 (se fig. 4). Fordi det b 1> 0, er korrelasjonskoeffisienten mellom årsomsetning og butikkstørrelse r= +√0,904 = +0,951. La oss teste nullhypotesen om at det ikke er noen korrelasjon mellom disse variablene ved å bruke t-statistikk:

Ved et signifikansnivå på α = 0,05 bør nullhypotesen forkastes pga. t= 10,64 > 2,1788. Dermed kan det hevdes at det er en statistisk signifikant sammenheng mellom årsomsetning og butikkstørrelse.

Når man diskuterer slutninger om populasjonshelning, brukes konfidensintervaller og hypotesetester om hverandre. Imidlertid viser det seg å være vanskeligere å beregne konfidensintervallet som inneholder korrelasjonskoeffisienten, siden typen prøvefordeling av statistikken r avhenger av den sanne korrelasjonskoeffisienten.

Estimering av matematisk forventning og prediksjon av individuelle verdier

Denne delen diskuterer metoder for å estimere den matematiske forventningen til en respons Y og spådommer om individuelle verdier Y for gitte verdier av variabelen X.

Konstruere et konfidensintervall. I eksempel 2 (se avsnittet ovenfor Minste kvadratiske metode) regresjonsligningen gjorde det mulig å forutsi verdien av variabelen Y X. I problemet med å velge et sted for et utsalgssted, er det gjennomsnittlige årlige salgsvolumet i en butikk med et areal på 4000 kvm. fot var lik 7,644 millioner dollar, men dette anslaget av den matematiske forventningen til den generelle befolkningen er poengmessig. For å estimere den matematiske forventningen til befolkningen, ble konseptet med et konfidensintervall foreslått. På samme måte kan vi introdusere konseptet konfidensintervall for den matematiske forventningen til responsen for en gitt variabelverdi X:

Hvor , = b 0 + b 1 X i– antatt verdi er variabel YX = X i, S YX– rotmiddelkvadratfeil, n– prøvestørrelse, XJeg- spesifisert verdi av variabelen X, µ Y|X = XJeg– matematisk forventning til variabelen YX = Xi, SSX =

Analyse av formel (13) viser at bredden på konfidensintervallet avhenger av flere faktorer. Ved et gitt signifikansnivå fører en økning i amplituden av fluktuasjoner rundt regresjonslinjen, målt ved hjelp av rotmiddelkvadratfeilen, til en økning i intervallets bredde. På den annen side, som man kunne forvente, er en økning i utvalgsstørrelse ledsaget av en innsnevring av intervallet. I tillegg endres bredden på intervallet avhengig av verdiene XJeg. Hvis variabelverdien Y spådd for mengder X, nær gjennomsnittsverdien , viser konfidensintervallet seg å være smalere enn når man forutsier responsen for verdier langt fra gjennomsnittet.

La oss si at når vi velger et butikksted, ønsker vi å konstruere et 95 % konfidensintervall for gjennomsnittlig årlig omsetning for alle butikker med areal på 4000 kvadratmeter. føtter:

Derfor er det gjennomsnittlige årlige salgsvolumet i alle butikker med et areal på 4000 kvm. fot, med 95% sannsynlighet ligger i området fra 6,971 til 8,317 millioner dollar.

Beregn konfidensintervallet for den anslåtte verdien. I tillegg til konfidensintervallet for den matematiske forventningen til responsen for en gitt verdi av variabelen X, er det ofte nødvendig å vite konfidensintervallet for den predikerte verdien. Selv om formelen for å beregne et slikt konfidensintervall er veldig lik formel (13), inneholder dette intervallet den predikerte verdien i stedet for parameterestimatet. Intervall for antatt respons YX = Xi for en bestemt variabelverdi XJeg bestemt av formelen:

Anta at når vi velger et sted for et utsalgssted, ønsker vi å konstruere et 95 % konfidensintervall for det anslåtte årlige salgsvolumet for en butikk med et areal på 4000 kvadratmeter. føtter:

Derfor er det anslåtte årlige salgsvolumet for en butikk med et areal på 4000 kvm. fot, med 95 % sannsynlighet ligger i området fra 5,433 til 9,854 millioner dollar. Som vi kan se, er konfidensintervallet for den predikerte responsverdien mye bredere enn konfidensintervallet for dens matematiske forventning. Dette er fordi variasjonen i å forutsi individuelle verdier er mye større enn i å estimere den matematiske forventningen.

Fallgruver og etiske problemstillinger knyttet til bruk av regresjon

Vanskeligheter knyttet til regresjonsanalyse:

  • Ignorerer bruksvilkårene for minste kvadraters metode.
  • Feilvurdering av betingelsene for minstekvadratmetodens anvendelighet.
  • Feil valg av alternative metoder når vilkårene for anvendelighet av minste kvadraters metode brytes.
  • Anvendelse av regresjonsanalyse uten dyp kunnskap om forskningsemnet.
  • Ekstrapolering av en regresjon utenfor rekkevidden til den forklarende variabelen.
  • Forvirring mellom statistiske og årsakssammenhenger.

Den utbredte bruken av regneark og statistisk programvare har eliminert beregningsproblemene som hadde hindret bruken av regresjonsanalyse. Dette førte imidlertid til at regresjonsanalyse ble brukt av brukere som ikke hadde tilstrekkelige kvalifikasjoner og kunnskaper. Hvordan kan brukere vite om alternative metoder hvis mange av dem ikke har noen formening om vilkårene for bruk av minste kvadraters metode og ikke vet hvordan de skal kontrollere implementeringen?

Forskeren bør ikke la seg rive med av knasende tall – å beregne forskyvning, helning og blandet korrelasjonskoeffisient. Han trenger dypere kunnskap. La oss illustrere dette med et klassisk eksempel hentet fra lærebøker. Anscombe viste at alle fire datasettene vist i fig. 23, har de samme regresjonsparametrene (fig. 24).

Ris. 23. Fire kunstige datasett

Ris. 24. Regresjonsanalyse av fire kunstige datasett; ferdig med Analysepakke(klikk på bildet for å forstørre bildet)

Så, fra synspunktet til regresjonsanalyse, er alle disse datasettene helt identiske. Hvis analysen endte der, ville vi mistet mye nyttig informasjon. Dette er bevist av spredningsplottene (Figur 25) og gjenværende plott (Figur 26) konstruert for disse datasettene.

Ris. 25. Spredningsplott for fire datasett

Spredningsplott og restplott indikerer at disse dataene skiller seg fra hverandre. Den eneste mengden fordelt langs en rett linje er sett A. Plottet av residualene beregnet fra sett A har ikke noe mønster. Dette kan ikke sies om sett B, C og D. Spredningsplottet plottet for sett B viser et uttalt kvadratisk mønster. Denne konklusjonen bekreftes av restplottet, som har en parabolsk form. Spredningsplottet og restplottet viser at datasett B inneholder en uteligger. I denne situasjonen er det nødvendig å ekskludere uteliggeren fra datasettet og gjenta analysen. En metode for å oppdage og eliminere uteliggere i observasjoner kalles påvirkningsanalyse. Etter å ha eliminert uteliggeren, kan resultatet av revurdering av modellen bli helt annerledes. Spredningsplottet plottet fra data fra sett G illustrerer en uvanlig situasjon der den empiriske modellen er betydelig avhengig av en individuell respons ( X 8 = 19, Y 8 = 12,5). Slike regresjonsmodeller må beregnes spesielt nøye. Så sprednings- og gjenværende plott er et viktig verktøy for regresjonsanalyse og bør være en integrert del av det. Uten dem er ikke regresjonsanalyse troverdig.

Ris. 26. Restplott for fire datasett

Slik unngår du fallgruver i regresjonsanalyse:

  • Analyse av mulige sammenhenger mellom variabler X Og Y start alltid med å tegne et spredningsplott.
  • Før du tolker resultatene av regresjonsanalyse, sjekk betingelsene for dens anvendelighet.
  • Plott residualene versus den uavhengige variabelen. Dette vil gjøre det mulig å bestemme hvor godt den empiriske modellen samsvarer med observasjonsresultatene og å oppdage et brudd på varianskonstansen.
  • Bruk histogrammer, stilk-og-bladplott, boksplott og normalfordelingsplott for å teste antakelsen om en normal feilfordeling.
  • Hvis betingelsene for anvendelighet av minste kvadraters metode ikke er oppfylt, bruk alternative metoder (for eksempel kvadratiske eller multiple regresjonsmodeller).
  • Dersom betingelsene for anvendelighet av minste kvadraters metode er oppfylt, er det nødvendig å teste hypotesen om den statistiske signifikansen til regresjonskoeffisientene og konstruere konfidensintervaller som inneholder den matematiske forventningen og den predikerte responsverdien.
  • Unngå å forutsi verdier av den avhengige variabelen utenfor rekkevidden til den uavhengige variabelen.
  • Husk at statistiske sammenhenger ikke alltid er årsak og virkning. Husk at korrelasjon mellom variabler ikke betyr at det er en årsak-virkning-sammenheng mellom dem.

Sammendrag. Som vist i blokkskjemaet (Figur 27), beskriver notatet den enkle lineære regresjonsmodellen, betingelsene for dens anvendelighet, og hvordan man tester disse forholdene. Ansett t-kriterium for å teste den statistiske signifikansen av regresjonshellingen. En regresjonsmodell ble brukt til å forutsi verdiene til den avhengige variabelen. Et eksempel vurderes knyttet til valg av lokalisering for et utsalgssted, hvor avhengigheten av årlig salgsvolum av butikkarealet undersøkes. Informasjonen som innhentes lar deg velge et sted for en butikk mer nøyaktig og forutsi dets årlige salgsvolum. Følgende notater vil fortsette diskusjonen om regresjonsanalyse og også se på flere regresjonsmodeller.

Ris. 27. Merk strukturdiagram

Det benyttes materiell fra boken Levin mfl. Statistikk for ledere. – M.: Williams, 2004. – s. 792–872

Hvis den avhengige variabelen er kategorisk, må logistisk regresjon brukes.