Regressionsligningsstatistik. Find parametrene for den lineære regressionsligning og giv en økonomisk fortolkning af regressionskoefficienten

x - kaldes en prædiktor - en uafhængig eller forklarende variabel.

For en given mængde x er Y værdien af ​​y-variablen (kaldet den afhængige, output- eller responsvariabel), der ligger på estimatlinjen. Dette er den værdi, vi forventer for y (i gennemsnit), hvis vi kender værdien af ​​x, og dette kaldes den "forudsagte værdi af y" (Figur 5).

a - gratis medlem (krydsning) af evalueringslinjen; er værdien af ​​Y, når x = 0.

b er hældningen eller gradienten af ​​den estimerede linje; det repræsenterer den mængde, som Y stiger med i gennemsnit, hvis vi øger x med en enhed (figur 5). Koefficienten b kaldes regressionskoefficienten.

For eksempel: med en stigning i menneskelig kropstemperatur med 1 ° C, stiger pulsen med et gennemsnit på 10 slag i minuttet.

Figur 5. Lineær regressionslinje, der viser koefficienten -en og hældning b(øge værdi Y med stigende x pr. enhed)

Matematisk reduceres løsningen af ​​den lineære regressionsligning til at beregne parametrene a og b på en sådan måde, at punkterne for de indledende data i korrelationsfeltet så tæt som muligt på den direkte regression .

Den statistiske brug af ordet "regression" kommer fra et fænomen kendt som regression til middelværdien, tilskrevet Francis Galton (1889). Han viste, at mens høje fædre har tendens til at have høje sønner, er sønnernes gennemsnitlige højde mindre end deres høje fædres. Den gennemsnitlige højde for sønner "regresserede" eller "vendte" mod gennemsnitshøjden for alle fædre i befolkningen. Således har høje fædre i gennemsnit kortere (men stadig høje) sønner, og lave fædre har længere (men stadig ret korte) sønner.

Vi ser gennemsnitlig regression i screening og kliniske forsøg, hvor en undergruppe af patienter kan blive udvalgt til behandling, fordi deres niveauer af en bestemt variabel, f.eks. kolesterol, er ekstremt høje (eller lave). Hvis denne måling gentages over tid, er middelværdien af ​​den anden aflæsning for undergruppen sædvanligvis mindre end den første aflæsning, idet den tenderer (dvs. falder) mod det alders- og kønsmatchede gennemsnit i befolkningen, uanset hvilken behandling de måtte have. modtage.. Patienter rekrutteret til et klinisk forsøg baseret på højt kolesteroltal ved deres første besøg vil således sandsynligvis vise et gennemsnitligt fald i kolesterolniveauet ved deres andet besøg, selvom de ikke blev behandlet i den periode.

Ofte bruges metoden til regressionsanalyse til at udvikle normative skalaer og standarder for fysisk udvikling.


Hvor godt regressionslinjen passer til dataene kan bedømmes ved at beregne R-koefficienten (normalt udtrykt i procent og kaldet bestemmelseskoefficienten), som er lig med kvadratet af korrelationskoefficienten (r 2). Det repræsenterer andelen eller procentdelen af ​​variansen af ​​y, der kan forklares ved forholdet til x, dvs. andelen af ​​variation af træk-resultatet, der er udviklet under påvirkning af et selvstændigt træk. Det kan tage værdier i området fra 0 til 1 eller henholdsvis fra 0 til 100%. Forskellen (100% - R) er den procentvise varians i y, der ikke kan forklares ved denne interaktion.

Eksempel

Sammenhæng mellem højde (målt i cm) og systolisk blodtryk (SBP, målt i mmHg) hos børn. Vi udførte en parvis lineær regressionsanalyse af SBP versus højde (fig. 6). Der er en signifikant lineær sammenhæng mellem højde og SBP.

Figur 6. Todimensionel graf, der viser sammenhængen mellem systolisk blodtryk og højde. Vist er den estimerede regressionslinje, systolisk blodtryk.

Den estimerede regressionslinjeligning er som følger:

HAVE \u003d 46,28 + 0,48 x højde.

I dette eksempel er skæringspunktet ikke af interesse (en stigning på nul er klart uden for det område, der er observeret i undersøgelsen). Vi kan dog fortolke hældningen; SBP forventes at stige med et gennemsnit på 0,48 mm Hg hos disse børn. med en stigning i højden med en centimeter

Vi kan anvende en regressionsligning til at forudsige den SBP, vi ville forvente hos et barn i en given højde. For eksempel har et 115 cm højt barn en forudsagt SBP på 46,28 + (0,48 x 115) = 101,48 mm Hg. Art., et barn med en højde på 130 har en forudsagt SBP, 46,28 + (0,48 x 130) = 108,68 mm Hg. Kunst.

Ved beregning af korrelationskoefficienten fandt man ud af, at den er lig med 0,55, hvilket indikerer en direkte korrelation af gennemsnitsstyrke. I dette tilfælde bestemmelseskoefficienten r 2 \u003d 0,55 2 \u003d 0,3. Således kan vi sige, at andelen af ​​indflydelsen af ​​vækst på niveauet af blodtryk hos børn ikke overstiger 30%, henholdsvis 70% af indflydelsen falder på andelen af ​​andre faktorer.

Lineær (simpel) regression er begrænset til at overveje forholdet mellem den afhængige variabel og kun én uafhængig variabel. Hvis der er mere end én uafhængig variabel i forholdet, skal vi vende os til multipel regression. Ligningen for en sådan regression ser således ud:

y = a + bx 1 + b 2 x 2 +.... + b n x n

Man kan være interesseret i resultatet af indflydelsen af ​​flere uafhængige variable x 1 , x 2 , .., x n på responsvariablen y. Hvis vi tror, ​​at disse x'er kan være indbyrdes afhængige, så skal vi ikke se separat på effekten af ​​at ændre værdien af ​​et x med y, men skal samtidig tage højde for værdierne af alle andre x'er.

Eksempel

Da der er en stærk sammenhæng mellem højde og kropsvægt hos et barn, kan man undre sig over, om forholdet mellem højde og systolisk blodtryk også ændrer sig, når barnets kropsvægt og køn også tages i betragtning. Multipel lineær regression undersøger den kombinerede effekt af disse multiple uafhængige variable på y.

Den multiple regressionsligning i dette tilfælde kan se sådan ud:

GARDEN \u003d 79,44 - (0,03 x højde) + (1,18 x vægt) + (4,23 x køn) *

* - (for køn, værdier 0 - dreng, 1 - pige)

Ifølge denne ligning ville en pige, der er 115 cm høj og vejer 37 kg, have en forudsagt SBP:

HAVE \u003d 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) \u003d 123,88 mm Hg.

Logistisk regression minder meget om lineær regression; det bruges, når der er et binært resultat af interesse (dvs. tilstedeværelse/fravær af et symptom eller et individ, der har/ikke har en sygdom) og et sæt prædiktorer. Ud fra den logistiske regressionsligning er det muligt at bestemme, hvilke prædiktorer der påvirker udfaldet og ved hjælp af værdierne af patientens prædiktorer estimere sandsynligheden for, at han/hun får et bestemt udfald. For eksempel: komplikationer vil opstå eller ej, behandling vil være effektiv eller ej.

Begynd at oprette en binær variabel til at repræsentere de to udfald (f.eks. "har sygdom" = 1, "har ingen sygdom" = 0). Vi kan dog ikke anvende disse to værdier som den afhængige variabel i en lineær regressionsanalyse, fordi normalitetsantagelsen er overtrådt, og vi kan ikke fortolke forudsagte værdier, der ikke er nul eller én.

Faktisk tager vi i stedet sandsynligheden for, at emnet er klassificeret i den nærmeste kategori (dvs. "har en sygdom") af den afhængige variabel, og for at overvinde matematiske vanskeligheder anvender vi en logistisk transformation i regressionsligningen - den naturlige logaritme af forholdet mellem sandsynligheden for "sygdom" (p) og sandsynligheden for "ingen sygdom" (1-p).

En integrativ proces kaldet maximum likelihood-metoden frem for almindelig regression (fordi vi ikke kan anvende den lineære regressionsprocedure) skaber et estimat af den logistiske regressionsligning ud fra prøvedataene

logit(p) = a + bx 1 + b 2 x 2 +.... + b n x n

logit (p) er et estimat af værdien af ​​den sande sandsynlighed for, at en patient med et individuelt sæt værdier for x 1 ... x n har en sygdom;

a - evaluering af konstanten (frit sigt, skæringspunkt);

b 1 , b 2 ,... ,b n — estimater af logistiske regressionskoefficienter.

1. Spørgsmål om emnet for lektionen:

1. Giv en definition af funktionel og sammenhæng.

2. Giv eksempler på direkte og omvendt korrelation.

3. Angiv størrelsen af ​​korrelationskoefficienterne for svage, mellemstore og stærke sammenhænge mellem funktioner.

4. I hvilke tilfælde anvendes rangmetoden til beregning af korrelationskoefficienten?

5. I hvilke tilfælde anvendes beregningen af ​​Pearson-korrelationskoefficienten?

6. Hvad er de vigtigste trin i beregningen af ​​korrelationskoefficienten ved rangmetoden?

7. Definer "regression". Hvad er essensen af ​​regressionsmetoden?

8. Beskriv formlen for en simpel lineær regressionsligning.

9. Definer regressionskoefficienten.

10. Hvilken konklusion kan man drage, hvis regressionskoefficienten for vægt for højde er 0,26 kg/cm?

11. Hvad bruges regressionsligningsformlen til?

12. Hvad er bestemmelseskoefficienten?

13. I hvilke tilfælde bruges den multiple regressionsligning.

14. Hvad bruges metoden til logistisk regression til?

En opgave.

For letindustrivirksomheder i regionen blev der opnået oplysninger, der karakteriserer afhængigheden af ​​mængden af ​​output (Y, millioner rubler) af mængden af ​​kapitalinvesteringer (Y, millioner rubler).

Tabel 1.

Afhængighed af mængden af ​​output af mængden af ​​kapitalinvesteringer.

x
Y

Påkrævet:

1. Find parametrene for den lineære regressionsligning, giv en økonomisk fortolkning af regressionskoefficienten.

2. Beregn resterne; find restsummen af ​​kvadrater; estimere variansen af ​​residualerne; plotte resterne.

3. Kontroller opfyldelsen af ​​LSM-forudsætningerne.

4. Tjek signifikansen af ​​parametrene for regressionsligningen ved hjælp af Students t-test (α = 0,05).

5. Beregn bestemmelseskoefficienten, tjek betydningen af ​​regressionsligningen ved hjælp af Fishers F - kriterium (α = 0,05), find den gennemsnitlige relative tilnærmelsesfejl. Lav en bedømmelse af modellens kvalitet.

6. At forudsige gennemsnitsværdien af ​​indikatoren Y ved et signifikansniveau på α = 0,1, hvis den forudsagte værdi af faktoren X er 80 % af dens maksimale værdi.

7. Præsentér grafisk de faktiske og model Y-værdier for prognosepunktet.

8. Sammensæt ikke-lineære regressionsligninger og byg deres grafer:

hyperbolsk;

Strøm;

Demonstrerende.

9. For disse modeller, find bestemmelseskoefficienterne og gennemsnitlige relative tilnærmelsesfejl. Sammenlign modeller i henhold til disse karakteristika og drag en konklusion.

Lad os finde parametrene for den lineære regressionsligning og give en økonomisk fortolkning af regressionskoefficienten.

Den lineære regressionsligning er: ,

Beregninger for at finde parametrene a og b er givet i tabel 2.

Tabel 2.

Beregning af værdier for at finde parametrene for den lineære regressionsligning.

Regressionsligningen er: y = 13,8951 + 2,4016*x.

Med en stigning i mængden af ​​kapitalinvesteringer (X) med 1 million rubler. volumen af ​​output (Y) vil stige med et gennemsnit på 2,4016 millioner rubler. Der er således en positiv korrelation af tegn, som indikerer effektiviteten af ​​virksomheder og rentabiliteten af ​​investeringer i deres aktiviteter.

2. Beregn resten; find restsummen af ​​kvadrater; estimere variansen af ​​residualerne og plot resterne.

Resten beregnes med formlen: e i = y i - y progn.

Restsum af kvadrerede afvigelser: = 207,74.

Resterende spredning: 25.97.

Beregningerne er vist i tabel 3.

Tabel 3

Y x Y=a+b*x i e i = y i - y forudsige. e i 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Sum 0,00 207,74
Gennemsnit 111,4 40,6

Balancediagrammet ser således ud:


Fig.1. Restdiagram

3. Lad os kontrollere opfyldelsen af ​​forudsætningerne for LSM, som inkluderer elementerne:

- kontrol af ligheden mellem den matematiske forventning af den tilfældige komponent til nul;

- resternes tilfældige natur;

- uafhængighedskontrol;

- overensstemmelse af en række rester til normalfordelingsloven.

Kontrol af ligheden mellem den matematiske forventning af niveauerne af en række residualer til nul.

Det udføres under verifikationen af ​​den tilsvarende nulhypotese H 0:. Til dette formål konstrueres en t-statistik, hvor .

så hypotesen er accepteret.

Resternes tilfældige natur.

Lad os kontrollere tilfældigheden af ​​niveauerne af en række rester ved hjælp af kriteriet om vendepunkter:

Antallet af vendepunkter bestemmes ud fra tabellen over rester:

e i = y i - y forudsige. Vendepunkter e i 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Sum 0,00 207,74 354,62
Gennemsnit

= 6 >, derfor er resternes tilfældighedsegenskab opfyldt.

Resterende uafhængighed verificeret ved hjælp af Durbin-Watson testen:

=4 - 1,707 = 2,293.

Da det faldt i intervallet fra d 2 til 2, kan vi ifølge dette kriterium konkludere, at uafhængighedsegenskaben er opfyldt. Dette betyder, at der ikke er nogen autokorrelation i rækken af ​​dynamikker, derfor er modellen tilstrækkelig i henhold til dette kriterium.

Korrespondance af en række residualer til normalfordelingsloven bestemt ved hjælp af R/S-kriteriet med kritiske niveauer (2,7-3,7);

Beregn RS-værdien:

RS = (e max - e min) / S,

hvor e max er den maksimale værdi af niveauerne af en række rester E(t) = 8,07;

e min - minimumsværdien af ​​niveauerne af en række rester E(t) = -6,54.

S - standardafvigelse, = 4,8044.

RS \u003d (e max - e min) / S \u003d (8.07 + 6.54) / 4.8044 \u003d 3.04.

Siden 2.7< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Efter at have overvejet forskellige kriterier for at opfylde forudsætningerne for LSM konkluderer vi således, at forudsætningerne for LSM er opfyldt.

4. Lad os tjekke betydningen af ​​regressionsligningens parametre ved hjælp af Students t-test α = 0,05.

Kontrol af betydningen af ​​individuelle regressionskoefficienter er forbundet med bestemmelsen af ​​beregnede værdier t-test (t-statistik) for de tilsvarende regressionskoefficienter:

Derefter sammenlignes de beregnede værdier med tabellen t bord= 2,3060. Kriteriets tabelværdi bestemmes, når ( n- 2) grader af frihed ( n- antal observationer) og det tilsvarende signifikansniveau a (0,05)

Hvis den beregnede værdi af t-testen med (n- 2) frihedsgrader overstiger dens tabelværdi på et givet signifikansniveau, anses regressionskoefficienten for signifikant.

I vores tilfælde er regressionskoefficienterne a 0 - insignifikant og 1 - signifikante koefficienter.

Regressionslinjen er en grafisk afspejling af forholdet mellem fænomener. Du kan nemt bygge en regressionslinje i Excel.

Til dette har du brug for:

1. Åbn Excel-programmet

2. Opret kolonner med data. I vores eksempel vil vi bygge en regressionslinje eller et forhold mellem aggressivitet og selvtvivl hos elever i første klasse. Eksperimentet involverede 30 børn, dataene er præsenteret i Excel-tabellen:

1 kolonne - nummer på emnet

2 kolonne - aggressivitet i point

3 kolonne - manglende selvværd i point

3. Så skal du vælge begge kolonner (uden navnet på kolonnen), tryk på fanen indsætte , vælge punkt , og fra de foreslåede layouts vælg den allerførste prik med markører .

4. Så vi fik en blank for regressionslinjen - den såkaldte - scatterplot. For at gå til regressionslinjen skal du klikke på den resulterende figur, klikke på fanen konstruktør, finde på panelet diagramlayout og vælg M -en ket9 , står der også f(x)

5. Så vi har en regressionslinje. Grafen viser også dens ligning og kvadratet af korrelationskoefficienten

6. Det er tilbage at tilføje navnet på grafen, navnet på akserne. Hvis det ønskes, kan du også fjerne forklaringen, reducere antallet af vandrette gitterlinjer (faneblad layout , derefter gitter ). De vigtigste ændringer og indstillinger foretages i fanen Layout

Regressionslinjen er bygget i MS Excel. Nu kan det føjes til værkets tekst.

I de foregående noter har fokus ofte været på en enkelt numerisk variabel, såsom investeringsforeningsafkast, websides indlæsningstid eller sodavandsforbrug. I denne og de følgende noter vil vi overveje metoder til at forudsige værdierne af en numerisk variabel afhængigt af værdierne af en eller flere andre numeriske variable.

Materialet vil blive illustreret med et gennemgående eksempel. Forudsigelse af salgsvolumen i en tøjbutik. Sunflowers-kæden af ​​discounttøjsbutikker har konstant ekspanderet i 25 år. Virksomheden har dog ikke på nuværende tidspunkt en systematisk tilgang til at udvælge nye forretninger. Det sted, hvor virksomheden har til hensigt at åbne en ny butik, bestemmes ud fra subjektive overvejelser. Udvælgelseskriterierne er gunstige lejebetingelser eller lederens idé om den ideelle placering af butikken. Forestil dig, at du er leder af afdelingen for særlige projekter og planlægning. Du har fået til opgave at udvikle en strategisk plan for åbning af nye butikker. Denne plan bør indeholde en prognose for det årlige salg i nyåbnede butikker. Du mener, at salgslokaler er direkte relateret til omsætning og ønsker at inddrage dette faktum i din beslutningsproces. Hvordan udvikler man en statistisk model, der forudsiger årligt salg baseret på ny butiksstørrelse?

Typisk bruges regressionsanalyse til at forudsige værdierne af en variabel. Dens mål er at udvikle en statistisk model, der forudsiger værdierne af den afhængige variabel, eller respons, ud fra værdierne af mindst én uafhængig eller forklarende variabel. I denne note vil vi overveje en simpel lineær regression - en statistisk metode, der giver dig mulighed for at forudsige værdierne af den afhængige variabel Y ved værdierne af den uafhængige variabel x. Følgende noter vil beskrive en multipel regressionsmodel designet til at forudsige værdierne af den uafhængige variabel Y ved værdierne af flere afhængige variable ( X1, X2, …, Xk).

Download note i eller format, eksempler i format

Typer af regressionsmodeller

hvor ρ 1 er autokorrelationskoefficienten; hvis ρ 1 = 0 (ingen autokorrelation), D≈ 2; hvis ρ 1 ≈ 1 (positiv autokorrelation), D≈ 0; hvis ρ 1 = -1 (negativ autokorrelation), D ≈ 4.

I praksis er anvendelsen af ​​Durbin-Watson-kriteriet baseret på en sammenligning af værdien D med kritiske teoretiske værdier d L og d U for et givet antal observationer n, antallet af uafhængige variable i modellen k(til simpel lineær regression k= 1) og signifikansniveau α. Hvis en D< d L , hypotesen om uafhængighed af tilfældige afvigelser afvises (derfor er der en positiv autokorrelation); hvis D > d U, hypotesen forkastes ikke (det vil sige, der er ingen autokorrelation); hvis d L< D < d U der er ikke grund nok til at træffe en beslutning. Når den beregnede værdi D overstiger 2, så d L og d U det er ikke selve koefficienten, der sammenlignes D, og udtrykket (4 – D).

For at beregne Durbin-Watson-statistikken i Excel, vender vi os til den nederste tabel i fig. fjorten Saldo tilbagetrækning. Tælleren i udtryk (10) beregnes ved hjælp af funktionen = SUMMQDIFF(matrix1, matrix2), og nævneren = SUMMQ(matrix) (fig. 16).

Ris. 16. Formler til beregning af Durbin-Watson-statistikker

I vores eksempel D= 0,883. Hovedspørgsmålet er: hvilken værdi af Durbin-Watson-statistikken bør betragtes som lille nok til at konkludere, at der er en positiv autokorrelation? Det er nødvendigt at korrelere værdien af ​​D med de kritiske værdier ( d L og d U) afhængig af antallet af observationer n og signifikansniveau α (fig. 17).

Ris. 17. Kritiske værdier af Durbin-Watson-statistikker (tabelfragment)

I problemet med salgsvolumen i en butik, der leverer varer til dit hjem, er der således én uafhængig variabel ( k= 1), 15 observationer ( n= 15) og signifikansniveau α = 0,05. Følgelig, d L= 1,08 og dU= 1,36. Fordi D = 0,883 < d L= 1,08, er der en positiv autokorrelation mellem residualerne, mindste kvadraters metode kan ikke anvendes.

Test af hypoteser om hældning og korrelationskoefficient

Ovenstående regression blev udelukkende anvendt til prognoser. At bestemme regressionskoefficienter og forudsige værdien af ​​en variabel Y for en given variabelværdi x metoden med mindste kvadrater blev brugt. Derudover overvejede vi standardfejlen for estimatet og koefficienten for blandet korrelation. Hvis residualanalysen bekræfter, at anvendelighedsbetingelserne for mindste kvadraters metoden ikke er overtrådt, og den simple lineære regressionsmodel er tilstrækkelig, kan det på baggrund af stikprøvedataene argumenteres for, at der er en lineær sammenhæng mellem variablerne i populationen.

Ansøgningt -kriterier for hældning. Ved at kontrollere om populationshældningen β 1 er lig nul, kan man afgøre om der er en statistisk signifikant sammenhæng mellem variablerne x og Y. Hvis denne hypotese forkastes, kan der argumenteres for, at mellem variablerne x og Y der er en lineær sammenhæng. Nul- og alternativhypoteserne er formuleret som følger: H 0: β 1 = 0 (ingen lineær sammenhæng), H1: β 1 ≠ 0 (der er en lineær sammenhæng). Per definition t-statistik er lig med forskellen mellem stikprøvehældningen og den hypotetiske populationshældning, divideret med standardfejlen for hældningsestimatet:

(11) t = (b 1 β 1 ) / Sb 1

hvor b 1 er hældningen af ​​den direkte regression baseret på stikprøvedata, β1 er den hypotetiske hældning af den direkte generelle befolkning, og teststatistikker t Det har t- distribution med n - 2 grader af frihed.

Lad os tjekke, om der er en statistisk signifikant sammenhæng mellem butiksstørrelse og årligt salg ved α = 0,05. t-kriterier vises sammen med andre parametre ved brug Analysepakke(mulighed Regression). De fulde resultater af analysepakken er vist i fig. 4, et fragment relateret til t-statistik - i fig. atten.

Ris. 18. Ansøgningsresultater t

Fordi antallet af butikker n= 14 (se fig. 3), kritisk værdi t-statistik på et signifikansniveau α = 0,05 kan findes ved formlen: t L=STUDENT.INV(0,025;12) = -2,1788 hvor 0,025 er halvdelen af ​​signifikansniveauet og 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Fordi t-statistik = 10,64 > t U= 2,1788 (fig. 19), nulhypotese H 0 er afvist. På den anden side, R-værdi for x\u003d 10.6411, beregnet ved formlen \u003d 1-STUDENT.DIST (D3, 12, TRUE), er omtrent lig nul, så hypotesen H 0 bliver afvist igen. Det faktum, at R-værdien er næsten nul, hvilket betyder, at hvis der ikke var nogen reel lineær sammenhæng mellem butiksstørrelse og årlige salg, ville det være næsten umuligt at finde det ved hjælp af lineær regression. Derfor er der en statistisk signifikant lineær sammenhæng mellem det gennemsnitlige årlige butikssalg og butiksstørrelse.

Ris. 19. Test af hypotesen om hældningen af ​​den almindelige befolkning ved et signifikansniveau på 0,05 og 12 frihedsgrader

AnsøgningF -kriterier for hældning. En alternativ tilgang til at teste hypoteser om hældningen af ​​en simpel lineær regression er at bruge F-kriterier. Husk det F-criterion bruges til at teste forholdet mellem to varianser (se detaljer). Når man tester hældningshypotesen, er målet for tilfældige fejl fejlvariansen (summen af ​​kvadratiske fejl divideret med antallet af frihedsgrader), så F-test bruger forholdet mellem variansen forklaret af regressionen (dvs. værdierne SSR divideret med antallet af uafhængige variable k), til fejlafvigelsen ( MSE=SYx 2 ).

Per definition F-statistik er lig med de gennemsnitlige kvadrerede afvigelser på grund af regression (MSR) divideret med fejlvariansen (MSE): F = MSR/ MSE, hvor MSR=SSR / k, MSE =SSE/(n– k – 1), k er antallet af uafhængige variable i regressionsmodellen. Test statistik F Det har F- distribution med k og n– k – 1 grader af frihed.

For et givet signifikansniveau α er beslutningsreglen formuleret således: hvis F > FU, nulhypotesen forkastes; ellers afvises det ikke. Resultaterne, præsenteret i form af en oversigtstabel over variansanalysen, er vist i fig. tyve.

Ris. 20. Tabel over variansanalyse for at teste hypotesen om den statistiske signifikans af regressionskoefficienten

Tilsvarende t-kriterium F-kriterier vises i tabellen ved brug Analysepakke(mulighed Regression). Fuldstændige resultater af arbejdet Analysepakke vist i fig. 4, fragment relateret til F-statistik - i fig. 21.

Ris. 21. Ansøgningsresultater F- Kriterier opnået ved hjælp af Excel Analysis ToolPack

F-statistik er 113,23 og R-værdi tæt på nul (celle BetydningF). Hvis signifikansniveauet α er 0,05, bestemmes den kritiske værdi F-fordelinger med en og 12 frihedsgrader kan fås fra formlen F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (fig. 22). Fordi F = 113,23 > F U= 4,7472 og R-værdi tæt på 0< 0,05, нулевая гипотеза H 0 afviger, dvs. Størrelsen af ​​en butik er tæt forbundet med dens årlige salgsvolumen.

Ris. 22. Test af hypotesen om hældningen af ​​den generelle befolkning på et signifikansniveau på 0,05, med en og 12 frihedsgrader

Konfidensinterval indeholdende hældning β 1 . For at teste hypotesen om eksistensen af ​​en lineær sammenhæng mellem variable, kan du bygge et konfidensinterval indeholdende hældningen β 1 og sikre dig, at den hypotetiske værdi β 1 = 0 hører til dette interval. Centrum af konfidensintervallet, der indeholder hældningen β 1, er prøvehældningen b 1 , og dens grænser er mængderne b 1 ±t n –2 Sb 1

Som vist i fig. atten, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Følgelig, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, eller + 1,328 ≤ β1 ≤ +2,012. Hældningen af ​​befolkningen med en sandsynlighed på 0,95 ligger således i området fra +1,328 til +2,012 (dvs. fra $1.328.000 til $2.012.000). Fordi disse værdier er større end nul, er der en statistisk signifikant lineær sammenhæng mellem årligt salg og butiksareal. Hvis konfidensintervallet indeholdt nul, ville der ikke være nogen sammenhæng mellem variablerne. Derudover betyder konfidensintervallet, at hver 1.000 kvm. fødder resulterer i en stigning i det gennemsnitlige salg på $1.328.000 til $2.012.000.

Brugt -kriterier for korrelationskoefficienten. korrelationskoefficient blev indført r, som er et mål for forholdet mellem to numeriske variable. Det kan bruges til at afgøre, om der er en statistisk signifikant sammenhæng mellem to variable. Lad os betegne korrelationskoefficienten mellem populationerne af begge variable med symbolet ρ. Nul- og alternativhypoteserne er formuleret som følger: H 0: ρ = 0 (ingen korrelation), H 1: ρ ≠ 0 (der er en sammenhæng). Kontrol af, om der findes en sammenhæng:

hvor r = + , hvis b 1 > 0, r = – , hvis b 1 < 0. Тестовая статистика t Det har t- distribution med n - 2 grader af frihed.

I problemet med butikskæden Sunflowers r2= 0,904, og b 1- +1,670 (se fig. 4). Fordi b 1> 0, er korrelationskoefficienten mellem årligt salg og butiksstørrelse r= +√0,904 = +0,951. Lad os teste nulhypotesen om, at der ikke er nogen sammenhæng mellem disse variable ved hjælp af t- Statistikker:

Ved et signifikansniveau på α = 0,05 bør nulhypotesen forkastes pga. t= 10,64 > 2,1788. Der kan således argumenteres for, at der er en statistisk signifikant sammenhæng mellem årligt salg og butiksstørrelse.

Når man diskuterer slutninger om befolkningshældninger, er konfidensintervaller og kriterier for test af hypoteser udskiftelige værktøjer. Beregningen af ​​konfidensintervallet, der indeholder korrelationskoefficienten, viser sig imidlertid at være vanskeligere, da formen for stikprøvefordelingen af ​​statistikken r afhænger af den sande korrelationskoefficient.

Estimering af matematisk forventning og forudsigelse af individuelle værdier

Dette afsnit diskuterer metoder til at estimere den forventede respons Y og forudsigelser af individuelle værdier Y for givne værdier af variablen x.

Konstruktion af et konfidensinterval. I eksempel 2 (se afsnittet ovenfor Mindste kvadratisk metode) regressionsligningen gjorde det muligt at forudsige variablens værdi Y x. I problemet med at vælge en placering til en detailforretning er det gennemsnitlige årlige salg i en butik med et areal på 4000 kvm. fod var lig med 7,644 millioner dollars, men dette estimat af den generelle befolknings matematiske forventning er et punkt. for at estimere den matematiske forventning hos den generelle befolkning blev konceptet med et konfidensinterval foreslået. På samme måde kan man introducere begrebet konfidensinterval for den matematiske forventning til svaret for en given værdi af en variabel x:

hvor , = b 0 + b 1 X i– forudsagt værdivariabel Yx = X i, S YX er den gennemsnitlige kvadratfejl, n er prøvestørrelsen, xjeg- den givne værdi af variablen x, µ Y|x = xjeg– matematisk forventning til en variabel Yx = Х i,SSX=

Analyse af formel (13) viser, at bredden af ​​konfidensintervallet afhænger af flere faktorer. Ved et givet signifikansniveau fører en stigning i amplituden af ​​fluktuationer omkring regressionslinjen, målt ved hjælp af middelkvadratfejlen, til en stigning i intervallets bredde. På den anden side, som forventet, er en stigning i stikprøvestørrelsen ledsaget af en indsnævring af intervallet. Derudover ændres intervallets bredde afhængigt af værdierne xjeg. Hvis værdien af ​​variablen Y forudsagt for mængder x, tæt på gennemsnitsværdien , viser konfidensintervallet sig at være smallere end ved forudsigelse af responsen for værdier langt fra middelværdien.

Lad os sige, at når vi vælger en placering til en butik, ønsker vi at bygge et 95% konfidensinterval for det gennemsnitlige årlige salg i alle butikker med et areal på 4000 kvadratmeter. fødder:

Derfor den gennemsnitlige årlige salgsvolumen i alle butikker med et areal på 4.000 kvadratmeter. fod, med en 95% sandsynlighed ligger i området fra 6,971 til 8,317 millioner dollars.

Beregn konfidensintervallet for den forudsagte værdi. Ud over konfidensintervallet for den matematiske forventning af svaret for en given værdi af variablen x, er det ofte nødvendigt at kende konfidensintervallet for den forudsagte værdi. Selvom formlen til beregning af et sådant konfidensinterval er meget lig formel (13), indeholder dette interval en forudsagt værdi og ikke et estimat af parameteren. Interval for forudsagt respons Yx = Xi for en bestemt værdi af variablen xjeg bestemmes af formlen:

Lad os antage, at når vi vælger en lokation til en detailforretning, ønsker vi at bygge et 95 % konfidensinterval for den forventede årlige salgsvolumen i en butik med et areal på 4000 kvadratmeter. fødder:

Derfor er det forudsagte årlige salgsvolumen for en 4.000 kvm. fod, med en 95 % sandsynlighed ligger i intervallet fra 5,433 til 9,854 millioner dollars. Som du kan se, er konfidensintervallet for den forudsagte svarværdi meget bredere end konfidensintervallet for dens matematiske forventning. Dette skyldes, at variabiliteten i at forudsige individuelle værdier er meget større end ved at estimere den forventede værdi.

Faldgruber og etiske problemstillinger forbundet med brugen af ​​regression

Vanskeligheder forbundet med regressionsanalyse:

  • Ignorerer betingelserne for anvendelighed af metoden med mindste kvadrater.
  • Et fejlagtigt skøn over betingelserne for anvendelighed af mindste kvadraters metode.
  • Forkert valg af alternative metoder i strid med betingelserne for anvendelighed af mindste kvadraters metode.
  • Anvendelse af regressionsanalyse uden indgående kendskab til studieemnet.
  • Ekstrapolering af regressionen uden for rækkevidden af ​​den forklarende variabel.
  • Forvirring mellem statistiske og kausale sammenhænge.

Den udbredte brug af regneark og statistisk software har elimineret de beregningsmæssige problemer, der forhindrede brugen af ​​regressionsanalyse. Dette førte dog til, at regressionsanalyse begyndte at blive brugt af brugere, der ikke har tilstrækkelige kvalifikationer og viden. Hvordan kender brugerne til alternative metoder, hvis mange af dem slet ikke har nogen idé om betingelserne for anvendeligheden af ​​mindste kvadraters metode og ikke ved, hvordan de skal kontrollere deres implementering?

Forskeren skal ikke lade sig rive med af slibning af tal - udregning af forskydning, hældning og blandet korrelationskoefficient. Han har brug for dybere viden. Lad os illustrere dette med et klassisk eksempel hentet fra lærebøger. Anscombe viste, at alle fire datasæt vist i fig. 23 har de samme regressionsparametre (fig. 24).

Ris. 23. Fire kunstige datasæt

Ris. 24. Regressionsanalyse af fire kunstige datasæt; færdig med Analysepakke(klik på billedet for at forstørre billedet)

Så fra et synspunkt om regressionsanalyse er alle disse datasæt fuldstændig identiske. Hvis analysen sluttede der, ville vi miste en masse nyttig information. Dette fremgår af spredningsplottene (fig. 25) og resterende plots (fig. 26) konstrueret for disse datasæt.

Ris. 25. Spredningsplot for fire datasæt

Spredningsplot og restplot viser, at disse data er forskellige fra hinanden. Den eneste mængde fordelt langs en ret linje er sæt A. Plottet af residualerne beregnet ud fra mængde A har intet mønster. Det samme kan ikke siges for sæt B, C og D. Spredningsplottet plottet for sæt B viser et udtalt kvadratisk mønster. Denne konklusion bekræftes af plottet af residualer, som har en parabolsk form. Spredningsplottet og restplottet viser, at datasæt B indeholder en outlier. I denne situation er det nødvendigt at udelukke outlieren fra datasættet og gentage analysen. Teknikken til at detektere og eliminere outliers fra observationer kaldes indflydelsesanalyse. Efter eliminering af outlieren kan resultatet af re-evalueringen af ​​modellen være helt anderledes. Et scatterplot plottet fra datasæt D illustrerer en usædvanlig situation, hvor den empiriske model er meget afhængig af et enkelt svar ( X 8 = 19, Y 8 = 12,5). Sådanne regressionsmodeller skal beregnes særligt omhyggeligt. Så scatter- og residualplot er et vigtigt værktøj til regressionsanalyse og bør være en integreret del af det. Uden dem er regressionsanalyse ikke troværdig.

Ris. 26. Plots af residualer for fire datasæt

Sådan undgår du faldgruber i regressionsanalyse:

  • Analyse af den mulige sammenhæng mellem variable x og Y start altid med et scatterplot.
  • Før du fortolker resultaterne af en regressionsanalyse, skal du kontrollere betingelserne for dens anvendelighed.
  • Plot residualerne versus den uafhængige variabel. Dette vil give os mulighed for at bestemme, hvor godt den empiriske model svarer til resultaterne af observation, og at opdage en krænkelse af variansens konstantitet.
  • Brug histogrammer, stængel- og bladplot, boksplot og normalfordelingsplot til at teste antagelsen om en normalfordeling af fejl.
  • Hvis anvendelighedsbetingelserne for mindste kvadraters metode ikke er opfyldt, skal du bruge alternative metoder (f.eks. kvadratiske eller multiple regressionsmodeller).
  • Hvis anvendelighedsbetingelserne for mindste kvadraters metode er opfyldt, er det nødvendigt at teste hypotesen om den statistiske signifikans af regressionskoefficienterne og konstruere konfidensintervaller indeholdende den matematiske forventning og den forudsagte responsværdi.
  • Undgå at forudsige afhængige variabelværdier uden for intervallet for den uafhængige variabel.
  • Husk, at statistiske afhængigheder ikke altid er kausale. Husk, at korrelation mellem variabler ikke betyder, at der er en årsagssammenhæng mellem dem.

Resumé. Som vist i blokdiagrammet (fig. 27) beskriver noten en simpel lineær regressionsmodel, betingelserne for dens anvendelighed og måder at teste disse forhold på. Taget i betragtning t-kriterium for at teste den statistiske signifikans af regressionshældningen. En regressionsmodel blev brugt til at forudsige værdierne af den afhængige variabel. Et eksempel vurderes relateret til valget af et sted for en detailforretning, hvor afhængigheden af ​​den årlige salgsmængde af butiksarealet undersøges. De opnåede oplysninger giver dig mulighed for mere præcist at vælge en placering til butikken og forudsige dens årlige salg. I de følgende noter vil diskussionen om regressionsanalyse fortsætte, såvel som flere regressionsmodeller.

Ris. 27. Blokdiagram af en note

Materialer fra bogen Levin m.fl. Der anvendes statistik for ledere. - M.: Williams, 2004. - s. 792-872

Hvis den afhængige variabel er kategorisk, skal der anvendes logistisk regression.