Løs et system med lineære ligninger ved å bruke minste kvadraters metode. Minste kvadratiske metode

Minste kvadraters metode (OLS, eng. Ordinary Least Squares, OLS)- en matematisk metode som brukes til å løse ulike problemer, basert på å minimere summen av kvadrerte avvik for enkelte funksjoner fra de ønskede variablene. Det kan brukes til å "løse" overbestemte ligningssystemer (når antall ligninger overstiger antall ukjente), for å finne en løsning i tilfellet med vanlige (ikke overbestemte) ikke-lineære ligningssystemer, for å tilnærme punktverdiene av en bestemt funksjon. OLS er en av de grunnleggende metodene for regresjonsanalyse for å estimere ukjente parametere for regresjonsmodeller fra prøvedata.

Encyklopedisk YouTube

    1 / 5

    ✪ Minste kvadraters metode. Emne

    ✪ Mitin I.V. - Behandling av resultatene av fysisk. eksperiment - Minste kvadraters metode (forelesning 4)

    ✪ Minste ruter, leksjon 1/2. Lineær funksjon

    ✪ Økonometri. Forelesning 5. Minste kvadraters metode

    ✪ Minste kvadraters metode. Svar

    Undertekster

Historie

Fram til begynnelsen av XIX århundre. forskere hadde ikke visse regler for å løse et ligningssystem der antallet ukjente er mindre enn antallet ligninger; Inntil den tid ble det brukt spesielle metoder, avhengig av type ligninger og på oppfinnsomheten til kalkulatorene, og derfor kom forskjellige kalkulatorer, med utgangspunkt i de samme observasjonsdataene, til forskjellige konklusjoner. Gauss (1795) er kreditert med den første anvendelsen av metoden, og Legendre (1805) oppdaget uavhengig og publiserte den under sitt moderne navn (fr. Methode des moindres quarres). Laplace koblet metoden med sannsynlighetsteorien, og den amerikanske matematikeren Adrain (1808) vurderte dens sannsynlige anvendelser. Metoden er utbredt og forbedret ved videre forskning av Encke, Bessel, Hansen og andre.

Essensen av metoden for minste kvadrater

La x (\displaystyle x)- sett n (\displaystyle n) ukjente variabler (parametere), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- sett med funksjoner fra dette settet med variabler. Problemet er å velge slike verdier x (\displaystyle x) slik at verdiene til disse funksjonene er så nær noen verdier som mulig y i (\displaystyle y_(i)). I hovedsak snakker vi om "løsningen" av det overbestemte likningssystemet f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) i den angitte forstand, maksimal nærhet til venstre og høyre del av systemet. Essensen av LSM er å velge som et "mål for nærhet" summen av de kvadrerte avvikene til venstre og høyre del | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Dermed kan essensen av LSM uttrykkes som følger:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\høyrepil \min _(x)).

Hvis ligningssystemet har en løsning, vil minimumssummen av kvadrater være lik null og eksakte løsninger av ligningssystemet kan finnes analytisk eller for eksempel ved forskjellige numeriske optimaliseringsmetoder. Hvis systemet er overbestemt, det vil si at antallet uavhengige ligninger er større enn antallet ukjente variabler, så har ikke systemet en eksakt løsning og minste kvadraters metoden lar oss finne en "optimal" vektor x (\displaystyle x) i betydningen maksimal nærhet til vektorene y (\displaystyle y) Og f (x) (\displaystyle f(x)) eller maksimal nærhet til avviksvektoren e (\displaystyle e) til null (nærhet forstås i betydningen euklidisk avstand).

Eksempel - system av lineære ligninger

Spesielt kan minste kvadraters metode brukes til å "løse" systemet med lineære ligninger

A x = b (\displaystyle Ax=b),

Hvor A (\displaystyle A) rektangulær størrelse matrise m × n , m > n (\displaystyle m\ ganger n,m>n)(dvs. antall rader i matrise A er større enn antall nødvendige variabler).

Et slikt ligningssystem har generelt ingen løsning. Derfor kan dette systemet bare "løses" i betydningen å velge en slik vektor x (\displaystyle x) for å minimere "avstanden" mellom vektorer A x (\displaystyle Axe) Og b (\displaystyle b). For å gjøre dette kan du bruke kriteriet for å minimere summen av kvadrerte forskjeller til venstre og høyre del av likningene til systemet, dvs. (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\høyrepil \min ). Det er lett å vise at løsningen av dette minimeringsproblemet fører til løsningen av følgende ligningssystem

A T A x = A T b ⇒ x = (AT A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Høyrepil x=(A^(T)A)^(-1)A^ (T)b).

OLS i regresjonsanalyse (datatilnærming)

La det være n (\displaystyle n) verdier av en variabel y (\displaystyle y)(dette kan være resultatene av observasjoner, eksperimenter osv.) og de tilsvarende variablene x (\displaystyle x). Utfordringen er å lage forholdet mellom y (\displaystyle y) Og x (\displaystyle x) tilnærmet med en funksjon kjent opp til noen ukjente parametere b (\displaystyle b), det vil si faktisk finne de beste verdiene av parameterne b (\displaystyle b), maksimalt tilnærmet verdiene f (x, b) (\displaystyle f(x,b)) til faktiske verdier y (\displaystyle y). Dette reduserer faktisk til tilfellet med "løsning" av et overbestemt likningssystem mht. b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

I regresjonsanalyse, og spesielt i økonometri, brukes sannsynlighetsmodeller for forholdet mellom variabler.

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Hvor ε t (\displaystyle \varepsilon _(t))-så kalt tilfeldige feil modeller.

Følgelig er avvikene til de observerte verdiene y (\displaystyle y) fra modell f (x, b) (\displaystyle f(x,b)) allerede antatt i selve modellen. Essensen av LSM (vanlig, klassisk) er å finne slike parametere b (\displaystyle b), hvor summen av kvadrerte avvik (feil, for regresjonsmodeller kalles de ofte regresjonsrester) e t (\displaystyle e_(t)) vil være minimal:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Hvor R S S (\displaystyle RSS)- Engelsk. Restsum av kvadrater er definert som:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

I det generelle tilfellet kan dette problemet løses med numeriske metoder for optimalisering (minimering). I dette tilfellet snakker man om ikke-lineære minste kvadrater(NLS eller NLLS - eng. Ikke-lineære minste kvadrater). I mange tilfeller kan en analytisk løsning oppnås. For å løse minimeringsproblemet er det nødvendig å finne de stasjonære punktene til funksjonen R S S (b) (\displaystyle RSS(b)), og differensierer den med hensyn til ukjente parametere b (\displaystyle b), likestille de deriverte til null og løse det resulterende ligningssystemet:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\delvis f(x_(t),b))(\delvis b))=0).

LSM ved lineær regresjon

La regresjonsavhengigheten være lineær:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

La y er kolonnevektoren for observasjoner av variabelen som forklares, og X (\displaystyle X)- Dette (n × k) (\displaystyle ((n\ ganger k)))- matrise av faktorobservasjoner (rader av matrisen - vektorer av faktorverdier i en gitt observasjon, etter kolonner - vektor av verdier for en gitt faktor i alle observasjoner). Matriserepresentasjonen av den lineære modellen har formen:

y = Xb + ε (\displaystyle y=Xb+\varepsilon ).

Da vil vektoren av estimater for den forklarte variabelen og vektoren for regresjonsresidier være lik

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

følgelig vil summen av kvadratene til regresjonsrestene være lik

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Differensiere denne funksjonen med hensyn til parametervektoren b (\displaystyle b) og ved å likestille de deriverte til null, får vi et system av ligninger (i matriseform):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

I den dechiffrerte matriseformen ser dette ligningssystemet slik ut:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 1 x t 3 … 2 x t ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 k 2) (b 1 k 2) (b 1 k 2) t ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_(tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk)\\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3) )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix)),) hvor alle summer tas over alle tillatte verdier t (\displaystyle t).

Hvis en konstant er inkludert i modellen (som vanlig), da x t 1 = 1 (\displaystyle x_(t1)=1) for alle t (\displaystyle t), derfor, i øvre venstre hjørne av matrisen til ligningssystemet er antall observasjoner n (\displaystyle n), og i de gjenværende elementene i den første raden og den første kolonnen - bare summen av verdiene til variablene: ∑ x t j (\displaystyle \sum x_(tj)) og det første elementet på høyre side av systemet - ∑ y t (\displaystyle \sum y_(t)).

Løsningen av dette ligningssystemet gir den generelle formelen for minste kvadraters estimater for den lineære modellen:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\venstre((\frac (1)(n))X^(T)X\høyre)^(-1)(\frac (1)(n) ))X^(T)y=V_(x)^(-1)C_(xy)).

For analytiske formål viser den siste representasjonen av denne formelen seg å være nyttig (i ligningssystemet når de er delt på n, vises aritmetiske midler i stedet for summer). Hvis dataene i regresjonsmodellen sentrert, så i denne representasjonen har den første matrisen betydningen av prøvens kovariansmatrise av faktorer, og den andre er vektoren av kovariansene til faktorer med avhengig variabel. Hvis i tillegg dataene også er normalisert på SKO (det vil si til syvende og sist standardisert), så har den første matrisen betydningen av prøvekorrelasjonsmatrisen av faktorer, den andre vektoren - vektoren av prøvekorrelasjoner av faktorer med den avhengige variabelen.

En viktig egenskap ved LLS estimater for modeller med en konstant- linjen til den konstruerte regresjonen går gjennom tyngdepunktet til prøvedataene, det vil si at likheten er oppfylt:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).

Spesielt i det ekstreme tilfellet, når den eneste regressoren er en konstant, finner vi at OLS-estimatet for en enkelt parameter (konstanten i seg selv) er lik middelverdien til variabelen som forklares. Det vil si at det aritmetiske gjennomsnittet, kjent for sine gode egenskaper fra lovene for store tall, også er et minstekvadrat-estimat - det tilfredsstiller kriteriet for minimumssummen av kvadrerte avvik fra det.

De enkleste spesialtilfellene

Ved parvis lineær regresjon y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), når den lineære avhengigheten til en variabel av en annen estimeres, forenkles beregningsformlene (du kan klare deg uten matrisealgebra). Ligningssystemet har formen:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

Herfra er det enkelt å finne estimater for koeffisientene:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline) (xy))-(\bar (x))(\bar (y)))((\overlinje (x^(2)))-(\overlinje (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

Til tross for at i det generelle tilfellet er modeller med konstant å foretrekke, er det i noen tilfeller kjent fra teoretiske betraktninger at konstanten a (\displaystyle a) skal være lik null. For eksempel i fysikk har forholdet mellom spenning og strøm formen U = I ⋅ R (\displaystyle U=I\cdot R); måle spenning og strøm, er det nødvendig å estimere motstanden. I dette tilfellet snakker vi om en modell y = b x (\displaystyle y=bx). I dette tilfellet, i stedet for et ligningssystem, har vi en enkelt ligning

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Derfor har formelen for å estimere en enkelt koeffisient formen

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Tilfellet av en polynommodell

Hvis dataene er tilpasset av en polynomregresjonsfunksjon av én variabel f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), deretter oppfatte grader x i (\displaystyle x^(i)) som uavhengige faktorer for hver i (\displaystyle i) det er mulig å estimere parametrene til modellen basert på den generelle formelen for å estimere parametrene til den lineære modellen. For å gjøre dette, er det tilstrekkelig å ta hensyn til i den generelle formelen at med en slik tolkning x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) Og x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Derfor vil matriseligningene i dette tilfellet ha formen:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x i 2 … ∑ m x i k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … x t = b t k + 1 … ∑ [ ∑ n y t ∑ n x t y t ⋮ ∑ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ sum \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrise)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrise)).)

Statistiske egenskaper for OLS-estimater

Først av alt, merker vi at for lineære modeller er minste kvadraters estimater lineære estimater, som følger av formelen ovenfor. For upartiskheten til minste kvadraters estimater er det nødvendig og tilstrekkelig å oppfylle den viktigste betingelsen for regresjonsanalyse: den matematiske forventningen til en tilfeldig feil betinget av faktorene må være lik null. Denne betingelsen er oppfylt, spesielt hvis

  1. den matematiske forventningen til tilfeldige feil er null, og
  2. Faktorer og tilfeldige feil er uavhengige tilfeldige verdier.

Den andre tilstanden - tilstanden til eksogene faktorer - er grunnleggende. Hvis denne egenskapen ikke er fornøyd, kan vi anta at nesten alle estimater vil være ekstremt utilfredsstillende: de vil ikke engang være konsistente (det vil si at selv en veldig stor mengde data ikke tillater å oppnå kvalitative estimater i dette tilfellet). I det klassiske tilfellet gjøres det en sterkere antagelse om faktorers determinisme, i motsetning til en tilfeldig feil, som automatisk betyr at den eksogene betingelsen er oppfylt. I det generelle tilfellet, for konsistensen av estimatene, er det tilstrekkelig å tilfredsstille eksogenitetsbetingelsen sammen med konvergensen til matrisen V x (\displaystyle V_(x)) til en ikke-degenerert matrise når prøvestørrelsen øker til uendelig.

For at estimatene for den (vanlige) LSM i tillegg til konsistensen og upartiskheten også skal være effektive (de beste i klassen av lineære objektive estimater), er det nødvendig å oppfylle tilleggsegenskapene til en tilfeldig feil:

Disse forutsetningene kan formuleres for kovariansmatrisen til vektoren av tilfeldige feil V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

En lineær modell som tilfredsstiller disse betingelsene kalles klassisk. Minste kvadraters estimatorer for klassisk lineær regresjon er objektive, konsistente og de mest effektive estimatorene i klassen av alle lineære upartiske estimatorer (forkortelsen blå (Beste lineære objektive estimator) er det beste lineære objektive estimatet; i innenlandsk litteratur blir Gauss - Markov-teoremet oftere sitert). Som det er lett å vise, vil kovariansmatrisen til koeffisientestimatvektoren være lik:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Effektivitet betyr at denne kovariansmatrisen er "minimal" (enhver lineær kombinasjon av koeffisienter, og spesielt koeffisientene i seg selv, har en minimumsvarians), det vil si at i klassen av lineære objektive estimater er OLS-estimatene de beste. De diagonale elementene i denne matrisen - variansene til estimatene av koeffisientene - er viktige parametere for kvaliteten på de oppnådde estimatene. Det er imidlertid ikke mulig å beregne kovariansmatrisen fordi den tilfeldige feilvariansen er ukjent. Det kan bevises at det objektive og konsistente (for den klassiske lineære modellen) estimatet av variansen til tilfeldige feil er verdien:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Ved å erstatte denne verdien i formelen for kovariansmatrisen får vi et estimat av kovariansmatrisen. De resulterende estimatene er også objektive og konsistente. Det er også viktig at estimatet av feilvariansen (og dermed variansene til koeffisientene) og estimatene av modellparametrene er uavhengige tilfeldige variabler, noe som gjør det mulig å få teststatistikk for å teste hypoteser om modellkoeffisientene.

Det skal bemerkes at hvis de klassiske forutsetningene ikke er oppfylt, er estimatene for minste kvadraters parameter ikke de mest effektive, og hvor W (\displaystyle W) er en symmetrisk positiv bestemt vektmatrise. Vanlige minste kvadrater er et spesielt tilfelle av denne tilnærmingen, når vektmatrisen er proporsjonal med identitetsmatrisen. Som kjent er det for symmetriske matriser (eller operatorer) en dekomponering W = P T P (\displaystyle W=P^(T)P). Derfor kan denne funksjonen representeres som følger e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), det vil si at denne funksjonelle kan representeres som summen av kvadratene til noen transformerte "rester". Dermed kan vi skille en klasse av minste kvadraters metoder - LS-metoder (minste kvadrater).

Det er bevist (Aitkens teorem) at for en generalisert lineær regresjonsmodell (der ingen restriksjoner er pålagt kovariansmatrisen av tilfeldige feil), er de mest effektive (i klassen av lineære objektive estimater) estimater av såkalte. generalisert OLS (OMNK, GLS - generaliserte minste kvadrater)- LS-metode med en vektmatrise lik den inverse kovariansmatrisen av tilfeldige feil: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Det kan vises at formelen for GLS-estimatene for parameterne til den lineære modellen har formen

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Kovariansmatrisen til disse estimatene vil henholdsvis være lik

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Faktisk ligger essensen av OLS i en viss (lineær) transformasjon (P) av de opprinnelige dataene og bruken av de vanlige minste kvadrater på de transformerte dataene. Hensikten med denne transformasjonen er at for de transformerte dataene tilfredsstiller de tilfeldige feilene allerede de klassiske forutsetningene.

Vekte minste kvadrater

Når det gjelder en diagonal vektmatrise (og derav kovariansmatrisen av tilfeldige feil), har vi de såkalte vektet minste kvadrater (WLS – Weighted Least Squares). I dette tilfellet minimeres den vektede summen av kvadrater av restene av modellen, det vil si at hver observasjon mottar en "vekt" som er omvendt proporsjonal med variansen til den tilfeldige feilen i denne observasjonen: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). Faktisk transformeres dataene ved å vekte observasjonene (dele med en mengde proporsjonal med det antatte standardavviket til de tilfeldige feilene), og normale minste kvadrater brukes på de vektede dataene.

ISBN 978-5-7749-0473-0.

  • Økonometri. Lærebok / Red. Eliseeva I. I. - 2. utg. - M. : Finans og statistikk, 2006. - 576 s. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Historie om matematiske termer, begreper, betegnelser: en ordbok-referansebok. - 3. utg. - M. : LKI, 2008. - 248 s. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Analyse og bearbeiding av eksperimentelle data - 5. utgave - 24p.
  • Som finner den bredeste anvendelsen innen ulike felt av vitenskap og praksis. Det kan være fysikk, kjemi, biologi, økonomi, sosiologi, psykologi og så videre og så videre. Etter skjebnens vilje må jeg ofte forholde meg til økonomien, og derfor vil jeg i dag ordne for deg en billett til et fantastisk land kalt Økonometri=) … Hvordan vil du ikke ha det?! Det er veldig bra der - du må bare bestemme deg! ...Men det du sannsynligvis vil er å lære å løse problemer minste kvadrater. Og spesielt flittige lesere vil lære å løse dem ikke bare nøyaktig, men også VELDIG RASK ;-) Men først generell problemstilling+ relatert eksempel:

    La indikatorer studeres innen et fagområde som har et kvantitativt uttrykk. Samtidig er det all grunn til å tro at indikatoren er avhengig av indikatoren. Denne antakelsen kan være både en vitenskapelig hypotese og basert på elementær sunn fornuft. La oss imidlertid legge vitenskapen til side og utforske mer appetittvekkende områder – nemlig dagligvarebutikker. Angi med:

    – butikkareal til en dagligvarebutikk, kvm,
    - årlig omsetning for en dagligvarebutikk, millioner rubler.

    Det er helt klart at jo større areal butikken er, jo større er omsetningen i de fleste tilfeller.

    Anta at etter å ha utført observasjoner / eksperimenter / beregninger / dans med en tamburin, har vi numeriske data til vår disposisjon:

    Med dagligvarebutikker tror jeg alt er klart: - dette er arealet til den første butikken, - dens årlige omsetning, - arealet til den andre butikken, - dens årlige omsetning, etc. Forresten, det er slett ikke nødvendig å ha tilgang til klassifisert materiale - en ganske nøyaktig vurdering av omsetningen kan fås ved å bruke matematisk statistikk. Imidlertid, ikke bli distrahert, løpet av kommersiell spionasje er allerede betalt =)

    Tabelldata kan også skrives i form av punkter og avbildes på vanlig måte for oss. Kartesisk system .

    La oss svare på et viktig spørsmål: hvor mange poeng trengs for en kvalitativ studie?

    Jo større jo bedre. Minste tillatte sett består av 5-6 poeng. I tillegg, med en liten mengde data, bør ikke "unormale" resultater inkluderes i utvalget. Så, for eksempel, kan en liten elitebutikk hjelpe størrelsesordener mer enn "deres kolleger", og dermed forvrenge det generelle mønsteret som må finnes!

    Hvis det er ganske enkelt, må vi velge en funksjon, rute som passerer så nærme punktene som mulig . En slik funksjon kalles tilnærmet (tilnærming - tilnærming) eller teoretisk funksjon . Generelt sett vises her umiddelbart en åpenbar "pretender" - et polynom av høy grad, hvis graf går gjennom ALLE punkter. Men dette alternativet er komplisert, og ofte rett og slett feil. (fordi diagrammet vil "vinde" hele tiden og reflekterer hovedtrenden dårlig).

    Dermed må den ønskede funksjonen være tilstrekkelig enkel og samtidig reflektere avhengigheten tilstrekkelig. Som du kanskje gjetter, kalles en av metodene for å finne slike funksjoner minste kvadrater. La oss først analysere essensen på en generell måte. La en funksjon tilnærme de eksperimentelle dataene:


    Hvordan evaluere nøyaktigheten av denne tilnærmingen? La oss også beregne forskjellene (avvikene) mellom de eksperimentelle og funksjonelle verdiene (vi studerer tegningen). Den første tanken som dukker opp er å anslå hvor stor summen er, men problemet er at forskjellene kan være negative. (For eksempel, ) og avvik som følge av slik summering vil oppheve hverandre. Derfor, som et estimat for nøyaktigheten av tilnærmingen, foreslår den seg selv å ta summen moduler avvik:

    eller i foldet form: (plutselig, hvem vet ikke: er sum-ikonet, og er en hjelpevariabel - "teller", som tar verdier fra 1 til ).

    Ved å tilnærme de eksperimentelle punktene med forskjellige funksjoner, vil vi få forskjellige verdier av , og det er åpenbart at der denne summen er mindre, er denne funksjonen mer nøyaktig.

    En slik metode finnes og kalles minste modul metoden. Men i praksis har det blitt mye mer utbredt. minste kvadrat-metoden, der mulige negative verdier elimineres ikke av modulen, men ved å kvadrere avvikene:

    , hvoretter innsatsen rettes mot valg av en slik funksjon at summen av kvadrerte avvik var så liten som mulig. Faktisk, derav navnet på metoden.

    Og nå kommer vi tilbake til et annet viktig poeng: som nevnt ovenfor skal den valgte funksjonen være ganske enkel - men det er også mange slike funksjoner: lineær , hyperbolsk, eksponentiell, logaritmisk, kvadratisk etc. Og her vil jeg selvsagt umiddelbart «redusere aktivitetsfeltet». Hvilken klasse funksjoner å velge for forskning? Primitiv, men effektiv teknikk:

    - Den enkleste måten å trekke poeng på på tegningen og analyser deres plassering. Hvis de har en tendens til å være i en rett linje, bør du se etter rettlinjeligning med optimale verdier og . Oppgaven er med andre ord å finne SLIKE koeffisienter – slik at summen av de kvadrerte avvikene blir minst.

    Hvis punktene er plassert, for eksempel langs overdrivelse, så er det klart at den lineære funksjonen vil gi en dårlig tilnærming. I dette tilfellet ser vi etter de mest "gunstige" koeffisientene for hyperbelligningen - de som gir minimumsummen av kvadrater .

    Legg nå merke til at i begge tilfeller snakker vi om funksjoner til to variabler, hvis argumenter er søkte på avhengighetsalternativer:

    Og i hovedsak må vi løse et standardproblem - å finne minimum av en funksjon av to variabler.

    Husk eksempelet vårt: anta at "butikk"-punktene har en tendens til å være plassert i en rett linje, og det er all grunn til å tro at de er tilstede lineær avhengighet omsetning fra handelsområdet. La oss finne SLIKE koeffisienter "a" og "være" slik at summen av kvadrerte avvik var den minste. Alt som vanlig - først partielle derivater av 1. orden. I følge linearitetsregel du kan skille rett under sum-ikonet:

    Hvis du ønsker å bruke denne informasjonen til et essay eller en semesteroppgave, vil jeg være veldig takknemlig for lenken i kildelisten, du finner ikke slike detaljerte beregninger noe sted:

    La oss lage et standard system:

    Vi reduserer hver ligning med en "to", og i tillegg "bryter vi fra hverandre" summene:

    Merk : analyser uavhengig hvorfor "a" og "be" kan tas ut av sumikonet. Forresten, formelt sett kan dette gjøres med summen

    La oss omskrive systemet i en "anvendt" form:

    hvoretter algoritmen for å løse problemet vårt begynner å bli tegnet:

    Kjenner vi koordinatene til punktene? Vi vet. Summer kan vi finne? Enkelt. Vi komponerer det enkleste system av to lineære ligninger med to ukjente("a" og "beh"). Vi løser systemet f.eks. Cramers metode, noe som resulterer i et stasjonært punkt . Sjekker tilstrekkelig tilstand for et ekstremum, kan vi bekrefte at funksjonen på dette tidspunktet når presist minimum. Verifikasjon er forbundet med tilleggsberegninger og derfor vil vi legge det bak kulissene. (om nødvendig kan den manglende rammen sees). Vi trekker den endelige konklusjonen:

    Funksjon den beste måten (i det minste sammenlignet med en hvilken som helst annen lineær funksjon) bringer eksperimentelle poeng nærmere . Grovt sett passerer grafen så nært disse punktene som mulig. I tradisjon økonometri den resulterende tilnærmelsesfunksjonen kalles også paret lineær regresjonsligning .

    Problemet som vurderes er av stor praktisk betydning. I situasjonen med vårt eksempel, ligningen lar deg forutsi hva slags omsetning ("yig") vil være på butikken med en eller annen verdi av salgsarealet (en eller annen betydning av "x"). Ja, den resulterende prognosen vil bare være en prognose, men i mange tilfeller vil den vise seg å være ganske nøyaktig.

    Jeg vil analysere bare ett problem med "ekte" tall, siden det ikke er noen vanskeligheter med det - alle beregninger er på nivå med skolepensum i klasse 7-8. I 95 prosent av tilfellene vil du bli bedt om å finne bare en lineær funksjon, men helt på slutten av artikkelen vil jeg vise at det ikke er vanskeligere å finne ligningene for den optimale hyperbelen, eksponenten og noen andre funksjoner.

    Faktisk gjenstår det å distribuere de lovede godsakene - slik at du lærer hvordan du løser slike eksempler ikke bare nøyaktig, men også raskt. Vi studerer standarden nøye:

    Oppgave

    Som et resultat av å studere forholdet mellom to indikatorer, ble følgende tallpar oppnådd:

    Bruk minste kvadraters metode, finn den lineære funksjonen som best tilnærmer empirien (opplevde) data. Lag en tegning som, i et kartesisk rektangulært koordinatsystem, plotter eksperimentelle punkter og en graf over den tilnærmede funksjonen . Finn summen av kvadrerte avvik mellom empiriske og teoretiske verdier. Finn ut om funksjonen er bedre (i form av minste kvadraters metode) omtrentlige eksperimentelle poeng.

    Merk at "x"-verdier er naturlige verdier, og dette har en karakteristisk meningsfull betydning, som jeg vil snakke om litt senere; men de kan selvfølgelig være brøkdeler. I tillegg, avhengig av innholdet i en bestemt oppgave, kan både "X" og "G" verdier være helt eller delvis negative. Vel, vi har fått en "ansiktsløs" oppgave, og vi starter den løsning:

    Vi finner koeffisientene til den optimale funksjonen som en løsning på systemet:

    For en mer kompakt notasjon kan "teller"-variabelen utelates, siden det allerede er klart at summeringen utføres fra 1 til .

    Det er mer praktisk å beregne de nødvendige beløpene i tabellform:


    Beregninger kan utføres på en mikrokalkulator, men det er mye bedre å bruke Excel - både raskere og uten feil; se en kort video:

    Dermed får vi følgende system:

    Her kan du gange den andre ligningen med 3 og trekk 2. fra 1. ligning ledd for ledd. Men dette er flaks - i praksis er systemer ofte ikke begavede, og i slike tilfeller sparer det Cramers metode:
    , så systemet har en unik løsning.

    La oss ta en sjekk. Jeg forstår at jeg ikke vil, men hvorfor hoppe over feil der du absolutt ikke kan gå glipp av dem? Erstatt den funnet løsningen på venstre side av hver likning av systemet:

    De riktige delene av de tilsvarende ligningene oppnås, noe som betyr at systemet er løst riktig.

    Dermed vil den ønskede tilnærmelsesfunksjonen: – fra alle lineære funksjoner eksperimentelle data er best tilnærmet med det.

    I motsetning til rett avhengighet av butikkens omsetning på sitt område, er den funnet avhengighet omvendt (prinsippet "jo mer - jo mindre"), og dette faktum avsløres umiddelbart av det negative vinkelkoeffisient. Funksjon informerer oss om at med en økning i en viss indikator med 1 enhet, synker verdien av den avhengige indikatoren gjennomsnitt med 0,65 enheter. Som de sier, jo høyere pris på bokhvete, jo mindre solgt.

    For å plotte den tilnærmede funksjonen finner vi to av dens verdier:

    og utfør tegningen:


    Den konstruerte linjen kalles trendlinje (nemlig en lineær trendlinje, dvs. i det generelle tilfellet er en trend ikke nødvendigvis en rett linje). Alle kjenner til uttrykket «å være i trend», og jeg tenker at dette begrepet ikke trenger ytterligere kommentarer.

    Regn ut summen av kvadrerte avvik mellom empiriske og teoretiske verdier. Geometrisk er dette summen av kvadratene av lengdene til de "crimson" segmentene (hvorav to er så små at du ikke engang kan se dem).

    La oss oppsummere beregningene i en tabell:


    De kan igjen utføres manuelt, i tilfelle jeg skal gi et eksempel for det første punktet:

    men det er mye mer effektivt å gjøre den allerede kjente måten:

    La oss gjenta: hva er meningen med resultatet? Fra alle lineære funksjoner funksjon eksponenten er den minste, det vil si at den er den beste tilnærmingen i familien. Og her, forresten, er det endelige spørsmålet om problemet ikke tilfeldig: hva om den foreslåtte eksponentielle funksjonen vil det være bedre å tilnærme de eksperimentelle punktene?

    La oss finne den tilsvarende summen av kvadrerte avvik - for å skille dem, vil jeg utpeke dem med bokstaven "epsilon". Teknikken er nøyaktig den samme:


    Og igjen for hver brannberegning for 1. poeng:

    I Excel bruker vi standardfunksjonen EXP (Syntaks finner du i Excel Hjelp).

    Konklusjon: , så eksponentialfunksjonen tilnærmer forsøkspunktene dårligere enn den rette linjen .

    Men det skal bemerkes her at "verre" er betyr ikke ennå, hva er galt. Nå har jeg bygget en graf av denne eksponentielle funksjonen – og den passerer også nærme punktene - så mye at uten en analytisk studie er det vanskelig å si hvilken funksjon som er mer nøyaktig.

    Dette fullfører løsningen, og jeg kommer tilbake til spørsmålet om naturverdiene til argumentet. I ulike studier er som regel økonomiske eller sosiologiske, måneder, år eller andre like tidsintervaller nummerert med naturlig "X". Tenk for eksempel på et slikt problem.

    Etter justering får vi en funksjon av følgende form: g (x) = x + 1 3 + 1 .

    Vi kan tilnærme disse dataene med en lineær sammenheng y = a x + b ved å beregne de riktige parameterne. For å gjøre dette må vi bruke den såkalte minste kvadraters metode. Du må også lage en tegning for å sjekke hvilken linje som best vil justere eksperimentelle data.

    Yandex.RTB R-A-339285-1

    Hva er egentlig OLS (minste kvadraters metode)

    Det viktigste vi må gjøre er å finne slike koeffisienter for lineær avhengighet der verdien av funksjonen til to variabler F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 vil være minste. Med andre ord, for visse verdier av a og b, vil summen av kvadrerte avvik av de presenterte dataene fra den resulterende rette linjen ha en minimumsverdi. Dette er meningen med minste kvadraters metode. Alt vi trenger å gjøre for å løse eksemplet er å finne ytterpunktet for funksjonen til to variabler.

    Hvordan utlede formler for beregning av koeffisienter

    For å utlede formler for beregning av koeffisientene, er det nødvendig å komponere og løse et likningssystem med to variabler. For å gjøre dette, beregner vi de partielle deriverte av uttrykket F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 med hensyn til a og b og likestiller dem til 0 .

    δ F (a, b) δ a = 0 δ F (a, b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ y i = ∑ y ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

    For å løse et ligningssystem kan du bruke hvilken som helst metode, for eksempel substitusjon eller Cramers metode. Som et resultat bør vi få formler som beregner koeffisientene ved å bruke minste kvadraters metode.

    n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n

    Vi har beregnet verdiene til variablene som funksjonen har
    F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 vil ta minimumsverdien. I tredje ledd skal vi bevise hvorfor det er slik.

    Dette er bruken av minste kvadraters metode i praksis. Formelen hans, som brukes til å finne parameteren a , inkluderer ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , og parameteren
    n - det angir mengden eksperimentelle data. Vi anbefaler deg å beregne hvert beløp separat. Koeffisientverdien b beregnes umiddelbart etter a .

    La oss gå tilbake til det opprinnelige eksemplet.

    Eksempel 1

    Her har vi n lik fem. For å gjøre det mer praktisk å beregne de nødvendige beløpene som er inkludert i koeffisientformlene, fyller vi ut tabellen.

    i = 1 i = 2 i = 3 i = 4 i = 5 ∑ i = 1 5
    x i 0 1 2 4 5 12
    y jeg 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
    x jeg y jeg 0 2 , 4 5 , 2 11 , 2 15 33 , 8
    x i 2 0 1 4 16 25 46

    Løsning

    Den fjerde raden inneholder dataene oppnådd ved å multiplisere verdiene fra den andre raden med verdiene til den tredje for hver enkelt i . Den femte linjen inneholder dataene fra den andre kvadraten. Den siste kolonnen viser summene av verdiene til de enkelte radene.

    La oss bruke minste kvadraters metode for å beregne koeffisientene a og b vi trenger. For å gjøre dette, erstatte de ønskede verdiene fra den siste kolonnen og beregne summene:

    n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1,3 x n = 3 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

    Vi fikk at den ønskede tilnærmede rette linjen vil se ut som y = 0 , 165 x + 2 , 184 . Nå må vi bestemme hvilken linje som best tilnærmer dataene - g (x) = x + 1 3 + 1 eller 0 , 165 x + 2 , 184 . La oss lage et estimat ved å bruke minste kvadraters metode.

    For å beregne feilen må vi finne summene av kvadrerte avvik for dataene fra linjene σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 og σ 2 = ∑ i = 1 n (y i - g (x i)) 2 vil minimumsverdien tilsvare en mer passende linje.

    σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0, 096

    Svar: siden σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
    y = 0, 165 x + 2, 184.

    Minste kvadraters metode er tydelig vist i den grafiske illustrasjonen. Den røde linjen markerer den rette linjen g (x) = x + 1 3 + 1, den blå linjen markerer y = 0, 165 x + 2, 184. Rådata er merket med rosa prikker.

    La oss forklare hvorfor nøyaktige tilnærminger av denne typen er nødvendige.

    De kan brukes i problemer som krever datautjevning, så vel som i de der dataene må interpoleres eller ekstrapoleres. For eksempel, i oppgaven diskutert ovenfor, kan man finne verdien av den observerte mengden y ved x = 3 eller ved x = 6 . Vi har viet en egen artikkel til slike eksempler.

    Bevis på LSM-metoden

    For at funksjonen skal ta minimumsverdien når a og b beregnes, er det nødvendig at ved et gitt punkt er matrisen til den kvadratiske formen til differensialen til funksjonen til formen F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 være positivt bestemt. La oss vise deg hvordan det skal se ut.

    Eksempel 2

    Vi har en annenordens differensial av følgende form:

    d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

    Løsning

    δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

    Det kan med andre ord skrives slik: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

    Vi har fått en matrise av kvadratisk form M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

    I dette tilfellet vil verdiene til individuelle elementer ikke endres avhengig av a og b . Er denne matrisen positiv bestemt? For å svare på dette spørsmålet, la oss sjekke om de kantede mindreårige er positive.

    Beregn første ordens vinkelmoll: 2 ∑ i = 1 n (x i) 2 > 0 . Siden punktene x i ikke er sammenfallende, er ulikheten streng. Dette vil vi ha i bakhodet i videre beregninger.

    Vi beregner andreordens vinkelmoll:

    d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

    Deretter går vi videre til beviset på ulikheten n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 ved hjelp av matematisk induksjon.

    1. La oss sjekke om denne ulikheten er gyldig for vilkårlig n . La oss ta 2 og regne ut:

    2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

    Vi fikk riktig likhet (hvis verdiene x 1 og x 2 ikke stemmer overens).

    1. La oss anta at denne ulikheten vil være sann for n , dvs. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – sant.
    2. La oss nå bevise gyldigheten for n + 1, dvs. at (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 hvis n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

    Vi beregner:

    (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

    Uttrykket omsluttet av krøllete klammer vil være større enn 0 (basert på det vi antok i trinn 2), og resten av leddene vil være større enn 0 fordi de alle er kvadrater av tall. Vi har bevist ulikheten.

    Svar: de funnet a og b vil tilsvare den minste verdien av funksjonen F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, noe som betyr at de er de nødvendige parameterne for minste kvadraters metode (LSM).

    Hvis du oppdager en feil i teksten, merk den og trykk Ctrl+Enter

    100 r første ordre bonus

    Velg type arbeid Avgangsarbeid Semesteroppgave Abstrakt Masteroppgave Rapport om praksis Artikkel Rapport Gjennomgang Prøvearbeid Monografi Problemløsning Forretningsplan Svar på spørsmål Kreativt arbeid Essay Tegning Komposisjoner Oversettelse Presentasjoner Skriving Annet Øke det unike i teksten Kandidatens oppgave Laboratoriearbeid Hjelp på- linje

    Spør etter en pris

    Metoden for minste kvadrater er en matematisk (matematisk-statistisk) teknikk som tjener til å utjevne tidsserier, identifisere formen på en korrelasjon mellom tilfeldige variabler osv. Den består i at funksjonen som beskriver dette fenomenet er tilnærmet av en enklere funksjon . Dessuten er sistnevnte valgt på en slik måte at standardavviket (se Varians) av de faktiske nivåene til funksjonen på de observerte punktene fra de utjevnede er minst.

    For eksempel, i henhold til tilgjengelige data ( xi,yi) (Jeg = 1, 2, ..., n) en slik kurve er konstruert y = en + bx, hvor minimum av summen av kvadrerte avvik er nådd

    dvs. en funksjon er minimert som avhenger av to parametere: en- segment på y-aksen og b- helningen til den rette linjen.

    Ligninger som gir nødvendige betingelser for å minimere en funksjon S(en,b), er kalt normale ligninger. Som approksimerende funksjoner brukes ikke bare lineær (innretting langs en rett linje), men også kvadratisk, parabolsk, eksponentiell, etc.. M.2, hvor summen av kvadrerte avstander ( y 1 – ȳ 1)2 + (y 2 – ȳ 2)2 .... er den minste, og den resulterende rette linjen reflekterer best trenden til den dynamiske serien av observasjoner for en eller annen indikator over tid.

    For objektive OLS-estimater er det nødvendig og tilstrekkelig å oppfylle den viktigste betingelsen for regresjonsanalyse: den matematiske forventningen om en tilfeldig feil betinget av faktorene må være lik null. Spesielt denne betingelsen er oppfylt hvis: 1.den matematiske forventningen til tilfeldige feil er lik null, og 2.faktorer og tilfeldige feil er uavhengige tilfeldige variabler. Den første betingelsen kan anses som alltid oppfylt for modeller med en konstant, siden konstanten får en matematisk forventning om feil som ikke er null. Den andre tilstanden - tilstanden til eksogene faktorer - er grunnleggende. Hvis denne egenskapen ikke er fornøyd, kan vi anta at nesten alle estimater vil være ekstremt utilfredsstillende: de vil ikke engang være konsistente (det vil si at selv en veldig stor mengde data ikke tillater å oppnå kvalitative estimater i dette tilfellet).

    Den vanligste i praksisen med statistisk estimering av parametrene til regresjonsligninger er metoden for minste kvadrater. Denne metoden er basert på en rekke forutsetninger om dataenes art og resultatene av modellbyggingen. De viktigste er en klar separasjon av startvariablene i avhengige og uavhengige, ukorrelasjonen til faktorene som er inkludert i ligningene, lineariteten til forholdet, fraværet av autokorrelasjon av residualene, likheten mellom deres matematiske forventninger til null og konstant spredning.

    En av hovedhypotesene til LSM er antakelsen om at dispersjonene av avvik ei er like, dvs. deres spredning rundt gjennomsnittsverdien (null) av serien bør være en stabil verdi. Denne egenskapen kalles homoskedastisitet. I praksis er variansene av avvik ganske ofte ikke de samme, det vil si at heteroskedastisitet observeres. Dette kan skyldes ulike årsaker. For eksempel kan det være feil i de opprinnelige dataene. Tilfeldige unøyaktigheter i kildeinformasjonen, for eksempel feil i tallrekkefølgen, kan ha betydelig innvirkning på resultatene. Ofte observeres en større spredning av avvik єi ved store verdier av den avhengige variabelen (variablene). Dersom dataene inneholder en betydelig feil, vil naturligvis også avviket til modellverdien beregnet fra de feilaktige dataene være stort. For å bli kvitt denne feilen, må vi redusere bidraget fra disse dataene til beregningsresultatene, sette en lavere vekt for dem enn for resten. Denne ideen implementeres i vektede minste kvadrater.

    Minste kvadrater er en matematisk prosedyre for å konstruere en lineær ligning som passer best til et sett med ordnede par ved å finne verdier for a og b, koeffisientene i den rette linjelikningen. Målet med minste kvadraters metode er å minimere den totale kvadratfeilen mellom y- og ŷ-verdiene. Hvis vi for hvert punkt bestemmer feilen ŷ, minimerer minste kvadraters metode:

    hvor n = antall ordnede par rundt linjen. mest relevant for dataene.

    Dette konseptet er illustrert i figuren

    Etter figuren å dømme, minimerer linjen som passer best til dataene, regresjonslinjen, den totale kvadratiske feilen til de fire punktene på grafen. Jeg vil vise deg hvordan du bestemmer dette ved å bruke minste kvadraters metode i følgende eksempel.

    Se for deg et ungt par som nylig bor sammen og deler et servantbord. Den unge mannen begynte å legge merke til at halvparten av bordet hans krympet ubønnhørlig, og tapte terreng til hårmousser og soyakomplekser. I løpet av de siste månedene har fyren fulgt nøye med hvor raskt antall varer fra hennes del av bordet øker. Tabellen nedenfor viser antall gjenstander jenta har på badebordet som har samlet seg de siste månedene.

    Siden målet vårt er å finne ut om antall varer øker over tid, vil "Måned" være den uavhengige variabelen, og "Antall varer" vil være den avhengige variabelen.

    Ved å bruke minste kvadraters metode, bestemmer vi ligningen som passer best til dataene ved å beregne verdiene til a, segmentet på y-aksen og b, helningen til linjen:

    a = y cf - bx cf

    der x cf er middelverdien av x, den uavhengige variabelen, y cf er middelverdien av y, den uavhengige variabelen.

    Tabellen nedenfor oppsummerer beregningene som kreves for disse ligningene.

    Effektkurven for vårt badekareksempel vil bli gitt ved følgende ligning:

    Siden ligningen vår har en positiv helning på 0,976, har fyren bevis på at antall varer på bordet øker over tid med en gjennomsnittlig hastighet på 1 vare per måned. Grafen viser effektkurven med ordnede par.

    Forventet antall varer for neste halvår (måned 16) vil bli beregnet som følger:

    ŷ = 5,13 + 0,976x = 5,13 + 0,976(16) ~ 20,7 = 21 elementer

    Så det er på tide at helten vår tar litt handling.

    TREND-funksjon i Excel

    Som du kanskje har gjettet, har Excel en funksjon for å beregne en verdi fra minste kvadraters metode. Denne funksjonen kalles TREND. Syntaksen er som følger:

    TREND (kjente Y-verdier; kjente X-verdier; nye X-verdier; const)

    kjente verdier av Y - en rekke avhengige variabler, i vårt tilfelle, antall elementer på bordet

    kjente verdier av X - en rekke uavhengige variabler, i vårt tilfelle er det en måned

    nye X-verdier – nye X-verdier (måned) for hvilke TREND funksjon returnerer forventet verdi av avhengige variabler (antall elementer)

    const - valgfritt. En boolsk verdi som spesifiserer om konstanten b må være 0.

    For eksempel viser figuren TREND-funksjonen som brukes til å bestemme forventet antall varer på badebordet for den 16. måneden.