Bertalanffy-ligningen er en minste kvadraters avledning. Minste kvadrater i Excel

Eksempel.

Eksperimentelle data om verdiene til variabler X Og er gitt i tabellen.

Som et resultat av deres justering, funksjonen

Ved hjelp av minste kvadrat-metoden, tilnærme disse dataene med en lineær avhengighet y=ax+b(finn alternativer EN Og b). Finn ut hvilken av de to linjene som er best (i betydningen minste kvadraters metode) som justerer eksperimentelle data. Lag en tegning.

Essensen av metoden for minste kvadrater (LSM).

Problemet er å finne de lineære avhengighetskoeffisientene som funksjonen til to variabler EN Og b tar den minste verdien. Det vil si gitt dataene EN Og b summen av de kvadrerte avvikene til eksperimentelle data fra den funnet rette linjen vil være den minste. Dette er hele poenget med minste kvadraters metode.

Dermed er løsningen av eksempelet redusert til å finne ekstremumet til en funksjon av to variabler.

Utledning av formler for å finne koeffisienter.

Et system med to ligninger med to ukjente er kompilert og løst. Finne partielle deriverte av funksjoner etter variabler EN Og b, likestiller vi disse derivatene til null.

Vi løser det resulterende likningssystemet ved hjelp av en hvilken som helst metode (for eksempel substitusjonsmetode eller Cramers metode) og få formler for å finne koeffisientene ved hjelp av minste kvadraters metode (LSM).

Med data EN Og b funksjon tar den minste verdien. Beviset for dette faktum er gitt under teksten på slutten av siden.

Det er hele metoden med minste kvadrater. Formel for å finne parameteren en inneholder summene ,,, og parameteren n- mengde eksperimentelle data. Verdiene av disse summene anbefales å beregnes separat. Koeffisient b funnet etter beregning en.

Det er på tide å huske det originale eksemplet.

Løsning.

I vårt eksempel n=5. Vi fyller ut tabellen for å gjøre det lettere å beregne beløpene som er inkludert i formlene til de nødvendige koeffisientene.

Verdiene i den fjerde raden i tabellen oppnås ved å multiplisere verdiene i den andre raden med verdiene i den tredje raden for hvert tall Jeg.

Verdiene i den femte raden i tabellen oppnås ved å kvadrere verdiene i den andre raden for hvert tall Jeg.

Verdiene i den siste kolonnen i tabellen er summene av verdiene på tvers av radene.

Vi bruker formlene til minste kvadraters metode for å finne koeffisientene EN Og b. Vi erstatter i dem de tilsvarende verdiene fra den siste kolonnen i tabellen:

Derfor, y=0,165x+2,184 er den ønskede tilnærmede rette linjen.

Det gjenstår å finne ut hvilken av linjene y=0,165x+2,184 eller tilnærmer de opprinnelige dataene bedre, det vil si å lage et estimat ved å bruke minste kvadraters metode.

Estimering av feilen til minste kvadraters metode.

For å gjøre dette må du beregne summene av kvadrerte avvik fra de opprinnelige dataene fra disse linjene Og , tilsvarer en mindre verdi en linje som bedre tilnærmer de opprinnelige dataene i form av minste kvadraters metode.

Siden , så linjen y=0,165x+2,184 tilnærmer de opprinnelige dataene bedre.

Grafisk illustrasjon av minste kvadraters metode (LSM).

Alt ser bra ut på listene. Den røde linjen er den funnet linjen y=0,165x+2,184, er den blå linjen , de rosa prikkene er de originale dataene.

I praksis, ved modellering av ulike prosesser - spesielt økonomiske, fysiske, tekniske, sosiale - er en eller annen metode for å beregne omtrentlige verdier av funksjoner fra deres kjente verdier på noen faste punkter mye brukt.

Problemer med tilnærming av funksjoner av denne typen oppstår ofte:

    når du konstruerer omtrentlige formler for å beregne verdiene til de karakteristiske mengdene av prosessen som studeres i henhold til tabelldataene oppnådd som et resultat av eksperimentet;

    i numerisk integrasjon, differensiering, løsning av differensialligninger, etc.;

    hvis det er nødvendig å beregne verdiene til funksjoner på mellompunkter i det betraktede intervallet;

    når du bestemmer verdiene for de karakteristiske mengdene av prosessen utenfor intervallet som vurderes, spesielt ved prognoser.

Hvis det for å modellere en bestemt prosess spesifisert av en tabell konstrueres en funksjon som tilnærmet beskriver denne prosessen basert på minste kvadraters metode, vil den kalles en approksimerende funksjon (regresjon), og selve oppgaven med å konstruere approksimerende funksjoner vil være et tilnærmingsproblem.

Denne artikkelen diskuterer MS Excel-pakkens muligheter for å løse slike problemer, i tillegg gis metoder og teknikker for å konstruere (lage) regresjoner for tabellmessig gitte funksjoner (som er grunnlaget for regresjonsanalyse).

Det er to alternativer for å bygge regresjoner i Excel.

    Legge til utvalgte regresjoner (trendlinjer) til et diagram bygget på grunnlag av en datatabell for den studerte prosesskarakteristikken (bare tilgjengelig hvis et diagram er bygget);

    Ved å bruke de innebygde statistiske funksjonene i Excel-regnearket, som lar deg få regresjoner (trendlinjer) direkte fra kildedatatabellen.

Legge til trendlinjer i et diagram

For en tabell med data som beskriver en bestemt prosess og representert med et diagram, har Excel et effektivt regresjonsanalyseverktøy som lar deg:

    bygge på basis av minste kvadraters metode og legge til diagrammet fem typer regresjoner som modellerer prosessen som studeres med ulik grad av nøyaktighet;

    legg til en ligning av den konstruerte regresjonen til diagrammet;

    bestemme graden av samsvar for den valgte regresjonen med dataene som vises på diagrammet.

Basert på diagramdataene lar Excel deg få lineære, polynomielle, logaritmiske, eksponentielle, eksponentielle typer regresjoner, som er gitt av ligningen:

y = y(x)

hvor x er en uavhengig variabel, som ofte tar verdiene til en sekvens av naturlige tall (1; 2; 3; ...) og produserer for eksempel en nedtelling av tiden for prosessen som studeres (karakteristikker) .

1 . Lineær regresjon er god til å modellere funksjoner som øker eller reduseres med en konstant hastighet. Dette er den enkleste modellen av prosessen som studeres. Den er bygget i henhold til ligningen:

y=mx+b

hvor m er tangenten til helningen til den lineære regresjonen til x-aksen; b - koordinat for skjæringspunktet for den lineære regresjonen med y-aksen.

2 . En polynomtrendlinje er nyttig for å beskrive egenskaper som har flere distinkte ytterpunkter (høye og lave). Valget av graden av polynomet bestemmes av antall ekstrema for karakteristikken som studeres. Dermed kan et polynom av andre grad godt beskrive en prosess som kun har ett maksimum eller minimum; polynom av tredje grad - ikke mer enn to ekstrema; polynom av fjerde grad - ikke mer enn tre ekstrema, etc.

I dette tilfellet bygges trendlinjen i samsvar med ligningen:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

hvor koeffisientene c0, c1, c2,... c6 er konstanter hvis verdier bestemmes under konstruksjon.

3 . Den logaritmiske trendlinjen brukes med hell i modelleringskarakteristikker, hvis verdier endres raskt til å begynne med, og deretter gradvis stabiliseres.

y = c ln(x) + b

4 . Effekttrendlinjen gir gode resultater hvis verdiene til den studerte avhengigheten er preget av en konstant endring i vekstraten. Et eksempel på en slik avhengighet kan tjene som en graf for jevn akselerert bevegelse av bilen. Hvis det er null eller negative verdier i dataene, kan du ikke bruke en strømtrendlinje.

Den er bygget i samsvar med ligningen:

y = cxb

hvor koeffisientene b, c er konstanter.

5 . En eksponentiell trendlinje bør brukes hvis endringshastigheten i dataene øker kontinuerlig. For data som inneholder null eller negative verdier, er denne typen tilnærming heller ikke aktuelt.

Den er bygget i samsvar med ligningen:

y=cebx

hvor koeffisientene b, c er konstanter.

Når du velger en trendlinje, beregner Excel automatisk verdien av R2, som karakteriserer nøyaktigheten av tilnærmingen: Jo nærmere R2-verdien er én, desto mer pålitelig tilnærmer trendlinjen prosessen som studeres. Om nødvendig kan verdien av R2 alltid vises på diagrammet.

Bestemt av formelen:

Slik legger du til en trendlinje i en dataserie:

    aktivere kartet bygget på grunnlag av dataserien, dvs. klikk innenfor kartområdet. Kartelementet vil vises i hovedmenyen;

    etter å ha klikket på dette elementet, vil en meny vises på skjermen, der du bør velge Legg til trendlinje-kommandoen.

De samme handlingene implementeres enkelt hvis du holder musepekeren over grafen som tilsvarer en av dataseriene og høyreklikker; i kontekstmenyen som vises, velg kommandoen Legg til trendlinje. Trendlinje-dialogboksen vises på skjermen med kategorien Type åpen (fig. 1).

Etter det trenger du:

I kategorien Type velger du ønsket trendlinjetype (Lineær er valgt som standard). For polynomtypen, i Grad-feltet, spesifiser graden av det valgte polynomet.

1 . Bygget på serie-feltet viser alle dataseriene i det aktuelle diagrammet. For å legge til en trendlinje til en bestemt dataserie, velg navnet i feltet Bygget på serie.

Om nødvendig, ved å gå til fanen Parameters (fig. 2), kan du angi følgende parametere for trendlinjen:

    endre navnet på trendlinjen i feltet Navn på tilnærmet (utjevnet) kurve.

    angi antall perioder (fremover eller bakover) for prognosen i Prognose-feltet;

    vis ligningen til trendlinjen i diagramområdet, som du bør aktivere avmerkingsboksen for vis ligningen på diagrammet;

    vis verdien av tilnærmingspålitelighet R2 i diagramområdet, som du bør aktivere avkrysningsboksen for sett verdien av tilnærmingspålitelighet (R^2) på diagrammet;

    angi skjæringspunktet for trendlinjen med Y-aksen, som du bør aktivere avkrysningsboksen Skjæringspunktet for kurven med Y-aksen ved et punkt;

    klikk på OK-knappen for å lukke dialogboksen.

Det er tre måter å begynne å redigere en allerede bygget trendlinje på:

    bruk kommandoen Valgt trendlinje fra Format-menyen etter å ha valgt trendlinjen;

    velg kommandoen Formater trendlinje fra kontekstmenyen, som kalles opp ved å høyreklikke på trendlinjen;

    ved å dobbeltklikke på trendlinjen.

Dialogboksen Format Trendline vil vises på skjermen (fig. 3), som inneholder tre faner: View, Type, Parameters, og innholdet i de to siste er fullstendig sammenfallende med de lignende fanene i Trendline-dialogboksen (fig. 1-2) ). På Vis-fanen kan du angi linjetype, farge og tykkelse.

For å slette en allerede konstruert trendlinje, velg trendlinjen som skal slettes og trykk på Delete-tasten.

Fordelene med det betraktede regresjonsanalyseverktøyet er:

    den relative lette å plotte en trendlinje på diagrammer uten å lage en datatabell for den;

    en ganske bred liste over typer foreslåtte trendlinjer, og denne listen inkluderer de mest brukte regresjonstypene;

    muligheten for å forutsi oppførselen til prosessen som studeres for et vilkårlig (innenfor sunn fornuft) antall skritt fremover, så vel som tilbake;

    muligheten for å oppnå ligningen til trendlinjen i en analytisk form;

    muligheten for om nødvendig å få en vurdering av tilnærmelsens pålitelighet.

Ulempene inkluderer følgende punkter:

    konstruksjonen av en trendlinje utføres bare hvis det er et diagram bygget på en serie data;

    prosessen med å generere dataserier for karakteristikken som studeres basert på trendlinjeligningene som er oppnådd for den, er noe rotete: de ønskede regresjonsligningene oppdateres med hver endring i verdiene til den opprinnelige dataserien, men bare innenfor diagramområdet , mens dataserien dannet på grunnlag av den gamle linjeligningstrenden, forblir uendret;

    I pivotdiagramrapporter, når du endrer diagramvisningen eller den tilknyttede pivottabellrapporten, bevares ikke eksisterende trendlinjer, noe som betyr at før du tegner trendlinjer eller på annen måte formaterer en pivotdiagramrapport, må du sørge for at oppsettet til rapporten oppfyller kravene dine.

Trendlinjer kan legges til dataserier presentert på diagrammer som en graf, histogram, flate ikke-normaliserte områdediagrammer, søyle-, sprednings-, boble- og aksjediagrammer.

Du kan ikke legge til trendlinjer i dataserier på 3D-, Standard-, Radar-, Sektor- og Smultringsdiagrammer.

Bruke innebygde Excel-funksjoner

Excel tilbyr også et regresjonsanalyseverktøy for å plotte trendlinjer utenfor diagramområdet. En rekke statistiske regnearkfunksjoner kan brukes til dette formålet, men alle lar deg bygge bare lineære eller eksponentielle regresjoner.

Excel har flere funksjoner for å bygge lineær regresjon, spesielt:

    TREND;

  • SKRÅNING og KUT.

I tillegg til flere funksjoner for å konstruere en eksponentiell trendlinje, spesielt:

    LGRFPca.

Det skal bemerkes at teknikkene for å konstruere regresjoner ved å bruke TREND- og GROWTH-funksjonene er praktisk talt de samme. Det samme kan sies om funksjonsparet LINEST og LGRFPRIBL. For disse fire funksjonene, når du oppretter en verditabell, brukes Excel-funksjoner som matriseformler, som noe roter opp prosessen med å bygge regresjoner. Vi legger også merke til at konstruksjonen av en lineær regresjon, etter vår mening, er enklest å implementere ved å bruke funksjonene SLOPE og INTERCEPT, der den første av dem bestemmer helningen til den lineære regresjonen, og den andre bestemmer segmentet avskåret av regresjonen. på y-aksen.

Fordelene med det innebygde funksjonsverktøyet for regresjonsanalyse er:

    en ganske enkel prosess med samme type dannelse av dataserier av karakteristikken som studeres for alle innebygde statistiske funksjoner som setter trendlinjer;

    en standardteknikk for å konstruere trendlinjer basert på den genererte dataserien;

    evnen til å forutsi oppførselen til prosessen som studeres for det nødvendige antall skritt fremover eller bakover.

Og ulempene inkluderer det faktum at Excel ikke har innebygde funksjoner for å lage andre (unntatt lineære og eksponentielle) typer trendlinjer. Denne omstendigheten tillater ofte ikke å velge en tilstrekkelig nøyaktig modell av prosessen som studeres, i tillegg til å oppnå prognoser nær virkeligheten. I tillegg, når du bruker funksjonene TREND og GROW, er ikke ligningene til trendlinjene kjent.

Det skal bemerkes at forfatterne ikke satte som mål for artikkelen å presentere forløpet av regresjonsanalyse med ulik grad av fullstendighet. Hovedoppgaven er å vise Excel-pakkens evne til å løse tilnærmingsproblemer ved å bruke spesifikke eksempler; demonstrere hvilke effektive verktøy Excel har for å bygge regresjoner og prognoser; illustrere hvor relativt enkelt slike problemer kan løses selv av en bruker som ikke har dyp kunnskap om regresjonsanalyse.

Eksempler på løsning av spesifikke problemer

Vurder løsningen av spesifikke problemer ved å bruke de oppførte verktøyene i Excel-pakken.

Oppgave 1

Med en tabell over overskuddet til en biltransportbedrift for 1995-2002. du må gjøre følgende.

    Bygg et diagram.

    Legg til lineære og polynomiske (kvadratiske og kubiske) trendlinjer i diagrammet.

    Ved å bruke trendlinjelikningene kan du få tabelldata om fortjenesten til bedriften for hver trendlinje for 1995-2004.

    Lag en resultatprognose for bedriften for 2003 og 2004.

Løsningen på problemet

    I celleområdet A4:C11 i Excel-regnearket legger vi inn regnearket vist i fig. 4.

    Etter å ha valgt celleområdet B4:C11, bygger vi et diagram.

    Vi aktiverer det konstruerte diagrammet, og ved å bruke metoden beskrevet ovenfor, etter å ha valgt type trendlinje i dialogboksen Trendlinje (se fig. 1), legger vi vekselvis til lineære, kvadratiske og kubiske trendlinjer til diagrammet. I samme dialogboks åpner du fanen Parametere (se fig. 2), i feltet Navn på den tilnærmede (utjevnede) kurven skriver du inn navnet på trenden som skal legges til, og i feltet Prognose fremover for: perioder, angi verdien 2, siden det er planlagt å lage en resultatprognose for to år fremover. For å vise regresjonsligningen og verdien av tilnærmingsreliabiliteten R2 i diagramområdet, aktiver avmerkingsboksene Vis ligningen på skjermen og plasser verdien av tilnærmingsreliabiliteten (R^2) på diagrammet. For bedre visuell oppfatning endrer vi type, farge og tykkelse på de plottede trendlinjene, som vi bruker fanen Vis i dialogboksen Trendlinjeformat (se fig. 3). Det resulterende diagrammet med ekstra trendlinjer er vist i fig. 5.

    For å få tabelldata om fortjenesten til bedriften for hver trendlinje for 1995-2004. La oss bruke ligningene til trendlinjene presentert i fig. 5. For å gjøre dette, i cellene i D3:F3-området, skriv inn tekstinformasjon om typen av den valgte trendlinjen: Lineær trend, Kvadratisk trend, Kubisk trend. Deretter skriver du inn den lineære regresjonsformelen i celle D4, og ved å bruke fyllmarkøren kopierer du denne formelen med relative referanser til celleområdet D5:D13. Det skal bemerkes at hver celle med en lineær regresjonsformel fra celleområdet D4:D13 har en tilsvarende celle fra området A4:A13 som argument. På samme måte, for kvadratisk regresjon, fylles celleområdet E4:E13, og for kubisk regresjon fylles celleområdet F4:F13. Dermed ble det laget en prognose for foretakets overskudd for 2003 og 2004. med tre trender. Den resulterende verditabellen er vist i fig. 6.

Oppgave 2

    Bygg et diagram.

    Legg til logaritmiske, eksponentielle og eksponentielle trendlinjer i diagrammet.

    Utled ligningene til de oppnådde trendlinjene, så vel som verdiene til tilnærmingspåliteligheten R2 for hver av dem.

    Ved å bruke trendlinjeligningene kan du få tabelldata om fortjenesten til bedriften for hver trendlinje for 1995-2002.

    Lag en resultatprognose for virksomheten for 2003 og 2004 ved å bruke disse trendlinjene.

Løsningen på problemet

Ved å følge metodikken gitt ved løsning av oppgave 1 får vi et diagram med lagt til logaritmiske, eksponentielle og eksponentielle trendlinjer (fig. 7). Videre, ved å bruke de oppnådde trendlinjeligningene, fyller vi ut verditabellen for fortjenesten til bedriften, inkludert de anslåtte verdiene for 2003 og 2004. (Fig. 8).

På fig. 5 og fig. det kan ses at modellen med en logaritmisk trend tilsvarer den laveste verdien av tilnærmingspåliteligheten

R2 = 0,8659

De høyeste verdiene av R2 tilsvarer modeller med en polynomtrend: kvadratisk (R2 = 0,9263) og kubikk (R2 = 0,933).

Oppgave 3

Med en tabell med data om overskuddet til en biltransportbedrift for 1995-2002, gitt i oppgave 1, må du utføre følgende trinn.

    Få dataserier for lineære og eksponentielle trendlinjer ved å bruke TREND- og GROW-funksjonene.

    Ved å bruke funksjonene TREND og VEKST, lag en resultatprognose for bedriften for 2003 og 2004.

    Konstruer et diagram for de første dataene og de mottatte dataseriene.

Løsningen på problemet

La oss bruke arbeidsarket til oppgave 1 (se fig. 4). La oss starte med TREND-funksjonen:

    velg celleområdet D4:D11, som skal fylles med verdiene til TREND-funksjonen som tilsvarer kjente data om fortjenesten til bedriften;

    kall opp funksjonskommandoen fra Sett inn-menyen. I dialogboksen Funksjonsveiviser som vises, velg TREND-funksjonen fra Statistical-kategorien, og klikk deretter OK-knappen. Den samme operasjonen kan utføres ved å trykke på knappen (Sett inn funksjon) på standardverktøylinjen.

    I dialogboksen Funksjonsargumenter som vises, skriv inn celleområdet C4:C11 i feltet Known_values_y; i feltet Known_values_x - celleområdet B4:B11;

    for å gjøre den angitte formelen til en matriseformel, bruk tastekombinasjonen + + .

Formelen vi skrev inn i formellinjen vil se slik ut: =(TREND(C4:C11;B4:B11)).

Som et resultat blir celleområdet D4:D11 fylt med de tilsvarende verdiene til TREND-funksjonen (fig. 9).

Å lage en prognose for selskapets resultat for 2003 og 2004. nødvendig:

    velg celleområdet D12:D13, hvor verdiene som er spådd av TREND-funksjonen vil bli lagt inn.

    kall opp TREND-funksjonen og i dialogboksen Funksjonsargumenter som vises, skriv inn i Known_values_y-feltet - celleområdet C4:C11; i feltet Known_values_x - celleområdet B4:B11; og i feltet New_values_x - celleområdet B12:B13.

    gjør denne formelen til en matriseformel ved å bruke hurtigtasten Ctrl + Shift + Enter.

    Den angitte formelen vil se slik ut: =(TREND(C4:C11;B4:B11;B12:B13)), og celleområdet D12:D13 vil bli fylt med de forutsagte verdiene til TREND-funksjonen (se fig. 9).

Tilsvarende fylles en dataserie ved hjelp av GROWTH-funksjonen, som brukes i analysen av ikke-lineære avhengigheter og fungerer nøyaktig på samme måte som dens lineære motstykke TREND.

Figur 10 viser tabellen i formelvisningsmodus.

For de innledende dataene og den oppnådde dataserien, diagrammet vist i fig. elleve.

Oppgave 4

Med en tabell med data om mottak av søknader om tjenester fra ekspedisjonstjenesten til et motortransportforetak for perioden fra 1. til 11. dag i inneværende måned, må følgende handlinger utføres.

    Skaff dataserier for lineær regresjon: ved å bruke SLOPE- og INTERCEPT-funksjonene; ved å bruke LINEST-funksjonen.

    Hent en dataserie for eksponentiell regresjon ved å bruke LYFFPRIB-funksjonen.

    Ved å bruke funksjonene ovenfor, lag en prognose om mottak av søknader til ekspedisjonstjenesten for perioden fra den 12. til den 14. dagen i gjeldende måned.

    For den opprinnelige og mottatte dataserien, konstruer et diagram.

Løsningen på problemet

Merk at, i motsetning til funksjonene TREND og GROW, er ingen av funksjonene oppført ovenfor (SLOPE, INTERCEPTION, LINEST, LGRFPRIB) regresjoner. Disse funksjonene spiller bare en hjelperolle, og bestemmer de nødvendige regresjonsparametrene.

For lineære og eksponentielle regresjoner bygget ved hjelp av funksjonene SLOPE, INTERCEPT, LINEST, LGRFPRIB, er utseendet til deres likninger alltid kjent, i motsetning til de lineære og eksponentielle regresjonene som tilsvarer funksjonene TREND og GROWTH.

1 . La oss bygge en lineær regresjon som har ligningen:

y=mx+b

ved å bruke SLOPE- og INTERCEPT-funksjonene, hvor stigningstallet til regresjonen m bestemmes av SLOPE-funksjonen, og konstantleddet b - av INTERCEPT-funksjonen.

For å gjøre dette, utfører vi følgende handlinger:

    skriv inn kildetabellen i celleområdet A4:B14;

    verdien av parameteren m vil bli bestemt i celle C19. Velg Slope-funksjonen fra Statistical-kategorien; angi celleområdet B4:B14 i feltet kjente_verdier_y og celleområdet A4:A14 i kjente_verdier_x-feltet. Formelen vil bli lagt inn i celle C19: =SLOPE(B4:B14;A4:A14);

    ved å bruke en lignende metode, bestemmes verdien av parameteren b i celle D19. Og innholdet vil se slik ut: = INTERCEPT(B4:B14;A4:A14). Dermed vil verdiene til parametrene m og b, som er nødvendige for å konstruere en lineær regresjon, lagres henholdsvis i cellene C19, D19;

    så skriver vi inn den lineære regresjonsformelen i celle C4 i formen: = $ C * A4 + $ D. I denne formelen er cellene C19 og D19 skrevet med absolutte referanser (celleadressen skal ikke endres ved eventuell kopiering). Det absolutte referansetegnet $ kan skrives inn enten fra tastaturet eller ved å bruke F4-tasten, etter å ha plassert markøren på celleadressen. Bruk fyllhåndtaket til å kopiere denne formelen til celleområdet C4:C17. Vi får ønsket dataserie (fig. 12). På grunn av det faktum at antall forespørsler er et heltall, bør du angi tallformatet på Nummer-fanen i Celleformat-vinduet med antall desimaler til 0.

2 . La oss nå bygge en lineær regresjon gitt av ligningen:

y=mx+b

ved å bruke LINEST-funksjonen.

For dette:

    skriv inn LINEST-funksjonen som en matriseformel i celleområdet C20:D20: =(LINEST(B4:B14;A4:A14)). Som et resultat får vi verdien av parameteren m i celle C20, og verdien av parameteren b i celle D20;

    skriv inn formelen i celle D4: =$C*A4+$D;

    kopier denne formelen ved å bruke fyllmarkøren til celleområdet D4:D17 og få ønsket dataserie.

3 . Vi bygger en eksponentiell regresjon som har ligningen:

ved hjelp av LGRFPRIBL-funksjonen utføres den på samme måte:

    i celleområdet C21:D21, skriv inn funksjonen LGRFPRIBL som en matriseformel: =( LGRFPRIBL (B4:B14;A4:A14)). I dette tilfellet vil verdien av parameteren m bli bestemt i celle C21, og verdien av parameteren b vil bli bestemt i celle D21;

    formelen legges inn i celle E4: =$D*$C^A4;

    ved å bruke fyllmarkøren kopieres denne formelen til celleområdet E4:E17, hvor dataserien for eksponentiell regresjon vil bli plassert (se fig. 12).

På fig. 13 viser en tabell der vi kan se funksjonene vi bruker med de nødvendige celleområdene, samt formler.

Verdi R 2 kalt bestemmelseskoeffisient.

Oppgaven med å konstruere en regresjonsavhengighet er å finne vektoren av koeffisientene m til modellen (1) der koeffisienten R tar maksimalverdien.

For å vurdere betydningen av R brukes Fishers F-test, beregnet etter formelen

Hvor n- prøvestørrelse (antall eksperimenter);

k er antall modellkoeffisienter.

Hvis F overskrider en kritisk verdi for dataene n Og k og det aksepterte konfidensnivået, så anses verdien av R som signifikant. Tabeller med kritiske verdier av F er gitt i oppslagsverk om matematisk statistikk.

Dermed bestemmes betydningen av R ikke bare av verdien, men også av forholdet mellom antall eksperimenter og antall koeffisienter (parametere) til modellen. Faktisk er korrelasjonsforholdet for n=2 for en enkel lineær modell 1 (gjennom 2 punkter på planet kan du alltid tegne en enkelt rett linje). Imidlertid, hvis de eksperimentelle dataene er tilfeldige variabler, bør en slik verdi av R stoles på med stor forsiktighet. Vanligvis, for å oppnå en signifikant R og pålitelig regresjon, er det rettet mot å sikre at antall eksperimenter betydelig overstiger antall modellkoeffisienter (n>k).

For å bygge en lineær regresjonsmodell må du:

1) lag en liste med n rader og m kolonner som inneholder eksperimentelle data (kolonne som inneholder utgangsverdien Y må enten være først eller sist på listen); for eksempel, la oss ta dataene fra forrige oppgave, legge til en kolonne kalt "periodenummer", som nummererer antall perioder fra 1 til 12. (disse vil være verdiene X)

2) gå til menyen Data/Dataanalyse/Regresjon

Hvis "Dataanalyse"-elementet i "Verktøy"-menyen mangler, bør du gå til "Add-Ins"-elementet i samme meny og merke av for "Analysepakke".

3) i "Regresjon"-dialogboksen, sett:

inndataintervall Y;

inndataintervall X;

utgangsintervall - den øvre venstre cellen i intervallet der beregningsresultatene vil bli plassert (det anbefales å plassere det på et nytt regneark);

4) klikk "Ok" og analyser resultatene.

Minste kvadratiske metode

Minste kvadratiske metode ( MNK, OLS, Vanlige minste kvadrater) - en av de grunnleggende metodene for regresjonsanalyse for å estimere ukjente parametere for regresjonsmodeller fra prøvedata. Metoden er basert på å minimere summen av kvadrater av regresjonsrester.

Det skal bemerkes at minste kvadraters metode i seg selv kan kalles en metode for å løse et problem i et hvilket som helst område, hvis løsningen består av eller tilfredsstiller et visst kriterium for å minimere kvadratsummen av noen funksjoner av de ukjente variablene. Derfor kan minste kvadraters metode også brukes for en omtrentlig representasjon (tilnærming) av en gitt funksjon ved hjelp av andre (enklere) funksjoner, når man finner et sett med mengder som tilfredsstiller ligninger eller restriksjoner, hvis antall overstiger antallet av disse mengdene , etc.

Essensen av MNC

La en eller annen (parametrisk) modell av sannsynlighet (regresjon) avhengighet mellom den (forklarte) variabelen y og mange faktorer (forklarende variabler) x

hvor er vektoren av ukjente modellparametere

- Tilfeldig modellfeil.

La det også være prøveobservasjoner av verdiene til de angitte variablene. La være observasjonsnummeret (). Deretter er verdiene til variablene i den -te observasjonen. Deretter, for gitte verdier av parameterne b, er det mulig å beregne de teoretiske (modell) verdiene til den forklarte variabelen y:

Verdien av residualene avhenger av verdiene til parameterne b.

Essensen av LSM (vanlig, klassisk) er å finne slike parametere b som summen av kvadratene til residualene (eng. Restsum av kvadrater) vil være minimal:

I det generelle tilfellet kan dette problemet løses med numeriske metoder for optimalisering (minimering). I dette tilfellet snakker man om ikke-lineære minste kvadrater(NLS eller NLLS - engelsk. Ikke-lineære minste kvadrater). I mange tilfeller kan en analytisk løsning oppnås. For å løse minimeringsproblemet er det nødvendig å finne de stasjonære punktene til funksjonen ved å differensiere den med hensyn til de ukjente parameterne b, likestille de deriverte til null og løse det resulterende ligningssystemet:

Hvis de tilfeldige feilene i modellen er normalfordelt, har samme varians og ikke er korrelert med hverandre, er estimatene for minste kvadraters parameter de samme som estimatene for maksimal sannsynlighetsmetode (MLM).

LSM i tilfelle av en lineær modell

La regresjonsavhengigheten være lineær:

La y- kolonnevektor av observasjoner av den forklarte variabelen, og - matrise av observasjoner av faktorer (rader av matrisen - vektorer av faktorverdier i en gitt observasjon, etter kolonner - vektor av verdier av en gitt faktor i alle observasjoner) . Matriserepresentasjonen av den lineære modellen har formen:

Da vil vektoren av estimater for den forklarte variabelen og vektoren for regresjonsresidier være lik

følgelig vil summen av kvadratene til regresjonsrestene være lik

Ved å differensiere denne funksjonen med hensyn til parametervektoren og likestille de deriverte til null, får vi et system av ligninger (i matriseform):

.

Løsningen av dette ligningssystemet gir den generelle formelen for minste kvadraters estimater for den lineære modellen:

For analytiske formål viser den siste representasjonen av denne formelen seg å være nyttig. Hvis dataene i regresjonsmodellen sentrert, så i denne representasjonen har den første matrisen betydningen av prøvens kovariansmatrise av faktorer, og den andre er vektoren av kovariansene til faktorer med avhengig variabel. Hvis i tillegg dataene også er normalisert på SKO (det vil si til syvende og sist standardisert), så har den første matrisen betydningen av prøvekorrelasjonsmatrisen av faktorer, den andre vektoren - vektoren av prøvekorrelasjoner av faktorer med den avhengige variabelen.

En viktig egenskap ved LLS estimater for modeller med en konstant- linjen til den konstruerte regresjonen går gjennom tyngdepunktet til prøvedataene, det vil si at likheten er oppfylt:

Spesielt i det ekstreme tilfellet, når den eneste regressoren er en konstant, finner vi at OLS-estimatet for en enkelt parameter (konstanten i seg selv) er lik middelverdien til variabelen som forklares. Det vil si at det aritmetiske gjennomsnittet, kjent for sine gode egenskaper fra lovene for store tall, også er et minstekvadrat-estimat - det tilfredsstiller kriteriet for minimumssummen av kvadrerte avvik fra det.

Eksempel: enkel (parvis) regresjon

I tilfelle av paret lineær regresjon, er beregningsformlene forenklet (du kan klare deg uten matrisealgebra):

Egenskaper til OLS-estimater

Først av alt, merker vi at for lineære modeller er minste kvadraters estimater lineære estimater, som følger av formelen ovenfor. For objektive OLS-estimater er det nødvendig og tilstrekkelig å oppfylle den viktigste betingelsen for regresjonsanalyse: den matematiske forventningen om en tilfeldig feil betinget av faktorene må være lik null. Denne betingelsen er oppfylt, spesielt hvis

  1. den matematiske forventningen til tilfeldige feil er null, og
  2. faktorer og tilfeldige feil er uavhengige tilfeldige variabler.

Den andre tilstanden - tilstanden til eksogene faktorer - er grunnleggende. Hvis denne egenskapen ikke er fornøyd, kan vi anta at nesten alle estimater vil være ekstremt utilfredsstillende: de vil ikke engang være konsistente (det vil si at selv en veldig stor mengde data ikke tillater å oppnå kvalitative estimater i dette tilfellet). I det klassiske tilfellet gjøres det en sterkere antagelse om faktorers determinisme, i motsetning til en tilfeldig feil, som automatisk betyr at den eksogene betingelsen er oppfylt. I det generelle tilfellet, for konsistensen av estimatene, er det tilstrekkelig å oppfylle eksogenitetsbetingelsen sammen med konvergensen av matrisen til en ikke-singular matrise med en økning i prøvestørrelsen til uendelig.

For at estimatene for den (vanlige) LSM i tillegg til konsistensen og upartiskheten også skal være effektive (de beste i klassen av lineære objektive estimater), er det nødvendig å oppfylle tilleggsegenskapene til en tilfeldig feil:

Disse forutsetningene kan formuleres for kovariansmatrisen til den tilfeldige feilvektoren

En lineær modell som tilfredsstiller disse betingelsene kalles klassisk. Minste kvadraters estimatorer for klassisk lineær regresjon er objektive, konsistente og de mest effektive estimatorene i klassen av alle lineære upartiske estimatorer (forkortelsen blå (Beste lineære ugrunnlagde estimator) er det beste lineære objektive estimatet; i innenlandsk litteratur blir Gauss-Markov-teoremet oftere sitert). Som det er lett å vise, vil kovariansmatrisen til koeffisientestimatvektoren være lik:

Generaliserte minste kvadrater

Metoden med minste kvadrater tillater en bred generalisering. I stedet for å minimere summen av kvadrater av residualene, kan man minimere en positiv bestemt kvadratisk form av restvektoren , der er en symmetrisk positiv bestemt vektmatrise. Vanlige minste kvadrater er et spesielt tilfelle av denne tilnærmingen, når vektmatrisen er proporsjonal med identitetsmatrisen. Som kjent fra teorien om symmetriske matriser (eller operatorer), er det en dekomponering for slike matriser. Derfor kan den spesifiserte funksjonelle representeres som følger, det vil si at denne funksjonelle kan representeres som summen av kvadratene til noen transformerte "rester". Dermed kan vi skille en klasse av minste kvadraters metoder - LS-metoder (minste kvadrater).

Det er bevist (Aitkens teorem) at for en generalisert lineær regresjonsmodell (der ingen restriksjoner er pålagt kovariansmatrisen av tilfeldige feil), er de mest effektive (i klassen av lineære objektive estimater) estimater av såkalte. generalisert OLS (OMNK, GLS - generaliserte minste kvadrater)- LS-metode med en vektmatrise lik den inverse kovariansmatrisen av tilfeldige feil: .

Det kan vises at formelen for GLS-estimatene for parameterne til den lineære modellen har formen

Kovariansmatrisen til disse estimatene vil henholdsvis være lik

Faktisk ligger essensen av OLS i en viss (lineær) transformasjon (P) av de opprinnelige dataene og bruken av de vanlige minste kvadrater på de transformerte dataene. Hensikten med denne transformasjonen er at for de transformerte dataene tilfredsstiller de tilfeldige feilene allerede de klassiske forutsetningene.

Vekte minste kvadrater

Når det gjelder en diagonal vektmatrise (og derav kovariansmatrisen av tilfeldige feil), har vi de såkalte vektet minste kvadrater (WLS – Weighted Least Squares). I dette tilfellet minimeres den vektede summen av kvadrater av modellens residualer, det vil si at hver observasjon mottar en "vekt" som er omvendt proporsjonal med variansen til den tilfeldige feilen i denne observasjonen: . Faktisk transformeres dataene ved å vekte observasjonene (dele med en mengde proporsjonal med det antatte standardavviket til de tilfeldige feilene), og normale minste kvadrater brukes på de vektede dataene.

Noen spesielle tilfeller av anvendelse av LSM i praksis

Lineær tilnærming

Tenk på tilfellet når, som et resultat av å studere avhengigheten av en viss skalar mengde av en viss skalar mengde (Dette kan for eksempel være avhengigheten av spenning på strømstyrken: , hvor er en konstant verdi, motstanden til lederen ), disse mengdene ble målt, som et resultat av at verdiene og deres tilsvarende verdier. Måledata skal registreres i en tabell.

Bord. Måleresultater.

Mål nr.
1
2
3
4
5
6

Spørsmålet lyder slik: hvilken verdi av koeffisienten kan velges for best å beskrive avhengigheten? I henhold til minste kvadrater skal denne verdien være slik at summen av kvadrerte avvik av verdiene fra verdiene

var minimal

Summen av kvadrerte avvik har ett ekstremum - et minimum, som lar oss bruke denne formelen. La oss finne verdien av koeffisienten fra denne formelen. For å gjøre dette transformerer vi venstre side som følger:

Den siste formelen lar oss finne verdien av koeffisienten , som var nødvendig i oppgaven.

Historie

Fram til begynnelsen av XIX århundre. forskere hadde ikke visse regler for å løse et ligningssystem der antallet ukjente er mindre enn antallet ligninger; Inntil den tid ble det brukt spesielle metoder, avhengig av type ligninger og på oppfinnsomheten til kalkulatorene, og derfor kom forskjellige kalkulatorer, med utgangspunkt i de samme observasjonsdataene, til forskjellige konklusjoner. Gauss (1795) er kreditert med den første anvendelsen av metoden, og Legendre (1805) oppdaget uavhengig og publiserte den under sitt moderne navn (fr. Methode des moindres quarres ). Laplace relaterte metoden til sannsynlighetsteorien, og den amerikanske matematikeren Adrain (1808) vurderte dens sannsynlige anvendelser. Metoden er utbredt og forbedret ved videre forskning av Encke, Bessel, Hansen og andre.

Alternativ bruk av MNC

Ideen om minste kvadraters metode kan også brukes i andre tilfeller som ikke er direkte relatert til regresjonsanalyse. Faktum er at summen av kvadrater er et av de vanligste nærhetsmålene for vektorer (den euklidiske metrikken i endelig-dimensjonale rom).

En applikasjon er å "løse" systemer av lineære ligninger der antallet ligninger er større enn antallet variabler

hvor matrisen ikke er kvadratisk, men rektangulær.

Et slikt ligningssystem har i det generelle tilfellet ingen løsning (hvis rangeringen faktisk er større enn antall variabler). Derfor kan dette systemet bare "løses" i betydningen å velge en slik vektor for å minimere "avstanden" mellom vektorene og . For å gjøre dette kan du bruke kriteriet for å minimere summen av kvadratiske forskjeller til venstre og høyre del av likningene til systemet, det vil si . Det er lett å vise at løsningen av dette minimeringsproblemet fører til løsningen av følgende ligningssystem

Etter justering får vi en funksjon av følgende form: g (x) = x + 1 3 + 1 .

Vi kan tilnærme disse dataene med en lineær sammenheng y = a x + b ved å beregne de riktige parameterne. For å gjøre dette må vi bruke den såkalte minste kvadraters metode. Du må også lage en tegning for å sjekke hvilken linje som best vil justere eksperimentelle data.

Yandex.RTB R-A-339285-1

Hva er egentlig OLS (minste kvadraters metode)

Det viktigste vi må gjøre er å finne slike koeffisienter for lineær avhengighet der verdien av funksjonen til to variabler F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 vil være minste. Med andre ord, for visse verdier av a og b, vil summen av kvadrerte avvik av de presenterte dataene fra den resulterende rette linjen ha en minimumsverdi. Dette er meningen med minste kvadraters metode. Alt vi trenger å gjøre for å løse eksemplet er å finne ytterpunktet for funksjonen til to variabler.

Hvordan utlede formler for beregning av koeffisienter

For å utlede formler for beregning av koeffisientene, er det nødvendig å komponere og løse et likningssystem med to variabler. For å gjøre dette, beregner vi de partielle deriverte av uttrykket F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 med hensyn til a og b og likestiller dem til 0 .

δ F (a, b) δ a = 0 δ F (a, b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ y i = ∑ y ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

For å løse et ligningssystem kan du bruke hvilken som helst metode, for eksempel substitusjon eller Cramers metode. Som et resultat bør vi få formler som beregner koeffisientene ved å bruke minste kvadraters metode.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n

Vi har beregnet verdiene til variablene som funksjonen har
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 vil ta minimumsverdien. I tredje ledd skal vi bevise hvorfor det er slik.

Dette er bruken av minste kvadraters metode i praksis. Formelen hans, som brukes til å finne parameteren a , inkluderer ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , og parameteren
n - det angir mengden eksperimentelle data. Vi anbefaler deg å beregne hvert beløp separat. Koeffisientverdien b beregnes umiddelbart etter a .

La oss gå tilbake til det opprinnelige eksemplet.

Eksempel 1

Her har vi n lik fem. For å gjøre det mer praktisk å beregne de nødvendige beløpene som er inkludert i koeffisientformlene, fyller vi ut tabellen.

i = 1 i = 2 i = 3 i = 4 i = 5 ∑ i = 1 5
x i 0 1 2 4 5 12
y jeg 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x jeg y jeg 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Løsning

Den fjerde raden inneholder dataene oppnådd ved å multiplisere verdiene fra den andre raden med verdiene til den tredje for hver enkelt i . Den femte linjen inneholder dataene fra den andre kvadraten. Den siste kolonnen viser summene av verdiene til de enkelte radene.

La oss bruke minste kvadraters metode for å beregne koeffisientene a og b vi trenger. For å gjøre dette, erstatte de ønskede verdiene fra den siste kolonnen og beregne summene:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1,3 x n = 3 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Vi fikk at den ønskede tilnærmede rette linjen vil se ut som y = 0 , 165 x + 2 , 184 . Nå må vi bestemme hvilken linje som best tilnærmer dataene - g (x) = x + 1 3 + 1 eller 0 , 165 x + 2 , 184 . La oss lage et estimat ved å bruke minste kvadraters metode.

For å beregne feilen må vi finne summene av kvadrerte avvik for dataene fra linjene σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 og σ 2 = ∑ i = 1 n (y i - g (x i)) 2 vil minimumsverdien tilsvare en mer passende linje.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0, 096

Svar: siden σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0, 165 x + 2, 184.

Minste kvadraters metode er tydelig vist i den grafiske illustrasjonen. Den røde linjen markerer den rette linjen g (x) = x + 1 3 + 1, den blå linjen markerer y = 0, 165 x + 2, 184. Rådata er merket med rosa prikker.

La oss forklare hvorfor nøyaktige tilnærminger av denne typen er nødvendige.

De kan brukes i problemer som krever datautjevning, så vel som i de der dataene må interpoleres eller ekstrapoleres. For eksempel, i oppgaven diskutert ovenfor, kan man finne verdien av den observerte mengden y ved x = 3 eller ved x = 6 . Vi har viet en egen artikkel til slike eksempler.

Bevis på LSM-metoden

For at funksjonen skal ta minimumsverdien når a og b beregnes, er det nødvendig at ved et gitt punkt er matrisen til den kvadratiske formen til differensialen til funksjonen til formen F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 være positivt bestemt. La oss vise deg hvordan det skal se ut.

Eksempel 2

Vi har en annenordens differensial av følgende form:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

Løsning

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Det kan med andre ord skrives slik: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Vi har fått en matrise av kvadratisk form M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

I dette tilfellet vil verdiene til individuelle elementer ikke endres avhengig av a og b . Er denne matrisen positiv bestemt? For å svare på dette spørsmålet, la oss sjekke om de kantede mindreårige er positive.

Beregn første ordens vinkelmoll: 2 ∑ i = 1 n (x i) 2 > 0 . Siden punktene x i ikke er sammenfallende, er ulikheten streng. Dette vil vi ha i bakhodet i videre beregninger.

Vi beregner andreordens vinkelmoll:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

Deretter går vi videre til beviset på ulikheten n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 ved hjelp av matematisk induksjon.

  1. La oss sjekke om denne ulikheten er gyldig for vilkårlig n . La oss ta 2 og regne ut:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Vi fikk riktig likhet (hvis verdiene x 1 og x 2 ikke stemmer overens).

  1. La oss anta at denne ulikheten vil være sann for n , dvs. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – sant.
  2. La oss nå bevise gyldigheten for n + 1, dvs. at (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 hvis n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Vi beregner:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Uttrykket omsluttet av krøllete klammer vil være større enn 0 (basert på det vi antok i trinn 2), og resten av leddene vil være større enn 0 fordi de alle er kvadrater av tall. Vi har bevist ulikheten.

Svar: de funnet a og b vil tilsvare den minste verdien av funksjonen F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, noe som betyr at de er de nødvendige parameterne for minste kvadraters metode (LSM).

Hvis du oppdager en feil i teksten, merk den og trykk Ctrl+Enter

Problemet er å finne de lineære avhengighetskoeffisientene som funksjonen til to variabler EN Og b tar den minste verdien. Det vil si gitt dataene EN Og b summen av de kvadrerte avvikene til eksperimentelle data fra den funnet rette linjen vil være den minste. Dette er hele poenget med minste kvadraters metode.

Dermed er løsningen av eksempelet redusert til å finne ekstremumet til en funksjon av to variabler.

Utledning av formler for å finne koeffisienter. Et system med to ligninger med to ukjente er kompilert og løst. Finne partielle deriverte av funksjoner etter variabler EN Og b, likestiller vi disse derivatene til null.

Vi løser det resulterende likningssystemet med en hvilken som helst metode (for eksempel substitusjonsmetoden eller Cramer-metoden) og får formler for å finne koeffisientene ved å bruke minste kvadraters metode (LSM).

Med data EN Og b funksjon tar den minste verdien.

Det er hele metoden med minste kvadrater. Formel for å finne parameteren en inneholder summene , , og parameteren n- mengde eksperimentelle data. Verdiene av disse summene anbefales å beregnes separat. Koeffisient b funnet etter beregning en.

Hovedområdet for bruk av slike polynomer er behandlingen av eksperimentelle data (konstruksjon av empiriske formler). Faktum er at interpolasjonspolynomet konstruert fra verdiene til funksjonen oppnådd ved hjelp av eksperimentet vil bli sterkt påvirket av "eksperimentell støy", dessuten under interpolasjon kan interpolasjonsnodene ikke gjentas, dvs. du kan ikke bruke resultatene av gjentatte eksperimenter under de samme forholdene. Rot-middel-kvadrat-polynomet jevner ut støyen og gjør det mulig å bruke resultatene fra flere eksperimenter.

Numerisk integrasjon og differensiering. Eksempel.

Numerisk integrasjon- beregning av verdien av et bestemt integral (som regel omtrentlig). Numerisk integrasjon forstås som et sett med numeriske metoder for å finne verdien av et visst integral.

Numerisk differensiering– et sett med metoder for å beregne verdien av den deriverte av en diskret gitt funksjon.

Integrering

Formulering av problemet. Matematisk utsagn av problemet: det er nødvendig å finne verdien av et visst integral

hvor a, b er endelige, f(x) er kontinuerlig på [а, b].

Ved løsning av praktiske problemer hender det ofte at integralet er upraktisk eller umulig å ta analytisk: det kan ikke uttrykkes i elementære funksjoner, integranden kan gis i form av en tabell osv. I slike tilfeller er numeriske integreringsmetoder. brukt. Numeriske integreringsmetoder bruker erstatning av arealet til en krumlinjet trapes med en endelig sum av områder med enklere geometriske former som kan beregnes nøyaktig. I denne forstand snakker man om bruken av kvadraturformler.

De fleste metoder bruker representasjonen av integralet som en endelig sum (kvadraturformel):

Kvadraturformlene er basert på ideen om å erstatte grafen til integranden på integrasjonsintervallet med funksjoner av en enklere form, som enkelt kan integreres analytisk og dermed lett beregnes. Den enkleste oppgaven med å konstruere kvadraturformler er realisert for matematiske polynommodeller.

Tre grupper av metoder kan skilles:

1. Metode med inndeling av integrasjonssegmentet i like intervaller. Inndelingen i intervaller gjøres på forhånd, vanligvis velges intervallene like (for å gjøre det lettere å beregne funksjonen i enden av intervallene). Beregn arealer og summer dem (metoder for rektangler, trapes, Simpson).

2. Metoder med partisjonering av integrasjonssegmentet ved bruk av spesielle punkter (Gauss-metoden).

3. Beregning av integraler ved hjelp av tilfeldige tall (Monte Carlo-metoden).

Rektangelmetode. La funksjonen (tegningen) integreres numerisk på segmentet . Vi deler segmentet inn i N like intervaller. Arealet til hver av de N krumlinjede trapesene kan erstattes av arealet til et rektangel.

Bredden på alle rektangler er den samme og lik:

Som et valg av høyden på rektanglene kan du velge verdien av funksjonen på venstre kant. I dette tilfellet vil høyden på det første rektangelet være f(a), det andre vil være f(x 1),..., N-f(N-1).

Hvis vi tar verdien av funksjonen på høyre kant som valg av høyden på rektangelet, vil i dette tilfellet høyden på det første rektangelet være f (x 1), det andre - f (x 2), . .., N - f (x N).

Som man kan se, gir en av formlene i dette tilfellet en tilnærming til integralet med et overskudd, og den andre med en mangel. Det er en annen måte - å bruke verdien av funksjonen i midten av integrasjonssegmentet for tilnærming:

Estimering av den absolutte feilen til metoden for rektangler (midt)

Estimering av den absolutte feilen til metodene for venstre og høyre rektangler.

Eksempel. Regn ut for hele intervallet og del intervallet i fire seksjoner

Løsning. Analytisk beregning av dette integralet gir I=arctg(1)–arctg(0)=0,7853981634. I vårt tilfelle:

1) h = 1; xo = 0; xl = 1;

2) h = 0,25 (1/4); x0 = 0; xl = 0,25; x2 = 0,5; x3 = 0,75; x4 = 1;

Vi beregner ved hjelp av metoden for venstre rektangler:

Vi beregner ved hjelp av metoden med rette rektangler:

Regn ut med metoden for gjennomsnittlige rektangler:

Trapesformet metode.Å bruke et polynom av første grad for interpolasjon (en rett linje trukket gjennom to punkter) fører til trapesformelen. Endene av integrasjonssegmentet tas som interpolasjonsnoder. Dermed erstattes den krumlinjede trapesen med en vanlig trapes, området som kan finnes som produktet av halvparten av summen av basene og høyden

I tilfelle av N segmenter av integrasjon for alle noder, bortsett fra ekstrempunktene til segmentet, vil verdien av funksjonen inkluderes i totalsummen to ganger (siden nabotrapeser har én felles side)

Trapesformelen kan oppnås ved å ta halve summen av rektangelformlene langs høyre og venstre kant av segmentet:

Kontroller stabiliteten til løsningen. Som regel er det kortere lengde på hvert intervall, dvs. jo større antall disse intervallene er, desto mindre er forskjellen mellom de omtrentlige og eksakte verdiene til integralet. Dette gjelder for de fleste funksjoner. I trapesmetoden er feilen ved beregning av integralet ϭ tilnærmet proporsjonal med kvadratet av integrasjonstrinnet (ϭ ~ h 2). For å beregne integralet til en viss funksjon i grensene a, b, er det derfor nødvendig å del segmentet i N 0 intervaller og finn summen av arealene til trapesen. Deretter må du øke antall intervaller N 1, igjen beregne summen av trapesen og sammenligne den resulterende verdien med det forrige resultatet. Dette bør gjentas til (N i) til den spesifiserte nøyaktigheten av resultatet (konvergenskriteriet) er nådd.

For rektangel- og trapesmetodene, vanligvis ved hvert iterasjonstrinn, øker antallet intervaller med en faktor 2 (N i +1 =2N i).

Konvergenskriterium:

Den største fordelen med trapesregelen er dens enkelhet. Men hvis integrasjonen krever høy presisjon, kan denne metoden kreve for mange iterasjoner.

Absolutt feil ved trapesmetoden vurdert som
.

Eksempel. Beregn et tilnærmet bestemt integral ved å bruke trapesformelen.

a) Dele integrasjonssegmentet i 3 deler.
b) Dele integrasjonssegmentet i 5 deler.

Løsning:
a) Etter betingelse må integrasjonssegmentet deles i 3 deler, dvs.
Beregn lengden på hvert segment av partisjonen: .

Dermed er den generelle formelen for trapes redusert til en behagelig størrelse:

Endelig:

Jeg minner om at den resulterende verdien er en omtrentlig verdi av området.

b) Vi deler integrasjonssegmentet i 5 like deler, det vil si . ved å øke antall segmenter øker vi nøyaktigheten av beregninger.

Hvis , har trapesformelen følgende form:

La oss finne partisjoneringstrinnet:
, det vil si at lengden på hvert mellomsegment er 0,6.

Når du fullfører oppgaven, er det praktisk å tegne alle beregninger med en beregningstabell:

I første linje skriver vi "teller"

Som et resultat:

Vel, det er virkelig en avklaring, og en alvorlig en!
Hvis for 3 segmenter av partisjonen, så for 5 segmenter. Hvis du tar enda mer segment => vil være enda mer nøyaktig.

Simpson formel. Trapesformelen gir et resultat som er sterkt avhengig av trinnstørrelsen h, noe som påvirker nøyaktigheten av å beregne et bestemt integral, spesielt i tilfeller der funksjonen er ikke-monotonisk. Man kan anta en økning i nøyaktigheten av beregninger hvis vi, i stedet for segmenter av rette linjer som erstatter de krumlinjede fragmentene av grafen til funksjonen f(x), bruker for eksempel fragmenter av parabler gitt gjennom tre nabopunkter til grafen . En lignende geometrisk tolkning ligger til grunn for Simpsons metode for å beregne det bestemte integralet. Hele integrasjonsintervallet a,b er delt inn i N segmenter, lengden på segmentet vil også være lik h=(b-a)/N.

Simpsons formel er:

restperiode

Med en økning i lengden på segmentene reduseres nøyaktigheten til formelen, derfor brukes den sammensatte Simpson-formelen for å øke nøyaktigheten. Hele integrasjonsintervallet er delt inn i et jevnt antall identiske segmenter N, lengden på segmentet vil også være lik h=(b-a)/N. Den sammensatte Simpson-formelen er:

I formelen er uttrykkene i parentes summene av verdiene til integranden, henholdsvis i enden av de odde og partall interne segmentene.

Resten av Simpsons formel er allerede proporsjonal med trinnets fjerde potens:

Eksempel: Beregn integralet ved å bruke Simpsons regel. (Nøyaktig løsning - 0,2)

Gauss metode

Kvadraturformel for Gauss. Grunnprinsippet for kvadraturformler av den andre varianten er synlig fra figur 1.12: det er nødvendig å plassere punktene på en slik måte X 0 og X 1 inne i segmentet [ en;b] slik at arealene til "trekantene" totalt er lik arealene til "segmentet". Når du bruker Gauss-formelen, vil startsegmentet [ en;b] reduseres til intervallet [-1;1] ved å endre variabelen X

0.5∙(ben)∙t+ 0.5∙(b + en).

Deretter , Hvor .

Denne erstatningen er mulig hvis en Og b er endelige, og funksjonen f(x) er kontinuerlig på [ en;b]. Gauss formel for n poeng x i, Jeg=0,1,..,n-1 inne i segmentet [ en;b]:

, (1.27)

Hvor t jeg Og Ai for ulike n er gitt i oppslagsverk. For eksempel når n=2 EN 0 =EN 1=1; på n=3: t 0 =t 2" 0,775, t 1 =0, EN 0 =A 2" 0,555, EN 1" 0,889.

Kvadraturformel for Gauss

oppnådd med en vektfunksjon lik én p(x)= 1 og noder x i, som er røttene til Legendre-polynomene

Odds Ai lett beregnet med formler

Jeg=0,1,2,...n.

Verdiene av noder og koeffisienter for n=2,3,4,5 er gitt i tabellen

Rekkefølge Knuter Odds
n=2 x 1=0 x 0 =-x2=0.7745966692 A 1=8/9 A 0 = A 2=5/9
n=3 x 2 =-x 1=0.3399810436 x 3 =-x0=0.8611363116 A 1 = A 2=0.6521451549 A 0 = A 3=0.6521451549
n=4 x 2 = 0 x 3 = -x 1 = 0.5384693101 x 4 =-x 0 =0.9061798459 EN 0 =0.568888899 EN 3 =EN 1 =0.4786286705 EN 0 =EN 4 =0.2869268851
n=5 x 5 = -x 0 =0.9324695142 x 4 = -x 1 =0.6612093865 x 3 = -x 2 =0.2386191861 EN 5 =A 0 =0.1713244924 EN 4 =A 1 =0.3607615730 EN 3 =A 2 =0.4679139346

Eksempel. Beregn verdien ved å bruke Gauss-formelen for n=2:

Eksakt verdi: .

Algoritmen for å beregne integralet i henhold til Gauss-formelen sørger ikke for å doble antall mikrosegmenter, men å øke antall ordinater med 1 og sammenligne de oppnådde verdiene til integralet. Fordelen med Gauss-formelen er høy nøyaktighet med et relativt lite antall ordinater. Ulemper: upraktisk for manuelle beregninger; må lagres i datamaskinens minne t jeg, Ai for ulike n.

Feilen til Gauss kvadraturformel på segmentet vil være på samme tid For formelen for resten av leddet vil være der koeffisienten α N avtar raskt med veksten N. Her

Gauss-formler gir høy nøyaktighet allerede med et lite antall noder (fra 4 til 10). I dette tilfellet, i praktiske beregninger, varierer antall noder fra flere hundre til flere tusen. Vi legger også merke til at vektene til Gaussiske kvadraturer alltid er positive, noe som sikrer stabiliteten til algoritmen for beregning av summene

Differensiering. Når man løser problemer, er det ofte nødvendig å finne en derivert av en viss rekkefølge fra en funksjon f(x) gitt i en tabell. I tillegg, noen ganger, på grunn av kompleksiteten til det analytiske uttrykket av funksjonen f (x), er dens direkte differensiering for vanskelig, så vel som i den numeriske løsningen av differensialligninger. I disse tilfellene brukes numerisk differensiering.

Vi tilnærmer funksjonen med et polynom av 2. grad. For å gjøre dette, beregner vi koeffisientene til det normale ligningssystemet:

, ,

La oss komponere et normalt system av minste kvadrater, som har formen:

Løsningen til systemet er lett å finne:, , .

Dermed er polynomet av 2. grad funnet: .

Teoretisk bakgrunn

Tilbake til siden<Введение в вычислительную математику. Примеры>

Eksempel 2. Finne den optimale graden av et polynom.

Tilbake til siden<Введение в вычислительную математику. Примеры>

Eksempel 3. Utledning av et normalt ligningssystem for å finne parametrene til en empirisk avhengighet.

La oss utlede et likningssystem for å bestemme koeffisientene og funksjonene , som utfører rot-middel-kvadrat-tilnærmingen til den gitte funksjonen med hensyn til punkter. Lag en funksjon og skriv den nødvendige ekstremumbetingelsen for det:

Deretter vil det normale systemet ha formen:

Vi har fått et lineært ligningssystem for ukjente parametere og, som er lett å løse.

Teoretisk bakgrunn

Tilbake til siden<Введение в вычислительную математику. Примеры>

Eksempel.

Eksperimentelle data om verdiene til variabler X Og er gitt i tabellen.

Som et resultat av deres justering, funksjonen

Ved hjelp av minste kvadrat-metoden, tilnærme disse dataene med en lineær avhengighet y=ax+b(finn alternativer EN Og b). Finn ut hvilken av de to linjene som er best (i betydningen minste kvadraters metode) som justerer eksperimentelle data. Lag en tegning.

Essensen av metoden for minste kvadrater (LSM).

Problemet er å finne de lineære avhengighetskoeffisientene som funksjonen til to variabler EN Og btar den minste verdien. Det vil si gitt dataene EN Og b summen av de kvadrerte avvikene til eksperimentelle data fra den funnet rette linjen vil være den minste. Dette er hele poenget med minste kvadraters metode.

Dermed er løsningen av eksempelet redusert til å finne ekstremumet til en funksjon av to variabler.

Utledning av formler for å finne koeffisienter.

Et system med to ligninger med to ukjente er kompilert og løst. Finne partielle deriverte av funksjoner etter variabler EN Og b, likestiller vi disse derivatene til null.

Vi løser det resulterende likningssystemet ved hjelp av en hvilken som helst metode (for eksempel substitusjonsmetode eller Cramers metode) og få formler for å finne koeffisienter ved bruk av minste kvadraters metode (LSM).

Med data EN Og b funksjon tar den minste verdien. Beviset for dette er gitt nedenfor i teksten på slutten av siden.

Det er hele metoden med minste kvadrater. Formel for å finne parameteren en inneholder summene , , og parameteren n er mengden eksperimentelle data. Verdiene av disse summene anbefales å beregnes separat.

Koeffisient b funnet etter beregning en.

Det er på tide å huske det originale eksemplet.

Løsning.

I vårt eksempel n=5. Vi fyller ut tabellen for å gjøre det lettere å beregne beløpene som er inkludert i formlene til de nødvendige koeffisientene.

Verdiene i den fjerde raden i tabellen oppnås ved å multiplisere verdiene i den andre raden med verdiene i den tredje raden for hvert tall Jeg.

Verdiene i den femte raden i tabellen oppnås ved å kvadrere verdiene i den andre raden for hvert tall Jeg.

Verdiene i den siste kolonnen i tabellen er summene av verdiene på tvers av radene.

Vi bruker formlene til minste kvadraters metode for å finne koeffisientene EN Og b. Vi erstatter i dem de tilsvarende verdiene fra den siste kolonnen i tabellen:

Derfor, y=0,165x+2,184 er den ønskede tilnærmede rette linjen.

Det gjenstår å finne ut hvilken av linjene y=0,165x+2,184 eller tilnærmer de opprinnelige dataene bedre, det vil si å lage et estimat ved å bruke minste kvadraters metode.

Estimering av feilen til minste kvadraters metode.

For å gjøre dette må du beregne summene av kvadrerte avvik fra de opprinnelige dataene fra disse linjene Og , tilsvarer en mindre verdi en linje som bedre tilnærmer de opprinnelige dataene i form av minste kvadraters metode.

Siden , så linjen y=0,165x+2,184 tilnærmer de opprinnelige dataene bedre.

Grafisk illustrasjon av minste kvadraters metode (LSM).

Alt ser bra ut på listene. Den røde linjen er den funnet linjen y=0,165x+2,184, er den blå linjen , de rosa prikkene er de originale dataene.

Hva er det for, hva er alle disse tilnærmingene til?

Jeg bruker personlig til å løse datautjevningsproblemer, interpolasjons- og ekstrapolasjonsproblemer (i det originale eksemplet kan du bli bedt om å finne verdien av den observerte verdien yx=3 eller når x=6 i henhold til MNC-metoden). Men vi vil snakke mer om dette senere i en annen del av nettstedet.

Toppen av siden

Bevis.

Så når funnet EN Og b funksjonen tar den minste verdien, er det nødvendig at på dette punktet matrisen til kvadratisk form av andreordens differensial for funksjonen var positiv definitivt. La oss vise det.

Den andre ordensdifferensialen har formen:

Det er

Derfor har matrisen til den kvadratiske formen formen

og verdiene til elementene avhenger ikke av EN Og b.

La oss vise at matrisen er positiv bestemt. Dette krever at vinkelminorene er positive.

Kantet moll av første orden . Ulikheten er streng, siden punktene ikke er sammenfallende. Dette vil bli antydet i det følgende.

Kantet moll av andre orden

La oss bevise det metode for matematisk induksjon.

Konklusjon: funnet verdier EN Og b tilsvarer den minste verdien av funksjonen , derfor er de ønskede parameterne for minste kvadraters metode.

Har du noen gang forstått?
Bestill en løsning

Toppen av siden

Utvikling av en prognose ved bruk av minste kvadraters metode. Eksempel på problemløsning

Ekstrapolering - Dette er en metode for vitenskapelig forskning, som er basert på formidling av tidligere og nåværende trender, mønstre, forhold til den fremtidige utviklingen av prognoseobjektet. Ekstrapoleringsmetoder inkluderer glidende gjennomsnittsmetode, eksponentiell utjevningsmetode, minste kvadraters metode.

Essens minste kvadraters metode består i å minimere summen av kvadratavvik mellom de observerte og beregnede verdier. De beregnede verdiene er funnet i henhold til den valgte ligningen - regresjonsligningen. Jo mindre avstanden er mellom de faktiske verdiene og de beregnede, desto mer nøyaktig er prognosen basert på regresjonsligningen.

Den teoretiske analysen av essensen av fenomenet som studeres, hvor endringen vises av en tidsserie, tjener som grunnlag for å velge en kurve. Betraktninger om arten av veksten av nivåene i serien blir noen ganger tatt i betraktning. Så hvis veksten av produksjonen forventes i en aritmetisk progresjon, utføres utjevning i en rett linje. Hvis det viser seg at veksten er eksponentiell, bør utjevning gjøres i henhold til eksponentiell funksjon.

Arbeidsformelen til metoden for minste kvadrater : Y t+1 = a*X + b, hvor t + 1 er prognoseperioden; Уt+1 – predikert indikator; a og b er koeffisienter; X er et symbol på tid.

Beregningen av koeffisientene a og b utføres i henhold til følgende formler:

hvor, Uf - de faktiske verdiene for serien av dynamikk; n er antall nivåer i tidsserien;

Utjevningen av tidsserier med minste kvadraters metode tjener til å reflektere utviklingsmønstrene til fenomenet som studeres. I det analytiske uttrykket av en trend betraktes tid som en uavhengig variabel, og nivåene i serien fungerer som en funksjon av denne uavhengige variabelen.

Utviklingen av et fenomen avhenger ikke av hvor mange år som har gått siden utgangspunktet, men av hvilke faktorer som påvirket utviklingen, i hvilken retning og med hvilken intensitet. Fra dette er det klart at utviklingen av et fenomen i tid vises som et resultat av virkningen av disse faktorene.

Korrekt innstilling av kurvetypen, typen analytisk avhengighet av tid er en av de vanskeligste oppgavene med pre-prediktiv analyse. .

Valget av typen funksjon som beskriver trenden, hvis parametere bestemmes av minste kvadraters metode, gjøres i de fleste tilfeller empirisk ved å konstruere en rekke funksjoner og sammenligne dem med verdien av rot- gjennomsnittlig kvadratfeil beregnet med formelen:

hvor Uf - de faktiske verdiene for serien med dynamikk; Ur - beregnede (utjevnede) verdier av tidsserien; n er antall nivåer i tidsserien; p er antall parametere definert i formlene som beskriver trenden (utviklingstrend).

Ulemper med minste kvadraters metode :

  • når man prøver å beskrive det økonomiske fenomenet som studeres ved hjelp av en matematisk ligning, vil prognosen være nøyaktig i en kort periode, og regresjonsligningen bør beregnes på nytt etter hvert som ny informasjon blir tilgjengelig;
  • kompleksiteten i utvalget av regresjonsligningen, som kan løses ved bruk av standard dataprogrammer.

Et eksempel på bruk av minste kvadraters metode for å utvikle en prognose

Oppgave . Det finnes data som karakteriserer nivået på arbeidsledigheten i regionen, %

  • Bygg en prognose for arbeidsledigheten i regionen for månedene november, desember, januar, ved å bruke metodene: glidende gjennomsnitt, eksponentiell utjevning, minste kvadrater.
  • Beregn feilene i de resulterende prognosene ved å bruke hver metode.
  • Sammenlign de oppnådde resultatene, trekk konklusjoner.

Minste kvadraters løsning

For løsningen vil vi sette sammen en tabell der vi vil gjøre de nødvendige beregningene:

ε = 28,63/10 = 2,86 % prognosenøyaktighet høy.

Konklusjon : Sammenligning av resultatene oppnådd i beregningene glidende gjennomsnittsmetode , eksponensiell utjevning og minste kvadraters metode, kan vi si at den gjennomsnittlige relative feilen i beregninger med eksponentiell utjevningsmetode faller innenfor 20-50 %. Dette betyr at prediksjonsnøyaktigheten i dette tilfellet bare er tilfredsstillende.

I det første og tredje tilfellet er prognosenøyaktigheten høy, siden den gjennomsnittlige relative feilen er mindre enn 10 %. Men metoden med glidende gjennomsnitt gjorde det mulig å oppnå mer pålitelige resultater (prognose for november - 1,52%, prognose for desember - 1,53%, prognose for januar - 1,49%), siden den gjennomsnittlige relative feilen ved bruk av denne metoden er den minste - 1 ,1. 3%.

Minste kvadratiske metode

Andre relaterte artikler:

Liste over kilder som er brukt

  1. Vitenskapelige og metodiske anbefalinger om spørsmål om diagnostisering av sosiale risikoer og prognoser for utfordringer, trusler og sosiale konsekvenser. Russian State Social University. Moskva. 2010;
  2. Vladimirova L.P. Prognoser og planlegging under markedsforhold: Pros. godtgjørelse. M .: Publishing House "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Forecasting the National Economy: Educational and Methodological Guide. Jekaterinburg: Forlag Ural. stat økonomi universitet, 2007;
  4. Slutskin L.N. MBA-kurs i forretningsprognoser. Moskva: Alpina Business Books, 2006.

MNE-program

Skriv inn data

Data og tilnærming y = a + b x

Jeg- nummeret på forsøkspunktet;
x i- verdien av den faste parameteren på punktet Jeg;
y jeg- verdien av den målte parameteren på punktet Jeg;
ω i- målingsvekt på punkt Jeg;
y i, beregnet.- forskjellen mellom den målte verdien og verdien beregnet fra regresjonen y på punktet Jeg;
S x i (x i)- feilestimat x i ved måling y på punktet Jeg.

Data og tilnærming y = k x

Jeg x i y jeg ω i y i, beregnet. Δy i S x i (x i)

Klikk på diagrammet

Brukerhåndbok for MNC online-programmet.

I datafeltet skriver du inn verdiene for "x" og "y" på hver separate linje på ett eksperimentelt punkt. Verdier må skilles med mellomrom (mellomrom eller tabulator).

Den tredje verdien kan være poengvekten til "w". Hvis punktvekten ikke er spesifisert, er den lik én. I det overveldende flertallet av tilfellene er vekten av forsøkspunktene ukjent eller ikke beregnet; alle eksperimentelle data anses som likeverdige. Noen ganger er vektene i det studerte verdiområdet definitivt ikke ekvivalente og kan til og med beregnes teoretisk. For eksempel, i spektrofotometri, kan vekter beregnes ved hjelp av enkle formler, selv om i utgangspunktet alle neglisjerer dette for å redusere arbeidskostnadene.

Data kan limes inn gjennom utklippstavlen fra et regneark for en kontorpakke, for eksempel Excel fra Microsoft Office eller Calc fra Open Office. For å gjøre dette, i regnearket, velg dataområdet som skal kopieres, kopier til utklippstavlen og lim inn dataene i datafeltet på denne siden.

For å beregne med minste kvadraters metode, kreves det minst to punkter for å bestemme to koeffisienter `b` - tangenten til helningsvinkelen til den rette linjen og `a` - verdien avskåret av den rette linjen på `y ` akse.

For å estimere feilen til de beregnede regresjonskoeffisientene, er det nødvendig å sette antall eksperimentelle punkter til mer enn to.

Minste kvadraters metode (LSM).

Jo større antall eksperimentelle poeng, desto mer nøyaktig er det statistiske estimatet av koeffisientene (på grunn av reduksjonen i Elevens koeffisient) og jo nærmere estimatet er estimatet for det generelle utvalget.

Innhenting av verdier på hvert eksperimentelt punkt er ofte forbundet med betydelige arbeidskostnader, derfor blir det ofte utført et kompromiss antall eksperimenter, noe som gir et fordøyelig estimat og ikke fører til for høye arbeidskostnader. Som regel velges antall eksperimentelle punkter for en lineær minste kvadraters avhengighet med to koeffisienter i området 5-7 poeng.

En kort teori om minste kvadrater for lineær avhengighet

Anta at vi har et sett med eksperimentelle data i form av par med verdier [`y_i`, `x_i`], der `i` er tallet på én eksperimentell måling fra 1 til `n`; `y_i` - verdien av den målte verdien ved punktet `i`; `x_i` - verdien av parameteren vi satte i punktet `i`.

Et eksempel er driften av Ohms lov. Ved å endre spenningen (potensialforskjellen) mellom seksjoner av den elektriske kretsen, måler vi mengden strøm som går gjennom denne seksjonen. Fysikken gir oss avhengigheten funnet eksperimentelt:

`I=U/R`,
hvor `I` - strømstyrke; `R` - motstand; `U` - spenning.

I dette tilfellet er `y_i` den målte strømverdien, og `x_i` er spenningsverdien.

Som et annet eksempel, tenk på absorpsjonen av lys av en løsning av et stoff i løsning. Kjemi gir oss formelen:

`A = εl C`,
hvor "A" er den optiske tettheten til løsningen; `ε` - transmittans av oppløst stoff; `l` - banelengde når lys passerer gjennom en kyvette med en løsning; `C` er konsentrasjonen av det oppløste stoffet.

I dette tilfellet er `y_i` den målte optiske tettheten `A`, og `x_i` er konsentrasjonen av stoffet vi angir.

Vi vil vurdere tilfellet når den relative feilen ved innstilling av `x_i` er mye mindre enn den relative feilen ved måling av `y_i`. Vi vil også anta at alle målte verdier av `y_i` er tilfeldige og normalfordelte, dvs. følge normalfordelingsloven.

I tilfellet med en lineær avhengighet av `y` av `x`, kan vi skrive den teoretiske avhengigheten:
`y = a + bx`.

Fra et geometrisk synspunkt angir koeffisienten "b" tangenten til helningsvinkelen til linjen til "x"-aksen, og koeffisienten "a" - verdien av "y" ved skjæringspunktet mellom linje med `y`-aksen (for `x = 0`).

Finne parametrene til regresjonslinjen.

I et eksperiment kan ikke de målte verdiene til `y_i` ligge nøyaktig på den teoretiske linjen på grunn av målefeil, som alltid er iboende i det virkelige liv. Derfor må en lineær ligning representeres av et ligningssystem:
`y_i = a + b x_i + ε_i` (1),
der "ε_i" er den ukjente målefeilen til "y" i det "i" eksperimentet.

Avhengighet (1) kalles også regresjon, dvs. avhengigheten av de to størrelsene av hverandre med statistisk signifikans.

Oppgaven med å gjenopprette avhengigheten er å finne koeffisientene `a` og `b` fra forsøkspunktene [`y_i`, `x_i`].

For å finne koeffisientene brukes vanligvis `a` og `b` minste kvadrat-metoden(MNK). Det er et spesielt tilfelle av maksimum sannsynlighetsprinsippet.

La oss omskrive (1) som `ε_i = y_i - a - b x_i`.

Da blir summen av kvadrerte feil
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Prinsippet for minste kvadraters metode er å minimere summen (2) med hensyn til parameterne `a` og `b`.

Minimumet nås når de partielle deriverte av summen (2) med hensyn til koeffisientene `a` og `b` er lik null:
`frac(delvis Φ)(delvis a) = frac(delsum_(i=1)^(n) (y_i - a - b x_i)^2)(delvis a) = 0`
`frac(delvis Φ)(delvis b) = frac(delsum_(i=1)^(n) (y_i - a - b x_i)^2)(delvis b) = 0`

Ved å utvide de deriverte får vi et system med to ligninger med to ukjente:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Vi åpner parentesene og overfører summene uavhengig av de ønskede koeffisientene til den andre halvdelen, vi får et system med lineære ligninger:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

Ved å løse det resulterende systemet finner vi formler for koeffisientene `a` og `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n) ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

Disse formlene har løsninger når `n > 1` (linjen kan tegnes med minst 2 punkter) og når determinanten `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`, dvs. når «x_i»-punktene i eksperimentet er forskjellige (dvs. når linjen ikke er vertikal).

Estimering av feil i koeffisientene til regresjonslinjen

For et mer nøyaktig estimat av feilen ved beregning av koeffisientene `a` og `b`, er et stort antall eksperimentelle punkter ønskelig. Når `n = 2`, er det umulig å estimere feilen til koeffisientene, fordi den tilnærmede linjen vil unikt gå gjennom to punkter.

Feilen til den tilfeldige variabelen "V" bestemmes lov om feilakkumulering
`S_V^2 = sum_(i=1)^p (frac(delvis f)(delvis z_i))^2 S_(z_i)^2`,
hvor `p` er antall `z_i`-parametere med `S_(z_i)`-feil som påvirker `S_V`-feilen;
`f` er en avhengighetsfunksjon av `V` på `z_i`.

La oss skrive ned loven om akkumulering av feil for feilen til koeffisientene `a` og `b`
`S_a^2 = sum_(i=1)^(n)(frac(delvis a)(delvis y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(delvis a) )(delvis x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(delvis a)(delvis y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(delvis b)(delvis y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(delvis b )(delvis x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(delvis b)(delvis y_i))^2 `,
fordi `S_(x_i)^2 = 0` (vi har tidligere tatt forbehold om at feilen til `x` er ubetydelig).

`S_y^2 = S_(y_i)^2` - feilen (varians, kvadratisk standardavvik) i `y`-dimensjonen, forutsatt at feilen er enhetlig for alle `y`-verdier.

Ved å erstatte formler for å beregne `a` og `b` i de resulterende uttrykkene, får vi

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

I de fleste virkelige eksperimenter måles ikke verdien av "Sy". For å gjøre dette er det nødvendig å utføre flere parallelle målinger (eksperimenter) på ett eller flere punkter i planen, noe som øker tiden (og muligens kostnaden) for eksperimentet. Derfor antas det vanligvis at avviket til `y` fra regresjonslinjen kan betraktes som tilfeldig. Variansestimatet "y" i dette tilfellet beregnes ved hjelp av formelen.

`S_y^2 = S_(y, hvile)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)".

Divisoren `n-2` vises fordi vi har redusert antall frihetsgrader på grunn av beregningen av to koeffisienter for samme utvalg av eksperimentelle data.

Dette estimatet kalles også restvariansen i forhold til regresjonslinjen `S_(y, rest)^2`.

Vurderingen av koeffisientenes betydning foretas etter Studentens kriterium

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Hvis de beregnede kriteriene `t_a`, `t_b` er mindre enn tabellkriteriene `t(P, n-2)`, anses det at den tilsvarende koeffisienten ikke er signifikant forskjellig fra null med en gitt sannsynlighet `P`.

For å vurdere kvaliteten på beskrivelsen av et lineært forhold, kan du sammenligne `S_(y, hvile)^2` og `S_(bar y)` i forhold til gjennomsnittet ved å bruke Fisher-kriteriet.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i= 1)^n y_i) /n)^2) (n-1)` - utvalgsestimat av variansen til `y` i forhold til gjennomsnittet.

For å evaluere effektiviteten til regresjonsligningen for å beskrive avhengigheten, beregnes Fisher-koeffisienten
`F = S_(takt y) / S_(y, hvile)^2`,
som sammenlignes med den tabellformede Fisher-koeffisienten `F(p, n-1, n-2)`.

Hvis `F > F(P, n-1, n-2)`, regnes forskjellen mellom beskrivelsen av avhengigheten `y = f(x)` ved bruk av regresjonsligningen og beskrivelsen som bruker gjennomsnittet statistisk signifikant med sannsynlighet `P`. De. regresjonen beskriver avhengigheten bedre enn spredningen av `y` rundt gjennomsnittet.

Klikk på diagrammet
for å legge til verdier til tabellen

Minste kvadratiske metode. Metoden med minste kvadrater betyr bestemmelse av ukjente parametere a, b, c, den aksepterte funksjonelle avhengigheten

Metoden med minste kvadrater betyr bestemmelse av ukjente parametere a, b, c,... akseptert funksjonell avhengighet

y = f(x,a,b,c,...),

som ville gi et minimum av middelkvadraten (variansen) av feilen

, (24)

hvor x i , y i - sett med tallpar hentet fra eksperimentet.

Siden betingelsen for ekstremumet til en funksjon av flere variabler er betingelsen om at dens partielle deriverte er lik null, vil parametrene a, b, c,... bestemmes ut fra ligningssystemet:

; ; ; … (25)

Det må huskes at minste kvadraters metode brukes til å velge parametere etter formen til funksjonen y = f(x) definert.

Hvis det ut fra teoretiske betraktninger er umulig å trekke noen konklusjoner om hva den empiriske formelen skal være, så må man ledes av visuelle representasjoner, først og fremst en grafisk representasjon av de observerte dataene.

I praksis, oftest begrenset til følgende typer funksjoner:

1) lineær ;

2) kvadratisk a .