Variansverdi. Varians og standardavvik

Blant de mange indikatorene som brukes i statistikk, er det nødvendig å fremheve variansberegningen. Det skal bemerkes at å utføre denne beregningen manuelt er en ganske kjedelig oppgave. Heldigvis har Excel funksjoner som lar deg automatisere beregningsprosedyren. La oss finne ut algoritmen for å jobbe med disse verktøyene.

Dispersjon er en indikator på variasjon, som er gjennomsnittlig kvadrat av avvik fra den matematiske forventningen. Dermed uttrykker det spredningen av tall rundt gjennomsnittsverdien. Beregning av varians kan utføres både for den generelle populasjonen og for utvalget.

Metode 1: beregning basert på populasjonen

For å beregne denne indikatoren i Excel for den generelle befolkningen, bruk funksjonen DISP.G. Syntaksen til dette uttrykket er som følger:

DISP.G(Nummer1;Nummer2;…)

Totalt kan fra 1 til 255 argumenter brukes. Argumentene kan enten være numeriske verdier eller referanser til cellene de er inneholdt i.

La oss se hvordan du beregner denne verdien for et område med numeriske data.

Metode 2: beregning ved prøve

I motsetning til å beregne en verdi basert på en populasjon, angir ikke nevneren det totale antallet tall ved beregning av et utvalg, men ett mindre. Dette gjøres for feilretting. Excel tar hensyn til denne nyansen i en spesiell funksjon som er designet for denne typen beregninger - DISP.V. Syntaksen er representert av følgende formel:

DISP.B(Nummer1;Nummer2;…)

Antall argumenter, som i forrige funksjon, kan også variere fra 1 til 255.

Som du kan se, kan Excel-programmet i stor grad lette beregningen av variansen. Denne statistikken kan beregnes av søknaden, enten fra populasjonen eller fra utvalget. I dette tilfellet kommer alle brukerhandlinger faktisk ned til å spesifisere rekkevidden av tall som skal behandles, og Excel gjør hovedarbeidet selv. Selvfølgelig vil dette spare en betydelig mengde brukertid.

Spredning i statistikk er funnet som de individuelle verdiene til karakteristikken opphøyd i annen. Avhengig av de første dataene, bestemmes de ved å bruke de enkle og vektede variansformlene:

1. (for ugrupperte data) beregnes ved hjelp av formelen:

2. Vektet avvik (for variantserier):

hvor n er frekvens (repeterbarhet av faktor X)

Et eksempel på å finne varians

Denne siden beskriver et standard eksempel på å finne varians, du kan også se på andre problemer for å finne den

Eksempel 1. Følgende data er tilgjengelig for en gruppe på 20 korrespondansestudenter. Det er nødvendig å konstruere en intervallserie av fordelingen av karakteristikken, beregne gjennomsnittsverdien av karakteristikken og studere dens spredning

La oss bygge en intervallgruppering. La oss bestemme rekkevidden til intervallet ved hjelp av formelen:

hvor X maks er maksimumsverdien for grupperingskarakteristikken;
X min – minimumsverdi for grupperingskarakteristikken;
n – antall intervaller:

Vi aksepterer n=5. Trinnet er: h = (192 - 159)/ 5 = 6,6

La oss lage en intervallgruppering

For ytterligere beregninger vil vi bygge en hjelpetabell:

X'i er midten av intervallet. (for eksempel midten av intervallet 159 – 165,6 = 162,3)

Vi bestemmer gjennomsnittshøyden til elevene ved å bruke den vektede aritmetiske gjennomsnittsformelen:

La oss bestemme variansen ved å bruke formelen:

Dispersjonsformelen kan transformeres som følger:

Av denne formelen følger det at varians er lik forskjellen mellom gjennomsnittet av kvadratene til alternativene og kvadratet og gjennomsnittet.

Spredning i variasjonsserier med like intervaller ved hjelp av metoden for momenter kan beregnes på følgende måte ved å bruke den andre egenskapen til spredning (deler alle alternativer med verdien av intervallet). Bestemme varians, beregnet ved hjelp av metoden for øyeblikk, er det mindre arbeidskrevende å bruke følgende formel:

hvor i er verdien av intervallet;
A er en konvensjonell null, for hvilken det er praktisk å bruke midten av intervallet med den høyeste frekvensen;
m1 er kvadratet av første ordensmoment;
m2 - moment av andre orden

(hvis i en statistisk populasjon en karakteristikk endres på en slik måte at det bare er to gjensidig utelukkende alternativer, kalles en slik variabilitet alternativ) kan beregnes ved å bruke formelen:

Ved å erstatte q = 1-p i denne dispersjonsformelen får vi:

Typer avvik

Total varians måler variasjonen av en egenskap over hele befolkningen som helhet under påvirkning av alle faktorer som forårsaker denne variasjonen. Den er lik middelkvadraten av avvikene til individuelle verdier av en karakteristikk x fra den totale gjennomsnittsverdien av x og kan defineres som enkel varians eller vektet varians.

karakteriserer tilfeldig variasjon, dvs. en del av variasjonen som skyldes påvirkning av uregnskapsmessige faktorer og ikke er avhengig av faktorattributten som danner grunnlaget for gruppen. Slik spredning er lik middelkvadraten av avvikene til individuelle verdier av attributtet innenfor gruppe X fra det aritmetiske gjennomsnittet av gruppen og kan beregnes som enkel spredning eller som vektet spredning.

Dermed, variasjonsmål innenfor gruppe variasjon av en egenskap i en gruppe og bestemmes av formelen:

hvor xi er gruppegjennomsnittet;
ni er antall enheter i gruppen.

For eksempel viser intragruppeavvik som må bestemmes i oppgaven med å studere påvirkningen av arbeidernes kvalifikasjoner på nivået av arbeidsproduktivitet i et verksted, variasjoner i produksjon i hver gruppe forårsaket av alle mulige faktorer (teknisk tilstand av utstyr, tilgjengelighet av verktøy og materialer, arbeidernes alder, arbeidsintensitet osv. .), bortsett fra forskjeller i kvalifikasjonskategori (innenfor en gruppe har alle arbeidere de samme kvalifikasjonene).

Gjennomsnittet av variasjonene innenfor gruppe reflekterer tilfeldig, dvs. den delen av variasjonen som skjedde under påvirkning av alle andre faktorer, med unntak av grupperingsfaktoren. Det beregnes ved hjelp av formelen:

Karakteriserer den systematiske variasjonen av den resulterende karakteristikken, som skyldes påvirkningen av faktortegnet som danner grunnlaget for gruppen. Det er lik middelkvadraten av avvikene til gruppemiddelet fra det totale gjennomsnittet. Intergruppevarians beregnes ved å bruke formelen:

Regelen for å legge til varians i statistikk

I følge regel for å legge til avvik den totale variansen er lik summen av gjennomsnittet av variasjonene innen gruppe og mellom gruppe:

Betydningen av denne regelen er at den totale variansen som oppstår under påvirkning av alle faktorer er lik summen av variansene som oppstår under påvirkning av alle andre faktorer og variansen som oppstår på grunn av grupperingsfaktoren.

Ved å bruke formelen for å legge til varianser, kan du bestemme den tredje ukjente variansen fra to kjente varianser, og også bedømme styrken til påvirkningen til grupperingsegenskapen.

Dispersjonsegenskaper

1. Hvis alle verdier av en karakteristikk reduseres (økes) med samme konstante mengde, vil ikke spredningen endres.
2. Hvis alle verdiene til en karakteristikk reduseres (økes) med samme antall ganger n, vil variansen tilsvarende reduseres (økes) med n^2 ganger.

Spredning i statistikk er definert som standardavviket til individuelle verdier av en karakteristikk opphøyd i kvadrat fra det aritmetiske gjennomsnittet. En vanlig metode for å beregne kvadrerte avvik for opsjoner fra gjennomsnittet og deretter beregne gjennomsnittet av dem.

I økonomisk statistisk analyse er det vanlig å evaluere variasjonen til en egenskap oftest ved å bruke standardavviket; det er kvadratroten av variansen.

(3)

Karakteriserer den absolutte fluktuasjonen av verdiene til en varierende karakteristikk og uttrykkes i samme måleenheter som alternativene. I statistikk er det ofte behov for å sammenligne variasjonen av ulike egenskaper. For slike sammenligninger brukes et relativt mål på variasjon, variasjonskoeffisienten.

Dispersjonsegenskaper:

1) hvis du trekker et hvilket som helst tall fra alle alternativene, vil ikke variansen endres;

2) hvis alle verdiene av alternativet er delt med et hvilket som helst tall b, vil variansen reduseres med b^2 ganger, dvs.

3) hvis du beregner det gjennomsnittlige kvadratet av avvik fra et hvilket som helst tall med et ulikt aritmetisk gjennomsnitt, vil det være større enn variansen. Samtidig med en veldefinert verdi per kvadrat av differansen mellom gjennomsnittsverdien c.

Dispersjon kan defineres som forskjellen mellom gjennomsnittet i andre og gjennomsnittet i andre.

17. Gruppe- og intergruppevariasjoner. Avvikstilleggsregel

Hvis en statistisk populasjon er delt inn i grupper eller deler i henhold til karakteristikken som studeres, kan følgende typer spredning beregnes for en slik populasjon: gruppe (privat), gruppegjennomsnitt (privat) og intergruppe.

Total varians– reflekterer variasjonen til en egenskap på grunn av alle forholdene og årsakene som opererer i en gitt statistisk populasjon.

Gruppeavvik- lik middelkvadraten av avvik av individuelle verdier for en karakteristikk i en gruppe fra det aritmetiske gjennomsnittet for denne gruppen, kalt gruppegjennomsnittet. Gruppegjennomsnittet er imidlertid ikke sammenfallende med det samlede gjennomsnittet for hele befolkningen.

Gruppevarians gjenspeiler variasjonen av en egenskap kun på grunn av forhold og årsaker som opererer i gruppen.

Gjennomsnitt av gruppeavvik- er definert som det vektede aritmetiske gjennomsnittet av gruppeavvikene, med vektene som gruppevolumene.

Intergruppevarians- lik middelkvadrat av avvik av gruppegjennomsnitt fra det totale gjennomsnittet.

Intergruppespredning karakteriserer variasjonen av den resulterende karakteristikken på grunn av grupperingskarakteristikken.

Det er et visst forhold mellom typer dispersjoner som vurderes: den totale spredningen er lik summen av gjennomsnittlig gruppe og intergruppespredning.

Dette forholdet kalles variansaddisjonsregelen.

18. Dynamisk serie og dens komponenter. Typer av tidsserier.

Rad i statistikk- dette er digitale data som viser endringen av et fenomen i tid eller rom og gjør det mulig å foreta en statistisk sammenligning av fenomener både i prosessen med deres utvikling i tid og i ulike former og typer prosesser. Takket være dette er det mulig å oppdage gjensidig avhengighet av fenomener.

I statistikk kalles prosessen med utvikling av bevegelse av sosiale fenomener over tid vanligvis dynamikk. For å vise dynamikk, konstrueres dynamikkserier (kronologisk, tid), som er serier med tidsvarierende verdier av en statistisk indikator (for eksempel antall domfelte over 10 år), ordnet i kronologisk rekkefølge. Deres bestanddeler er de digitale verdiene til en gitt indikator og periodene eller tidspunktene de er knyttet til.

Den viktigste egenskapen til dynamikkserier- deres størrelse (volum, størrelse) av et bestemt fenomen oppnådd i en viss periode eller på et bestemt tidspunkt. Følgelig er størrelsen på betingelsene for dynamikkserien nivået. Skille innledende, midtre og siste nivåer i den dynamiske serien. Første nivå viser verdien av den første, den siste - verdien av siste ledd i serien. Gjennomsnittlig nivå representerer det gjennomsnittlige kronologiske variasjonsområdet og beregnes avhengig av om den dynamiske serien er intervall eller momentan.

En annen viktig egenskap ved den dynamiske serien- tiden som har gått fra den første til den endelige observasjonen, eller antall slike observasjoner.

Det finnes forskjellige typer tidsserier, de kan klassifiseres i henhold til følgende kriterier.

1) Avhengig av metoden for å uttrykke nivåene, er dynamikkseriene delt inn i serier av absolutte og deriverte indikatorer (relative og gjennomsnittlige verdier).

2) Avhengig av hvordan nivåene i serien uttrykker fenomenets tilstand på bestemte tidspunkt (i begynnelsen av måneden, kvartalet, året osv.) eller verdien over bestemte tidsintervaller (for eksempel per dag, måned, år, etc.) etc.), skille mellom henholdsvis moment- og intervalldynamikkserier. Momentserier brukes relativt sjelden i det analytiske arbeidet til rettshåndhevelsesbyråer.

I statistisk teori skilles dynamikk ut etter en rekke andre klassifiseringskriterier: avhengig av avstanden mellom nivåene - med like nivåer og ulikt nivå i tid; avhengig av tilstedeværelsen av hovedtendensen til prosessen som studeres - stasjonær og ikke-stasjonær. Når de analyserer tidsserier, går de ut fra følgende; nivåene til serien presenteres i form av komponenter:

Y t = TP + E (t)

hvor TP er en deterministisk komponent som bestemmer den generelle tendensen til endring over tid eller trend.

E (t) er en tilfeldig komponent som forårsaker svingninger i nivåer.

Denne siden beskriver et standard eksempel på å finne varians, du kan også se på andre problemer for å finne den

Eksempel 1. Bestemmelse av gruppe, gruppegjennomsnitt, intergruppe og total varians

Eksempel 2. Finne variansen og variasjonskoeffisienten i en grupperingstabell

Eksempel 3. Finne varians i en diskret serie

Eksempel 4. Følgende data er tilgjengelig for en gruppe på 20 korrespondansestudenter. Det er nødvendig å konstruere en intervallserie av fordelingen av karakteristikken, beregne gjennomsnittsverdien av karakteristikken og studere dens spredning

La oss bygge en intervallgruppering. La oss bestemme rekkevidden til intervallet ved hjelp av formelen:

hvor X maks er maksimumsverdien for grupperingskarakteristikken;
X min – minimumsverdi for grupperingskarakteristikken;
n – antall intervaller:

Vi aksepterer n=5. Trinnet er: h = (192 - 159)/ 5 = 6,6

La oss lage en intervallgruppering

For ytterligere beregninger vil vi bygge en hjelpetabell:

X"i – midten av intervallet. (for eksempel midten av intervallet 159 – 165,6 = 162,3)

Vi bestemmer gjennomsnittshøyden til elevene ved å bruke den vektede aritmetiske gjennomsnittsformelen:

La oss bestemme variansen ved å bruke formelen:

Formelen kan transformeres slik:

Av denne formelen følger det at varians er lik forskjellen mellom gjennomsnittet av kvadratene til alternativene og kvadratet og gjennomsnittet.

Alternativ egenskapsvarians (hvis i en statistisk populasjon en karakteristikk endres på en slik måte at det bare er to gjensidig utelukkende alternativer, kalles en slik variabilitet alternativ) kan beregnes ved å bruke formelen:

Ved å erstatte q = 1-p i denne dispersjonsformelen får vi:

Typer avvik

Avvik innen gruppe karakteriserer tilfeldig variasjon, dvs. en del av variasjonen som skyldes påvirkning av uregnskapsmessige faktorer og ikke er avhengig av faktorattributten som danner grunnlaget for gruppen. Slik spredning er lik middelkvadraten av avvikene til individuelle verdier av attributtet innenfor gruppe X fra det aritmetiske gjennomsnittet av gruppen og kan beregnes som enkel spredning eller som vektet spredning.

Dermed, variasjonsmål innenfor gruppe variasjon av en egenskap i en gruppe og bestemmes av formelen:

hvor xi er gruppegjennomsnittet;
ni er antall enheter i gruppen.

Varians er et mål på spredning som beskriver det komparative avviket mellom dataverdier og gjennomsnittet. Det er det mest brukte målet for spredning i statistikk, beregnet ved å summere og kvadrere avviket til hver dataverdi fra gjennomsnittet. Formelen for beregning av varians er gitt nedenfor:

s 2 – prøvevarians;

x av—sample mean;

n — prøvestørrelse (antall dataverdier),

(x i – x avg) er avviket fra gjennomsnittsverdien for hver verdi av datasettet.

For bedre å forstå formelen, la oss se på et eksempel. Jeg liker egentlig ikke å lage mat, så jeg gjør det sjelden. Men for ikke å sulte, må jeg fra tid til annen gå til komfyren for å gjennomføre planen om å mette kroppen min med proteiner, fett og karbohydrater. Datasettet nedenfor viser hvor mange ganger Renat lager mat hver måned:

Det første trinnet i å beregne varians er å bestemme prøvegjennomsnittet, som i vårt eksempel er 7,8 ganger per måned. Resten av beregningene kan gjøres enklere ved å bruke følgende tabell.

Den siste fasen av beregning av varians ser slik ut:

For de som liker å gjøre alle beregningene på én gang, vil ligningen se slik ut:

Bruk av råtellingsmetoden (matlagingseksempel)

Det er en mer effektiv måte å beregne varians på, kjent som råtellingsmetoden. Selv om ligningen kan virke ganske tungvint ved første øyekast, er den faktisk ikke så skummel. Du kan forsikre deg om dette, og deretter bestemme hvilken metode du liker best.

er summen av hver dataverdi etter kvadrering,

er kvadratet av summen av alle dataverdier.

Ikke mist forstanden akkurat nå. La oss sette alt dette inn i en tabell, og du vil se at det er færre beregninger her enn i forrige eksempel.

Som du kan se, var resultatet det samme som ved bruk av forrige metode. Fordelene med denne metoden blir tydelige ettersom prøvestørrelsen (n) øker.

Avviksberegning i Excel

Som du sikkert allerede har gjettet, har Excel en formel som lar deg beregne varians. Fra og med Excel 2010 kan du dessuten finne 4 typer variansformler:

1) VARIANCE.V – Returnerer variansen til utvalget. Boolske verdier og tekst ignoreres.

2) DISP.G - Returnerer variansen til populasjonen. Boolske verdier og tekst ignoreres.

3) VARIANSE – Returnerer variansen til prøven, tar hensyn til boolske verdier og tekstverdier.

4) VARIANS - Returnerer variansen til populasjonen, tar hensyn til logiske verdier og tekstverdier.

La oss først forstå forskjellen mellom et utvalg og en populasjon. Hensikten med beskrivende statistikk er å oppsummere eller vise data slik at du raskt får det store bildet, en oversikt for å si det sånn. Statistisk slutning lar deg gjøre slutninger om en populasjon basert på et utvalg data fra den populasjonen. Populasjonen representerer alle mulige utfall eller målinger som er av interesse for oss. Et utvalg er en delmengde av en populasjon.

For eksempel er vi interessert i en gruppe studenter fra et av de russiske universitetene, og vi må bestemme gjennomsnittsskåren til gruppen. Vi kan beregne den gjennomsnittlige ytelsen til elevene, og da vil det resulterende tallet være en parameter, siden hele befolkningen vil være involvert i våre beregninger. Men hvis vi ønsker å beregne GPA for alle studenter i landet vårt, vil denne gruppen være vårt utvalg.

Forskjellen i formelen for beregning av varians mellom et utvalg og en populasjon er nevneren. Hvor for utvalget vil det være lik (n-1), og for den generelle populasjonen bare n.

La oss nå se på funksjonene for å beregne varians med endinger EN, beskrivelsen av hvilke sier at tekst og logiske verdier er tatt i betraktning i beregningen. I dette tilfellet, når du beregner variansen til et bestemt datasett der ikke-numeriske verdier forekommer, vil Excel tolke tekst og falske boolske verdier som lik 0, og sanne boolske verdier som lik 1.

Så hvis du har en datamatrise, vil det ikke være vanskelig å beregne variansen ved å bruke en av Excel-funksjonene som er oppført ovenfor.