Vektet varians. Spredning av en diskret tilfeldig variabel

Spredningtilfeldig variabel- et mål på spredningen av en gitt tilfeldig variabel, altså henne avvik fra matematisk forventning. I statistikk brukes notasjonen (sigma squared) ofte for å betegne varians. Kvadratroten av variansen kalles standardavvik eller standard oppslag. Standardavviket måles i de samme enhetene som selve den tilfeldige variabelen, og variansen måles i kvadratene til den enheten.

Selv om det er veldig praktisk å bruke bare én verdi (som gjennomsnitt eller modus og median) for å estimere hele utvalget, kan denne tilnærmingen lett føre til feil konklusjoner. Årsaken til denne situasjonen ligger ikke i verdien i seg selv, men i det faktum at én verdi ikke på noen måte reflekterer spredningen av dataverdier.

For eksempel, i prøven:

gjennomsnittet er 5.

Det er imidlertid ikke noe element i selve prøven med en verdi på 5. Du må kanskje vite hvor nært hvert element i prøven er gjennomsnittsverdien. Eller, med andre ord, du må vite variansen til verdiene. Når du vet i hvilken grad dataene har endret seg, kan du tolke bedre mener, median og mote. Graden av endring i prøveverdier bestemmes ved å beregne deres varians og standardavvik.



Variansen og kvadratroten av variansen, kalt standardavviket, karakteriserer gjennomsnittsavviket fra prøvegjennomsnittet. Blant disse to mengdene er den viktigste standardavvik. Denne verdien kan representeres som den gjennomsnittlige avstanden som elementene er fra midtelementet i prøven.

Spredning er vanskelig å tolke meningsfullt. Kvadratroten av denne verdien er imidlertid standardavviket og egner seg godt til tolkning.

Standardavviket beregnes ved først å bestemme variansen og deretter beregne kvadratroten av variansen.

For eksempel, for datamatrisen vist i figuren, vil følgende verdier bli oppnådd:

Bilde 1

Her er gjennomsnittet av kvadrerte forskjeller 717,43. For å få standardavviket gjenstår det bare å ta kvadratroten av dette tallet.

Resultatet blir cirka 26,78.

Det bør huskes at standardavviket tolkes som den gjennomsnittlige avstanden som elementene er fra prøvegjennomsnittet.

Standardavviket viser hvor godt gjennomsnittet beskriver hele utvalget.

La oss si at du er leder for produksjonsavdelingen for å sette sammen en PC. Kvartalsrapporten sier at produksjonen for siste kvartal var 2500 PC-er. Er det dårlig eller bra? Du ba (eller det er allerede denne kolonnen i rapporten) om å vise standardavviket for disse dataene i rapporten. Standardavvikstallet er for eksempel 2000. Det blir klart for deg som avdelingsleder at produksjonslinjen trenger bedre kontroll (for store avvik i antall PC-er som monteres).

Husk at når standardavviket er stort, er dataene vidt spredt rundt gjennomsnittet, og når standardavviket er lite, klynger de seg nær gjennomsnittet.

Fire statistiske funksjoner VARP(), VARP(), STDEV() og STDEV() er designet for å beregne variansen og standardavviket til tall i et celleområde. Før du kan beregne variansen og standardavviket til et datasett, må du finne ut om dataene representerer populasjonen eller et utvalg av populasjonen. Når det gjelder et utvalg fra den generelle populasjonen, bør funksjonene VARP() og STDEV() brukes, og i tilfellet med den generelle populasjonen bør funksjonene VARP() og STDEV() brukes:

Befolkning Funksjon

VARP()

STDLONG()
Prøve

VARI()

STDEV()

Variansen (så vel som standardavviket), som vi bemerket, indikerer i hvilken grad verdiene som er inkludert i datasettet er spredt rundt det aritmetiske gjennomsnittet.

En liten verdi av variansen eller standardavviket indikerer at alle dataene er sentrert rundt det aritmetiske gjennomsnittet, og en stor verdi av disse verdiene indikerer at dataene er spredt over et bredt spekter av verdier.

Variansen er ganske vanskelig å tolke meningsfullt (hva betyr en liten verdi, en stor verdi?). Opptreden Oppgaver 3 lar deg visuelt, på en graf, vise betydningen av variansen for et datasett.

Oppgaver

· Øvelse 1.

· 2.1. Gi begrepene: varians og standardavvik; deres symbolske betegnelse i statistisk databehandling.

· 2.2. Tegn opp et arbeidsark i henhold til figur 1 og foreta de nødvendige beregningene.

· 2.3. Gi de grunnleggende formlene som er brukt i beregningene

· 2.4. Forklar all notasjon ( , , )

· 2.5. Forklar den praktiske betydningen av begrepet varians og standardavvik.

Oppgave 2.

1.1. Gi begrepene: generell populasjon og utvalg; matematisk forventning og aritmetisk gjennomsnitt av deres symbolske betegnelse i statistisk databehandling.

1.2. I samsvar med figur 2, lag et arbeidsark og foreta beregninger.

1.3. Gi de grunnleggende formlene som er brukt i beregningene (for den generelle populasjonen og utvalg).

Figur 2

1.4. Forklar hvorfor det er mulig å få slike verdier av aritmetiske middelverdier i prøver som 46.43 og 48.78 (se filvedlegg). Trekke konklusjoner.

Oppgave 3.

Det er to prøver med et annet sett med data, men gjennomsnittet for dem vil være det samme:

Figur 3

3.1. Tegn opp et arbeidsark i henhold til figur 3 og foreta de nødvendige beregningene.

3.2. Gi de grunnleggende beregningsformlene.

3.3. Bygg grafer i samsvar med figurene 4, 5.

3.4. Forklar de resulterende avhengighetene.

3.5. Utfør lignende beregninger for disse to prøvene.

Opprinnelig prøve 11119999

Velg verdiene til den andre prøven slik at den aritmetiske gjennomsnittet for den andre prøven er den samme, for eksempel:

Velg verdiene for den andre prøven selv. Ordne beregninger og plott som figurene 3, 4, 5. Vis hovedformlene som ble brukt i beregningene.

Trekk passende konklusjoner.

Alle oppgaver skal presenteres i form av en rapport med alle nødvendige figurer, grafer, formler og korte forklaringer.

Merk: konstruksjonen av grafer må forklares med figurer og korte forklaringer.

Spredningen av en tilfeldig variabel er et mål på spredningen av verdiene til denne variabelen. Liten varians betyr at verdiene er gruppert nær hverandre. En stor varians indikerer en sterk spredning av verdier. Konseptet med spredning av en tilfeldig variabel brukes i statistikk. For eksempel, hvis du sammenligner variansen av verdiene til to mengder (for eksempel resultatene av observasjoner av mannlige og kvinnelige pasienter), kan du teste betydningen av en variabel. Varians brukes også når du bygger statistiske modeller, da liten varians kan være et tegn på at du overfiter verdier.

Trinn

Eksempel på variansberegning

  1. Registrer prøveverdiene. I de fleste tilfeller er bare utvalg av visse populasjoner tilgjengelig for statistikere. For eksempel analyserer statistikere som regel ikke kostnadene ved å opprettholde befolkningen i alle biler i Russland - de analyserer et tilfeldig utvalg på flere tusen biler. En slik prøve vil bidra til å bestemme gjennomsnittskostnaden per bil, men mest sannsynlig vil den resulterende verdien være langt fra den virkelige.

    • La oss for eksempel analysere antall boller solgt på en kafé på 6 dager, tatt i tilfeldig rekkefølge. Utvalget har følgende form: 17, 15, 23, 7, 9, 13. Dette er et utvalg, ikke en populasjon, fordi vi ikke har data på de solgte bollene for hver dag kafeen er åpen.
    • Hvis du får en populasjon og ikke et utvalg av verdier, hopper du til neste avsnitt.
  2. Skriv ned formelen for å beregne prøvevariansen. Dispersjon er et mål på spredningen av verdier av en viss mengde. Jo nærmere spredningsverdien er null, jo nærmere er verdiene gruppert sammen. Når du arbeider med et utvalg av verdier, bruker du følgende formel for å beregne variansen:

    • s 2 (\displaystyle s^(2)) = ∑[(x i (\displaystyle x_(i))-x̅) 2 (\displaystyle ^(2))] / (n - 1)
    • s 2 (\displaystyle s^(2)) er spredningen. Dispersjon måles i kvadratiske enheter.
    • x i (\displaystyle x_(i))- hver verdi i prøven.
    • x i (\displaystyle x_(i)) du må trekke fra x̅, kvadrere det, og deretter legge til resultatene.
    • x̅ – sample mean (sample mean).
    • n er antall verdier i prøven.
  3. Beregn prøvegjennomsnittet. Det er betegnet som x̅. Prøvegjennomsnittet beregnes som et normalt aritmetisk gjennomsnitt: legg sammen alle verdiene i prøven, og del deretter resultatet på antall verdier i prøven.

    • I vårt eksempel legger du til verdiene i prøven: 15 + 17 + 23 + 7 + 9 + 13 = 84
      Del nå resultatet med antall verdier i prøven (i vårt eksempel er det 6): 84 ÷ 6 = 14.
      Eksempelgjennomsnitt x̅ = 14.
    • Prøvegjennomsnittet er den sentrale verdien som verdiene i utvalget er fordelt rundt. Hvis verdiene i prøveklyngen rundt prøven betyr, er variansen liten; ellers er spredningen stor.
  4. Trekk prøvegjennomsnittet fra hver verdi i prøven. Beregn nå differansen x i (\displaystyle x_(i))- x̅, hvor x i (\displaystyle x_(i))- hver verdi i prøven. Hvert resultat som oppnås indikerer i hvilken grad en bestemt verdi avviker fra prøvegjennomsnittet, det vil si hvor langt denne verdien er fra prøvegjennomsnittet.

    • I vårt eksempel:
      x 1 (\displaystyle x_(1))- x̅ = 17 - 14 = 3
      x 2 (\displaystyle x_(2))- x̅ = 15 - 14 = 1
      x 3 (\displaystyle x_(3))- x̅ = 23 - 14 = 9
      x 4 (\displaystyle x_(4))- x̅ = 7 - 14 = -7
      x 5 (\displaystyle x_(5))- x̅ = 9 - 14 = -5
      x 6 (\displaystyle x_(6))- x̅ = 13 - 14 = -1
    • Riktigheten av de oppnådde resultatene er lett å verifisere, siden summen deres må være lik null. Dette er relatert til bestemmelsen av gjennomsnittsverdien, siden negative verdier (avstander fra gjennomsnittsverdien til mindre verdier) er fullstendig oppveid av positive verdier (avstander fra gjennomsnittsverdien til større verdier).
  5. Som nevnt ovenfor, summen av forskjellene x i (\displaystyle x_(i))- x̅ må være lik null. Dette betyr at den gjennomsnittlige variansen alltid er null, noe som ikke gir noen ide om spredningen av verdiene til en viss mengde. For å løse dette problemet, kvadrat hver forskjell x i (\displaystyle x_(i))- x̅. Dette vil resultere i at du kun får positive tall som, når de legges sammen, aldri vil summere seg til 0.

    • I vårt eksempel:
      (x 1 (\displaystyle x_(1))-x̅) 2 = 3 2 = 9 (\displaystyle ^(2)=3^(2)=9)
      (x 2 (\displaystyle (x_(2))-x̅) 2 = 1 2 = 1 (\displaystyle ^(2)=1^(2)=1)
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • Du har funnet kvadratet av forskjellen - x̅) 2 (\displaystyle ^(2)) for hver verdi i prøven.
  6. Regn ut summen av kvadrerte forskjeller. Det vil si, finn den delen av formelen som er skrevet slik: ∑[( x i (\displaystyle x_(i))-x̅) 2 (\displaystyle ^(2))]. Her betyr tegnet Σ summen av kvadrerte forskjeller for hver verdi x i (\displaystyle x_(i)) i prøven. Du har allerede funnet de kvadratiske forskjellene (x i (\displaystyle (x_(i))-x̅) 2 (\displaystyle ^(2)) for hver verdi x i (\displaystyle x_(i)) i prøven; nå er det bare å legge til disse rutene.

    • I vårt eksempel: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. Del resultatet med n - 1, der n er antall verdier i prøven. For en tid siden, for å beregne prøvevariansen, delte statistikere ganske enkelt resultatet på n; i dette tilfellet vil du få gjennomsnittet av den kvadratiske variansen, som er ideell for å beskrive variansen til en gitt prøve. Men husk at ethvert utvalg bare er en liten del av den generelle populasjonen av verdier. Hvis du tar en annen prøve og gjør de samme beregningene, får du et annet resultat. Som det viser seg, å dele med n - 1 (i stedet for bare n) gir et bedre estimat av populasjonsvariansen, som er det du er ute etter. Å dele med n - 1 er blitt vanlig, så det er inkludert i formelen for beregning av utvalgsvariansen.

    • I vårt eksempel inkluderer prøven 6 verdier, det vil si n = 6.
      Prøveavvik = s 2 = 166 6 − 1 = (\displaystyle s^(2)=(\frac (166)(6-1))=) 33,2
  8. Forskjellen mellom variansen og standardavviket. Merk at formelen inneholder en eksponent, så variansen måles i kvadratiske enheter av den analyserte verdien. Noen ganger er en slik verdi ganske vanskelig å betjene; i slike tilfeller brukes standardavviket som er lik kvadratroten av variansen. Det er grunnen til at utvalgets varians er betegnet som s 2 (\displaystyle s^(2)), og prøvens standardavvik som s (\displaystyle s).

    • I vårt eksempel er prøvestandardavviket: s = √33,2 = 5,76.

    Beregning av befolkningsvarians

    1. Analyser et sett med verdier. Settet inkluderer alle verdier av mengden som vurderes. For eksempel, hvis du studerer alderen til innbyggerne i Leningrad-regionen, inkluderer befolkningen alderen til alle innbyggerne i denne regionen. Når du jobber med et aggregat, anbefales det å lage en tabell og legge inn verdiene til aggregatet i den. Tenk på følgende eksempel:

      • Det er 6 akvarier i et bestemt rom. Hvert akvarium inneholder følgende antall fisk:
        x 1 = 5 (\displaystyle x_(1)=5)
        x 2 = 5 (\displaystyle x_(2)=5)
        x 3 = 8 (\displaystyle x_(3)=8)
        x 4 = 12 (\displaystyle x_(4)=12)
        x 5 = 15 (\displaystyle x_(5)=15)
        x 6 = 18 (\displaystyle x_(6)=18)
    2. Skriv ned formelen for å beregne populasjonsvariansen. Siden populasjonen inkluderer alle verdier av en viss mengde, lar følgende formel deg få den nøyaktige verdien av variansen til populasjonen. For å skille populasjonsvarians fra utvalgsvarians (som bare er et estimat), bruker statistikere forskjellige variabler:

      • σ 2 (\displaystyle ^(2)) = (∑(x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2))) / n
      • σ 2 (\displaystyle ^(2))- populasjonsvarians (leses som "sigma squared"). Dispersjon måles i kvadratiske enheter.
      • x i (\displaystyle x_(i))- hver verdi i aggregatet.
      • Σ er tegnet på summen. Det vil si for hver verdi x i (\displaystyle x_(i)) trekk fra μ, kvadrat det, og legg til resultatene.
      • μ er gjennomsnittet for befolkningen.
      • n er antall verdier i den generelle befolkningen.
    3. Regn ut gjennomsnittet av befolkningen. Når du arbeider med den generelle befolkningen, er gjennomsnittsverdien betegnet som μ (mu). Populasjonsgjennomsnittet beregnes som det vanlige aritmetiske gjennomsnittet: legg sammen alle verdiene i populasjonen, og del deretter resultatet på antall verdier i populasjonen.

      • Husk at gjennomsnitt ikke alltid beregnes som det aritmetiske gjennomsnittet.
      • I vårt eksempel betyr populasjonen: μ = 5 + 5 + 8 + 12 + 15 + 18 6 (\displaystyle (\frac (5+5+8+12+15+18)(6))) = 10,5
    4. Trekk populasjonsgjennomsnittet fra hver verdi i populasjonen. Jo nærmere forskjellsverdien er null, jo nærmere er den spesielle verdien populasjonsgjennomsnittet. Finn forskjellen mellom hver verdi i populasjonen og dens gjennomsnitt, så får du en første titt på fordelingen av verdiene.

      • I vårt eksempel:
        x 1 (\displaystyle x_(1))- μ = 5 - 10,5 = -5,5
        x 2 (\displaystyle x_(2))- μ = 5 - 10,5 = -5,5
        x 3 (\displaystyle x_(3))- μ = 8 - 10,5 = -2,5
        x 4 (\displaystyle x_(4))- μ = 12 - 10,5 = 1,5
        x 5 (\displaystyle x_(5))- μ = 15 - 10,5 = 4,5
        x 6 (\displaystyle x_(6))- μ = 18 - 10,5 = 7,5
    5. Kvadra hvert resultat du får. Differanseverdiene vil være både positive og negative; hvis du setter disse verdiene på en talllinje, vil de ligge til høyre og venstre for gjennomsnittet av befolkningen. Dette er ikke bra for å beregne varians, da positive og negative tall opphever hverandre. Kvadrer derfor hver forskjell for å få utelukkende positive tall.

      • I vårt eksempel:
        (x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2)) for hver populasjonsverdi (fra i = 1 til i = 6):
        (-5,5)2 (\displaystyle ^(2)) = 30,25
        (-5,5)2 (\displaystyle ^(2)), hvor x n (\displaystyle x_(n)) er den siste verdien i populasjonen.
      • For å beregne gjennomsnittsverdien av de oppnådde resultatene, må du finne summen og dele den på n: (( x 1 (\displaystyle x_(1)) - μ) 2 (\displaystyle ^(2)) + (x 2 (\displaystyle x_(2)) - μ) 2 (\displaystyle ^(2)) + ... + (x n (\displaystyle x_(n)) - μ) 2 (\displaystyle ^(2))) / n
      • La oss nå skrive forklaringen ovenfor ved å bruke variabler: (∑( x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2))) / n og få en formel for å beregne populasjonsvariansen.

Dispersjon er et mål på spredning som beskriver det relative avviket mellom dataverdier og gjennomsnittet. Det er det mest brukte målet for spredning i statistikk, beregnet ved å summere, kvadrere, avviket til hver dataverdi fra gjennomsnittet. Formelen for å beregne variansen er vist nedenfor:

s 2 - prøvevarians;

x cf er middelverdien av prøven;

n prøvestørrelse (antall dataverdier),

(x i – x cf) er avviket fra middelverdien for hver verdi av datasettet.

For bedre å forstå formelen, la oss se på et eksempel. Jeg liker egentlig ikke å lage mat, så jeg gjør det sjelden. Men for ikke å dø av sult, må jeg fra tid til annen gå til komfyren for å gjennomføre planen om å mette kroppen min med proteiner, fett og karbohydrater. Datasettet nedenfor viser hvor mange ganger Renat lager mat hver måned:

Det første trinnet i å beregne variansen er å bestemme prøvegjennomsnittet, som i vårt eksempel er 7,8 ganger i måneden. De resterende beregningene kan forenkles ved hjelp av følgende tabell.

Den siste fasen av beregningen av variansen ser slik ut:

For de som liker å gjøre alle beregningene på en gang, vil ligningen se slik ut:

Bruke råtellingsmetoden (matlagingseksempel)

Det er en mer effektiv måte å beregne variansen på, kjent som "råtellingsmetoden". Selv om ligningen ved første øyekast kan virke ganske tungvint, er den faktisk ikke så skummel. Du kan bekrefte dette, og deretter bestemme hvilken metode du liker best.

er summen av hver dataverdi etter kvadrering,

er kvadratet av summen av alle dataverdier.

Ikke mist forstanden akkurat nå. La oss sette det hele i form av en tabell, og så vil du se at det er færre beregninger her enn i forrige eksempel.

Som du kan se, er resultatet det samme som ved bruk av forrige metode. Fordelene med denne metoden blir tydelige ettersom prøvestørrelsen (n) vokser.

Beregning av varians i Excel

Som du sikkert allerede har gjettet, har Excel en formel som lar deg beregne variansen. Fra og med Excel 2010 kan du dessuten finne 4 varianter av spredningsformelen:

1) VAR.V – Returnerer variansen til utvalget. Boolske verdier og tekst ignoreres.

2) VAR.G – Returnerer populasjonsvariansen. Boolske verdier og tekst ignoreres.

3) VASP – Returnerer prøvevariansen, tar hensyn til boolske verdier og tekstverdier.

4) VARP - Returnerer variansen til populasjonen, tar hensyn til logiske verdier og tekstverdier.

La oss først se på forskjellen mellom et utvalg og en populasjon. Formålet med beskrivende statistikk er å oppsummere eller vise data på en slik måte at man raskt får et stort bilde, så å si, en oversikt. Statistisk slutning lar deg gjøre slutninger om en populasjon basert på et utvalg data fra denne populasjonen. Populasjonen representerer alle mulige utfall eller målinger som er av interesse for oss. Et utvalg er en delmengde av en populasjon.

For eksempel er vi interessert i helheten til en gruppe studenter fra et av de russiske universitetene, og vi må bestemme den gjennomsnittlige poengsummen til gruppen. Vi kan beregne den gjennomsnittlige ytelsen til elevene, og da vil det resulterende tallet være en parameter, siden hele befolkningen vil være involvert i våre beregninger. Men hvis vi ønsker å beregne GPA for alle studenter i landet vårt, vil denne gruppen være vårt utvalg.

Forskjellen i formelen for å beregne variansen mellom utvalget og populasjonen er i nevneren. Hvor for utvalget vil det være lik (n-1), og for den generelle populasjonen bare n.

La oss nå ta for oss funksjonene til å beregne variansen med avslutninger EN, i beskrivelsen som det sies at beregningen tar hensyn til tekst og logiske verdier. I dette tilfellet, når man beregner variansen til et spesifikt datasett der ikke-numeriske verdier forekommer, vil Excel tolke tekst og falske booleaner som 0, og sanne booleaner som 1.

Så hvis du har en rekke data, vil det ikke være vanskelig å beregne variansen ved å bruke en av Excel-funksjonene som er oppført ovenfor.

Ofte i statistikk, når man analyserer et fenomen eller en prosess, er det nødvendig å ta hensyn til ikke bare informasjon om gjennomsnittsnivåene til de studerte indikatorene, men også spredning eller variasjon i verdiene til individuelle enheter , som er en viktig egenskap ved den studerte befolkningen.

Aksjekurser, volum av tilbud og etterspørsel, renter i ulike tidsperioder og på ulike steder er gjenstand for størst variasjon.

Hovedindikatorene som karakteriserer variasjonen , er området, variansen, standardavviket og variasjonskoeffisienten.

Spennvariasjon er forskjellen mellom maksimums- og minimumsverdiene for attributtet: R = Xmax – Xmin. Ulempen med denne indikatoren er at den kun evaluerer grensene for egenskapsvariasjonen og ikke reflekterer svingningene innenfor disse grensene.

Spredning uten denne mangelen. Det beregnes som gjennomsnittlig kvadrat av avvik for attributtverdiene fra deres gjennomsnittsverdi:

Forenklet måte å beregne varians på utføres ved hjelp av følgende formler (enkle og vektet):

Eksempler på bruken av disse formlene er presentert i oppgave 1 og 2.

En mye brukt indikator i praksis er standardavvik :

Standardavviket er definert som kvadratroten av variansen og har samme dimensjon som egenskapen som studeres.

De vurderte indikatorene gjør det mulig å få den absolutte verdien av variasjonen, dvs. vurdere det i måleenheter for egenskapen som studeres. I motsetning til dem, variasjonskoeffisienten måler fluktuasjon i relative termer - i forhold til gjennomsnittsnivået, som i mange tilfeller er å foretrekke.

Formel for beregning av variasjonskoeffisienten.

Eksempler på å løse problemer om emnet "Indikatorer for variasjon i statistikk"

Oppgave 1 . Når man studerte påvirkningen av reklame på størrelsen på det gjennomsnittlige månedlige innskuddet i bankene i regionen, ble 2 banker undersøkt. Følgende resultater oppnås:

Definere:
1) for hver bank: a) gjennomsnittlig månedlig innskudd; b) spredning av bidraget;
2) gjennomsnittlig månedlig innskudd for to banker sammen;
3) Spredning av innskuddet for 2 banker, avhengig av reklame;
4) Spredning av innskuddet for 2 banker, avhengig av alle faktorer unntatt reklame;
5) Total varians ved bruk av addisjonsregelen;
6) Bestemmelseskoeffisient;
7) Korrelasjonsrelasjon.

Løsning

1) La oss lage en beregningstabell for en bank med reklame . For å bestemme gjennomsnittlig månedlig innskudd finner vi midtpunktene til intervallene. I dette tilfellet blir verdien av det åpne intervallet (det første) betinget likestilt med verdien av intervallet ved siden av det (det andre).

Vi finner den gjennomsnittlige størrelsen på bidraget ved å bruke den vektede aritmetiske gjennomsnittsformelen:

29 000/50 = 580 rubler

Spredningen av bidraget er funnet ved formelen:

23 400/50 = 468

Vi vil utføre lignende handlinger for en bank uten annonser :

2) Finn gjennomsnittlig innskudd for to banker sammen. Xav \u003d (580 × 50 + 542,8 × 50) / 100 \u003d 561,4 rubler.

3) Variansen til innskuddet, for to banker, avhengig av reklame, finner vi ved formelen: σ 2 =pq (formel for variansen til et alternativt attributt). Her er p=0,5 andelen faktorer som er avhengig av reklame; q=1-0,5, deretter σ2 =0,5*0,5=0,25.

4) Siden andelen av andre faktorer er 0,5, så er variansen til innskuddet for to banker, som avhenger av alle faktorer unntatt reklame, også 0,25.

5) Bestem den totale variansen ved å bruke addisjonsregelen.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 \u003d σ 2 fakta + σ 2 hvile \u003d 552,08 + 345,96 \u003d 898,04

6) Bestemmelseskoeffisient η 2 = σ 2 faktisk / σ 2 = 345,96/898,04 = 0,39 = 39 % - størrelsen på bidraget er 39 % avhengig av reklame.

7) Empirisk korrelasjonsforhold η = √η 2 = √0,39 = 0,62 - forholdet er ganske nært.

Oppgave 2 . Det er en gruppering av foretak i henhold til verdien av salgbare produkter:

Bestem: 1) spredningen av verdien av salgbare produkter; 2) standardavvik; 3) variasjonskoeffisient.

Løsning

1) Etter betingelse presenteres en intervallfordelingsserie. Det må uttrykkes diskret, det vil si finne midten av intervallet (x "). I grupper med lukkede intervaller finner vi midten ved et enkelt aritmetisk gjennomsnitt. I grupper med øvre grense, som forskjellen mellom denne øvre grensen og halvparten av intervallet etter det (200-(400 -200):2=100).

I grupper med en nedre grense - summen av denne nedre grensen og halvparten av størrelsen på forrige intervall (800+(800-600):2=900).

Beregningen av gjennomsnittsverdien av salgbare produkter gjøres i henhold til formelen:

Хср = k×((Σ((x"-a):k)×f):Σf)+a. Her er a=500 størrelsen på varianten ved høyeste frekvens, k=600-400=200 er størrelsen på intervallet ved den høyeste frekvensen La oss sette resultatet i en tabell:

Så gjennomsnittsverdien av salgbar produksjon for perioden som studeres som helhet er Xav = (-5:37) × 200 + 500 = 472,97 tusen rubler.

2) Vi finner dispersjonen ved å bruke følgende formel:

σ 2 \u003d (33/37) * 2002-(472,97-500) 2 \u003d 35,675,67-730,62 \u003d 34,945,05

3) standardavvik: σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 tusen rubler.

4) variasjonskoeffisient: V \u003d (σ / Xav) * 100 \u003d (186,94 / 472,97) * 100 \u003d 39,52%

Denne egenskapen alene er imidlertid ennå ikke tilstrekkelig for studiet av en tilfeldig variabel. Se for deg to skyttere som skyter mot et mål. Den ene skyter nøyaktig og treffer nær midten, og den andre ... bare ha det gøy og ikke engang sikte. Men det som er morsomt er det gjennomsnitt resultatet blir nøyaktig det samme som det første skytespillet! Denne situasjonen er betinget illustrert av følgende tilfeldige variabler:

Den matematiske forventningen til "snikskytteren" er imidlertid lik , for den "interessante personen": - den er også null!

Det er derfor behov for å kvantifisere hvor langt spredt kuler (verdier av en tilfeldig variabel) i forhold til midten av målet (forventning). vel og spredning oversatt fra latin bare som spredning .

La oss se hvordan denne numeriske egenskapen bestemmes i et av eksemplene i den første delen av leksjonen:

Der fant vi en skuffende matematisk forventning til dette spillet, og nå må vi beregne variansen, som angitt på tvers .

La oss finne ut hvor langt gevinstene/tapene er "spredt" i forhold til gjennomsnittsverdien. Det er klart, for dette må vi beregne forskjeller mellom verdier av en tilfeldig variabel og henne matematisk forventning:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Nå ser det ut til å være nødvendig å oppsummere resultatene, men denne måten er ikke bra - av den grunn at svingningene til venstre vil oppheve hverandre med svingningene til høyre. Så for eksempel "amatør"-skytteren (eksempel ovenfor) forskjellene vil være , og når de legges til vil de gi null, så vi vil ikke få noe estimat på spredningen av skytingen hans.

For å omgå denne irritasjonen, vurder moduler forskjeller, men av tekniske årsaker har tilnærmingen slått rot når de kvadres. Det er mer praktisk å ordne løsningen i en tabell:

Og her ber det om å regne vektlagt gjennomsnitt verdien av de kvadrerte avvikene. Hva er det? Det er deres forventet verdi, som er målet for spredning:

definisjon spredning. Det er umiddelbart klart av definisjonen at varians kan ikke være negativ- merk for øvelse!

La oss huske hvordan du finner forventningen. Multipliser de kvadrerte forskjellene med de tilsvarende sannsynlighetene (tabellfortsettelse):
- billedlig talt er dette "trekkkraft",
og oppsummer resultatene:

Synes du ikke at resultatet på bakgrunn av gevinster ble for stort? Det stemmer – vi kvadret, og for å gå tilbake til dimensjonen av spillet vårt, må vi ta kvadratroten. Denne verdien kalles standardavvik og er betegnet med den greske bokstaven "sigma":

Noen ganger kalles denne betydningen standardavvik .

Hva betyr den? Hvis vi avviker fra den matematiske forventningen til venstre og høyre med standardavviket:

– da vil de mest sannsynlige verdiene til den tilfeldige variabelen være "konsentrert" på dette intervallet. Hva vi faktisk ser:

Imidlertid skjedde det slik at i analysen av spredning nesten alltid operere med begrepet spredning. La oss se hva det betyr i forhold til spill. Hvis vi når det gjelder skyttere snakker om "nøyaktigheten" av treff i forhold til midten av målet, så karakteriserer spredningen her to ting:

For det første er det åpenbart at etter hvert som prisene øker, øker også variansen. Så hvis vi for eksempel øker med 10 ganger, vil den matematiske forventningen øke med 10 ganger, og variansen vil øke med 100 ganger (så snart det er en kvadratisk verdi). Men merk at spillereglene ikke har endret seg! Bare prisene har endret seg, grovt sett pleide vi å satse 10 rubler, nå 100.

Det andre, mer interessante poenget er at variansen preger spillestilen. Mentalt fikse spillhastighetene på et visst nivå, og se hva som er hva her:

Et spill med lav varians er et forsiktig spill. Spilleren har en tendens til å velge de mest pålitelige ordningene, der han ikke taper/vinner for mye på en gang. For eksempel rød/svart-systemet i rulett (se eksempel 4 i artikkelen tilfeldige variabler) .

Spill med høy variasjon. Hun blir ofte oppringt spredning spill. Dette er en eventyrlig eller aggressiv spillestil der spilleren velger "adrenalin"-opplegg. La oss i det minste huske "Martingale", der summene som står på spill er størrelsesordener større enn det "stille" spillet i forrige avsnitt.

Situasjonen i poker er veiledende: det er såkalte stramt spillere som pleier å være forsiktige og "riste" med spillmidlene sine (bankroll). Ikke overraskende svinger ikke deres bankroll mye (lav varians). Omvendt, hvis en spiller har høy varians, så er det aggressoren. Han tar ofte risiko, satser store og kan både knekke en enorm bank og gå i stykker.

Det samme skjer i Forex, og så videre - det er mange eksempler.

Dessuten spiller det ingen rolle i alle tilfeller om spillet er for en krone eller for tusenvis av dollar. Hvert nivå har sine spillere med lav og høy varians. Vel, for den gjennomsnittlige seier, som vi husker, "ansvarlig" forventet verdi.

Du har sikkert lagt merke til at det er en lang og møysommelig prosess å finne variansen. Men matematikk er sjenerøst:

Formel for å finne variansen

Denne formelen er avledet direkte fra definisjonen av varians, og vi setter den umiddelbart i sirkulasjon. Jeg vil kopiere platen med spillet vårt ovenfra:

og den funnet forventningen.

Vi beregner variansen på den andre måten. La oss først finne den matematiske forventningen - kvadratet av den tilfeldige variabelen . Av definisjon av matematisk forventning:

I dette tilfellet:

Altså, i henhold til formelen:

Som de sier, føl forskjellen. Og i praksis er det selvfølgelig bedre å bruke formelen (med mindre tilstanden krever noe annet).

Vi mestrer teknikken for å løse og designe:

Eksempel 6

Finn dens matematiske forventning, varians og standardavvik.

Denne oppgaven finnes overalt, og går som regel uten mening.
Du kan tenke deg flere lyspærer med tall som lyser opp i et galehus med visse sannsynligheter :)

Løsning: Det er praktisk å oppsummere hovedberegningene i en tabell. Først skriver vi de første dataene i de to øverste linjene. Deretter beregner vi produktene, deretter og til slutt summene i høyre kolonne:

Faktisk er nesten alt klart. I tredje linje ble det tegnet en ferdig matematisk forventning: .

Spredningen beregnes med formelen:

Og til slutt, standardavviket:
– personlig runder jeg vanligvis til 2 desimaler.

Alle beregninger kan utføres på en kalkulator, og enda bedre - i Excel:

Det er vanskelig å gå feil her :)

Svar:

De som ønsker kan forenkle livet sitt enda mer og dra nytte av min kalkulator (demo), som ikke bare umiddelbart løser dette problemet, men også bygger tematisk grafikk (kom snart). Programmet kan laste ned i biblioteket– hvis du har lastet ned minst ett studiemateriell, eller mottar annen vei. Takk for støtten til prosjektet!

Et par oppgaver for uavhengig løsning:

Eksempel 7

Beregn variansen til den tilfeldige variabelen i forrige eksempel per definisjon.

Og et lignende eksempel:

Eksempel 8

En diskret tilfeldig variabel er gitt av sin egen distribusjonslov:

Ja, verdiene til den tilfeldige variabelen kan være ganske store (eksempel fra virkelig arbeid), og her, hvis mulig, bruk Excel. Som forresten i eksempel 7 - det er raskere, mer pålitelig og mer behagelig.

Løsninger og svar nederst på siden.

Som avslutning på 2. del av leksjonen vil vi analysere en mer typisk oppgave, man kan til og med si en liten rebus:

Eksempel 9

En diskret tilfeldig variabel kan bare ha to verdier: og , og . Sannsynligheten, matematisk forventning og varians er kjent.

Løsning: La oss starte med en ukjent sannsynlighet. Siden en tilfeldig variabel bare kan ta to verdier, er summen av sannsynlighetene for de tilsvarende hendelsene:

og siden da.

Det gjenstår å finne ..., lett å si :) Men jammen begynte det. Per definisjon av matematisk forventning:
- erstatte de kjente verdiene:

- og ingenting mer kan presses ut av denne ligningen, bortsett fra at du kan skrive den om i vanlig retning:

eller:

Om videre handlinger, tror jeg du kan gjette. La oss lage og løse systemet:

Desimaler er selvfølgelig en fullstendig skam; multipliser begge ligningene med 10:

og del på 2:

Det er bedre. Fra den første ligningen uttrykker vi:
(dette er den enkleste måten)- erstatning i 2. ligning:


Vi bygger kvadrat og gjør forenklinger:

Vi multipliserer med:

Som et resultat, kvadratisk ligning, finner det diskriminerende:
- perfekt!

og vi får to løsninger:

1) hvis , deretter ;

2) hvis , deretter .

Det første paret med verdier tilfredsstiller betingelsen. Med stor sannsynlighet er alt riktig, men likevel skriver vi ned distribusjonsloven:

og utfør en sjekk, nemlig finn forventningen: