Vægtet varians. Spredning af en diskret stokastisk variabel

Spredningtilfældig variabel- et mål for spredningen af ​​en given tilfældig variabel, altså hende afvigelser fra matematisk forventning. I statistik bruges notationen (sigma squared) ofte til at betegne varians. Kvadratroden af ​​variansen kaldes standardafvigelse eller standardopslag. Standardafvigelsen måles i de samme enheder som den stokastiske variabel selv, og variansen måles i kvadraterne af den pågældende enhed.

Selvom det er meget praktisk kun at bruge én værdi (såsom middelværdi eller mode og median) til at estimere hele stikprøven, kan denne tilgang nemt føre til forkerte konklusioner. Årsagen til denne situation ligger ikke i selve værdien, men i det faktum, at én værdi ikke på nogen måde afspejler spredningen af ​​dataværdier.

For eksempel i prøven:

gennemsnittet er 5.

Der er dog intet element i selve prøven med en værdi på 5. Du skal muligvis vide, hvor tæt hvert element i prøven er på sin middelværdi. Eller med andre ord, du skal kende variansen af ​​værdierne. Ved at vide, i hvilket omfang dataene har ændret sig, kan du bedre fortolke betyde, median og mode. Graden af ​​ændring i prøveværdier bestemmes ved at beregne deres varians og standardafvigelse.



Variansen og kvadratroden af ​​variansen, kaldet standardafvigelsen, karakteriserer middelafvigelsen fra prøvegennemsnittet. Blandt disse to mængder er den vigtigste standardafvigelse. Denne værdi kan repræsenteres som den gennemsnitlige afstand, hvormed elementerne er fra det midterste element i prøven.

Spredning er svær at fortolke meningsfuldt. Kvadratroden af ​​denne værdi er imidlertid standardafvigelsen og egner sig godt til fortolkning.

Standardafvigelsen beregnes ved først at bestemme variansen og derefter beregne kvadratroden af ​​variansen.

For eksempel, for dataarrayet vist i figuren, vil følgende værdier blive opnået:

Billede 1

Her er gennemsnittet af de kvadrerede forskelle 717,43. For at få standardafvigelsen er det kun tilbage at tage kvadratroden af ​​dette tal.

Resultatet bliver cirka 26,78.

Det skal huskes, at standardafvigelsen fortolkes som den gennemsnitlige afstand, hvormed elementerne er fra prøvegennemsnittet.

Standardafvigelsen viser, hvor godt gennemsnittet beskriver hele prøven.

Lad os sige, at du er leder af produktionsafdelingen for montering af en pc. Kvartalsrapporten siger, at produktionen for sidste kvartal var 2500 pc'er. Er det dårligt eller godt? Du bad (eller er der allerede denne kolonne i rapporten) om at få vist standardafvigelsen for disse data i rapporten. Standardafvigelsestallet er for eksempel 2000. Det bliver tydeligt for dig som afdelingsleder, at produktionslinjen har brug for bedre kontrol (for store afvigelser i antallet af pc'er, der samles).

Husk, at når standardafvigelsen er stor, er data bredt spredt rundt om middelværdien, og når standardafvigelsen er lille, samler de sig tæt på middelværdien.

Fire statistiske funktioner VARP(), VARP(), STDEV() og STDEV() er designet til at beregne variansen og standardafvigelsen af ​​tal i et celleområde. Før du kan beregne variansen og standardafvigelsen for et datasæt, skal du bestemme, om dataene repræsenterer populationen eller en stikprøve af populationen. I tilfælde af en stikprøve fra den generelle population skal funktionerne VARP() og STDEV() bruges, og i tilfælde af den generelle population skal funktionerne VARP() og STDEV() bruges:

Befolkning Fungere

VARP()

STDLANG()
Prøve

VARI()

STDEV()

Variansen (såvel som standardafvigelsen), som vi bemærkede, angiver, i hvilket omfang værdierne i datasættet er spredt omkring det aritmetiske middelværdi.

En lille værdi af variansen eller standardafvigelsen indikerer, at alle data er koncentreret omkring det aritmetiske middelværdi, og en stor værdi af disse værdier indikerer, at dataene er spredt over en bred vifte af værdier.

Variansen er ret svær at fortolke meningsfuldt (hvad betyder en lille værdi, en stor værdi?). Ydeevne Opgaver 3 giver dig mulighed for visuelt på en graf at vise betydningen af ​​variansen for et datasæt.

Opgaver

· Øvelse 1.

· 2.1. Giv begreberne: varians og standardafvigelse; deres symbolske betegnelse i statistisk databehandling.

· 2.2. Lav et arbejdsark i overensstemmelse med figur 1 og lav de nødvendige beregninger.

· 2.3. Angiv de grundlæggende formler brugt i beregningerne

· 2.4. Forklar al notation ( , , )

· 2.5. Forklar den praktiske betydning af begrebet varians og standardafvigelse.

Opgave 2.

1.1. Giv begreberne: generel befolkning og stikprøve; matematisk forventning og aritmetisk middelværdi af deres symbolske betegnelse i statistisk databehandling.

1.2. I overensstemmelse med figur 2, lav et arbejdsark og lav beregninger.

1.3. Angiv de grundlæggende formler brugt i beregningerne (for den generelle befolkning og stikprøve).

Figur 2

1.4. Forklar, hvorfor det er muligt at opnå sådanne værdier af aritmetiske middelværdier i prøver som 46.43 og 48.78 (se filtillæg). For at konkludere.

Opgave 3.

Der er to prøver med forskellige datasæt, men gennemsnittet for dem vil være det samme:

Figur 3

3.1. Lav et arbejdsark i overensstemmelse med figur 3 og lav de nødvendige beregninger.

3.2. Angiv de grundlæggende beregningsformler.

3.3. Byg grafer i overensstemmelse med figur 4, 5.

3.4. Forklar de resulterende afhængigheder.

3.5. Udfør lignende beregninger for disse to prøver.

Oprindelig prøve 11119999

Vælg værdierne for den anden prøve, så den aritmetiske middelværdi for den anden prøve er den samme, for eksempel:

Vælg selv værdierne for den anden prøve. Arranger beregninger og plot som figur 3, 4, 5. Vis hovedformlerne, der blev brugt i beregningerne.

Træk de passende konklusioner.

Alle opgaver skal præsenteres i form af en rapport med alle nødvendige figurer, grafer, formler og korte forklaringer.

Bemærk: opbygningen af ​​grafer skal forklares med figurer og korte forklaringer.

Spredningen af ​​en tilfældig variabel er et mål for spredningen af ​​værdierne af denne variabel. Lille varians betyder, at værdierne er klynget tæt på hinanden. En stor varians indikerer en stærk spredning af værdier. Begrebet spredning af en stokastisk variabel bruges i statistik. For eksempel, hvis du sammenligner variansen af ​​værdierne af to mængder (såsom resultaterne af observationer af mandlige og kvindelige patienter), kan du teste betydningen af ​​en variabel. Varians bruges også ved opbygning af statistiske modeller, da lille varians kan være et tegn på, at du overfitter værdier.

Trin

Prøvevariansberegning

  1. Registrer prøveværdierne. I de fleste tilfælde er kun stikprøver af bestemte populationer tilgængelige for statistikere. For eksempel analyserer statistikere som regel ikke omkostningerne ved at opretholde befolkningen i alle biler i Rusland - de analyserer en tilfældig stikprøve på flere tusinde biler. En sådan prøve vil hjælpe med at bestemme den gennemsnitlige pris pr. bil, men højst sandsynligt vil den resulterende værdi være langt fra den rigtige.

    • Lad os for eksempel analysere antallet af boller, der sælges på en cafe på 6 dage, taget i tilfældig rækkefølge. Stikprøven har følgende form: 17, 15, 23, 7, 9, 13. Dette er en stikprøve, ikke en population, fordi vi ikke har data om solgte boller for hver dag, cafeen er åben.
    • Hvis du får en population og ikke en stikprøve af værdier, skal du springe til næste afsnit.
  2. Skriv ned formlen til beregning af prøvevariansen. Spredning er et mål for spredningen af ​​værdier af en vis mængde. Jo tættere spredningsværdien er på nul, jo tættere er værdierne grupperet sammen. Når du arbejder med en stikprøve af værdier, skal du bruge følgende formel til at beregne variansen:

    • s 2 (\displaystyle s^(2)) = ∑[(x i (\displaystyle x_(i))-x) 2 (\displaystyle ^(2))] / (n - 1)
    • s 2 (\displaystyle s^(2)) er spredningen. Spredning måles i kvadratenheder.
    • x i (\displaystyle x_(i))- hver værdi i prøven.
    • x i (\displaystyle x_(i)) du skal trække x̅ fra, kvadrere det og derefter tilføje resultaterne.
    • x̅ – sample mean (sample mean).
    • n er antallet af værdier i prøven.
  3. Beregn prøvegennemsnittet. Det er angivet som x̅. Prøvegennemsnittet beregnes som et normalt aritmetisk middelværdi: læg alle værdierne i prøven sammen, og divider derefter resultatet med antallet af værdier i prøven.

    • I vores eksempel skal du tilføje værdierne i prøven: 15 + 17 + 23 + 7 + 9 + 13 = 84
      Divider nu resultatet med antallet af værdier i prøven (i vores eksempel er der 6): 84 ÷ 6 = 14.
      Eksempelgennemsnit x̅ = 14.
    • Prøvemiddelværdien er den centrale værdi, som værdierne i prøven er fordelt omkring. Hvis værdierne i prøveklyngen omkring prøven betyder, så er variansen lille; ellers er spredningen stor.
  4. Træk prøvegennemsnittet fra hver værdi i prøven. Beregn nu forskellen x i (\displaystyle x_(i))- x̅, hvor x i (\displaystyle x_(i))- hver værdi i prøven. Hvert opnået resultat angiver, i hvor høj grad en bestemt værdi afviger fra prøvegennemsnittet, dvs. hvor langt denne værdi er fra prøvegennemsnittet.

    • I vores eksempel:
      x 1 (\displaystyle x_(1))- x̅ = 17 - 14 = 3
      x 2 (\displaystyle x_(2))- x̅ = 15 - 14 = 1
      x 3 (\displaystyle x_(3))- x̅ = 23 - 14 = 9
      x 4 (\displaystyle x_(4))- x̅ = 7 - 14 = -7
      x 5 (\displaystyle x_(5))- x̅ = 9 - 14 = -5
      x 6 (\displaystyle x_(6))- x̅ = 13 - 14 = -1
    • Rigtigheden af ​​de opnåede resultater er let at verificere, da deres sum skal være lig med nul. Dette er relateret til bestemmelsen af ​​gennemsnitsværdien, da negative værdier (afstande fra gennemsnitsværdien til mindre værdier) fuldstændigt udlignes af positive værdier (afstande fra gennemsnitsværdien til større værdier).
  5. Som nævnt ovenfor, summen af ​​forskellene x i (\displaystyle x_(i))- x̅ skal være lig med nul. Dette betyder, at den gennemsnitlige varians altid er nul, hvilket ikke giver nogen idé om spredningen af ​​værdierne af en vis mængde. For at løse dette problem skal du kvadratisk hver forskel x i (\displaystyle x_(i))- x. Dette vil resultere i, at du kun får positive tal, som, når de lægges sammen, aldrig vil summere til 0.

    • I vores eksempel:
      (x 1 (\displaystyle x_(1))-x) 2 = 3 2 = 9 (\displaystyle ^(2)=3^(2)=9)
      (x 2 (\displaystyle (x_(2))-x) 2 = 1 2 = 1 (\displaystyle ^(2)=1^(2)=1)
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • Du har fundet kvadratet af forskellen - x̅) 2 (\displaystyle ^(2)) for hver værdi i prøven.
  6. Beregn summen af ​​kvadrerede forskelle. Det vil sige, find den del af formlen, der er skrevet sådan: ∑[( x i (\displaystyle x_(i))-x) 2 (\displaystyle ^(2))]. Her betyder tegnet Σ summen af ​​kvadrerede forskelle for hver værdi x i (\displaystyle x_(i)) i prøven. Du har allerede fundet de kvadratiske forskelle (x i (\displaystyle (x_(i))-x) 2 (\displaystyle ^(2)) for hver værdi x i (\displaystyle x_(i)) i prøven; nu skal du bare tilføje disse firkanter.

    • I vores eksempel: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. Divider resultatet med n - 1, hvor n er antallet af værdier i prøven. For nogen tid siden, for at beregne stikprøvevariansen, dividerede statistikere simpelthen resultatet med n; i dette tilfælde vil du få middelværdien af ​​den kvadrerede varians, som er ideel til at beskrive variansen af ​​en given prøve. Men husk, at enhver prøve kun er en lille del af den generelle population af værdier. Hvis du tager en anden prøve og laver de samme beregninger, får du et andet resultat. Som det viser sig, giver dividering med n - 1 (i stedet for kun n) et bedre estimat af populationsvariansen, som er det, du leder efter. At dividere med n - 1 er blevet almindeligt, så det er inkluderet i formlen til beregning af stikprøvevariansen.

    • I vores eksempel inkluderer prøven 6 værdier, det vil sige n = 6.
      Prøvevarians = s 2 = 166 6 − 1 = (\displaystyle s^(2)=(\frac (166)(6-1))=) 33,2
  8. Forskellen mellem variansen og standardafvigelsen. Bemærk, at formlen indeholder en eksponent, så variansen måles i kvadratenheder af den analyserede værdi. Nogle gange er en sådan værdi ret vanskelig at betjene; i sådanne tilfælde anvendes standardafvigelsen, som er lig med kvadratroden af ​​variansen. Det er derfor, stikprøvevariansen er angivet som s 2 (\displaystyle s^(2)), og prøvens standardafvigelse som s (\displaystyle s).

    • I vores eksempel er prøvens standardafvigelse: s = √33,2 = 5,76.

    Beregning af befolkningsvarians

    1. Analyser et sæt værdier. Sættet inkluderer alle værdier af den mængde, der er i betragtning. For eksempel, hvis du studerer alderen på beboere i Leningrad-regionen, inkluderer befolkningen alderen på alle indbyggere i denne region. I tilfælde af at arbejde med et aggregat, anbefales det at oprette en tabel og indtaste aggregatets værdier i den. Overvej følgende eksempel:

      • Der er 6 akvarier i et bestemt rum. Hvert akvarium indeholder følgende antal fisk:
        x 1 = 5 (\displaystyle x_(1)=5)
        x 2 = 5 (\displaystyle x_(2)=5)
        x 3 = 8 (\displaystyle x_(3)=8)
        x 4 = 12 (\displaystyle x_(4)=12)
        x 5 = 15 (\displaystyle x_(5)=15)
        x 6 = 18 (\displaystyle x_(6)=18)
    2. Skriv ned formlen til beregning af populationsvariansen. Da populationen inkluderer alle værdier af en vis mængde, giver følgende formel dig mulighed for at få den nøjagtige værdi af variansen af ​​populationen. For at skelne populationsvarians fra stikprøvevarians (som kun er et estimat), bruger statistikere forskellige variabler:

      • σ 2 (\displaystyle ^(2)) = (∑(x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2))) / n
      • σ 2 (\displaystyle ^(2))- populationsvarians (læses som "sigma squared"). Spredning måles i kvadratenheder.
      • x i (\displaystyle x_(i))- hver værdi i aggregatet.
      • Σ er tegnet for summen. Det vil sige for hver værdi x i (\displaystyle x_(i)) træk μ fra, kvadreret det, og tilføj derefter resultaterne.
      • μ er befolkningsgennemsnittet.
      • n er antallet af værdier i den generelle befolkning.
    3. Beregn befolkningsgennemsnittet. Når man arbejder med den generelle befolkning, er dens gennemsnitlige værdi angivet som μ (mu). Populationsmiddelværdien beregnes som det sædvanlige aritmetiske middelværdi: læg alle værdierne i populationen sammen, og divider derefter resultatet med antallet af værdier i populationen.

      • Husk, at gennemsnit ikke altid beregnes som det aritmetiske gennemsnit.
      • I vores eksempel betyder populationen: μ = 5 + 5 + 8 + 12 + 15 + 18 6 (\displaystyle (\frac (5+5+8+12+15+18)(6))) = 10,5
    4. Træk befolkningsgennemsnittet fra hver værdi i populationen. Jo tættere forskelsværdien er på nul, jo tættere er den bestemte værdi på populationsmiddelværdien. Find forskellen mellem hver værdi i populationen og dens middelværdi, og du får et første kig på fordelingen af ​​værdierne.

      • I vores eksempel:
        x 1 (\displaystyle x_(1))- μ = 5 - 10,5 = -5,5
        x 2 (\displaystyle x_(2))- μ = 5 - 10,5 = -5,5
        x 3 (\displaystyle x_(3))- μ = 8 - 10,5 = -2,5
        x 4 (\displaystyle x_(4))- μ = 12 - 10,5 = 1,5
        x 5 (\displaystyle x_(5))- μ = 15 - 10,5 = 4,5
        x 6 (\displaystyle x_(6))- μ = 18 - 10,5 = 7,5
    5. Kvadret hvert resultat, du får. Differenceværdierne vil være både positive og negative; hvis du sætter disse værdier på en tallinje, så vil de ligge til højre og venstre for befolkningsgennemsnittet. Dette er ikke godt til at beregne varians, da positive og negative tal ophæver hinanden. Kvadre derfor hver forskel for at få udelukkende positive tal.

      • I vores eksempel:
        (x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2)) for hver populationsværdi (fra i = 1 til i = 6):
        (-5,5)2 (\displaystyle ^(2)) = 30,25
        (-5,5)2 (\displaystyle ^(2)), hvor x n (\displaystyle x_(n)) er den sidste værdi i populationen.
      • For at beregne gennemsnitsværdien af ​​de opnåede resultater skal du finde deres sum og dividere den med n: (( x 1 (\displaystyle x_(1)) - μ) 2 (\displaystyle ^(2)) + (x 2 (\displaystyle x_(2)) - μ) 2 (\displaystyle ^(2)) + ... + (x n (\displaystyle x_(n)) - μ) 2 (\displaystyle ^(2))) / n
      • Lad os nu skrive ovenstående forklaring ved hjælp af variabler: (∑( x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2))) / n og få en formel til beregning af populationsvariansen.

Dispersion er et mål for spredning, der beskriver den relative afvigelse mellem dataværdier og middelværdien. Det er det mest almindeligt anvendte mål for spredning i statistik, beregnet ved at summere, kvadreret, afvigelsen af ​​hver dataværdi fra middelværdien. Formlen til beregning af variansen er vist nedenfor:

s 2 - prøvevarians;

x cf er middelværdien af ​​prøven;

n prøvestørrelse (antal dataværdier),

(x i – x cf) er afvigelsen fra middelværdien for hver værdi af datasættet.

For bedre at forstå formlen, lad os se på et eksempel. Jeg kan ikke rigtig godt lide at lave mad, så jeg gør det sjældent. Men for ikke at dø af sult må jeg fra tid til anden gå til komfuret for at gennemføre planen om at mætte min krop med proteiner, fedtstoffer og kulhydrater. Datasættet nedenfor viser, hvor mange gange Renat laver mad hver måned:

Det første trin i beregningen af ​​variansen er at bestemme stikprøvegennemsnittet, som i vores eksempel er 7,8 gange om måneden. De resterende beregninger kan lettes ved hjælp af følgende tabel.

Den sidste fase af beregningen af ​​variansen ser således ud:

For dem, der kan lide at lave alle beregningerne på én gang, vil ligningen se sådan ud:

Brug af råtællemetoden (tilberedningseksempel)

Der er en mere effektiv måde at beregne variansen på, kendt som "råtællemetoden". Selvom ligningen ved første øjekast kan virke ret besværlig, er den faktisk ikke så skræmmende. Du kan bekræfte dette og derefter beslutte, hvilken metode du bedst kan lide.

er summen af ​​hver dataværdi efter kvadrering,

er kvadratet af summen af ​​alle dataværdier.

Mist ikke forstanden lige nu. Lad os sætte det hele i form af en tabel, og så vil du se, at der er færre beregninger her end i det foregående eksempel.

Som du kan se, er resultatet det samme som ved brug af den tidligere metode. Fordelene ved denne metode bliver tydelige, efterhånden som stikprøvestørrelsen (n) vokser.

Beregning af varians i Excel

Som du måske har gættet, er der en formel i Excel, som giver dig mulighed for at beregne variansen. Fra Excel 2010 kan du desuden finde 4 varianter af spredningsformlen:

1) VAR.V - Returnerer variansen af ​​stikprøven. Booleske værdier og tekst ignoreres.

2) VAR.G - Returnerer populationsvariansen. Booleske værdier og tekst ignoreres.

3) VASP - Returnerer prøvevariansen under hensyntagen til boolske værdier og tekstværdier.

4) VARP - Returnerer variansen af ​​populationen under hensyntagen til logiske værdier og tekstværdier.

Lad os først se på forskellen mellem en prøve og en population. Formålet med beskrivende statistik er at opsummere eller vise data på en sådan måde, at man hurtigt får et stort overblik, så at sige, et overblik. Statistisk slutning giver dig mulighed for at foretage slutninger om en population baseret på en stikprøve af data fra denne population. Populationen repræsenterer alle mulige udfald eller målinger, som er af interesse for os. En stikprøve er en delmængde af en population.

For eksempel er vi interesseret i helheden af ​​en gruppe studerende fra et af de russiske universiteter, og vi skal bestemme gruppens gennemsnitlige score. Vi kan beregne den gennemsnitlige præstation for elever, og så vil det resulterende tal være en parameter, da hele befolkningen vil være involveret i vores beregninger. Men hvis vi ønsker at beregne GPA for alle studerende i vores land, så vil denne gruppe være vores stikprøve.

Forskellen i formlen til beregning af variansen mellem stikprøven og populationen er i nævneren. Hvor det for stikprøven vil være lig med (n-1), og for den generelle population kun n.

Lad os nu beskæftige os med funktionerne til at beregne variansen med endelser MEN, i beskrivelsen, hvoraf det siges, at beregningen tager hensyn til tekst og logiske værdier. I dette tilfælde, når man beregner variansen af ​​et specifikt datasæt, hvor ikke-numeriske værdier forekommer, vil Excel fortolke tekst og falske booleaner som 0 og sande booleaner som 1.

Så hvis du har en række data, vil det ikke være svært at beregne variansen ved hjælp af en af ​​Excel-funktionerne ovenfor.

Ofte i statistikker, når man analyserer et fænomen eller proces, er det nødvendigt at tage hensyn til ikke kun oplysninger om de gennemsnitlige niveauer af de undersøgte indikatorer, men også spredning eller variation i værdierne af individuelle enheder , hvilket er et vigtigt kendetegn ved den undersøgte befolkning.

Aktiekurser, mængder af udbud og efterspørgsel, renter i forskellige perioder og forskellige steder er underlagt den største variation.

De vigtigste indikatorer, der karakteriserer variationen , er området, variansen, standardafvigelsen og variationskoefficienten.

Spændvariation er forskellen mellem maksimum- og minimumværdierne for attributten: R = Xmax – Xmin. Ulempen ved denne indikator er, at den kun evaluerer grænserne for egenskabsvariationen og ikke afspejler dens udsving inden for disse grænser.

Spredning uden denne mangel. Det beregnes som det gennemsnitlige kvadrat af afvigelser af attributværdierne fra deres gennemsnitlige værdi:

Forenklet måde at beregne varians på udføres ved hjælp af følgende formler (enkle og vægtede):

Eksempler på anvendelsen af ​​disse formler er præsenteret i opgave 1 og 2.

En meget brugt indikator i praksis er standardafvigelse :

Standardafvigelsen er defineret som kvadratroden af ​​variansen og har samme dimension som det undersøgte træk.

De betragtede indikatorer gør det muligt at opnå den absolutte værdi af variationen, dvs. evaluere det i måleenheder for den egenskab, der undersøges. I modsætning til dem, variationskoefficienten måler udsving i relative tal - i forhold til gennemsnitsniveauet, hvilket i mange tilfælde er at foretrække.

Formel til beregning af variationskoefficienten.

Eksempler på løsning af problemer om emnet "Indikatorer for variation i statistik"

Opgave 1 . Ved undersøgelse af reklamens indflydelse på størrelsen af ​​det gennemsnitlige månedlige indskud i distriktets banker blev 2 banker undersøgt. Følgende resultater opnås:

Definere:
1) for hver bank: a) gennemsnitlig månedlig indbetaling; b) spredning af bidraget;
2) det gennemsnitlige månedlige indskud for to banker tilsammen;
3) Spredning af depositum for 2 banker, afhængig af annoncering;
4) Spredning af depositum for 2 banker, afhængigt af alle faktorer undtagen reklame;
5) Total varians ved hjælp af additionsreglen;
6) Bestemmelseskoefficient;
7) Korrelationsforhold.

Løsning

1) Lad os lave en beregningstabel for en bank med annoncering . For at bestemme den gennemsnitlige månedlige indbetaling finder vi midtpunkterne for intervallerne. I dette tilfælde er værdien af ​​det åbne interval (det første) betinget lig med værdien af ​​intervallet, der støder op til det (det andet).

Vi finder den gennemsnitlige størrelse af bidraget ved hjælp af den vægtede aritmetiske middelværdiformel:

29.000/50 = 580 rubler

Spredningen af ​​bidraget findes ved formlen:

23 400/50 = 468

Vi vil udføre lignende handlinger for en bank uden annoncer :

2) Find det gennemsnitlige indskud for to banker sammen. Xav \u003d (580 × 50 + 542,8 × 50) / 100 \u003d 561,4 rubler.

3) Variansen af ​​depositum, for to banker, afhængigt af reklame, vil vi finde ved formlen: σ 2 =pq (formel for variansen af ​​en alternativ funktion). Her er p=0,5 andelen af ​​faktorer, der afhænger af annoncering; q=1-0,5, derefter σ2 =0,5*0,5=0,25.

4) Da andelen af ​​andre faktorer er 0,5, så er variansen af ​​indlånet for to banker, som afhænger af alle faktorer undtagen annoncering, også 0,25.

5) Bestem den samlede varians ved hjælp af additionsreglen.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 \u003d σ 2 fakta + σ 2 hvile \u003d 552,08 + 345,96 \u003d 898,04

6) Bestemmelseskoefficient η 2 = σ 2 fakta / σ 2 = 345,96/898,04 = 0,39 = 39% - størrelsen af ​​bidraget afhænger af annoncering med 39%.

7) Empirisk korrelationsforhold η = √η 2 = √0,39 = 0,62 - sammenhængen er ret tæt.

Opgave 2 . Der er en gruppering af virksomheder efter værdien af ​​omsættelige produkter:

Bestem: 1) spredningen af ​​værdien af ​​salgbare produkter; 2) standardafvigelse; 3) variationskoefficient.

Løsning

1) Efter betingelse præsenteres en intervalfordelingsrække. Det skal udtrykkes diskret, det vil sige find midten af ​​intervallet (x "). I grupper af lukkede intervaller finder vi midten ved et simpelt aritmetisk middel. I grupper med en øvre grænse, som forskellen mellem denne øvre grænse og halvdelen af ​​størrelsen af ​​intervallet efter det (200-(400 -200):2=100).

I grupper med en nedre grænse - summen af ​​denne nedre grænse og halvdelen af ​​størrelsen af ​​det foregående interval (800+(800-600):2=900).

Beregningen af ​​gennemsnitsværdien af ​​salgbare produkter udføres efter formlen:

Хср = k×((Σ((x"-a):k)×f):Σf)+a. Her er a=500 størrelsen af ​​varianten ved den højeste frekvens, k=600-400=200 er størrelsen af ​​intervallet ved den højeste frekvens Lad os sætte resultatet i en tabel:

Så den gennemsnitlige værdi af salgbar produktion for perioden under undersøgelse som helhed er Xav = (-5:37) × 200 + 500 = 472,97 tusind rubler.

2) Vi finder spredningen ved hjælp af følgende formel:

σ 2 \u003d (33/37) * 2002-(472.97-500) 2 \u003d 35.675.67-730.62 \u003d 34.945,05

3) standardafvigelse: σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 tusind rubler.

4) variationskoefficient: V \u003d (σ / Xav) * 100 \u003d (186,94 / 472,97) * 100 \u003d 39,52%

Denne egenskab alene er dog endnu ikke tilstrækkelig til undersøgelse af en tilfældig variabel. Forestil dig to skytter, der skyder mod et mål. Den ene skyder præcist og rammer tæt på midten, og den anden ... bare hygger sig og sigter ikke engang. Men det sjove er det gennemsnit resultatet bliver nøjagtigt det samme som det første skydespil! Denne situation er betinget illustreret af følgende tilfældige variable:

Den "sniper" matematiske forventning er dog lig med for den "interessante person": - den er også nul!

Der er således behov for at kvantificere, hvor langt spredt kugler (værdier af en tilfældig variabel) i forhold til midten af ​​målet (forventning). godt og spredning kun oversat fra latin som spredning .

Lad os se, hvordan denne numeriske egenskab bestemmes i et af eksemplerne i 1. del af lektionen:

Der fandt vi en skuffende matematisk forventning til dette spil, og nu skal vi beregne dets varians, hvilket angivet igennem .

Lad os finde ud af, hvor langt gevinsterne/tabene er "spredt" i forhold til gennemsnitsværdien. Det er klart, for dette skal vi beregne forskelle mellem værdier af en tilfældig variabel og hende matematisk forventning:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Nu ser det ud til at være nødvendigt at opsummere resultaterne, men denne måde er ikke god - af den grund at svingningerne til venstre vil ophæve hinanden med svingningerne til højre. Så for eksempel "amatør"-skytten (eksempel ovenfor) forskellene vil være , og når de tilføjes, vil de give nul, så vi får ikke noget skøn over spredningen af ​​hans skydning.

Overvej for at omgå denne irritation moduler forskelle, men af ​​tekniske årsager har tilgangen slået rod, når de er kvadreret. Det er mere bekvemt at arrangere løsningen i en tabel:

Og her beder det om at regne vægtet gennemsnit værdien af ​​de kvadrerede afvigelser. Hvad er det? Det er deres forventet værdi, som er målet for spredning:

definition spredning. Det fremgår umiddelbart af definitionen varians kan ikke være negativ- læg mærke til øvelsen!

Lad os huske, hvordan man finder forventningen. Gang de kvadrerede forskelle med de tilsvarende sandsynligheder (Tabelfortsættelse):
- billedligt talt er dette "trækkraft",
og opsummer resultaterne:

Synes du ikke, at resultatet på baggrund af gevinster viste sig at være for stort? Det er rigtigt - vi kvadrede, og for at vende tilbage til dimensionen af ​​vores spil, er vi nødt til at tage kvadratroden. Denne værdi kaldes standardafvigelse og er betegnet med det græske bogstav "sigma":

Nogle gange kaldes denne betydning standardafvigelse .

Hvad er dens betydning? Hvis vi afviger fra den matematiske forventning til venstre og til højre med standardafvigelsen:

– så vil de mest sandsynlige værdier af den stokastiske variabel være "koncentreret" på dette interval. Hvad vi faktisk ser:

Men det skete så, at i analysen af ​​spredning næsten altid operere med begrebet spredning. Lad os se, hvad det betyder i forhold til spil. Hvis vi i tilfælde af skytter taler om "nøjagtigheden" af slag i forhold til midten af ​​målet, så karakteriserer spredningen her to ting:

For det første er det indlysende, at efterhånden som satserne stiger, stiger variansen også. Så hvis vi for eksempel øger med 10 gange, så vil den matematiske forventning stige med 10 gange, og variansen vil stige med 100 gange (så snart det er en kvadratisk værdi). Men bemærk at spillereglerne ikke har ændret sig! Kun satserne er ændret, groft sagt plejede vi at satse 10 rubler, nu 100.

Den anden, mere interessante pointe er, at variansen karakteriserer spillestilen. Fix mentalt spilhastighederne på et vist niveau, og se hvad der er hvad her:

Et spil med lav varians er et forsigtigt spil. Spilleren har en tendens til at vælge de mest pålidelige ordninger, hvor han ikke taber/vinder for meget på én gang. For eksempel det rød/sort system i roulette (se eksempel 4 i artiklen tilfældige variable) .

Spil med høj varians. Hun bliver ofte kaldt spredning spil. Dette er en eventyrlig eller aggressiv spillestil, hvor spilleren vælger "adrenalin"-skemaer. Lad os i det mindste huske "Martingale", hvor beløbene på spil er størrelsesordener større end det "stille" spil i det foregående afsnit.

Situationen i poker er vejledende: der er såkaldte tæt spillere, der har tendens til at være forsigtige og "ryste" med deres spilmidler (bankroll). Ikke overraskende svinger deres bankroll ikke meget (lav varians). Omvendt, hvis en spiller har høj varians, så er det aggressoren. Han tager ofte risici, laver store indsatser og kan både bryde en kæmpe bank og gå i stykker.

Det samme sker i Forex, og så videre - der er mange eksempler.

Desuden er det i alle tilfælde ligegyldigt, om spillet er for en krone eller for tusindvis af dollars. Hvert niveau har sine spillere med lav og høj varians. Nå, for den gennemsnitlige sejr, som vi husker, "ansvarlig" forventet værdi.

Du har sikkert bemærket, at det er en lang og omhyggelig proces at finde variansen. Men matematik er generøst:

Formel til at finde variansen

Denne formel er afledt direkte fra definitionen af ​​varians, og vi sætter den straks i omløb. Jeg kopierer pladen med vores spil fra oven:

og den fundne forventning.

Vi beregner variansen på den anden måde. Lad os først finde den matematiske forventning - kvadratet af den tilfældige variabel . Ved definition af matematisk forventning:

I dette tilfælde:

Altså ifølge formlen:

Som de siger, mærk forskellen. Og i praksis er det selvfølgelig bedre at anvende formlen (medmindre betingelsen kræver andet).

Vi mestrer teknikken til at løse og designe:

Eksempel 6

Find dens matematiske forventning, varians og standardafvigelse.

Denne opgave findes overalt og går som regel uden mening.
Du kan forestille dig flere pærer med tal, der lyser op i et galehus med visse sandsynligheder :)

Løsning: Det er praktisk at opsummere hovedberegningerne i en tabel. Først skriver vi de indledende data i de to øverste linjer. Derefter beregner vi produkterne, derefter og til sidst summen i højre kolonne:

Faktisk er næsten alt klar. I tredje linje blev der tegnet en færdiglavet matematisk forventning: .

Spredningen beregnes med formlen:

Og endelig standardafvigelsen:
- personligt plejer jeg at afrunde til 2 decimaler.

Alle beregninger kan udføres på en lommeregner, og endnu bedre - i Excel:

Det er svært at gå galt her :)

Svar:

De, der ønsker det, kan forenkle deres liv endnu mere og drage fordel af min lommeregner (demo), som ikke kun øjeblikkeligt løser dette problem, men også bygger tematisk grafik (kom snart). Programmet kan download på biblioteket– hvis du har downloadet mindst ét ​​studiemateriale, eller modtager anden måde. Tak for din støtte til projektet!

Et par opgaver til selvstændig løsning:

Eksempel 7

Beregn variansen af ​​den tilfældige variabel i det foregående eksempel pr. definition.

Og et lignende eksempel:

Eksempel 8

En diskret stokastisk variabel er givet af sin egen fordelingslov:

Ja, værdierne af den tilfældige variabel kan være ret store (eksempel fra rigtigt arbejde), og her, hvis det er muligt, brug Excel. Som forresten i eksempel 7 - er det hurtigere, mere pålideligt og mere behageligt.

Løsninger og svar nederst på siden.

Som afslutning på 2. del af lektionen vil vi analysere en mere typisk opgave, man kan endda sige en lille rebus:

Eksempel 9

En diskret tilfældig variabel kan kun tage to værdier: og , og . Sandsynligheden, den matematiske forventning og variansen er kendt.

Løsning: Lad os starte med en ukendt sandsynlighed. Da en tilfældig variabel kun kan tage to værdier, så er summen af ​​sandsynligheden for de tilsvarende begivenheder:

og siden da.

Det er tilbage at finde ..., nemt at sige :) Men nåja, det startede. Per definition af matematisk forventning:
- erstatte de kendte værdier:

- og intet mere kan presses ud af denne ligning, bortset fra at du kan omskrive den i den sædvanlige retning:

eller:

Om yderligere handlinger, tror jeg, du kan gætte. Lad os skabe og løse systemet:

Decimaler er naturligvis en fuldstændig skændsel; gange begge ligninger med 10:

og dividere med 2:

Det er meget bedre. Fra 1. ligning udtrykker vi:
(det er den nemmeste måde)- erstatning i 2. ligning:


Vi bygger firkantet og gør forenklinger:

Vi multiplicerer med:

Som resultat, andengradsligning, finde dens diskriminerende:
- Perfekt!

og vi får to løsninger:

1) hvis , derefter ;

2) hvis , derefter .

Det første par værdier opfylder betingelsen. Med stor sandsynlighed er alt korrekt, men ikke desto mindre skriver vi distributionsloven ned:

og udfør en kontrol, nemlig find forventningen: