Konstruer et eksempel på en diskret distribusjonsserie. Regler for å konstruere diskrete og intervallfordelingsserier

En diskret variasjonsserie er konstruert for diskrete funksjoner.

For å bygge en diskret variasjonsserie, må du gjøre følgende: 1) sortere observasjonsenhetene i stigende rekkefølge av den studerte attributtverdien,

2) bestemme alle mulige verdier av attributtet x i, sorter dem i stigende rekkefølge,

tegnverdi, Jeg .

funksjonsverdifrekvens og betegne f Jeg . Summen av alle frekvenser i serien er lik antall elementer i den studerte populasjonen.

Eksempel 1 .

Liste over karakterer oppnådd av studenter ved eksamen: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Her er nummeret X - karakterer en diskret tilfeldig variabel, og den resulterende listen over estimater erstatistiske (observerte) data .

    rekkefølge observasjonsenhetene i stigende rekkefølge etter den studerte verdien av funksjonen:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) bestem alle mulige verdier for attributtet x i, sorter dem i stigende rekkefølge:

I dette eksemplet kan alle poengsum deles inn i fire grupper med følgende verdier: 2; 3; 4; 5.

Verdien av en tilfeldig variabel som tilsvarer en egen gruppe observerte data kalles tegnverdi, variant (opsjon) og angi x Jeg .

Tallet som viser hvor mange ganger den tilsvarende funksjonsverdien forekommer i en serie observasjoner kalles funksjonsverdifrekvens og betegne f Jeg .

For vårt eksempel

score 2 forekommer - 8 ganger,

score 3 forekommer - 12 ganger,

score 4 forekommer - 23 ganger,

poengsum 5 forekommer - 17 ganger.

Det er 60 vurderinger totalt.

4) skriv de mottatte dataene inn i en tabell med to rader (kolonner) - x i og f i .

Basert på disse dataene er det mulig å konstruere en diskret variasjonsserie

Diskrete variasjonsserier - dette er en tabell der de forekommende verdiene for den studerte egenskapen er indikert som separate verdier i stigende rekkefølge og deres frekvenser

  1. Konstruksjon av en intervallvariasjonsserie

I tillegg til de diskrete variasjonsseriene er det ofte en slik måte å gruppere data på som en intervallvariasjonsserie.

En intervallserie bygges hvis:

    tegnet har en kontinuerlig natur av endring;

    det er mange diskrete verdier (mer enn 10)

    frekvenser av diskrete verdier er veldig små (ikke overstige 1-3 med et relativt stort antall observasjonsenheter);

    mange diskrete verdier av en funksjon med samme frekvenser.

En intervallvariasjonsserie er en måte å gruppere data i form av en tabell som har to kolonner (funksjonsverdier i form av et intervall med verdier og frekvensen til hvert intervall).

I motsetning til en diskret serie, er verdiene til karakteristikken til en intervallserie ikke representert av individuelle verdier, men av et intervall av verdier ("fra - til").

Tallet som viser hvor mange observasjonsenheter som falt i hvert valgt intervall kalles funksjonsverdifrekvens og betegne f Jeg . Summen av alle frekvenser i serien er lik antall elementer (observasjonsenheter) i den studerte populasjonen.

Hvis en enhet har en funksjonsverdi som er lik verdien av den øvre grensen for intervallet, bør den henvises til neste intervall.

For eksempel vil et barn med en høyde på 100 cm falle inn i det andre intervallet, og ikke i det første; og et barn med en høyde på 130 cm vil falle inn i det siste intervallet, og ikke i det tredje.

Basert på disse dataene er det mulig å konstruere en intervallvariasjonsserie.

Hvert intervall har en nedre grense (x n), en øvre grense (x in) og en intervallbredde ( Jeg).

En intervallgrense er en egenskapsverdi som ligger på grensen til to intervaller.

barns høyde (cm)

barns høyde (cm)

antall barn

over 130

Hvis et intervall har en øvre og nedre grense, kalles det lukket intervall. Hvis intervallet bare har en nedre eller bare en øvre grense, så er dette - åpent intervall. Bare det aller første eller det aller siste intervallet kan være åpent. I eksemplet ovenfor er det siste intervallet åpent.

Intervallbredde (Jeg) er forskjellen mellom øvre og nedre grenser.

Jeg = x n - x in

Bredden på et åpent intervall antas å være den samme som bredden på et tilstøtende lukket intervall.

barns høyde (cm)

antall barn

Intervallbredde (i)

for beregninger 130+20=150

20 (fordi bredden på det tilstøtende lukkede intervallet er 20)

Alle intervallserier er delt inn i intervallserier med like intervaller og intervallserier med ulikt intervall. . I intervallrader med like intervaller er bredden på alle intervaller den samme. I intervallserier med ulikt intervall er bredden på intervallene forskjellig.

I dette eksemplet, en intervallserie med ulik intervall.

Send ditt gode arbeid i kunnskapsbasen er enkelt. Bruk skjemaet nedenfor

Studenter, hovedfagsstudenter, unge forskere som bruker kunnskapsbasen i studiene og arbeidet vil være deg veldig takknemlig.

postet på http://www.allbest.ru/

OPPGAVE1

Vi har følgende data om lønnen til ansatte i bedriften:

Tabell 1.1

Lønnsbeløpet i konv. hi. enheter

Det er nødvendig å bygge en intervallserie av fordelingen for å finne;

1) gjennomsnittslønn;

2) gjennomsnittlig lineært avvik;

4) standardavvik;

5) variasjonsområde;

6) oscillasjonskoeffisient;

7) lineær variasjonskoeffisient;

8) enkel variasjonskoeffisient;

10) median;

11) asymmetrikoeffisient;

12) Pearson asymmetriindeks;

13) kurtosis koeffisient.

Løsning

Som du vet, er alternativene (gjenkjente verdier) ordnet i stigende rekkefølge for å danne diskrete variasjonsserier. Med et stort antall variant (mer enn 10), selv ved diskret variasjon, bygges intervallserier.

Hvis en intervallserie er kompilert med jevne intervaller, deles variasjonsområdet på det angitte antallet intervaller. I dette tilfellet, hvis den oppnådde verdien er heltall og entydig (som er sjelden), blir lengden på intervallet tatt lik dette tallet. I andre tilfeller produsert avrunding Nødvendigvis V side forstørrelse, til det siste gjenværende sifferet var partall. Åpenbart, med en økning i lengden på intervallet, vil variasjonsområde med en verdi lik produktet av antall intervaller: med forskjellen mellom beregnet og opprinnelig lengde av intervallet

EN) Hvis verdien av utvidelsen av variasjonsområdet er ubetydelig, legges den enten til den største eller trekkes fra den minste verdien av attributtet;

b) Hvis størrelsen på utvidelsen av variasjonsområdet er håndgripelig, så for å unngå å blande midten av området, deles den grovt i to, samtidig legges til den største og trekkes fra de minste verdiene av Egenskap.

Hvis en intervallserie kompileres med ulik intervall, forenkles prosessen, men som før må lengden på intervallene uttrykkes som et tall med siste partall, noe som i stor grad forenkler etterfølgende beregninger av numeriske egenskaper.

30 - prøvestørrelse.

La oss komponere en intervallfordelingsserie ved å bruke Sturges-formelen:

K \u003d 1 + 3,32 * lg n,

K - antall grupper;

K \u003d 1 + 3,32 * lg 30 \u003d 5,91 \u003d 6

Vi finner rekkevidden til tegnet - lønnen til ansatte ved bedriften - (x) i henhold til formelen

R \u003d xmax - xmin og del med 6; R=195-112=83

Da blir lengden på intervallet l bane=83:6=13,83

Begynnelsen av det første intervallet vil være 112. Legger til 112 l ras=13,83, får vi sluttverdien 125,83, som også er begynnelsen på det andre intervallet, og så videre. slutten av det femte intervallet er 195.

Når man skal finne frekvenser, bør man la seg lede av regelen: "hvis verdien av et trekk faller sammen med grensen til det interne intervallet, så bør det henvises til forrige intervall."

Vi får en intervallserie av frekvenser og kumulative frekvenser.

Tabell 1.2

Derfor har 3 ansatte lønn. betaling fra 112 til 125,83 konvensjonelle enheter. Høyeste lønn betaling fra 181,15 til 195 konvensjonelle enheter. kun 6 arbeidere.

For å beregne de numeriske karakteristikkene konverterer vi intervallserien til en diskret, og tar midten av intervallene som en variant:

Tabell 1.3

14131,83

I henhold til den vektede aritmetiske gjennomsnittsformelen

kond.man.un.

Gjennomsnittlig lineært avvik:

der xi er verdien av det studerte trekk i den i-te enheten av populasjonen,

Gjennomsnittsverdien av den studerte egenskapen.

postet på http://www.allbest.ru/

LLagt ut på http://www.allbest.ru/

Pengeenhet

Standardavvik:

Spredning:

Relativt variasjonsområde (svingningskoeffisient): c=R:,

Relativt lineært avvik: q = L:

Variasjonskoeffisienten: V = y:

Oscillasjonskoeffisienten viser den relative fluktuasjonen av ekstremverdiene til egenskapen rundt det aritmetiske gjennomsnittet, og variasjonskoeffisienten karakteriserer graden og homogeniteten til befolkningen.

c \u003d R: \u003d 83 / 159,485 * 100% \u003d 52,043%

Dermed er forskjellen mellom ekstremverdiene 5,16% (=94,84%-100%) mindre enn gjennomsnittslønnen til ansatte i bedriften.

q \u003d L: \u003d 17,765 / 159,485 * 100 % \u003d 11,139 %

V \u003d y: \u003d 21,704 / 159,485 * 100 % \u003d 13,609 %

Variasjonskoeffisienten er mindre enn 33 %, noe som indikerer en svak variasjon i lønnen til ansatte i virksomheten, dvs. at gjennomsnittet er et typisk kjennetegn på lønnen til arbeidere (homogent aggregat).

I intervallfordelingsserien mote bestemmes av formelen -

Frekvensen av det modale intervallet, dvs. intervallet som inneholder det største antallet alternativer;

Frekvensen av intervallet før modalen;

Frekvensen av intervallet etter modalen;

Lengden på det modale intervallet;

Den nedre grensen for det modale intervallet.

For å bestemme medianer i intervallserien bruker vi formelen

hvor er den kumulative (kumulative) frekvensen til intervallet foran medianen;

Den nedre grensen for medianintervallet;

Frekvensen av medianintervallet;

Lengden på medianintervallet.

Median intervall- intervall, hvis akkumulerte frekvens (=3+3+5+7) overstiger halvparten av summen av frekvenser - (153,49; 167,32).

La oss beregne skjevheten og kurtose, som vi vil kompilere et nytt regneark for:

Tabell 1.4

Faktiske data

Estimerte data

Beregn øyeblikket for den tredje orden

Derfor er asymmetrien

Siden 0,3553 0,25 er asymmetrien anerkjent som signifikant.

Beregn øyeblikket av den fjerde orden

Derfor er kurtosis

Fordi< 0, то эксцесс является плосковершинным.

Graden av skjevhet kan bestemmes ved å bruke Pearsons skjevhetskoeffisient (As): oscillasjonsprøvekostnadsomsetning

hvor er det aritmetiske gjennomsnittet av distribusjonsserien; -- mote; -- standardavvik.

Med en symmetrisk (normal) fordeling = Mo, er derfor asymmetrikoeffisienten null. Hvis Аs > 0, så er det mer modus, derfor er det en høyresidig asymmetri.

Hvis As< 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

Fordelingen er ikke symmetrisk, men har en venstresidig asymmetri.

OPPGAVE 2

Hva bør prøvestørrelsen være slik at det er en sannsynlighet på 0,954 for at prøvetakingsfeilen ikke overstiger 0,04 dersom variansen er kjent fra tidligere undersøkelser til å være 0,24?

Løsning

Prøvestørrelsen for ikke-repeterende prøvetaking beregnes ved hjelp av formelen:

t - konfidens koeffisient (med en sannsynlighet på 0,954 er den lik 2,0; bestemt fra tabellene med sannsynlighetsintegraler),

y2=0,24 - standardavvik;

10 000 mennesker - prøvestørrelse;

Dx =0,04 - marginal feil av utvalgets gjennomsnitt.

Med en sannsynlighet på 95,4 % kan det argumenteres for at utvalgsstørrelsen, som gir en relativ feil på ikke mer enn 0,04, bør være minst 566 familier.

OPPGAVE3

Følgende data er tilgjengelige om inntekt fra hovedaktiviteten til bedriften, millioner rubler.

For å analysere en serie med dynamikk, bestem følgende indikatorer:

1) kjede og grunnleggende:

Absolutte gevinster;

Veksthastigheter;

Vekstrater;

2) medium

Dynamisk rekkevidde nivå;

Absolutt vekst;

Vekstrate;

Økningsrate;

3) den absolutte verdien av 1 % vekst.

Løsning

1. Absolutt vekst (Dy)- dette er forskjellen mellom neste nivå i serien og det forrige (eller grunnleggende):

kjede: Du \u003d yi - yi-1,

grunnleggende: Du \u003d yi - y0,

yi - radnivå,

i - radnivånummer,

y0 - basisårsnivå.

2. Veksthastighet (tu) er forholdet mellom neste nivå i serien og det forrige (eller basisåret 2001):

kjede: Tu = ;

grunnleggende: Tu =

3. Veksthastighet (TD) - dette er forholdet mellom absolutt vekst og forrige nivå, uttrykt i %.

kjede: Tu = ;

grunnleggende: Tu =

4. Absolutt verdi på 1 % økning (A)- er forholdet mellom kjedens absolutte vekst og vekstraten, uttrykt i %.

EN =

Midterste radnivå beregnes ved å bruke den aritmetiske middelformelen.

Gjennomsnittlig inntektsnivå fra kjernevirksomhet i 4 år:

Gjennomsnittlig absolutt vekst beregnet med formelen:

hvor n er antall nivåer i raden.

I gjennomsnitt for året økte inntektene fra kjerneaktiviteter med 3,333 millioner rubler.

Gjennomsnittlig årlig vekstrate beregnet med den geometriske gjennomsnittsformelen:

уn - det siste nivået i serien,

y0 - det innledende nivået i serien.

Tir \u003d 100 % \u003d 102,174 %

Gjennomsnittlig årlig vekstrate beregnet med formelen:

T? \u003d Tir - 100% \u003d 102,74% - 100% \u003d 2,74%.

Dermed økte inntektene fra hovedaktiviteten til foretaket i gjennomsnitt for året med 2,74%.

OPPGAVEREN4

Regne ut:

1. Individuelle prisindekser;

2. Generell omsetningsindeks;

3. Samlet prisindeks;

4. Samlet indeks for det fysiske volumet av salget av varer;

5. Den absolutte økningen i verdien av omsetningen og dekomponeres av faktorer (på grunn av endringer i priser og antall solgte varer);

6. Trekk korte konklusjoner på alle innhentede indikatorer.

Løsning

1. Etter betingelse utgjorde individuelle prisindekser for produktene A, B, C -

ipA=1,20; ipB=1,15; iрВ=1,00.

2. Den totale omsetningsindeksen beregnes med formelen:

Jeg w \u003d \u003d 1470/1045 * 100 % \u003d 140,67 %

Handelsomsetningen økte med 40,67 % (140,67 % -100 %).

I gjennomsnitt steg råvareprisene med 10,24 %.

Mengden ekstra kostnader for kjøpere fra prisøkninger:

w(p) = ? p1q1-? p0q1 \u003d 1470 - 1333.478 \u003d 136.522 millioner rubler.

Som et resultat av stigende priser måtte kjøpere bruke ytterligere 136,522 millioner rubler.

4. Generell indeks for fysisk handelsvolum:

Det fysiske handelsvolumet økte med 27,61 %.

5. La oss bestemme den totale endringen i omsetning i den andre perioden sammenlignet med den første perioden:

w \u003d 1470- 1045 \u003d 425 millioner rubler.

på grunn av prisendringer:

W(p) \u003d 1470 - 1333.478 \u003d 136.522 millioner rubler.

ved å endre det fysiske volumet:

w(q) \u003d 1333.478 - 1045 \u003d 288.478 millioner rubler.

Vareomsetningen økte med 40,67 %. Prisene i gjennomsnitt for 3 varer økte med 10,24 %. Det fysiske handelsvolumet økte med 27,61 %.

Generelt økte salgsvolumet med 425 millioner rubler, inkludert på grunn av stigende priser, økte det med 136,522 millioner rubler, og på grunn av en økning i salgsvolum - med 288,478 millioner rubler.

OPPGAVE5

For 10 anlegg i en bransje er følgende data tilgjengelig.

Fabrikknr.

Utgang, tusen stykker (X)

Basert på gitte data:

I) for å bekrefte bestemmelsene i den logiske analysen om tilstedeværelsen av en lineær korrelasjon mellom faktortegnet (produksjonseffekt) og det resulterende tegnet (elektrisitetsforbruk), plott de første dataene på grafen til korrelasjonsfeltet og trekk konklusjoner om form av forholdet, angi formelen;

2) bestemme parametrene til forbindelsesligningen og plott den resulterende teoretiske linjen på grafen til korrelasjonsfeltet;

3) beregne den lineære korrelasjonskoeffisienten,

4) forklare verdiene til indikatorene oppnådd i avsnitt 2) og 3);

5) ved å bruke den oppnådde modellen, lag en prognose om mulig forbruk av elektrisitet ved et anlegg med et produksjonsvolum på 4,5 tusen enheter.

Løsning

Tegndata - volumet av utgang (faktor), angitt med хi; tegn - strømforbruk (resultat) gjennom ui; punkter med koordinater (x, y) er plottet på OXY-korrelasjonsfeltet.

Punktene til korrelasjonsfeltet er plassert langs en rett linje. Derfor er sammenhengen lineær, vi vil se etter regresjonsligningen i form av en rett linje Yx=ax+b. For å finne det bruker vi systemet med normale ligninger:

La oss lage et regneark.

Basert på gjennomsnittene som er funnet, komponerer vi systemet og løser det med hensyn til parameterne a og b:

Så vi får regresjonsligningen for y på x: \u003d 3,57692 x + 3,19231

Vi bygger en regresjonslinje på korrelasjonsfeltet.

Ved å erstatte x-verdiene fra kolonne 2 inn i regresjonsligningen, får vi de beregnede (kolonne 7) og sammenligner dem med y-dataene, som gjenspeiles i kolonne 8. For øvrig bekreftes også riktigheten av beregningene ved sammenfall av gjennomsnittsverdiene av y og.

Koeffisientlineær korrelasjon evaluerer stramheten av forholdet mellom funksjonene x og y og beregnes ved hjelp av formelen

Vinkelkoeffisienten for direkte regresjon a (ved x) karakteriserer retningen til den identifiserteavhengighetertegn: for a>0 er de like, for a<0- противоположны. Hans absolutte verdi - et mål på endring i det resulterende tegnet når faktortegnet endres per måleenhet.

Det frie medlemmet av direkte regresjon avslører retningen og dens absolutte verdi - et kvantitativt mål på innflytelse på det effektive tegnet til alle andre faktorer.

Hvis< 0, så brukes ressursen til faktorattributtet til et individuelt objekt med mindre, og når>0 Medhøyere ytelse enn gjennomsnittet for hele settet med objekter.

La oss gjøre en post-regresjonsanalyse.

Koeffisienten ved x for direkte regresjon er 3,57692 > 0, derfor, med en økning (reduksjon) i produksjonen, øker (faller) forbruket av elektrisitet. Økning i produksjon med 1 tusen stykker. gir en gjennomsnittlig økning i strømforbruket med 3,57692 tusen kWh.

2. Fritiden for den direkte regresjonen er lik 3,19231, derfor øker påvirkningen av andre faktorer effekten av produksjon på elektrisitetsforbruket i absolutte termer med 3,19231 tusen kWh.

3. Korrelasjonskoeffisienten på 0,8235 avslører en svært nær avhengighet av elektrisitetsforbruk på utgang.

Det er enkelt å lage spådommer ved å bruke regresjonsmodellligningen. For å gjøre dette erstattes x-verdiene på utgangsvolumet i regresjonsligningen, og elektrisitetsforbruket er forutsagt. I dette tilfellet kan verdiene til x tas ikke bare innenfor et gitt område, men også utenfor det.

La oss lage en prognose om mulig forbruk av elektrisitet ved et anlegg med et produksjonsvolum på 4,5 tusen enheter.

3,57692*4,5 + 3,19231= 19,288 45 tusen kWh.

LISTE OVER BRUKTE KILDER

1. Zakharenkov S.N. Samfunnsøkonomisk statistikk: Studieveiledning. - Minsk: BSEU, 2002.

2. Efimova M.R., Petrova E.V., Rumyantsev V.N. Generell teori om statistikk. - M.: INFRA - M., 2000.

3. Eliseeva I.I. Statistikk. - M.: Prospekt, 2002.

4. Generell teori om statistikk / Red. utg. O.E. Bashina, A.A. Spirin. - M.: Finans og statistikk, 2000.

5. Samfunnsøkonomisk statistikk: Lærebok.-prak. godtgjørelse / Zakharenkov S.N. osv. - Minsk: YSU, 2004.

6. Samfunnsøkonomisk statistikk: Proc. godtgjørelse. / Red. Nesterovich S.R. - Minsk: BSEU, 2003.

7. Teslyuk I.E., Tarlovskaya V.A., Terlizhenko N. Statistics. - Minsk, 2000.

8. Kharchenko L.P. Statistikk. - M.: INFRA - M, 2002.

9. Kharchenko L.P., Dolzhenkova V.G., Ionin V.G. Statistikk. - M.: INFRA - M, 1999.

10. Økonomisk statistikk / Utg. Yu.N. Ivanova - M., 2000.

Vert på Allbest.ru

...

Lignende dokumenter

    Beregning av det aritmetiske gjennomsnittet for intervallfordelingsserien. Bestemmelse av den generelle indeksen for det fysiske handelsvolumet. Analyse av den absolutte endringen i de totale produksjonskostnadene på grunn av endringer i fysisk volum. Beregning av variasjonskoeffisienten.

    test, lagt til 19.07.2010

    Essensen av engros, detaljhandel og offentlig handel. Formler for beregning av individuelle, aggregerte omsetningsindekser. Beregning av egenskapene til intervallfordelingsserien - aritmetisk gjennomsnitt, modus og median, variasjonskoeffisient.

    semesteroppgave, lagt til 05.10.2013

    Beregning av det planlagte og faktiske salgsvolumet, prosentandelen av planen, den absolutte endringen i omsetning. Fastsettelse av absolutt vekst, gjennomsnittlig vekstrater og vekst i kontantinntekter. Beregning av strukturelle gjennomsnitt: moduser, medianer, kvartiler.

    test, lagt til 24.02.2012

    Intervallserie for fordeling av banker etter overskuddsvolum. Finne modusen og medianen til den oppnådde intervallfordelingsserien ved hjelp av en grafisk metode og ved beregning. Beregning av egenskapene til intervallfordelingsserien. Beregning av det aritmetiske gjennomsnittet.

    test, lagt til 15.12.2010

    Formler for å bestemme gjennomsnittsverdiene for intervallserien - moduser, medianer, varianser. Beregning av analytiske indikatorer for tidsserier i henhold til kjede- og basisskjemaer, vekstrater og vekst. Konseptet med en sammensatt indeks av kostnader, priser, kostnader og omsetning.

    semesteroppgave, lagt til 27.02.2011

    Konseptet og formålet, rekkefølgen og reglene for å konstruere en variasjonsserie. Analyse av datahomogenitet i grupper. Indikatorer for variasjon (fluktuasjon) av en egenskap. Bestemmelse av gjennomsnittlig lineært og kvadratisk avvik, oscillasjonskoeffisient og variasjon.

    test, lagt til 26.04.2010

    Konseptet med modus og median som typiske egenskaper, rekkefølgen og kriteriene for deres bestemmelse. Finne modus og median i en diskret og intervallvariasjonsserie. Kvartiler og desiler som tilleggskjennetegn ved variasjonsstatistiske serier.

    test, lagt til 09.11.2010

    Konstruksjon av en intervallserie med distribusjon på grupperingsbasis. Karakterisering av frekvensfordelingsavviket fra den symmetriske formen, beregning av kurtose og asymmetriindikatorer. Analyse av indikatorer på balansen eller resultatregnskapet.

    kontrollarbeid, lagt til 19.10.2014

    Transformasjon av den empiriske serien til diskret og intervall. Bestemmelse av gjennomsnittsverdien over en diskret serie ved å bruke dens egenskaper. Beregning av en diskret serie av moduser, medianer, variasjonsindikatorer (spredning, avvik, oscillasjonskoeffisient).

    test, lagt til 17.04.2011

    Konstruksjon av en statistisk serie av distribusjon av organisasjoner. Grafisk definisjon av modusverdien og medianen. Tettheten av korrelasjonen med bruken av bestemmelseskoeffisienten. Fastsettelse av prøvetakingsfeil for gjennomsnittlig antall ansatte.

Hva er grupperingen av statistiske data, og hvordan den henger sammen med distribusjonsserien, ble vurdert i dette foredraget, hvor du også kan lære om hva en diskret og variasjonell distribusjonsserie er.

Distribusjonsserier er en av variantene av statistiske serier (foruten dem brukes dynamikkserier i statistikk), de brukes til å analysere data om fenomenene i det sosiale livet. Konstruksjon av variasjonsserier er en ganske gjennomførbar oppgave for alle. Det er imidlertid regler å huske.

Hvordan bygge en diskret variasjonsdistribusjonsserie

Eksempel 1 Det finnes data om antall barn i 20 undersøkte familier. Konstruer en diskret variasjonsserie fordeling av familier etter antall barn.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Løsning:

  1. La oss starte med oppsettet av tabellen, der vi deretter vil legge inn dataene. Siden distribusjonsradene har to elementer, vil tabellen bestå av to kolonner. Den første kolonnen er alltid en variant - det vi studerer - vi tar navnet fra oppgaven (slutten av setningen med oppgaven i betingelsene) - etter antall barn– så vår versjon er antall barn.

Den andre kolonnen er frekvensen - hvor ofte vår variant forekommer i fenomenet som studeres - vi tar også navnet på kolonnen fra oppgaven - fordeling av familier – så vår frekvens er antall familier med tilsvarende antall barn.

  1. Nå, fra de første dataene, velger vi de verdiene som forekommer minst én gang. I vårt tilfelle, dette

Og la oss ordne disse dataene i den første kolonnen i tabellen vår i en logisk rekkefølge, i dette tilfellet økende fra 0 til 4. Vi får

Og avslutningsvis, la oss beregne hvor mange ganger hver verdi av alternativene forekommer.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

Som et resultat får vi en komplett tabell eller den nødvendige serien for fordeling av familier etter antall barn.

Trening . Det er data om tariffkategoriene til 30 arbeidere i bedriften. Konstruer en diskret variasjonsserie for fordeling av arbeidere etter lønnskategori. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Hvordan bygge en intervallvariasjonsserie av distribusjon

La oss bygge en intervallfordelingsserie, og se hvordan konstruksjonen skiller seg fra en diskret serie.

Eksempel 2 Det er data om mengden fortjeneste mottatt av 16 bedrifter, millioner rubler. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Konstruer en intervallvariasjonsserie for fordeling av foretak etter resultatvolum, velg 3 grupper med like intervaller.

Det generelle prinsippet for å konstruere en serie vil selvfølgelig bli bevart, de samme to kolonnene, de samme variantene og frekvensen, men i dette tilfellet vil variantene bli plassert i intervallet og frekvensene telles forskjellig.

Løsning:

  1. La oss starte på samme måte som den forrige oppgaven ved å bygge et tabelloppsett, som vi deretter legger inn data i. Siden distribusjonsradene har to elementer, vil tabellen bestå av to kolonner. Den første kolonnen er alltid en variant - det vi studerer - vi tar navnet fra oppgaven (slutten av setningen med oppgaven i betingelsene) - etter mengden fortjeneste - som betyr at vår variant er mengden fortjeneste mottatt.

Den andre kolonnen er frekvensen - hvor ofte vår variant forekommer i fenomenet som studeres - vi tar også navnet på kolonnen fra oppgaven - fordelingen av foretak - dette betyr at vår frekvens er antall foretak med tilsvarende overskudd, i denne saken faller inn i intervallet.

Som et resultat vil oppsettet til bordet vårt se slik ut:

der i er verdien eller lengden på intervallet,

Xmax og Xmin - maksimums- og minimumsverdien for funksjonen,

n er det nødvendige antallet grupper i henhold til problemets tilstand.

La oss beregne intervallverdien for vårt eksempel. For å gjøre dette, blant de første dataene, finner vi den største og minste

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 - maksimumsverdien er 118 millioner rubler, og minimum er 9 millioner rubler. La oss beregne formelen.

I regnestykket fikk vi tallet 36, (3) tre i perioden, i slike situasjoner må verdien av intervallet rundes opp til en større slik at etter beregningene ikke maksimal data går tapt, og det er derfor verdien av intervallet i beregningen er 36,4 millioner rubler.

  1. La oss nå bygge intervallene - våre alternativer i dette problemet. Det første intervallet startes fra minimumsverdien, verdien av intervallet legges til det og den øvre grensen for det første intervallet oppnås. Deretter blir den øvre grensen for det første intervallet den nedre grensen for det andre intervallet, verdien av intervallet legges til den og det andre intervallet oppnås. Og så videre så mange ganger som nødvendig for å bygge intervaller i henhold til tilstanden.

Vær oppmerksom, hvis vi ikke rundet verdien av intervallet til 36,4, men ville la det stå på 36,3, ville den siste verdien vært 117,9. Det er for å unngå tap av data at det er nødvendig å avrunde verdien av intervallet til en større verdi.

  1. La oss telle antall foretak som faller inn i hvert spesifikt intervall. Ved behandling av data må det huskes at den øvre verdien av intervallet i dette intervallet ikke tas i betraktning (er ikke inkludert i dette intervallet), men tas med i neste intervall (den nedre grensen for intervallet er inkludert i dette intervallet, og det øvre er ikke inkludert), bortsett fra det siste intervallet.

Når du utfører databehandling, er det best å indikere de valgte dataene med konvensjonelle ikoner eller farger for å forenkle behandlingen.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Vi vil markere det første intervallet med gult - og bestemme hvor mye data som faller inn i intervallet fra 9 til 45,4, mens denne 45,4 vil bli tatt med i det andre intervallet (forutsatt at det er i dataene) - som et resultat av dette, få 7 foretak i første intervall. Og så videre i alle intervaller.

  1. (ekstra tiltak) La oss beregne den totale fortjenesten mottatt av bedrifter for hvert intervall og generelt. For å gjøre dette, legg til dataene merket med forskjellige farger og få den totale verdien av fortjenesten.

For det første intervallet 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 millioner rubler

For det andre intervallet - 48 + 57 + 48 + 56 + 63 = 272 millioner rubler.

For det tredje intervallet - 118 + 87 + 98 + 88 = 391 millioner rubler.

Trening . Det er data om størrelsen på innskuddet i banken til 30 innskytere, tusen rubler. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Bygge intervallvariasjonsserier fordeling av innskytere, etter størrelsen på bidraget, som fremhever 4 grupper med like intervaller. For hver gruppe beregner du det totale bidragsbeløpet.

Laboratoriearbeid №1. Primærbehandling av statistiske data

Bygging av distribusjonsserier

Den ordnede fordelingen av befolkningsenheter i grupper i henhold til en hvilken som helst attributt kalles nær distribusjon . I dette tilfellet kan tegnet være både kvantitativt, så kalles serien variasjon , og kvalitativ, så heter serien attributive . Så for eksempel kan befolkningen i en by fordeles etter aldersgrupper i en variasjonsserie, eller etter faglig tilhørighet i en attributtserie (selvfølgelig kan mange flere kvalitative og kvantitative trekk foreslås for å konstruere distribusjonsserier, valg av funksjon bestemmes av oppgaven med statistisk forskning).

Enhver distribusjonsserie er preget av to elementer:

- alternativ(x i) - dette er individuelle verdier for attributtet til enheter i utvalgspopulasjonen. For en variasjonsserie tar varianten numeriske verdier, for en attributiv serie - kvalitative (for eksempel x = "embetsmann");

- Frekvens(n Jeg) er et tall som viser hvor mange ganger denne eller den funksjonsverdien forekommer. Hvis frekvensen uttrykkes som et relativt tall (dvs. andelen populasjonselementer som tilsvarer en gitt verdi av opsjoner i det totale volumet av populasjonen), kalles det. relativ frekvens eller Frekvens.

Variasjonsserier kan være:

- diskret når egenskapen som studeres er preget av et visst tall (vanligvis et heltall).

- intervall når grensene "fra" og "til" er definert for en kontinuerlig variabel funksjon. En intervallserie bygges også hvis settet med verdier til en diskret variabel funksjon er stort.

En intervallserie kan konstrueres både med like lange intervaller (like intervallserier) og med ulikt intervall, dersom dette er diktert av forutsetningene for den statistiske studien. For eksempel kan en serie med inntektsfordeling av befolkningen med følgende intervaller vurderes:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



der k er antall intervaller, n er utvalgsstørrelsen. (Selvfølgelig gir formelen vanligvis et brøktall, og det nærmeste hele tallet til det resulterende tallet velges som antall intervaller.) Lengden på intervallet i dette tilfellet bestemmes av formelen

.

Grafisk kan variasjonsserier representeres som histogrammer(en "kolonne" med høyde som tilsvarer frekvensen i dette intervallet bygges over hvert intervall i intervallserien), distribusjonsområde(forbindelsespunkter med brutt linje ( x i;n i) eller kumulerer(konstruert i henhold til de akkumulerte frekvensene, dvs. for hver verdi av attributtet, er frekvensen av forekomst i settet av objekter med en verdi av attributten mindre enn den gitte tatt).

Når du arbeider i Excel, kan følgende funksjoner brukes til å bygge variasjonsserier:

KRYSS AV( datamatrise) – for å bestemme prøvestørrelsen. Argumentet er celleområdet som inneholder eksempeldataene.

COUNTIF( område; kriterium) - kan brukes til å bygge en attributt- eller variantserie. Argumentene er rekkevidden av attributtet eksempelverdier og kriteriet - den numeriske eller tekstverdien til attributtet eller nummeret til cellen der det er plassert. Resultatet er hyppigheten av forekomsten av denne verdien i prøven.

FREKVENS( data array; intervall array) – for å bygge en variasjonsserie. Argumentene er rekkevidden til prøvedatamatrisen og kolonnen med intervaller. Hvis det er nødvendig å bygge en diskret serie, er verdiene for alternativene indikert her, hvis det er intervall, så de øvre grensene for intervallene (de kalles også "lommer"). Siden resultatet er en kolonne med frekvenser, må introduksjonen av funksjonen fullføres ved å trykke CTRL+SHIFT+ENTER tastekombinasjonen. Merk at når du angir en rekke intervaller når du introduserer en funksjon, kan den siste verdien i den utelates - alle verdier som ikke falt inn i de forrige "lommene" vil bli plassert i den tilsvarende "lommen". Dette bidrar noen ganger til å unngå feilen at den største prøveverdien ikke automatisk plasseres i den siste "lommen".

I tillegg, for komplekse grupperinger (i henhold til flere kriterier), brukes "pivottabeller"-verktøyet. De kan også brukes til å bygge attributt- og variasjonsserier, men dette kompliserer oppgaven unødvendig. For å bygge en variantserie og et histogram er det også en "histogram"-prosedyre fra "Analysis Package"-tillegget (for å bruke tillegg i Excel, må du først laste dem ned, de er ikke installert som standard)

Vi illustrerer prosessen med primær databehandling med følgende eksempler.

Eksempel 1.1. det finnes data om den kvantitative sammensetningen av 60 familier.

Bygg en variasjonsserie og en distribusjonspolygon

Løsning.

La oss åpne Excel-regnearkene. La oss legge inn en rekke data i området A1:L5. Hvis du studerer et dokument i elektronisk form (for eksempel i Word-format), er alt du trenger å gjøre å velge en tabell med data og kopiere den til utklippstavlen, velg deretter celle A1 og lim inn dataene - de vil automatisk oppta passende rekkevidde. La oss beregne prøvestørrelsen n - antall prøvedata, for dette, i celle B7, skriv inn formelen = COUNT (A1: L5). Merk at for å legge inn ønsket område i formelen, er det ikke nødvendig å angi betegnelsen fra tastaturet, det er nok å velge det. La oss bestemme minimums- og maksimumsverdiene i prøven ved å skrive inn formelen =MIN(A1:L5) i celle B8, og i celle B9: =MAX(A1:L5).

Fig.1.1 Eksempel 1. Primærbehandling av statistiske data i Excel-tabeller

La oss deretter lage en tabell for å bygge en variantserie ved å skrive inn navn for intervallkolonnen (variantverdier) og frekvenskolonnen. I kolonnen med intervaller, skriv inn verdiene til attributtet fra minimum (1) til maksimum (6), som okkuperer området B12:B17. Velg frekvenskolonnen, skriv inn formelen =FREKVENS(A1:L5;B12:B17) og trykk tastekombinasjonen CTRL+SHIFT+ENTER

Fig.1.2 Eksempel 1. Konstruksjon av en variasjonsserie

For kontroll beregner vi summen av frekvenser ved hjelp av SUM-funksjonen (S-funksjonsikonet i redigeringsgruppen på Hjem-fanen), den beregnede summen må samsvare med den tidligere beregnede prøvestørrelsen i celle B7.

La oss nå bygge en polygon: etter å ha valgt det resulterende frekvensområdet, velg "Graph" -kommandoen på "Sett inn" -fanen. Som standard vil verdiene på den horisontale aksen være ordenstall - i vårt tilfelle fra 1 til 6, som sammenfaller med verdiene til alternativene (antall tariffkategorier).

Navnet på serien av diagrammet "serie 1" kan enten endres ved å bruke det samme alternativet "velg data" på "Designer"-fanen, eller ganske enkelt slettes.

Fig.1.3. Eksempel 1. Bygge en frekvenspolygon

Eksempel 1.2. Data er tilgjengelige om utslipp av forurensende stoffer fra 50 kilder:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Kompiler en serie med lik intervall, bygg et histogram

Løsning

La oss legge til en rekke data til et Excel-ark, det vil okkupere området A1:J5 Som i forrige oppgave, vil vi bestemme prøvestørrelsen n, minimums- og maksimumsverdiene i prøven. Siden vi nå ikke trenger en diskret, men en intervallserie, og antall intervaller i oppgaven ikke er spesifisert, beregner vi antall intervaller k ved hjelp av Sturgess-formelen. For å gjøre dette, i celle B10, skriv inn formelen =1+3,322*LOG10(B7).

Fig.1.4. Eksempel 2. Konstruksjon av en lik intervallserie

Den resulterende verdien er ikke et heltall, den er omtrent 6,64. Siden for k=7 vil lengden på intervallene uttrykkes som et heltall (i motsetning til tilfellet med k=6), vil vi velge k=7 ved å legge inn denne verdien i celle C10. Vi beregner lengden på intervallet d i celle B11 ved å skrive inn formelen = (B9-B8) / C10.

La oss definere en rekke intervaller, og spesifisere den øvre grensen for hvert av de 7 intervallene. For å gjøre dette, i celle E8, beregne den øvre grensen for det første intervallet ved å skrive inn formelen =B8+B11; i celle E9 den øvre grensen for det andre intervallet ved å skrive inn formelen =E8+B11. For å beregne de gjenværende verdiene for de øvre grensene for intervallene, fikserer vi antall celle B11 i den angitte formelen ved å bruke $-tegnet, slik at formelen i celle E9 blir =E8+B$11, og kopierer innholdet i celle E9 til cellene E10-E14. Den siste verdien som ble oppnådd er lik maksimalverdien i prøven beregnet tidligere i celle B9.

Fig.1.5. Eksempel 2. Konstruksjon av en lik intervallserie


La oss nå fylle rekken av "lommer" ved å bruke FREKVENS-funksjonen, som ble gjort i eksempel 1.

Fig.1.6. Eksempel 2. Konstruksjon av en lik intervallserie

Basert på den resulterende variasjonsserien, vil vi bygge et histogram: velg frekvenskolonnen og velg "Histogram" på fanen "Sett inn". Etter å ha mottatt histogrammet, vil vi endre etikettene til den horisontale aksen i den til verdier i intervallet, for dette velger vi alternativet "Velg data" i kategorien "Designer". I vinduet som vises, velg kommandoen "Endre" for delen "Horizontale akseetiketter" og skriv inn verdiområdet ved å velge det med "musen".

Fig.1.7. Eksempel 2. Bygge et histogram

Fig.1.8. Eksempel 2. Bygge et histogram

Når man behandler store mengder informasjon, som er spesielt viktig når man utfører moderne vitenskapelig utvikling, står forskeren overfor den alvorlige oppgaven med å gruppere de første dataene riktig. Hvis dataene er diskrete, er det, som vi har sett, ingen problemer - du trenger bare å beregne frekvensen til hver funksjon. Hvis egenskapen som studeres har kontinuerlige karakter (som er mer vanlig i praksis), så er valget av det optimale antallet intervaller for å gruppere en funksjon på ingen måte en triviell oppgave.

For å gruppere kontinuerlige tilfeldige variabler er hele variasjonsområdet til funksjonen delt inn i et visst antall intervaller Til.

Gruppert intervall (kontinuerlige) variasjonsserie kalt intervaller rangert etter verdien av funksjonen (), der det er angitt sammen med de tilsvarende frekvensene () antall observasjoner som falt inn i det r "te intervallet, eller relative frekvenser ():

Karakteristiske verdiintervaller

mi frekvens

stolpediagram Og kumulere (ogiva), allerede diskutert i detalj av oss, er et utmerket datavisualiseringsverktøy som lar deg få en primær forståelse av datastrukturen. Slike grafer (fig. 1.15) er bygd for kontinuerlige data på samme måte som for diskrete data, bare tatt i betraktning det faktum at kontinuerlige data fullstendig fyller området med mulige verdier, med eventuelle verdier.

Ris. 1.15.

Derfor kolonnene på histogrammet og kumuleringen må være i kontakt, ha ingen områder hvor attributtverdiene ikke faller innenfor alle mulige(dvs. histogrammet og kumuleringen skal ikke ha "hull" langs abscisseaksen, der verdiene til variabelen som studeres ikke faller, som i fig. 1.16). Høyden på stolpen tilsvarer frekvensen - antall observasjoner som faller inn i det gitte intervallet, eller den relative frekvensen - andelen observasjoner. Intervaller må ikke krysse og har vanligvis samme bredde.

Ris. 1.16.

Histogrammet og polygonet er tilnærminger av sannsynlighetstetthetskurven (differensialfunksjon) f(x) teoretisk fordeling, vurdert i løpet av sannsynlighetsteori. Derfor er deres konstruksjon av så stor betydning i den primære statistiske behandlingen av kvantitative kontinuerlige data - etter deres form kan man bedømme den hypotetiske distribusjonsloven.

Cumulate - kurven for de akkumulerte frekvensene (frekvensene) i intervallvariasjonsserien. Grafen til integralfordelingsfunksjonen sammenlignes med kumuleringen F(x), også vurdert i løpet av sannsynlighetsteori.

I utgangspunktet er begrepene histogram og kumulater assosiert nøyaktig med kontinuerlige data og deres intervallvariasjonsserier, siden deres grafer er empiriske estimater av henholdsvis og fordelingsfunksjonen.

Konstruksjonen av en intervallvariasjonsserie begynner med å bestemme antall intervaller k. Og denne oppgaven er kanskje den vanskeligste, viktigste og mest kontroversielle i problemstillingen som studeres.

Antall intervaller bør ikke være for lite, da histogrammet vil være for jevnt ( overglattet), mister alle funksjonene til variabiliteten til de første dataene - i fig. 1.17 kan du se hvordan de samme dataene som grafene i fig. 1.15 brukes til å konstruere et histogram med et mindre antall intervaller (venstre graf).

Samtidig bør antallet intervaller ikke være for stort - ellers vil vi ikke være i stand til å estimere distribusjonstettheten til dataene som studeres langs den numeriske aksen: histogrammet vil vise seg å være underutjevnet (underutjevnet) med ufylte intervaller, ujevne (se fig. 1.17, høyre graf).

Ris. 1.17.

Hvordan bestemme det mest foretrukne antallet intervaller?

Tilbake i 1926 foreslo Herbert Sturges en formel for å beregne antall intervaller som det er nødvendig å dele det innledende settet med verdier til den studerte attributten i. Denne formelen har virkelig blitt superpopulær - de fleste statistiske lærebøker tilbyr den, og mange statistiske pakker bruker den som standard. Hvorvidt dette er berettiget og i alle tilfeller er et svært alvorlig spørsmål.

Så hva er Sturges-formelen basert på?

Tenk på binomialfordelingen)