Statistiske fordelingsrækker. Lad os konstruere en statistisk fordelingsrække

Gruppering- dette er opdelingen af ​​en befolkning i grupper, der er homogene ifølge nogle karakteristika.

Formål med tjenesten. Ved at bruge online-beregneren kan du:

  • bygge en variationsserie, opbygge et histogram og polygon;
  • finde variationsindikatorer (gennemsnit, tilstand (inklusive grafisk), median, variationsområde, kvartiler, deciler,nt, variationskoefficient og andre indikatorer);

Instruktioner. For at gruppere en serie skal du vælge typen af ​​opnået variationsserie (diskret eller interval) og angive mængden af ​​data (antal rækker). Den resulterende løsning gemmes i en Word-fil (se eksempel på gruppering af statistiske data).

Antal inputdata
",0);">

Hvis grupperingen allerede er udført, og den diskrete variationsserier eller interval serie, så skal du bruge online-beregneren Variation Indices. Test af hypotesen om typen af ​​fordeling udføres ved hjælp af tjenesten Studering af distributionsskemaet.

Typer af statistiske grupperinger

Variationsserie. I tilfælde af observationer af en diskret stokastisk variabel kan den samme værdi stødes på flere gange. Sådanne værdier x i af en tilfældig variabel registreres, hvilket angiver n i antallet af gange, det vises i n observationer, dette er frekvensen af ​​denne værdi.
Ved en kontinuert stokastisk variabel anvendes gruppering i praksis.
  1. Typologisk gruppering- dette er opdelingen af ​​den kvalitativt heterogene befolkning under undersøgelse i klasser, socioøkonomiske typer, homogene grupper af enheder. For at opbygge denne gruppering skal du bruge parameteren Diskret variationsserie.
  2. En gruppering kaldes strukturel, hvor en homogen befolkning er opdelt i grupper, der karakteriserer dens struktur efter nogle varierende karakteristika. For at opbygge denne gruppering skal du bruge parameteren Intervalserie.
  3. En gruppering, der afslører sammenhængen mellem de fænomener, der undersøges, og deres karakteristika kaldes analytisk gruppe(se analytisk gruppering af serier).

Principper for opbygning af statistiske grupperinger

En række observationer ordnet i stigende rækkefølge kaldes en variationsrække. Grupperingsfunktion er en egenskab, hvorved en befolkning er opdelt i separate grupper. Det kaldes gruppens grundlag. Grupperingen kan baseres på både kvantitative og kvalitative egenskaber.
Efter fastlæggelse af grundlaget for grupperingen bør spørgsmålet om antallet af grupper, som den undersøgte befolkning skal opdeles i, afgøres.

Ved brug af personlige computere til at behandle statistiske data udføres gruppering af objektenheder ved hjælp af standardprocedurer.
En sådan procedure er baseret på brugen af ​​Sturgess-formlen til at bestemme det optimale antal grupper:

k = 1+3,322*log(N)

Hvor k er antallet af grupper, N er antallet af befolkningsenheder.

Længden af ​​delintervaller beregnes som h=(x max -x min)/k

Derefter tælles antallet af observationer, der falder ind i disse intervaller, som tages som frekvenser n i. Få frekvenser, hvis værdier er mindre end 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
De midterste værdier af intervallerne x i =(c i-1 +c i)/2 tages som nye værdier.

De præsenteres i form af distributionsserier og præsenteres i formen.

En distributionsserie er en af ​​typerne af grupperinger.

Fordelingsområde— repræsenterer en ordnet fordeling af enheder af befolkningen, der undersøges i grupper i henhold til en vis varierende karakteristik.

Afhængigt af karakteristikken, der ligger til grund for dannelsen af ​​distributionsrækkerne, skelnes de attributive og variationsmæssige distributionsrækker:

  • Attributiv— kaldes distributionsserier konstrueret efter kvalitative egenskaber.
  • Fordelingsrækker konstrueret i stigende eller faldende rækkefølge af værdier af en kvantitativ karakteristik kaldes variation.
Fordelingsvariationsserien består af to kolonner:

Den første kolonne giver kvantitative værdier af de varierende karakteristika, som kaldes muligheder og er udpeget. Diskret mulighed - udtrykt som et heltal. Intervalmuligheden spænder fra og til. Afhængigt af typen af ​​optioner kan du konstruere en diskret eller intervalvariationsserie.
Den anden kolonne indeholder antallet af specifikke muligheder, udtrykt i frekvenser eller frekvenser:

Frekvenser- disse er absolutte tal, der viser antallet af gange, en given værdi af en karakteristik forekommer i aggregatet, som betegner . Summen af ​​alle frekvenser skal være lig med antallet af enheder i hele populationen.

Frekvenser() er frekvenser udtrykt som en procentdel af totalen. Summen af ​​alle frekvenser udtrykt i procent skal være lig med 100 % i brøkdele af én.

Grafisk fremstilling af distributionsserier

Distributionsserierne præsenteres visuelt ved hjælp af grafiske billeder.

Distributionsrækkerne er afbildet som:
  • Polygon
  • Histogrammer
  • Kumulerer
  • Ogives

Polygon

Når man konstruerer en polygon, er værdierne af den varierende karakteristik plottet på den vandrette akse (x-aksen), og frekvenser eller frekvenser er plottet på den lodrette akse (y-aksen).

Polygonen i fig. 6.1 er baseret på data fra mikrotællingen af ​​befolkningen i Rusland i 1994.

6.1. Husstandsstørrelsesfordeling

Tilstand: Der gives data om fordelingen af ​​25 ansatte i en af ​​virksomhederne efter takstkategorier:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Opgave: Konstruer en diskret variationsserie og afbild den grafisk som en fordelingspolygon.
Løsning:
I dette eksempel er mulighederne medarbejderens lønklasse. For at bestemme frekvenser er det nødvendigt at beregne antallet af ansatte med den tilsvarende tarifkategori.

Polygonen bruges til diskrete variationsserier.

For at konstruere en fordelingspolygon (figur 1) plotter vi de kvantitative værdier af de varierende karakteristika - varianter - langs abscisse (X) aksen og frekvenser eller frekvenser langs ordinataksen.

Hvis værdierne af en karakteristik er udtrykt i form af intervaller, kaldes en sådan serie interval.
Interval serie distributioner er afbildet grafisk i form af et histogram, kumulat eller ogiv.

Statistisk tabel

Tilstand: Data leveres om størrelsen af ​​indskud på 20 personer i en bank (tusind rubler) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Opgave: Konstruer en intervalvariationsserie med lige store intervaller.
Løsning:

  1. Den oprindelige population består af 20 enheder (N = 20).
  2. Ved hjælp af Sturgess-formlen bestemmer vi det nødvendige antal brugte grupper: n=1+3,322*lg20=5
  3. Lad os beregne værdien af ​​det lige interval: i=(152 - 2) /5 = 30 tusind rubler
  4. Lad os opdele den oprindelige befolkning i 5 grupper med et interval på 30 tusind rubler.
  5. Vi præsenterer grupperingsresultaterne i tabellen:

Med en sådan registrering af en kontinuerlig karakteristik, når den samme værdi forekommer to gange (som den øvre grænse for et interval og den nedre grænse for et andet interval), så hører denne værdi til den gruppe, hvor denne værdi fungerer som den øvre grænse.

søjlediagram

For at konstruere et histogram er værdierne af grænserne for intervallerne angivet på abscisseaksen, og baseret på dem konstrueres rektangler, hvis højde er proportional med frekvenserne (eller frekvenserne).

I fig. 6.2. viser et histogram over fordelingen af ​​den russiske befolkning i 1997 efter aldersgruppe.

Ris. 6.2. Fordeling af den russiske befolkning efter aldersgrupper

Tilstand: Fordelingen af ​​30 ansatte i virksomheden på månedsløn er givet

Opgave: Vis intervalvariationsserien grafisk i form af et histogram og kumulér.
Løsning:

  1. Den ukendte grænse for det åbne (første) interval bestemmes af værdien af ​​det andet interval: 7000 - 5000 = 2000 rubler. Med samme værdi finder vi den nedre grænse for det første interval: 5000 - 2000 = 3000 rubler.
  2. For at konstruere et histogram i et rektangulært koordinatsystem plotter vi langs abscisseaksen de segmenter, hvis værdier svarer til intervallerne i varicose-serien.
    Disse segmenter tjener som den nederste base, og den tilsvarende frekvens (frekvens) tjener som højden af ​​de dannede rektangler.
  3. Lad os bygge et histogram:

For at konstruere kumulater er det nødvendigt at beregne de akkumulerede frekvenser (frekvenser). De bestemmes ved sekventielt at summere frekvenserne (frekvenserne) af tidligere intervaller og betegnes S. De akkumulerede frekvenser viser, hvor mange enheder af populationen, der har en karakteristisk værdi, der ikke er større end den, der betragtes.

Kumulerer

Fordelingen af ​​en karakteristik i en variationsserie over akkumulerede frekvenser (frekvenser) er afbildet ved hjælp af en kumulering.

Kumulerer eller en kumulativ kurve, i modsætning til en polygon, er konstrueret ud fra akkumulerede frekvenser eller frekvenser. I dette tilfælde placeres karakteristikkens værdier på abscisseaksen, og akkumulerede frekvenser eller frekvenser placeres på ordinataksen (fig. 6.3).

Ris. 6.3. Akkumuleret af husstandsstørrelsesfordeling

4. Lad os beregne de akkumulerede frekvenser:
Den kumulative frekvens af det første interval beregnes som følger: 0 + 4 = 4, for det andet: 4 + 12 = 16; for den tredje: 4 + 12 + 8 = 24 osv.

Når du konstruerer et kumulat, tildeles den akkumulerede frekvens (frekvens) af det tilsvarende interval til dets øvre grænse:

Ogiva

Ogiva er opbygget på samme måde som kumuleringen med den eneste forskel, at de akkumulerede frekvenser er placeret på abscisse-aksen, og de karakteristiske værdier er placeret på ordinataksen.

En type kumulat er en koncentrationskurve eller Lorentz-plot. For at konstruere en koncentrationskurve er en skala i procenter fra 0 til 100 plottet på begge akser i det rektangulære koordinatsystem. Samtidig er de akkumulerede frekvenser angivet på abscisseaksen, og de akkumulerede værdier af andelen. (i procent) efter volumen af ​​karakteristikken er angivet på ordinataksen.

Den ensartede fordeling af karakteristikken svarer til diagonalen af ​​kvadratet på grafen (fig. 6.4). Med en ujævn fordeling repræsenterer grafen en konkav kurve afhængigt af koncentrationsniveauet af egenskaben.

6.4. Koncentrationskurve

2. Begrebet distributionsserie. Diskrete og intervalfordelingsserier

Fordelingsrækker kaldes grupperinger af en særlig type, hvor for hver karakteristik, gruppe af karakteristika eller klasse af karakteristika kendes antallet af enheder i gruppen eller andelen af ​​dette antal i den samlede total. De der. distributionsserie– et ordnet sæt attributværdier, arrangeret i stigende eller faldende rækkefølge med deres tilsvarende vægte. Distributionsrækker kan konstrueres enten ved kvantitative eller attribut karakteristika.

Fordelingsrækker konstrueret på kvantitativ basis kaldes variationsrækker. De er diskret og interval. En distributionsserie kan konstrueres baseret på en kontinuerligt varierende karakteristik (når karakteristikken kan tage alle værdier inden for ethvert interval) og på en diskret varierende karakteristik (den tager strengt definerede heltalsværdier).

Diskret En variationsserie af en distribution er et rangeret sæt optioner med deres tilsvarende frekvenser eller detaljer. Varianter af en diskret serie er diskret kontinuerligt skiftende værdier af en karakteristik, normalt resultatet af en optælling.

Diskret

Variationsrækker konstrueres normalt, hvis værdierne af den karakteristik, der undersøges, kan afvige fra hinanden med ikke mindre end en vis begrænset mængde. I diskrete serier er punktværdier for en karakteristik angivet. Eksempel : Fordeling af herredragter solgt af butikker pr. måned efter størrelse.

Interval

En variationsserie er et ordnet sæt af intervaller til at variere værdierne af en tilfældig variabel med de tilsvarende frekvenser eller frekvenser af værdier af variablen, der falder ind i hver af dem. Intervalserier er designet til at analysere fordelingen af ​​en konstant skiftende karakteristik, hvis værdi oftest registreres ved måling eller vejning. Varianter af sådan en serie er grupperinger.

Eksempel : Fordeling af indkøb i en dagligvarebutik efter beløb.

Hvis frekvensresponsen i diskrete variationsserier relaterer sig direkte til en variant af serien, så refererer den i intervalserier til en gruppe af varianter.

Det er praktisk at analysere distributionsserier ved hjælp af deres grafiske repræsentation, som gør det muligt at bedømme fordelingens form og mønstre. En diskret serie er afbildet på en graf som en stiplet linje - fordelingspolygon. For at konstruere det, i et rektangulært koordinatsystem, er de rangerede (ordnede) værdier af den varierende karakteristik plottet langs abscisseaksen på samme skala, og en skala til at udtrykke frekvenser plottes langs ordinataksen.

Intervalserier er afbildet som distributionshistogrammer(det vil sige søjlediagrammer).

Når man konstruerer et histogram, er værdierne af intervallerne plottet på abscisse-aksen, og frekvenserne er afbildet af rektangler bygget på de tilsvarende intervaller. Højden af ​​søjlerne i tilfælde af lige intervaller skal være proportional med frekvenserne.

Ethvert histogram kan konverteres til en fordelingspolygon for at gøre dette, er det nødvendigt at forbinde hjørnerne af dets rektangler med lige segmenter.

2. Indeksmetode til analyse af indflydelsen af ​​gennemsnitlig produktion og gennemsnitlig bemanding på ændringer i produktionsvolumen

Indeks metode bruges til at analysere dynamikken og sammenligne generelle indikatorer, samt faktorer, der påvirker ændringer i niveauerne af disse indikatorer. Ved hjælp af indekser er det muligt at identificere indflydelsen af ​​den gennemsnitlige produktion og det gennemsnitlige antal ansatte på ændringer i produktionsvolumen. Dette problem løses ved at konstruere et system af analytiske indekser.

Produktionsvolumenindekset er relateret til det gennemsnitlige antal ansatte og det gennemsnitlige outputindeks på samme måde som produktionsvolumen (Q) er relateret til output ( w) og tal ( r) .

Vi kan konkludere, at produktionsvolumen vil være lig med produktet af gennemsnitlig produktion og gennemsnitligt antal ansatte:

Q = w r, hvor Q er produktionsvolumen,

w - gennemsnitlig output,

r – gennemsnitligt antal ansatte.

Som du kan se, taler vi om forholdet mellem fænomener i statik: produktet af to faktorer giver det samlede volumen af ​​det resulterende fænomen. Det er også indlysende, at denne forbindelse er funktionel, derfor studeres dynamikken i denne forbindelse ved hjælp af indekser. For det givne eksempel er dette følgende system:

Jw × Jr = Jwr.

For eksempel kan produktionsvolumenindekset Jwr, som et indeks for et produktivt fænomen, dekomponeres i to faktorindeks: det gennemsnitlige outputindeks (Jw) og det gennemsnitlige antal ansatte (Jr):

Indeks Indeks Indeks

volumen af ​​den gennemsnitlige lønsum

produktionsudgangsnummer

Hvor J w- Arbejdsproduktivitetsindeks beregnet ved hjælp af Laspeyres-formlen;

Jr- indeks for antallet af ansatte, beregnet ved hjælp af Paasche-formlen.

Indekssystemer bruges til at bestemme indflydelsen af ​​individuelle faktorer på dannelsen af ​​niveauet af en præstationsindikator de gør det muligt at bestemme værdien af ​​en ukendt ud fra 2 kendte indeksværdier.

Baseret på ovenstående system af indekser kan man også finde den absolutte stigning i produktionsvolumen, opdelt i faktorers indflydelse.

1. Generel stigning i produktionsvolumen:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Forøgelse på grund af virkningen af ​​den gennemsnitlige outputindikator:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Forøgelse på grund af virkningen af ​​den gennemsnitlige antal ansatte:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Eksempel. Følgende data er kendt

Vi kan bestemme, hvordan produktionsvolumen har ændret sig i relative og absolutte termer, og hvordan individuelle faktorer har påvirket denne ændring.

Produktionsmængden var:

i basisperioden

w 0 * r 0 = 2000 * 90 = 180000,

og i indberetningen

w 1 * r 1 = 2100 * 100 = 210000.

Som følge heraf steg produktionsmængden med 30.000 eller 1,16%.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

eller (210000:180000)*100%=1,16%.

Denne ændring i produktionsvolumen skyldtes:

1) en stigning i det gennemsnitlige antal ansatte med 10 personer eller 111,1 %

r1/r0 = 100/90 = 1,11 eller 111,1%.

I absolutte tal steg produktionsmængden på grund af denne faktor med 20.000:

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) en stigning i den gennemsnitlige produktion med 105 % eller 10.000:

w 1 r 1 / w 0 r 1 = 2100*100/2000*100 = 1,05 eller 105%.

I absolutte tal er stigningen:

w 1 r 1 – w 0 r 1 = (w 1 - w 0) r 1 = (2100-2000)*100 = 10000.

Derfor var den kombinerede indflydelse af faktorer:

1. I absolutte tal

10000 + 20000 = 30000

2. Relativt

1,11 * 1,05 = 1,16 (116%)

Derfor er stigningen på 1,16 pct. Begge resultater er opnået tidligere.

Ordet "indeks" i oversættelse betyder peger, indikator. I statistik tolkes et indeks som en relativ indikator, der karakteriserer en ændring i et fænomen i tid, rum eller sammenlignet med en plan. Da indekset er en relativ værdi, er navnene på indeksene i overensstemmelse med navnene på de relative værdier.

I de tilfælde, hvor vi analyserer ændringer over tid i sammenlignede produkter, kan vi rejse spørgsmålet om, hvordan komponenterne i indekset (pris, fysisk volumen, produktionsstruktur eller salg af individuelle produkttyper) ændrer sig under forskellige forhold (på forskellige områder) . I denne henseende konstrueres indekser for konstant sammensætning, variabel sammensætning og strukturelle ændringer.

Indeks over permanent (fast) sammensætning – Dette er et indeks, der karakteriserer dynamikken i gennemsnitsværdien for den samme faste struktur af befolkningen.

Princippet om at konstruere et indeks med konstant sammensætning er at eliminere virkningen af ​​ændringer i vægtstrukturen på den indekserede værdi ved at beregne det vægtede gennemsnitlige niveau af den indekserede indikator med de samme vægte.

Det konstante sammensætningsindeks er i form identisk med det aggregerede indeks. Den samlede form er den mest almindelige.

Indekset for konstant sammensætning beregnes med vægte fastsat på niveauet for en periode og viser kun ændringen i den indekserede værdi. Indekset for konstant sammensætning eliminerer indflydelsen af ​​ændringer i strukturen af ​​vægte på den indekserede værdi ved at beregne det vægtede gennemsnitlige niveau af den indekserede indikator med de samme vægte. Indeks for konstant sammensætning sammenligner indikatorer beregnet på grundlag af en uændret struktur af fænomener.

Det vigtigste trin i studiet af socioøkonomiske fænomener og processer er systematiseringen af ​​primærdata og på denne baggrund opnåelse af en sammenfattende karakteristik af hele objektet ved hjælp af generelle indikatorer, hvilket opnås ved at opsummere og gruppere primært statistisk materiale.

Statistisk oversigt - dette er et kompleks af sekventielle operationer til at generalisere specifikke individuelle fakta, der danner et sæt for at identificere typiske træk og mønstre, der er iboende i det fænomen, der studeres som helhed. Udførelse af en statistisk oversigt omfatter følgende trin :

  • valg af grupperingskarakteristika;
  • bestemmelse af rækkefølgen af ​​gruppedannelse;
  • udvikling af et system af statistiske indikatorer til at karakterisere grupper og objektet som helhed;
  • udvikling af statistiske tabellayout til at præsentere sammenfattende resultater.

Statistisk gruppering kaldes opdelingen af ​​enheder af befolkningen under undersøgelse i homogene grupper i henhold til visse karakteristika, der er væsentlige for dem. Grupperinger er den vigtigste statistiske metode til at opsummere statistiske data, grundlaget for den korrekte beregning af statistiske indikatorer.

Der skelnes mellem følgende typer grupperinger: typologiske, strukturelle, analytiske. Alle disse grupperinger er forenet ved, at objektets enheder er opdelt i grupper efter en eller anden karakteristik.

Grupperingsfunktion er en egenskab, hvorved en befolknings enheder er opdelt i separate grupper. Konklusionerne af en statistisk undersøgelse afhænger af det korrekte valg af en grupperingskarakteristik. Som grundlag for gruppering er det nødvendigt at anvende væsentlige, teoretisk baserede karakteristika (kvantitative eller kvalitative).

Kvantitative karakteristika ved gruppering have et numerisk udtryk (omsætningsvolumen, personens alder, familieindkomst osv.), og kvalitative tegn på gruppering afspejle tilstanden for befolkningens enhed (køn, civilstand, virksomhedens branche, dens ejerform osv.).

Efter at grundlaget for grupperingen er fastlagt, skal spørgsmålet om antallet af grupper, som den undersøgte befolkning skal opdeles i, afgøres. Antallet af grupper afhænger af undersøgelsens mål og typen af ​​indikator, der ligger til grund for grupperingen, mængden af ​​populationen og graden af ​​variation af karakteristikken.

For eksempel tager gruppering af virksomheder efter type ejerskab hensyn til kommunale, føderale og føderale emneejendomme. Hvis gruppering udføres i henhold til et kvantitativt kriterium, er det nødvendigt at være særlig opmærksom på antallet af enheder af det undersøgte objekt og graden af ​​fluktuation af grupperingskarakteristikken.

Når antallet af grupper er fastlagt, skal grupperingsintervallerne bestemmes. Interval - det er værdierne af en varierende egenskab, der ligger inden for visse grænser. Hvert interval har sin egen værdi, øvre og nedre grænser, eller mindst én af dem.

Nedre grænse for intervallet kaldes den mindste værdi af karakteristikken i intervallet, og Øverste grænse - den højeste værdi af karakteristikken i intervallet. Værdien af ​​intervallet er forskellen mellem de øvre og nedre grænser.

Grupperingsintervaller, afhængigt af deres størrelse, er: lige og ulige. Hvis variationen af ​​en karakteristik viser sig inden for relativt snævre grænser, og fordelingen er ensartet, så bygges en gruppering med lige store intervaller. Værdien af ​​det lige interval bestemmes af følgende formel :

hvor Xmax, Xmin er maksimum- og minimumværdierne for karakteristikken i aggregatet; n - antal grupper.

Den enkleste gruppering, hvor hver udvalgt gruppe er karakteriseret ved én indikator, repræsenterer en distributionsserie.

Statistiske fordelingsrækker - dette er en ordnet fordeling af befolkningsenheder i grupper i henhold til en bestemt karakteristik. Afhængig af karakteristikken, der ligger til grund for dannelsen af ​​distributionsrækkerne, skelnes attributive og variationsmæssige distributionsrækker.

Attributiv kaldes fordelingsrækker opbygget efter kvalitative karakteristika, det vil sige karakteristika, der ikke har et numerisk udtryk (fordeling på arbejdstype, efter køn, efter profession osv.). Attributive distributionsrækker karakteriserer sammensætningen af ​​befolkningen i henhold til visse væsentlige egenskaber. Taget over flere perioder gør disse data det muligt at studere ændringer i strukturen.

Variationsserie kaldes distributionsserier konstrueret efter kvantitative karakteristika. Enhver variationsserie består af to elementer: optioner og frekvenser. Muligheder de individuelle værdier af karakteristikken, som den tager i variationsrækken, kaldes, det vil sige den specifikke værdi af den varierende karakteristik.

Frekvenser numrene på individuelle varianter eller hver gruppe af en variationsrække kaldes, det vil sige, det er tal, der viser, hvor ofte bestemte varianter forekommer i distributionsrækken. Summen af ​​alle frekvenser bestemmer størrelsen af ​​hele befolkningen, dens volumen. Frekvenser kaldes frekvenser udtrykt i brøkdele af en enhed eller som en procentdel af totalen. Som følge heraf er summen af ​​frekvenser lig med 1 eller 100%.

Afhængig af karakteren af ​​variationen af ​​en karakteristik skelnes der mellem tre former for variationsrækker: rangordnede serier, diskrete serier og intervalrækker.

Rangerede variationsserier - dette er fordelingen af ​​individuelle enheder af befolkningen i stigende eller faldende rækkefølge af den karakteristik, der studeres. Rangering giver dig mulighed for nemt at opdele kvantitative data i grupper, straks opdage de mindste og største værdier af en karakteristik og fremhæve de værdier, der oftest gentages.

Diskret variationsserie karakteriserer fordelingen af ​​befolkningsenheder i henhold til en diskret karakteristik, der kun tager heltalsværdier. Eksempelvis takstkategori, antal børn i familien, antal ansatte i virksomheden mv.

Hvis en karakteristik har en kontinuerlig ændring, som inden for visse grænser kan tage enhver værdi ("fra - til"), så er det for denne egenskab nødvendigt at bygge intervalvariationsserier . For eksempel størrelsen af ​​indkomst, anciennitet, omkostninger til virksomhedens anlægsaktiver osv.

Eksempler på løsning af problemer om emnet "Statistisk oversigt og gruppering"

Opgave 1 . Der er oplysninger om antallet af bøger, studerende har modtaget gennem abonnementer i løbet af det seneste akademiske år.

Konstruer rangerede og diskrete variationsdistributionsserier, der udpeger seriens elementer.

Løsning

Dette sæt repræsenterer mange muligheder for antallet af bøger, eleverne modtager. Lad os tælle antallet af sådanne muligheder og arrangere dem i form af variationsrangerede og variationsdiskrete distributionsserier.

Opgave 2 . Der er data om omkostningerne ved anlægsaktiver for 50 virksomheder, tusind rubler.

Konstruer en distributionsserie, der fremhæver 5 grupper af virksomheder (med lige store intervaller).

Løsning

For at løse vil vi vælge de største og mindste værdier af værdien af ​​virksomheders anlægsaktiver. Disse er 30,0 og 10,2 tusind rubler.

Lad os finde størrelsen af ​​intervallet: h = (30,0-10,2):5= 3,96 tusind rubler.

Derefter vil den første gruppe omfatte virksomheder, hvis anlægsaktiver beløber sig til 10,2 tusind rubler. op til 10,2+3,96=14,16 tusind rubler. Der vil være 9 sådanne virksomheder. Den anden gruppe vil omfatte virksomheder, hvis anlægsaktiver beløber sig til 14,16 tusind rubler. op til 14,16+3,96=18,12 tusind rubler. Der vil være 16 sådanne virksomheder. Tilsvarende vil vi finde antallet af virksomheder i den tredje, fjerde og femte gruppe.

Vi placerer den resulterende distributionsserie i tabellen.

Opgave 3 . Følgende data blev indhentet for en række letindustrivirksomheder:

Gruppér virksomhederne efter antallet af arbejdere og danner 6 grupper med lige store intervaller. Beregn for hver gruppe:

1. antal virksomheder
2. antal arbejdere
3. mængden af ​​producerede produkter pr. år
4. Gennemsnitlig faktisk produktion pr. arbejdstager
5. volumen af ​​anlægsaktiver
6. Gennemsnitlig størrelse af anlægsaktiver i én virksomhed
7. Gennemsnitsværdien af ​​produkter produceret af én virksomhed

Præsentér beregningsresultaterne i tabeller. Drage konklusioner.

Løsning

For at løse det, vil vi vælge de største og mindste værdier af det gennemsnitlige antal medarbejdere i virksomheden. Disse er 43 og 256.

Lad os finde størrelsen af ​​intervallet: h = (256-43):6 = 35,5

Så vil den første gruppe omfatte virksomheder, hvis gennemsnitlige antal arbejdere er fra 43 til 43 + 35,5 = 78,5 personer. Der vil være 5 sådanne virksomheder. Den anden gruppe vil omfatte virksomheder, hvis gennemsnitlige antal arbejdere vil være fra 78,5 til 78,5+35,5=114 personer. Der vil være 12 sådanne virksomheder. Tilsvarende vil vi finde antallet af virksomheder i den tredje, fjerde, femte og sjette gruppe.

Vi placerer den resulterende distributionsserie i en tabel og beregner de nødvendige indikatorer for hver gruppe:

Konklusion : Som det fremgår af tabellen, er den anden gruppe virksomheder den mest talrige. Det omfatter 12 virksomheder. De mindste grupper er den femte og sjette gruppe (to virksomheder hver). Det er de største virksomheder (målt i antal arbejdere).

Da den anden gruppe er den største, er mængden af ​​produkter, der produceres om året af virksomheder i denne gruppe, og mængden af ​​anlægsaktiver betydeligt højere end andre. Samtidig er den gennemsnitlige faktiske produktion pr. arbejder i virksomheder i denne gruppe ikke den største. Virksomheder i den fjerde gruppe leder her. Denne gruppe tegner sig også for en ret stor mængde anlægsaktiver.

Afslutningsvis bemærker vi, at den gennemsnitlige størrelse af anlægsaktiver og den gennemsnitlige mængde af produktion produceret af en virksomhed er direkte proportional med virksomhedens størrelse (i form af antallet af arbejdere).

Statistiske fordelingsrækker– dette er en ordnet fordeling af befolkningsenheder i grupper efter en vis varierende karakteristik.
Afhængig af karakteristikken, der ligger til grund for dannelsen af ​​distributionsrækken, er der attributive og variationsmæssige distributionsrækker.

Tilstedeværelsen af ​​en fælles egenskab er grundlaget for dannelsen af ​​en statistisk population, som repræsenterer resultaterne af at beskrive eller måle de generelle karakteristika for undersøgelsesobjekterne.

Studieemnet i statistik er skiftende (varierende) karakteristika eller statistiske karakteristika.

Typer af statistiske karakteristika.

Fordelingsrækker kaldes attributive bygget efter kvalitetskriterier. Attributiv– dette er et tegn, der har et navn (for eksempel profession: syerske, lærer osv.).
Fordelingsserien præsenteres normalt i form af tabeller. I tabel 2.8 viser attributfordelingsrækken.
Tabel 2.8 - Fordeling af typer juridisk bistand ydet af advokater til borgere i en af ​​regionerne i Den Russiske Føderation.

Variationsserie– disse er værdierne for karakteristikken (eller intervaller af værdier) og deres frekvenser.
Variationsserier er distributionsserier, bygget på et kvantitativt grundlag. Enhver variationsserie består af to elementer: optioner og frekvenser.
Varianter anses for at være de individuelle værdier af en karakteristik, som den tager i en variationsserie.
Frekvenser er antallet af individuelle varianter eller hver gruppe af en variationsserie, dvs. Disse er tal, der viser, hvor ofte visse muligheder forekommer i en distributionsserie. Summen af ​​alle frekvenser bestemmer størrelsen af ​​hele befolkningen, dens volumen.
Frekvenser er frekvenser udtrykt som brøkdele af en enhed eller som en procentdel af totalen. Som følge heraf er summen af ​​frekvenserne lig med 1 eller 100%. Variationsrækken giver mulighed for at estimere distributionslovens form ud fra faktiske data.

Afhængigt af arten af ​​variationen af ​​træk, er der diskrete og intervalvariationsserier.
Et eksempel på en diskret variationsserie er givet i tabel. 2.9.
Tabel 2.9 - Fordeling af familier efter antallet af besatte værelser i individuelle lejligheder i 1989 i Den Russiske Føderation.

Den første kolonne i tabellen præsenterer muligheder for en diskret variationsserie, den anden kolonne indeholder frekvenserne for variationsserien, og den tredje indeholder frekvensindikatorer.

Variationsserie

En vis kvantitativ egenskab studeres i den almindelige befolkning. En prøve af volumen udtages tilfældigt fra den n, dvs. antallet af prøveelementer er lig med n. I den første fase af den statistiske behandling, spænder prøver, dvs. nummerbestilling x 1, x 2, …, x n Stigende. Hver observeret værdi x i hedder mulighed. Frekvens m i er antallet af observationer af værdien x i i prøven. Relativ frekvens (frekvens) w i er frekvensforholdet m i til prøvestørrelse n: .
Ved undersøgelse af variationsserier anvendes også begreberne akkumuleret frekvens og akkumuleret frekvens. Lade x et eller andet nummer. Derefter antallet af muligheder , hvis værdier er mindre x, kaldes den akkumulerede frekvens: for x i n kaldes den akkumulerede frekvens w i max.
En karakteristik kaldes diskret variabel, hvis dens individuelle værdier (varianter) adskiller sig fra hinanden med en bestemt endelig værdi (normalt et heltal). Variationsrækken af ​​en sådan karakteristik kaldes en diskret variationsrække.

Tabel 1. Generelt billede af en diskret variationsserie af frekvenser

Karakteristiske værdierx i x 1 x 2 x n
Frekvenserm i m 1 m 2 m n

En karakteristik kaldes kontinuerligt varierende, hvis dens værdier afviger fra hinanden med en vilkårlig lille mængde, dvs. attributten kan tage enhver værdi i et bestemt interval. En kontinuerlig variationsrække for en sådan karakteristik kaldes interval.

Tabel 2. Generelt billede af intervalvariationsrækken af ​​frekvenser

Tabel 3. Grafiske billeder af variationsserien

RækkePolygon eller histogramEmpirisk distributionsfunktion
Diskret
Interval
Ved at gennemgå resultaterne af observationerne bestemmes det, hvor mange variantværdier der falder ind i hvert specifikt interval. Det antages, at hvert interval hører til en af ​​dets ender: enten i alle tilfælde venstre (oftere) eller i alle tilfælde højre, og frekvenser eller frekvenser viser antallet af muligheder, der er indeholdt inden for de angivne grænser. Forskelle a i – a i +1 kaldes delintervaller. For at forenkle efterfølgende beregninger kan intervalvariationsserien erstattes af en betinget diskret. I dette tilfælde gennemsnitsværdien jeg-interval tages som en mulighed x i, og den tilsvarende intervalfrekvens m i– for frekvensen af ​​dette interval.
Til grafisk repræsentation af variationsserier er de mest anvendte polygon, histogram, kumulativ kurve og empirisk fordelingsfunktion.

I tabel 2.3 (Gruppering af den russiske befolkning efter gennemsnitlig indkomst pr. indbygger i april 1994) præsenteres intervalvariationsserier.
Det er praktisk at analysere distributionsserier ved hjælp af et grafisk billede, som gør det muligt at bedømme fordelingens form. En visuel repræsentation af arten af ​​ændringer i variationsrækkernes frekvenser er givet af polygon og histogram.
Polygonen bruges til at afbilde diskrete variationsserier.
Lad os for eksempel grafisk afbilde boligmassens fordeling på lejlighedstype (tabel 2.10).
Tabel 2.10 - Fordeling af byområdets boligmasse på lejlighedstype (betingede tal).


Ris. Boligfordelingsområde


Ikke kun frekvensværdierne, men også variationsrækkernes frekvenser kan plottes på ordinatakserne.
Histogrammet bruges til at afbilde en intervalvariationsserie. Når man konstruerer et histogram, er værdierne af intervallerne plottet på abscisse-aksen, og frekvenserne er afbildet af rektangler bygget på de tilsvarende intervaller. Højden af ​​søjlerne i tilfælde af lige intervaller skal være proportional med frekvenserne. Et histogram er en graf, hvor en serie er afbildet som søjler, der støder op til hinanden.
Lad os grafisk afbilde intervalfordelingsrækken givet i tabel. 2.11.
Tabel 2.11 - Fordeling af familier efter boligareal pr. person (betingede tal).
N p/p Grupper af familier efter størrelse af boligareal pr. person Antal familier med en given boligstørrelse Samlet antal familier
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
I ALT 115 ----


Ris. 2.2. Histogram over fordelingen af ​​familier efter størrelsen af ​​boligareal pr. person


Ved hjælp af data fra den akkumulerede serie (tabel 2.11) konstruerer vi kumuler fordeling.


Ris. 2.3. Kumulativ fordeling af familier efter størrelse af boligareal pr. person


Repræsentationen af ​​en variationsserie i form af et kumulat er især effektiv for variationsserier, hvis frekvenser er udtrykt som brøker eller procenter af summen af ​​seriefrekvenserne.
Hvis vi ændrer akserne, når vi grafisk afbilder en variationsserie i form af kumulater, så får vi ogiva. I fig. 2.4 viser ogiven konstrueret på baggrund af dataene i tabel. 2.11.
Et histogram kan konverteres til en fordelingspolygon ved at finde midtpunkterne på siderne af rektanglerne og derefter forbinde disse punkter med rette linjer. Den resulterende fordelingspolygon er vist i fig. 2.2 med en stiplet linje.
Når man konstruerer et histogram over fordelingen af ​​en variationsrække med ulige intervaller, er det ikke frekvenserne, der plottes langs ordinataksen, men tætheden af ​​fordelingen af ​​karakteristikken i de tilsvarende intervaller.
Fordelingstætheden er frekvensen beregnet pr. enhed intervalbredde, dvs. hvor mange enheder i hver gruppe er pr. intervalværdienhed. Et eksempel på beregning af fordelingstætheden er vist i tabel. 2.12.
Tabel 2.12 - Fordeling af virksomheder på antal ansatte (betingede tal)
N p/p Grupper af virksomheder efter antal ansatte, personer. Antal virksomheder Intervalstørrelse, mennesker. Fordelingstæthed
EN 1 2 3=1/2
1 Op til 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
I ALT 147 ---- ----

Kan også bruges til grafisk at repræsentere variationsserier kumulativ kurve. Ved hjælp af en kumulering (sumkurve) afbildes en række akkumulerede frekvenser. Kumulative frekvenser bestemmes ved sekventielt at summere frekvenser på tværs af grupper og viser, hvor mange enheder i populationen, der har attributværdier, der ikke er større end den betragtede værdi.


Ris. 2.4. Ogive om fordeling af familier efter størrelsen af ​​boligareal pr. person

Når man konstruerer kumuleringen af ​​en intervalvariationsserie, plottes varianter af serien langs abscisseaksen, og akkumulerede frekvenser plottes langs ordinataksen.