Konstruksjon av en intervallvariasjonsserie for kontinuerlige kvantitative data. Konstruksjon av en diskret variasjonsserie

gruppering– dette er inndelingen av befolkningen i grupper som er homogene på en eller annen måte.

Tjenesteoppdrag. Med den elektroniske kalkulatoren kan du:

  • bygge en variantserie, bygge et histogram og en polygon;
  • finne variasjonsindikatorer (gjennomsnitt, modus (inkludert grafisk), median, variasjonsområde, kvartiler, desiler, kvartil differensieringskoeffisient, variasjonskoeffisient og andre indikatorer);

Instruksjon. For å gruppere en serie må du velge typen for den resulterende variasjonsserien (diskret eller intervall) og spesifisere mengden data (antall rader). Den resulterende løsningen lagres i en Word-fil (se eksempelet på gruppering av statistiske data).

Antall inndata
",0);">

Hvis grupperingen allerede er utført og diskrete variasjonsserier eller intervallserie, så må du bruke den elektroniske kalkulatoren Variasjonsindikatorer. Teste hypotesen om type distribusjon produsert ved hjelp av tjenesten Studie av distribusjonsform.

Typer statistiske grupperinger

Variasjonsserie. Ved observasjoner av en diskret tilfeldig variabel kan samme verdi påtreffes flere ganger. Slike verdier for en tilfeldig variabel x i blir registrert som indikerer n i antall ganger den vises i n observasjoner, dette er frekvensen til denne verdien.
Ved en kontinuerlig stokastisk variabel brukes gruppering i praksis.
  1. Typologisk gruppering- dette er inndelingen av den studerte kvalitativt heterogene befolkningen i klasser, sosioøkonomiske typer, homogene grupper av enheter. For å bygge denne grupperingen, bruk parameteren Diskret variasjonsserie.
  2. Strukturell gruppering kalles, der en homogen populasjon er delt inn i grupper som karakteriserer dens struktur i henhold til et eller annet varierende trekk. For å bygge denne grupperingen, bruk parameteren Interval series.
  3. En gruppering som avslører forholdet mellom de studerte fenomenene og deres trekk kalles analytisk gruppe(se analytisk gruppering av serier).

Prinsipper for å bygge statistiske grupperinger

En serie observasjoner ordnet i stigende rekkefølge kalles en variasjonsserie. grupperingsskilt er tegnet som befolkningen er delt inn i separate grupper. Det kalles gruppens base. Gruppering kan baseres på både kvantitative og kvalitative egenskaper.
Etter å ha bestemt grunnlaget for grupperingen, bør spørsmålet om antall grupper som studiepopulasjonen skal deles inn i, avgjøres.

Når du bruker personlige datamaskiner for å behandle statistiske data, utføres grupperingen av enhetene til et objekt ved hjelp av standardprosedyrer.
En slik prosedyre er basert på å bruke Sturgess-formelen for å bestemme det optimale antallet grupper:

k = 1+3,322*lg(N)

Der k er antall grupper, N er antall befolkningsenheter.

Lengden på delintervallene beregnes som h=(x maks -x min)/k

Tell deretter antall treff av observasjoner i disse intervallene, som tas som frekvenser n i. Få frekvenser, hvis verdier er mindre enn 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Midtpunktene til intervallene x i =(c i-1 +c i)/2 tas som nye verdier.

Lab #1

I følge matematisk statistikk

Tema: Primærbehandling av eksperimentelle data

3. Evaluering i poeng. en

5. Sikkerhetsspørsmål.. 2

6. Metodikk for å utføre laboratoriearbeid .. 3

Objektiv

Tilegnelse av ferdigheter i primærbehandling av empiriske data ved metoder for matematisk statistikk.

Utfør følgende oppgaver på grunnlag av et sett med eksperimentelle data:

Øvelse 1. Konstruer en intervallvariasjonsserie av distribusjon.

Oppgave 2. Konstruer et histogram av frekvensene til intervallvariasjonsserien.

Oppgave 3. Komponer en empirisk distribusjonsfunksjon og plot.

a) modus og median;

b) betingede startmomenter;

c) prøvegjennomsnitt;

d) utvalgsvarians, korrigert populasjonsvarians, korrigert standardavvik;

e) variasjonskoeffisient;

e) asymmetri;

g) kurtosis;

Oppgave 5. Bestem grensene for de sanne verdiene til de numeriske egenskapene til den tilfeldige variabelen som studeres med en gitt pålitelighet.

Oppgave 6. Meningsfull tolkning av resultatene av primærbehandling i henhold til problemets tilstand.

Score i poeng

Oppgave 1-56 poeng

Oppgave 62 poeng

Laboratoriebeskyttelse(muntlig intervju om kontrollspørsmål og laboratoriearbeid) - 2 poeng

Arbeidet leveres skriftlig på A4-ark og inkluderer:

1) Tittelside (vedlegg 1)

2) Startdata.

3) Presentasjon av arbeid i henhold til spesifisert prøve.

4) Beregningsresultater (utført manuelt og/eller ved bruk av MS Excel) i angitt rekkefølge.

5) Konklusjoner - en meningsfull tolkning av resultatene av primærbehandling i henhold til problemets tilstand.

6) Muntlig intervju om arbeids- og kontrollspørsmål.



5. Sikkerhetsspørsmål


Metodikk for å utføre laboratoriearbeid

Oppgave 1. Konstruer en intervallvariasjonsrekke av distribusjon

For å presentere statistiske data i form av en variasjonsserie med likt fordelte varianter, er det nødvendig:

1. Finn de minste og største verdiene i den opprinnelige datatabellen.

2. Bestem variasjonsspekter :

3. Bestem lengden på intervallet h, hvis det er opptil 1000 data i prøven, bruk formelen: , hvor n - utvalgsstørrelse - mengden data i utvalget; lgn er tatt for beregninger).

Det beregnede forholdet rundes opp til praktisk heltallsverdi .

4. For å bestemme begynnelsen av det første intervallet for et jevnt antall intervaller, anbefales det å ta verdien ; og for et oddetall av intervaller.

5. Registrer grupperingsintervaller og ordne dem i stigende rekkefølge av grenser

, ,………., ,

hvor er den nedre grensen for det første intervallet. Et passende tall tas for ikke mer enn , den øvre grensen for det siste intervallet må ikke være mindre enn . Det anbefales at intervallene inneholder startverdiene til den tilfeldige variabelen og skilles fra 5 til 20 intervaller.

6. Skriv ned de første dataene på intervallene til grupperinger, dvs. beregne fra den opprinnelige tabellen antall verdier av en tilfeldig variabel som faller innenfor de angitte intervallene. Hvis noen verdier sammenfaller med grensene for intervallene, så tilskrives de enten bare det forrige eller bare det etterfølgende intervallet.

Merknad 1. Intervallene trenger ikke tas like lange. I områder der verdiene er tettere, er det mer praktisk å ta mindre korte intervaller, og hvor sjeldnere - større.

Merknad 2.Hvis for noen verdier oppnås "null" eller små verdier av frekvenser, er det nødvendig å omgruppere dataene, forstørre intervallene (øke trinnet ).

Laboratoriearbeid №1. Primærbehandling av statistiske data

Bygging av distribusjonsserier

Den ordnede fordelingen av befolkningsenheter i grupper i henhold til en hvilken som helst attributt kalles nær distribusjon . I dette tilfellet kan tegnet være både kvantitativt, så kalles serien variasjon , og kvalitativ, så heter serien attributive . Så for eksempel kan befolkningen i en by fordeles etter aldersgrupper i en variasjonsserie, eller etter faglig tilhørighet i en attributtserie (selvfølgelig kan mange flere kvalitative og kvantitative trekk foreslås for å konstruere distribusjonsserier, valg av funksjon bestemmes av oppgaven med statistisk forskning).

Enhver distribusjonsserie er preget av to elementer:

- alternativ(x i) - dette er individuelle verdier for attributtet til enheter i utvalgspopulasjonen. For en variasjonsserie tar varianten numeriske verdier, for en attributiv serie - kvalitative (for eksempel x = "embetsmann");

- Frekvens(n Jeg) er et tall som viser hvor mange ganger denne eller den funksjonsverdien forekommer. Hvis frekvensen uttrykkes som et relativt tall (dvs. andelen populasjonselementer som tilsvarer en gitt verdi av opsjoner i det totale volumet av populasjonen), kalles det. relativ frekvens eller Frekvens.

Variasjonsserier kan være:

- diskret når egenskapen som studeres er preget av et visst tall (vanligvis et heltall).

- intervall når grensene "fra" og "til" er definert for en kontinuerlig variabel funksjon. En intervallserie bygges også hvis settet med verdier til en diskret variabel funksjon er stort.

En intervallserie kan bygges både med intervaller av lik lengde (like intervallserier) og med ulike intervaller, dersom dette er diktert av forholdene i den statistiske studien. For eksempel kan en serie med inntektsfordeling av befolkningen med følgende intervaller vurderes:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



der k er antall intervaller, n er utvalgsstørrelsen. (Selvfølgelig gir formelen vanligvis et brøktall, og det nærmeste hele tallet til det resulterende tallet velges som antall intervaller.) Lengden på intervallet i dette tilfellet bestemmes av formelen

.

Grafisk kan variasjonsserier representeres som histogrammer(en "kolonne" med høyde som tilsvarer frekvensen i dette intervallet bygges over hvert intervall i intervallserien), distribusjonsområde(forbindelsespunkter med brutt linje ( x i;n i) eller kumulerer(konstruert i henhold til de akkumulerte frekvensene, dvs. for hver verdi av attributtet, er frekvensen av forekomst i settet av objekter med en verdi av attributten mindre enn den gitte tatt).

Når du arbeider i Excel, kan følgende funksjoner brukes til å bygge variasjonsserier:

KRYSS AV( datamatrise) – for å bestemme prøvestørrelsen. Argumentet er celleområdet som inneholder eksempeldataene.

COUNTIF( område; kriterium) - kan brukes til å bygge en attributt- eller variantserie. Argumentene er rekkevidden av attributtet eksempelverdier og kriteriet - den numeriske eller tekstverdien til attributtet eller nummeret til cellen der det er plassert. Resultatet er hyppigheten av forekomsten av denne verdien i prøven.

FREKVENS( data array; intervall array) – å bygge en variasjonsserie. Argumentene er rekkevidden til prøvedatamatrisen og kolonnen med intervaller. Hvis det er nødvendig å bygge en diskret serie, er verdiene for alternativene indikert her, hvis det er intervall, så de øvre grensene for intervallene (de kalles også "lommer"). Siden resultatet er en kolonne med frekvenser, må introduksjonen av funksjonen fullføres ved å trykke CTRL+SHIFT+ENTER tastekombinasjonen. Merk at når du angir en rekke intervaller når du introduserer en funksjon, kan den siste verdien i den utelates - alle verdier som ikke falt i de forrige "lommene" vil bli plassert i den tilsvarende "lommen". Dette bidrar noen ganger til å unngå feilen at den største prøveverdien ikke automatisk plasseres i den siste "lommen".

I tillegg, for komplekse grupperinger (i henhold til flere kriterier), brukes "pivottabeller"-verktøyet. De kan også brukes til å bygge attributt- og variasjonsserier, men dette kompliserer oppgaven unødvendig. For å bygge en variantserie og et histogram er det også en "histogram"-prosedyre fra "Analysis Package"-tillegget (for å bruke tillegg i Excel, må du først laste dem ned, de er ikke installert som standard)

Vi illustrerer prosessen med primær databehandling med følgende eksempler.

Eksempel 1.1. det finnes data om den kvantitative sammensetningen av 60 familier.

Bygg en variasjonsserie og en distribusjonspolygon

Løsning.

La oss åpne Excel-regnearkene. La oss legge inn en rekke data i området A1:L5. Hvis du studerer et dokument i elektronisk form (for eksempel i Word-format), er alt du trenger å gjøre å velge en tabell med data og kopiere den til utklippstavlen, velg deretter celle A1 og lim inn dataene - de vil automatisk oppta passende rekkevidde. La oss beregne prøvestørrelsen n - antall prøvedata, for dette, i celle B7, skriv inn formelen = COUNT (A1: L5). Merk at for å legge inn ønsket område i formelen, er det ikke nødvendig å angi betegnelsen fra tastaturet, det er nok å velge det. La oss bestemme minimums- og maksimumsverdiene i prøven ved å skrive inn formelen =MIN(A1:L5) i celle B8, og i celle B9: =MAX(A1:L5).

Fig.1.1 Eksempel 1. Primærbehandling av statistiske data i Excel-tabeller

La oss deretter lage en tabell for å bygge en variantserie ved å skrive inn navn for intervallkolonnen (variantverdier) og frekvenskolonnen. I kolonnen med intervaller, skriv inn verdiene til attributtet fra minimum (1) til maksimum (6), som okkuperer området B12:B17. Velg frekvenskolonnen, skriv inn formelen =FREKVENS(A1:L5;B12:B17) og trykk tastekombinasjonen CTRL+SHIFT+ENTER

Fig.1.2 Eksempel 1. Konstruksjon av en variasjonsserie

For kontroll beregner vi summen av frekvenser ved hjelp av SUM-funksjonen (funksjonsikon S i redigeringsgruppen på Hjem-fanen), den beregnede summen må samsvare med den tidligere beregnede prøvestørrelsen i celle B7.

La oss nå bygge en polygon: etter å ha valgt det resulterende frekvensområdet, velg "Graph" -kommandoen på "Sett inn" -fanen. Som standard vil verdiene på den horisontale aksen være ordenstall - i vårt tilfelle fra 1 til 6, som sammenfaller med verdiene til alternativene (antall tariffkategorier).

Navnet på serien av diagrammet "serie 1" kan enten endres ved å bruke det samme alternativet "velg data" på "Designer"-fanen, eller ganske enkelt slettes.

Fig.1.3. Eksempel 1. Bygge en frekvenspolygon

Eksempel 1.2. Data er tilgjengelige om utslipp av forurensende stoffer fra 50 kilder:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Kompiler en serie med lik intervall, bygg et histogram

Løsning

La oss legge til en rekke data til et Excel-ark, det vil okkupere området A1:J5 Som i forrige oppgave, vil vi bestemme prøvestørrelsen n, minimums- og maksimumsverdiene i prøven. Siden vi nå ikke trenger en diskret, men en intervallserie, og antall intervaller i oppgaven ikke er spesifisert, beregner vi antall intervaller k ved hjelp av Sturgess-formelen. For å gjøre dette, i celle B10, skriv inn formelen =1+3,322*LOG10(B7).

Fig.1.4. Eksempel 2. Konstruksjon av en lik intervallserie

Den resulterende verdien er ikke et heltall, den er omtrent 6,64. Siden for k=7 vil lengden på intervallene uttrykkes som et heltall (i motsetning til tilfellet med k=6), vil vi velge k=7 ved å legge inn denne verdien i celle C10. Vi beregner lengden på intervallet d i celle B11 ved å skrive inn formelen = (B9-B8) / C10.

La oss definere en rekke intervaller, og spesifisere den øvre grensen for hvert av de 7 intervallene. For å gjøre dette, i celle E8, beregne den øvre grensen for det første intervallet ved å skrive inn formelen =B8+B11; i celle E9 den øvre grensen for det andre intervallet ved å skrive inn formelen =E8+B11. For å beregne de gjenværende verdiene for de øvre grensene for intervallene, fikserer vi antall celle B11 i den angitte formelen ved å bruke $-tegnet, slik at formelen i celle E9 blir =E8+B$11, og kopierer innholdet i celle E9 til cellene E10-E14. Den siste verdien som ble oppnådd er lik maksimalverdien i prøven beregnet tidligere i celle B9.

Fig.1.5. Eksempel 2. Konstruksjon av en lik intervallserie


La oss nå fylle rekken av "lommer" ved å bruke FREKVENS-funksjonen, som ble gjort i eksempel 1.

Fig.1.6. Eksempel 2. Konstruksjon av en lik intervallserie

Basert på den resulterende variasjonsserien, vil vi bygge et histogram: velg frekvenskolonnen og velg "Histogram" på fanen "Sett inn". Etter å ha mottatt histogrammet, vil vi endre etikettene til den horisontale aksen i den til verdier i intervallet, for dette velger vi alternativet "Velg data" i kategorien "Designer". I vinduet som vises, velg kommandoen "Endre" for delen "Horizontale akseetiketter" og skriv inn verdiområdet ved å velge det med "musen".

Fig.1.7. Eksempel 2. Bygge et histogram

Fig.1.8. Eksempel 2. Bygge et histogram

En diskret variasjonsserie er konstruert for diskrete funksjoner.

For å bygge en diskret variasjonsserie, må du gjøre følgende: 1) sortere observasjonsenhetene i stigende rekkefølge av den studerte attributtverdien,

2) bestemme alle mulige verdier av attributtet x i, sorter dem i stigende rekkefølge,

tegnverdi, Jeg .

funksjonsverdifrekvens og betegne f Jeg . Summen av alle frekvenser i serien er lik antall elementer i den studerte populasjonen.

Eksempel 1 .

Liste over karakterer oppnådd av studenter ved eksamen: 3; fire; 3; 5; fire; 2; 2; fire; fire; 3; 5; 2; fire; 5; fire; 3; fire; 3; 3; fire; fire; 2; 2; 5; 5; fire; 5; 2; 3; fire; fire; 3; fire; 5; 2; 5; 5; fire; 3; 3; fire; 2; fire; fire; 5; fire; 3; 5; 3; 5; fire; fire; 5; fire; fire; 5; fire; 5; 5; 5.

Her er nummeret X - karakterer en diskret tilfeldig variabel, og den resulterende listen over estimater erstatistiske (observerte) data .

    rekkefølge observasjonsenhetene i stigende rekkefølge etter den studerte verdien av funksjonen:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) bestem alle mulige verdier for attributtet x i, sorter dem i stigende rekkefølge:

I dette eksemplet kan alle poengsum deles inn i fire grupper med følgende verdier: 2; 3; fire; 5.

Verdien av en tilfeldig variabel som tilsvarer en egen gruppe observerte data kalles tegnverdi, variant (opsjon) og angi x Jeg .

Tallet som viser hvor mange ganger den tilsvarende funksjonsverdien forekommer i en serie observasjoner kalles funksjonsverdifrekvens og betegne f Jeg .

For vårt eksempel

score 2 forekommer - 8 ganger,

score 3 forekommer - 12 ganger,

score 4 forekommer - 23 ganger,

poengsum 5 forekommer - 17 ganger.

Det er 60 vurderinger totalt.

4) skriv de mottatte dataene inn i en tabell med to rader (kolonner) - x i og f i .

Basert på disse dataene er det mulig å konstruere en diskret variasjonsserie

Diskrete variasjonsserier - dette er en tabell der de forekommende verdiene for den studerte egenskapen er indikert som separate verdier i stigende rekkefølge og deres frekvenser

  1. Konstruksjon av en intervallvariasjonsserie

I tillegg til en diskret variasjonsserie, er det ofte en slik måte å gruppere data på som en intervallvariasjonsserie.

En intervallserie bygges hvis:

    tegnet har en kontinuerlig natur av endring;

    det er mange diskrete verdier (mer enn 10)

    frekvenser av diskrete verdier er veldig små (ikke overstige 1-3 med et relativt stort antall observasjonsenheter);

    mange diskrete verdier av en funksjon med samme frekvenser.

En intervallvariasjonsserie er en måte å gruppere data i form av en tabell som har to kolonner (funksjonsverdier i form av et intervall med verdier og frekvensen til hvert intervall).

I motsetning til en diskret serie, er verdiene til karakteristikken til en intervallserie ikke representert av individuelle verdier, men av et intervall av verdier ("fra - til").

Tallet som viser hvor mange observasjonsenheter som falt i hvert valgt intervall kalles funksjonsverdifrekvens og betegne f Jeg . Summen av alle frekvenser i serien er lik antall elementer (observasjonsenheter) i den studerte populasjonen.

Hvis en enhet har en funksjonsverdi som er lik verdien av den øvre grensen for intervallet, bør den henvises til neste intervall.

For eksempel vil et barn med en høyde på 100 cm falle inn i det andre intervallet, og ikke i det første; og et barn med en høyde på 130 cm vil falle inn i det siste intervallet, og ikke i det tredje.

Basert på disse dataene er det mulig å konstruere en intervallvariasjonsserie.

Hvert intervall har en nedre grense (x n), en øvre grense (x in) og en intervallbredde ( Jeg).

En intervallgrense er en egenskapsverdi som ligger på grensen til to intervaller.

barns høyde (cm)

barns høyde (cm)

antall barn

over 130

Hvis et intervall har en øvre og nedre grense, kalles det lukket intervall. Hvis intervallet bare har en nedre eller bare en øvre grense, så er dette - åpent intervall. Bare det aller første eller det aller siste intervallet kan være åpent. I eksemplet ovenfor er det siste intervallet åpent.

Intervallbredde (Jeg) er forskjellen mellom øvre og nedre grenser.

Jeg = x n - x in

Bredden på et åpent intervall antas å være den samme som bredden på et tilstøtende lukket intervall.

barns høyde (cm)

antall barn

Intervallbredde (i)

for beregninger 130+20=150

20 (fordi bredden på det tilstøtende lukkede intervallet er 20)

Alle intervallserier er delt inn i intervallserier med like intervaller og intervallserier med ulikt intervall. . I intervallrader med like intervaller er bredden på alle intervaller den samme. I intervallserier med ulikt intervall er bredden på intervallene forskjellig.

I dette eksemplet, en intervallserie med ulik intervall.

I mange tilfeller, hvis den statistiske populasjonen inkluderer et stort eller enda mer et uendelig antall alternativer, som oftest finnes med kontinuerlig variasjon, er det praktisk talt umulig og upraktisk å danne en gruppe enheter for hvert alternativ. I slike tilfeller er assosiasjonen av statistiske enheter til grupper bare mulig på grunnlag av intervallet, dvs. en slik gruppe som har visse grenser for verdiene til det varierende attributtet. Disse grensene er indikert med to tall som indikerer øvre og nedre grenser for hver gruppe. Bruken av intervaller fører til dannelsen av en intervallfordelingsserie.

intervall rad er en variasjonsserie, hvis varianter presenteres som intervaller.

En intervallserie kan dannes med like og ulike intervaller, mens valget av prinsippet for å konstruere denne serien avhenger hovedsakelig av graden av representativitet og bekvemmelighet til den statistiske populasjonen. Hvis settet er tilstrekkelig stort (representativt) når det gjelder antall enheter og er ganske homogent i sammensetningen, er det tilrådelig å legge de like intervallene som grunnlag for dannelsen av intervallserien. Vanligvis, i henhold til dette prinsippet, dannes en intervallserie for de populasjonene hvor variasjonsområdet er relativt lite, dvs. maksimums- og minimumsvariantene skiller seg vanligvis fra hverandre flere ganger. I dette tilfellet beregnes verdien av like intervaller ved forholdet mellom rekkevidden av egenskapsvariasjonen og det gitte antallet dannede intervaller. Å bestemme lik og intervall, kan Sturgess-formelen brukes (vanligvis med en liten variasjon i intervallfunksjoner og et stort antall enheter i den statistiske populasjonen):

hvor x i - verdien av et likt intervall; X maks, X min - maksimums- og minimumsalternativer i den statistiske populasjonen; n . - antall enheter i befolkningen.

Eksempel. Det er tilrådelig å beregne størrelsen på et likt intervall når det gjelder tettheten av radioaktiv forurensning med cesium - 137 i 100 bosetninger i Krasnopolsky-distriktet i Mogilev-regionen, hvis det er kjent at den innledende (minimum) varianten er lik I km / km 2, finalen ( maksimum) - 65 ki / km 2. Ved å bruke formelen 5.1. vi får:

Derfor, for å danne en intervallserie med like intervaller for tettheten av cesiumforurensning - 137 bosetninger i Krasnopolsky-distriktet, kan størrelsen på et like intervall være 8 ki/km 2 .

Under forhold med ujevn fordeling, dvs. når maksimums- og minimumsalternativene er hundrevis av ganger, når du danner intervallserien, kan du bruke prinsippet ulik intervaller. Ulike intervaller øker vanligvis når du flytter til større verdier av funksjonen.

Formen på intervallene kan være lukkede og åpne. Lukket Det er vanlig å navngi intervaller som både nedre og øvre grenser er angitt for. åpen intervaller har bare én grense: i det første intervallet - den øvre, i den siste - den nedre grensen.

Det er tilrådelig å vurdere intervallserier, spesielt de med ulikt intervall, tatt i betraktning distribusjonstetthet, den enkleste måten å beregne som er forholdet mellom den lokale frekvensen (eller frekvensen) og størrelsen på intervallet.

For den praktiske dannelsen av intervallserien kan du bruke bordets layout. 5.3.

T a b l e 5.3. Prosedyren for dannelse av en intervallserie av bosetninger i Krasnopolsky-distriktet i henhold til tettheten av radioaktiv forurensning med cesium -137

Den største fordelen med intervallserien er grensen kompakthet. samtidig, i intervallserien til fordelingen, er de individuelle variantene av egenskapen skjult i de tilsvarende intervallene

Når en grafisk representasjon av en intervallserie i et system med rektangulære koordinater, er de øvre grensene til intervallene plottet på abscisseaksen, og de lokale frekvensene til serien er på ordinataksen. Den grafiske konstruksjonen av en intervallserie skiller seg fra konstruksjonen av en distribusjonspolygon ved at hvert intervall har en nedre og en øvre grense, og to abscisser tilsvarer en hvilken som helst verdi på ordinaten. Derfor, på grafen til intervallserien, er ikke et punkt merket, som i en polygon, men en linje som forbinder to punkter. Disse horisontale linjene er forbundet med hverandre med vertikale linjer og en figur av en trinnvis polygon oppnås, som vanligvis kalles histogram fordelinger (Figur 5.3).

I den grafiske konstruksjonen av en intervallserie for en tilstrekkelig stor statistisk populasjon, nærmer histogrammet seg symmetrisk distribusjonsskjema. I de tilfellene hvor den statistiske populasjonen er liten, dannes den som regel asymmetrisk stolpediagram.

I noen tilfeller er det hensiktsmessig å danne en rekke akkumulerte frekvenser, dvs. kumulativ rad. En kumulativ serie kan dannes på grunnlag av en diskret eller intervallfordelingsserie. Når en kumulativ serie vises grafisk i et system med rektangulære koordinater, plottes alternativer på abscisseaksen, og akkumulerte frekvenser (frekvenser) plottes på ordinataksen. Den resulterende buede linjen kalles kumulativ fordelinger (Figur 5.4).

Dannelsen og den grafiske representasjonen av ulike typer variasjonsserier bidrar til en forenklet beregning av de viktigste statistiske egenskapene, som er diskutert i detalj i emne 6, bidrar til å bedre forstå essensen av distribusjonslovene til en statistisk populasjon. Analysen av variasjonsseriene er av særlig betydning i tilfeller hvor det er nødvendig å identifisere og spore sammenhengen mellom varianter og frekvenser (frekvenser). Denne avhengigheten kommer til uttrykk ved at antallet saker for hver variant på en viss måte er relatert til verdien av denne varianten, dvs. med en økning i verdiene til det varierende tegnet på frekvensen (frekvensen) av disse verdiene, opplever de visse, systematiske endringer. Dette betyr at tallene i kolonnen med frekvenser (frekvenser) ikke er utsatt for kaotiske svingninger, men endres i en bestemt retning, i en bestemt rekkefølge og rekkefølge.

Hvis frekvensene i endringene deres viser en viss systematikk, betyr dette at vi er på vei til å identifisere mønstre. Systemet, rekkefølgen, rekkefølgen i skiftende frekvenser er en refleksjon av vanlige årsaker, generelle forhold som er karakteristiske for hele befolkningen.

Det bør ikke antas at distribusjonsmønsteret alltid er gitt ferdig. Det er ganske mange variasjonsserier der frekvensene på en bisarr måte hopper, enten økende eller avtagende. I slike tilfeller er det tilrådelig å finne ut hva slags distribusjon forskeren har å gjøre med: enten har denne distribusjonen ingen regelmessigheter i det hele tatt, eller dens natur er ennå ikke identifisert: Det første tilfellet er sjeldent, mens det andre, andre tilfelle er et ganske hyppig og svært vanlig fenomen.

Så når du danner en intervallserie, kan det totale antallet statistiske enheter være lite, og et lite antall alternativer faller inn i hvert intervall (for eksempel 1-3 enheter). I slike tilfeller er det ikke nødvendig å regne med manifestasjonen av regelmessighet. For at et regelmessig resultat skal kunne oppnås på grunnlag av tilfeldige observasjoner, må loven om store tall tre i kraft, d.v.s. slik at for hvert intervall ville det ikke være flere, men titalls og hundrevis av statistiske enheter. Til dette må vi prøve å øke antallet observasjoner så mye som mulig. Dette er den sikreste måten å oppdage mønstre i masseprosesser. Hvis det ikke er noen reell mulighet til å øke antall observasjoner, kan identifisering av mønstre oppnås ved å redusere antall intervaller i distribusjonsserien. Redusere antall intervaller i variasjonsserien, og dermed øke antall frekvenser i hvert intervall. Dette betyr at de tilfeldige svingningene til hver statistisk enhet legges over hverandre, "jevnes ut", og blir til et mønster.

Dannelsen og konstruksjonen av variasjonsserier lar deg bare få et generelt, omtrentlig bilde av fordelingen av den statistiske populasjonen. For eksempel uttrykker et histogram kun grovt forholdet mellom verdiene til en egenskap og dens frekvenser (frekvenser). Derfor er variasjonsserier i hovedsak bare grunnlaget for ytterligere, dyptgående studier av den interne regulariteten til en statisk fordeling.

TEMA 5 SPØRSMÅL

1. Hva er variasjon? Hva forårsaker variasjonen av en egenskap i en statistisk populasjon?

2. Hvilke typer variable tegn kan finne sted i statistikk?

3. Hva er en variantserie? Hva er typene variantserier?

4. Hva er en rangert serie? Hva er dens fordeler og ulemper?

5. Hva er en diskret serie og hva er dens fordeler og ulemper?

6. Hva er rekkefølgen for dannelse av intervallserien, hva er fordelene og ulempene med den?

7. Hva er en grafisk representasjon av en rangert, diskret intervallfordelingsserie?

8. Hva er distribusjonskumulering og hva kjennetegner det?