Constructie van intervalvariatiereeksen voor continue kwantitatieve gegevens. Constructie van een discrete variatiereeks

Groepering- dit is de verdeling van een bevolking in groepen die volgens een bepaald kenmerk homogeen zijn.

Doel van de dienst. Met de online calculator kunt u:

  • bouw een variatieserie, bouw een histogram en polygoon;
  • variatie-indicatoren vinden (gemiddelde, modus (inclusief grafisch), mediaan, variatiebereik, kwartielen, decielen, kwartieldifferentiatiecoëfficiënt, variatiecoëfficiënt en andere indicatoren);

Instructies. Om een ​​reeks te groeperen, moet u het type variatiereeks dat wordt verkregen (discreet of interval) selecteren en de hoeveelheid gegevens (aantal rijen) aangeven. De resulterende oplossing wordt opgeslagen in een Word-bestand (zie voorbeeld van het groeperen van statistische gegevens).

Aantal invoergegevens
",0);">

Als de groepering al is uitgevoerd en de discrete variatieserie of interval serie, dan moet je de online calculator Variatie-indexen gebruiken. Het testen van de hypothese over het type verdeling wordt uitgevoerd met behulp van de service Het distributieformulier bestuderen.

Soorten statistische groeperingen

Variatie serie. Bij waarnemingen van een discrete willekeurige variabele kan dezelfde waarde meerdere malen voorkomen. Dergelijke waarden x i van een willekeurige variabele worden geregistreerd en geven n i aan, het aantal keren dat deze voorkomt in n waarnemingen, dit is de frequentie van deze waarde.
Bij een continue willekeurige variabele wordt in de praktijk gebruik gemaakt van groepering.
  1. Typologische groepering- dit is de verdeling van de kwalitatief heterogene bevolking die wordt bestudeerd in klassen, sociaal-economische typen, homogene groepen eenheden. Om deze groepering op te bouwen, gebruikt u de parameter Discrete variatieserie.
  2. Een groepering wordt structureel genoemd, waarin een homogene populatie is verdeeld in groepen die de structuur karakteriseren volgens een of ander variërend kenmerk. Om deze groepering op te bouwen, gebruikt u de parameter Intervalreeks.
  3. Een groepering die de relaties tussen de onderzochte verschijnselen en hun kenmerken onthult, wordt genoemd analytische groep(zie analytische groepering van reeksen).

Principes voor het construeren van statistische groeperingen

Een reeks waarnemingen, geordend in oplopende volgorde, wordt een variatiereeks genoemd. Groeperingsfunctie is een kenmerk waardoor een bevolking in afzonderlijke groepen wordt verdeeld. Het wordt de basis van de groep genoemd. De groepering kan gebaseerd zijn op zowel kwantitatieve als kwalitatieve kenmerken.
Nadat de basis van de groepering is bepaald, moet een beslissing worden genomen over het aantal groepen waarin de onderzochte populatie moet worden verdeeld.

Wanneer personal computers worden gebruikt om statistische gegevens te verwerken, wordt het groeperen van objecteenheden uitgevoerd met behulp van standaardprocedures.
Eén zo'n procedure is gebaseerd op het gebruik van de Sturgess-formule om het optimale aantal groepen te bepalen:

k = 1+3,322*log(N)

Waar k het aantal groepen is, is N het aantal bevolkingseenheden.

De lengte van gedeeltelijke intervallen wordt berekend als h=(x max -x min)/k

Vervolgens worden de aantallen waarnemingen die binnen deze intervallen vallen geteld, die worden genomen als frequenties ni. Er zijn maar weinig frequenties waarvan de waarden kleiner zijn dan 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
De middelste waarden van de intervallen x i =(c i-1 +c i)/2 worden als nieuwe waarden genomen.

Laboratoriumwerk nr. 1

Volgens wiskundige statistieken

Onderwerp: Primaire verwerking van experimentele gegevens

3. Scoor in punten. 1

5. Toetsvragen.. 2

6. Methodologie voor het uitvoeren van laboratoriumwerk. 3

Doel van het werk

Vaardigheden verwerven in de primaire verwerking van empirische gegevens met behulp van methoden uit de wiskundige statistiek.

Voer op basis van het geheel aan experimentele gegevens de volgende taken uit:

Oefening 1. Construeer een intervalvariatieverdelingsreeks.

Taak 2. Construeer een histogram van frequenties van een intervalvariatiereeks.

Taak 3. Maak een empirische verdelingsfunctie en teken een grafiek.

a) modus en mediaan;

b) voorwaardelijke beginmomenten;

c) steekproefgemiddelde;

d) steekproefvariantie, gecorrigeerde populatievariantie, gecorrigeerde standaarddeviatie;

e) variatiecoëfficiënt;

f) asymmetrie;

g) kurtosis;

Taak 5. Bepaal de grenzen van de werkelijke waarden van de numerieke kenmerken van de willekeurige variabele die wordt bestudeerd met een gegeven betrouwbaarheid.

Taak 6. Op inhoud gebaseerde interpretatie van de resultaten van de primaire verwerking volgens de omstandigheden van de taak.

Scoor in punten

Taken 1-56 punten

Taak 62 punten

Verdediging van laboratoriumwerk(mondeling interview over testvragen en laboratoriumwerk) - 2 punten

Het werk moet in schriftelijke vorm op A4-vellen worden ingediend en omvat:

1) Titelpagina (bijlage 1)

2) Initiële gegevens.

3) Inzending van werk volgens het opgegeven voorbeeld.

4) Berekeningsresultaten (handmatig uitgevoerd en/of met behulp van MS Excel) in de aangegeven volgorde.

5) Conclusies - zinvolle interpretatie van de resultaten van primaire verwerking volgens de omstandigheden van de taak.

6) Mondeling interview over werk- en controlevragen.



5. Testvragen


Methodologie voor het uitvoeren van laboratoriumwerk

Taak 1. Construeer een intervalvariatieverdelingsreeks

Om statistische gegevens te presenteren in de vorm van een variatiereeks met op gelijke afstanden geplaatste opties, is het noodzakelijk:

1. Zoek in de oorspronkelijke gegevenstabel de kleinste en grootste waarden.

2.Definieer scala aan variatie :

3. Bepaal de lengte van het interval h. Als het monster maximaal 1000 gegevens bevat, gebruikt u de formule: , waarbij n – steekproefomvang – de hoeveelheid gegevens in de steekproef; voor berekeningen neem lgn).

De berekende verhouding wordt afgerond op handige gehele waarde .

4. Om het begin van het eerste interval voor een even aantal intervallen te bepalen, wordt aanbevolen de waarde te nemen; en voor een oneven aantal intervallen.

5. Noteer de groeperingsintervallen en rangschik ze in oplopende volgorde van grenzen

, ,………., ,

waar is de ondergrens van het eerste interval. Er wordt een handig getal genomen dat niet groter is dan . De bovengrens van het laatste interval mag niet kleiner zijn dan . Het wordt aanbevolen dat de intervallen de beginwaarden van de willekeurige variabele bevatten en hiervan worden gescheiden 5 tot 20 intervallen.

6. Noteer de initiële gegevens over groeperingsintervallen, d.w.z. gebruik de brontabel om het aantal willekeurige variabelewaarden te berekenen dat binnen de opgegeven intervallen valt. Als sommige waarden samenvallen met de grenzen van de intervallen, dan worden ze alleen aan het vorige of alleen aan het volgende interval toegeschreven.

Notitie 1. De intervallen hoeven niet even lang te zijn. In gebieden waar de waarden dichter zijn, is het handiger om kleinere, korte intervallen te nemen, en waar er minder frequente intervallen zijn, grotere.

Opmerking 2 Als voor sommige waarden "nul" of kleine frequentiewaarden worden verkregen, is het noodzakelijk om de gegevens te hergroeperen, waarbij de intervallen worden vergroot (de stap wordt vergroot).

Laboratoriumwerk nr. 1. Primaire verwerking van statistische gegevens

Constructie van distributieseries

De geordende verdeling van bevolkingseenheden in groepen volgens een bepaald kenmerk wordt genoemd nabij distributie . In dit geval kan het kenmerk kwantitatief zijn, waarna de reeks wordt genoemd variatie , en kwalitatief, dan heet de serie attributief . Zo kan de bevolking van een stad bijvoorbeeld worden verdeeld over leeftijdsgroepen in een variatiereeks, of door professionele aansluiting in een attribuutreeks (uiteraard kunnen er veel meer kwalitatieve en kwantitatieve kenmerken worden voorgesteld voor het construeren van distributiereeksen; de keuze van kenmerk wordt bepaald door de taak van statistisch onderzoek).

Elke distributiereeks wordt gekenmerkt door twee elementen:

- keuze(x ik) – dit zijn individuele waarden van het kenmerk van eenheden in de steekproefpopulatie. Voor de variatiereeksen neemt de optie numerieke waarden aan, voor de attributieve reeksen – kwalitatief (bijvoorbeeld x = “ambtenaar”);

- frequentie(N i) – een getal dat aangeeft hoe vaak een bepaalde attribuutwaarde voorkomt. Als de frequentie wordt uitgedrukt als een relatief getal (dat wil zeggen het aandeel elementen van de populatie dat overeenkomt met een gegeven waarde van de opties in het totale volume van de populatie), dan wordt dit genoemd relatieve frequentie of frequentie.

De variatiereeks kan zijn:

- discreet, wanneer het onderzochte kenmerk wordt gekenmerkt door een bepaald getal (meestal een geheel getal).

- interval, wanneer de grenzen “van” en “naar” worden gedefinieerd voor een continu variërend kenmerk. Een intervalreeks wordt ook geconstrueerd als de reeks waarden van een discreet gevarieerd kenmerk groot is.

Een intervalreeks kan zowel met intervallen van gelijke lengte (equal-interval series) als met ongelijke intervallen worden geconstrueerd, als dit door de omstandigheden van het statistische onderzoek wordt gedicteerd. Er kan bijvoorbeeld worden gedacht aan een reeks inkomensverdelingen met de volgende intervallen:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



waarbij k het aantal intervallen is, is n de steekproefomvang. (Natuurlijk geeft de formule meestal een gebroken getal, en het gehele getal dat het dichtst bij het resulterende getal ligt, wordt gekozen als het aantal intervallen.) De lengte van het interval wordt in dit geval bepaald door de formule

.

Grafisch kunnen variatiereeksen in de vorm worden weergegeven histogrammen(boven elk interval van de intervalreeks wordt een “kolom” met hoogte gebouwd die overeenkomt met de frequentie in dit interval), distributie veelhoek(onderbroken lijn die de punten verbindt ( x ik;n ik) of cumuleert(gebouwd op geaccumuleerde frequenties, d.w.z. voor elke attribuutwaarde wordt de frequentie van voorkomen in een reeks objecten met een attribuutwaarde kleiner dan de gegeven waarde genomen).

Bij het werken in Excel kunnen de volgende functies worden gebruikt om variatiereeksen samen te stellen:

REKENING( gegevensarray) – om de steekproefomvang te bepalen. Het argument is het cellenbereik waarin de voorbeeldgegevens zich bevinden.

AANTAL.ALS( bereik; criterium) – kan worden gebruikt om een ​​attribuut- of variatiereeks te construeren. De argumenten zijn het bereik van de reeks voorbeeldwaarden van het attribuut en het criterium: de numerieke of tekstwaarde van het attribuut of het nummer van de cel waarin het zich bevindt. Het resultaat is de frequentie waarmee die waarde in het monster voorkomt.

FREQUENTIE( gegevensarray; reeks intervallen) – voor het construeren van een variatiereeks. De argumenten zijn het bereik van de voorbeeldgegevensarray en de intervalkolom. Als u een discrete reeks moet construeren, worden hier de waarden van de opties aangegeven; als het een intervalreeks is, dan de bovengrenzen van de intervallen (ze worden ook "pockets" genoemd). Omdat het resultaat een kolom met frequenties is, moet u de functie-invoer voltooien door op CTRL+SHIFT+ENTER te drukken. Houd er rekening mee dat wanneer u bij het introduceren van een functie een reeks intervallen opgeeft, u niet de laatste waarde daarin hoeft op te geven - alle waarden die niet in de vorige "pockets" waren opgenomen, worden in de overeenkomstige "pocket" geplaatst. Dit kan soms de fout helpen voorkomen dat de grootste monsterwaarde niet automatisch in het laatste vakje wordt geplaatst.

Gebruik bovendien voor complexe groeperingen (gebaseerd op verschillende kenmerken) de tool “draaitabellen”. Ze kunnen ook worden gebruikt om attribuut- en variatiereeksen samen te stellen, maar dit maakt de taak onnodig ingewikkeld. Om een ​​variatiereeks en een histogram te bouwen, is er ook een “histogram”-procedure van de invoegtoepassing “Analysis Package” (om invoegtoepassingen in Excel te gebruiken, moet u deze eerst downloaden; ze worden niet standaard geïnstalleerd)

Laten we het proces van primaire gegevensverwerking illustreren met de volgende voorbeelden.

Voorbeeld 1.1. Er zijn gegevens over de kwantitatieve samenstelling van 60 gezinnen.

Construeer een variatiereeks en een distributiepolygoon

Oplossing.

Laten we Excel-tabellen openen. Laten we de data-array invoeren in het bereik A1:L5. Als u een document in elektronische vorm bestudeert (bijvoorbeeld in Word-formaat), selecteert u hiervoor gewoon de tabel met de gegevens en kopieert u deze naar het klembord, selecteert u vervolgens cel A1 en plakt u de gegevens - ze bezetten automatisch de passend bereik. Laten we het monstervolume n berekenen - het aantal monstergegevens; voer hiervoor de formule =COUNT(A1:L5) in cel B7 in. Merk op dat om het gewenste bereik in de formule in te voeren, het niet nodig is om de aanduiding via het toetsenbord in te voeren; het is voldoende om deze te selecteren. Laten we de minimum- en maximumwaarden in het voorbeeld bepalen door de formule =MIN(A1:L5) in cel B8 in te voeren, en =MAX(A1:L5) in cel B9.

Fig.1.1 Voorbeeld 1. Primaire verwerking van statistische gegevens in Excel-tabellen

Vervolgens gaan we een tabel voorbereiden voor het construeren van een variatiereeks door namen in te voeren voor de intervalkolom (variantwaarden) en de frequentiekolom. Voer in de intervalkolom de karakteristieke waarden in van minimaal (1) tot maximaal (6), in het bereik B12:B17. Selecteer de frequentiekolom, voer de formule =FREQUENCY(A1:L5,B12:B17) in en druk op de toetsencombinatie CTRL+SHIFT+ENTER

Fig. 1.2 Voorbeeld 1. Constructie van een variatiereeks

Laten we ter controle de som van de frequenties berekenen met behulp van de SUM-functie (functiepictogram S in de groep "Bewerken" op het tabblad "Home"). De berekende som moet samenvallen met het eerder berekende monstervolume in cel B7.

Laten we nu een polygoon bouwen: nadat u het resulterende frequentiebereik hebt geselecteerd, selecteert u de opdracht "Grafiek" op het tabblad "Invoegen". Standaard zijn de waarden op de horizontale as rangtelwoorden - in ons geval van 1 tot 6, wat samenvalt met de waarden van de opties (nummers van tariefcategorieën).

De naam van de kaartserie “serie 1” kan worden gewijzigd met dezelfde optie “gegevens selecteren” op het tabblad “Ontwerp” of eenvoudigweg worden verwijderd.

Afb.1.3. Voorbeeld 1. Constructie van een frequentiepolygoon

Voorbeeld 1.2. Er zijn gegevens over de uitstoot van verontreinigende stoffen uit 50 bronnen:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Stel een reeks met gelijke intervallen samen, bouw een histogram

Oplossing

Laten we de gegevensarray in een Excel-blad invoeren, deze zal het bereik A1:J5 bezetten. Net als in de vorige taak zullen we de steekproefomvang n, de minimum- en maximumwaarden in de steekproef bepalen. Omdat we nu geen discrete reeks nodig hebben, maar een intervalreeks, en het aantal intervallen in het probleem niet gespecificeerd is, berekenen we het aantal intervallen k met behulp van de Sturgess-formule. Om dit te doen, voert u de formule =1+3,322*LOG10(B7) in cel B10 in.

Afb.1.4. Voorbeeld 2. Constructie van een reeks met gelijke intervallen

De resulterende waarde is geen geheel getal, maar ongeveer 6,64. Omdat bij k=7 de lengte van de intervallen wordt uitgedrukt als een geheel getal (in tegenstelling tot het geval van k=6), kiezen we k=7 door deze waarde in cel C10 in te voeren. We berekenen de lengte van het interval d in cel B11 door de formule =(B9-B8)/C10 in te voeren.

Laten we een reeks intervallen definiëren, die de bovengrens voor elk van de zeven intervallen aangeeft. Om dit te doen, berekenen we in cel E8 de bovengrens van het eerste interval door de formule =B8+B11 in te voeren; in cel E9 de bovengrens van het tweede interval door de formule =E8+B11 in te voeren. Om de resterende waarden van de bovengrenzen van de intervallen te berekenen, leggen we het aantal cel B11 in de ingevoerde formule vast met behulp van het $-teken, zodat de formule in cel E9 de vorm =E8+B$11 heeft, en kopiëren we de inhoud van cel E9 naar cellen E10-E14. De laatst verkregen waarde is gelijk aan de maximumwaarde in het monster die eerder in cel B9 is berekend.

Afb.1.5. Voorbeeld 2. Constructie van een reeks met gelijke intervallen


Laten we nu de reeks "pockets" vullen met behulp van de FREQUENCY-functie, zoals gedaan in voorbeeld 1.

Afb.1.6. Voorbeeld 2. Constructie van een reeks met gelijke intervallen

Met behulp van de resulterende variatiereeks zullen we een histogram construeren: selecteer de frequentiekolom en selecteer “Histogram” op het tabblad “Invoegen”. Nadat we het histogram hebben ontvangen, gaan we de labels van de horizontale as erin wijzigen in waarden in het bereik van intervallen; selecteer hiervoor de optie "Gegevens selecteren" op het tabblad "Ontwerper". Selecteer in het venster dat verschijnt de opdracht "Wijzigen" voor het gedeelte "Horizontale aslabels" en voer het waardenbereik voor de opties in door dit met de muis te selecteren.

Afb.1.7. Voorbeeld 2. Een histogram construeren

Afb.1.8. Voorbeeld 2. Een histogram construeren

Er wordt een discrete variatiereeks geconstrueerd voor discrete kenmerken.

Om een ​​discrete variatiereeks te construeren, moet je de volgende stappen uitvoeren: 1) de observatie-eenheden rangschikken in oplopende volgorde van de bestudeerde waarde van het kenmerk,

2) bepaal alle mogelijke waarden van het attribuut x i, rangschik ze in oplopende volgorde,

de waarde van het attribuut, i .

frequentie van attribuutwaarde en aanduiden F i . De som van alle frequenties van een reeks is gelijk aan het aantal elementen in de populatie die wordt bestudeerd.

voorbeeld 1 .

Lijst met cijfers die studenten op examens hebben behaald: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Hier is het nummer X - cijferis een discrete willekeurige variabele, en de resulterende lijst met schattingen is dat ookstatistische (waarneembare) gegevens .

    rangschik observatie-eenheden in oplopende volgorde van de bestudeerde karakteristieke waarde:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) bepaal alle mogelijke waarden van het attribuut x i, rangschik ze in oplopende volgorde:

In dit voorbeeld kunnen alle schattingen in vier groepen worden verdeeld met de volgende waarden: 2; 3; 4; 5.

De waarde van een willekeurige variabele die overeenkomt met een bepaalde groep waargenomen gegevens wordt genoemd de waarde van het attribuut, optie (optie) en wijs x aan i .

Er wordt een getal genoemd dat aangeeft hoe vaak de overeenkomstige waarde van een kenmerk voorkomt in een aantal waarnemingen frequentie van attribuutwaarde en aanduiden F i .

Voor ons voorbeeld

score 2 komt voor - 8 keer,

score 3 komt voor - 12 keer,

score 4 komt voor - 23 keer,

score 5 komt voor - 17 keer.

Er zijn in totaal 60 beoordelingen.

4) schrijf de ontvangen gegevens in een tabel met twee rijen (kolommen) - x i en f i.

Op basis van deze gegevens is het mogelijk een discrete variatiereeks te construeren

Discrete variatiereeks – dit is een tabel waarin de voorkomende waarden van het onderzochte kenmerk worden aangegeven als individuele waarden in oplopende volgorde en hun frequenties

  1. Constructie van een intervalvariatiereeks

Naast de discrete variatiereeksen komt men vaak een methode voor het groeperen van gegevens tegen, zoals een intervalvariatiereeks.

Een intervalreeks wordt geconstrueerd als:

    het teken heeft een continu karakter van verandering;

    Er waren veel discrete waarden (meer dan 10)

    de frequenties van discrete waarden zijn erg klein (niet groter dan 1-3 met een relatief groot aantal observatie-eenheden);

    veel discrete waarden van een kenmerk met dezelfde frequenties.

Een intervalvariatiereeks is een manier om gegevens te groeperen in de vorm van een tabel die twee kolommen heeft (de waarden van het kenmerk in de vorm van een interval van waarden en de frequentie van elk interval).

In tegenstelling tot een discrete reeks worden de waarden van het kenmerk van een intervalreeks niet weergegeven door individuele waarden, maar door een interval van waarden ("van - tot").

Het getal dat aangeeft hoeveel observatie-eenheden in elk geselecteerd interval vielen, wordt genoemd frequentie van attribuutwaarde en aanduiden F i . De som van alle frequenties van een reeks is gelijk aan het aantal elementen (waarnemingseenheden) in de populatie die wordt bestudeerd.

Als een eenheid een karakteristieke waarde heeft die gelijk is aan de bovengrens van het interval, moet deze worden toegewezen aan het volgende interval.

Een kind met een lengte van 100 cm valt bijvoorbeeld in het tweede interval, en niet in het eerste; en een kind met een lengte van 130 cm valt in het laatste interval, en niet in het derde.

Op basis van deze gegevens kan een intervalvariatiereeks worden geconstrueerd.

Elk interval heeft een ondergrens (xn), een bovengrens (xw) en een intervalbreedte ( i).

De intervalgrens is de waarde van het attribuut dat op de grens van twee intervallen ligt.

kinderlengte (cm)

kinderlengte (cm)

aantal kinderen

ruim 130

Als een interval een boven- en ondergrens heeft, wordt het aangeroepen gesloten interval. Als een interval alleen een onder- of alleen een bovengrens heeft, dan is het - open interval. Alleen het allereerste of allerlaatste interval kan open zijn. In het bovenstaande voorbeeld is het laatste interval open.

Intervalbreedte (i) – het verschil tussen de boven- en ondergrens.

i = x n - x in

Er wordt aangenomen dat de breedte van het open interval hetzelfde is als de breedte van het aangrenzende gesloten interval.

kinderlengte (cm)

aantal kinderen

Intervalbreedte (i)

voor berekeningen 130+20=150

20 (omdat de breedte van het aangrenzende gesloten interval 20 is)

Alle intervalreeksen zijn onderverdeeld in intervalreeksen met gelijke intervallen en intervalreeksen met ongelijke intervallen . In op afstand van elkaar geplaatste rijen met gelijke intervallen is de breedte van alle intervallen hetzelfde. Bij intervalreeksen met ongelijke intervallen is de breedte van de intervallen verschillend.

In het beschouwde voorbeeld - een intervalreeks met ongelijke intervallen.

Wanneer een statistische populatie een groot of zelfs oneindig aantal varianten omvat, wat meestal gebeurt bij continue variatie, is het in veel gevallen praktisch onmogelijk en onpraktisch om voor elke variant een groep eenheden te vormen. In dergelijke gevallen is het combineren van statistische eenheden in groepen alleen mogelijk op basis van een interval, d.w.z. zo’n groep die bepaalde grenzen heeft voor de waarden van een variërend kenmerk. Deze limieten worden aangegeven door twee cijfers die de boven- en onderlimieten van elke groep aangeven. Het gebruik van intervallen leidt tot de vorming van een intervalverdelingsreeks.

Interval rad is een variatiereeks, waarvan de varianten in de vorm van intervallen worden gepresenteerd.

Een intervalreeks kan worden gevormd met gelijke en ongelijke intervallen, terwijl de keuze van het principe voor het construeren van deze reeks vooral afhangt van de mate van representativiteit en gemak van de statistische populatie. Als de populatie qua aantal eenheden groot genoeg (representatief) is en volledig homogeen van samenstelling is, dan is het raadzaam om de vorming van een intervalreeks te baseren op gelijkheid van intervallen. Door gebruik te maken van dit principe wordt gewoonlijk een intervalreeks gevormd voor die populaties waar het variatiebereik relatief klein is, d.w.z. de maximale en minimale opties verschillen meestal meerdere keren van elkaar. In dit geval wordt de waarde van gelijke intervallen berekend door de verhouding van het variatiebereik van een kenmerk tot een bepaald aantal gevormde intervallen. Gelijk bepalen En interval kan de Sturgess-formule worden gebruikt (meestal met een kleine variatie in intervalkenmerken en een groot aantal eenheden in de statistische populatie):

waar x ik - gelijke intervalwaarde; X max, X min - maximale en minimale opties in een statistisch aggregaat; N . - het aantal eenheden in het totaal.

Voorbeeld. Het is raadzaam om de grootte van een gelijk interval voor de dichtheid van radioactieve besmetting met cesium te berekenen - 137 in 100 nederzettingen in het Krasnopolsky-district van de Mogilev-regio, als bekend is dat de initiële (minimale) optie gelijk is aan 1 km / km2, de finale ( maximaal) - 65 ki/km 2. Met behulp van formule 5.1. we krijgen:

Om een ​​intervalreeks te vormen met gelijke intervallen in termen van de dichtheid van cesiumverontreiniging - 137 nederzettingen in de Krasnopolsky-regio, kan de grootte van het gelijke interval dus 8 ki/km 2 zijn.

Onder omstandigheden van ongelijke verdeling, d.w.z. wanneer de maximale en minimale opties honderden keren zijn, kunt u bij het vormen van een intervalreeks het principe toepassen ongelijk intervallen. Ongelijke intervallen nemen gewoonlijk toe naarmate we naar grotere waarden van het kenmerk gaan.

De vorm van de intervallen kan gesloten of open zijn. Gesloten Het is gebruikelijk om intervallen aan te roepen die zowel onder- als bovengrenzen hebben. Open intervallen hebben slechts één grens: in het eerste interval is er een bovengrens, in het laatste is er een ondergrens.

Het is raadzaam om intervalreeksen te evalueren, vooral bij ongelijke intervallen, rekening houdend met distributiedichtheid, de eenvoudigste manier om te berekenen wat de verhouding is tussen de lokale frequentie (of frequentie) en de grootte van het interval.

Om praktisch een intervalreeks te vormen, kunt u de tabelindeling gebruiken. 5.3.

Tabel 5.3. De procedure voor het vormen van een intervalreeks van nederzettingen in de Krasnopolsky-regio op basis van de dichtheid van radioactieve besmetting met cesium –137

Het belangrijkste voordeel van de intervalreeks is het maximum compactheid. tegelijkertijd zijn in de intervalverdelingsreeksen individuele varianten van het kenmerk verborgen in de overeenkomstige intervallen

Bij het grafisch weergeven van een intervalreeks in een systeem van rechthoekige coördinaten, worden de bovengrenzen van de intervallen op de abscis-as uitgezet en worden de lokale frequenties van de reeks op de ordinaat-as uitgezet. De grafische constructie van een intervalreeks verschilt van de constructie van een distributiepolygoon doordat elk interval onder- en bovengrenzen heeft, en twee abscis correspondeert met één ordinaatwaarde. Daarom is op de grafiek van een intervalreeks geen punt gemarkeerd, zoals in een veelhoek, maar een lijn die twee punten verbindt. Deze horizontale lijnen zijn met elkaar verbonden door verticale lijnen en er ontstaat de figuur van een getrapte veelhoek, die gewoonlijk wordt genoemd histogram distributie (Fig. 5.3).

Bij het grafisch construeren van een intervalreeks voor een voldoende grote statistische populatie nadert het histogram symmetrisch vorm van distributie. In die gevallen waarin de statistische populatie klein is, geldt in de regel asymmetrisch staafdiagram.

In sommige gevallen is het raadzaam om een ​​aantal geaccumuleerde frequenties te vormen, d.w.z. cumulatief rij. Een cumulatieve reeks kan worden gevormd op basis van een discrete of intervalverdelingsreeks. Bij het grafisch weergeven van een cumulatieve reeks in een systeem van rechthoekige coördinaten, worden varianten op de abscis-as uitgezet en worden geaccumuleerde frequenties (frequenties) op de ordinaat-as uitgezet. De resulterende gebogen lijn wordt meestal genoemd cumulatief distributie (Fig. 5.4).

De vorming en grafische weergave van verschillende soorten variatiereeksen draagt ​​bij aan een vereenvoudigde berekening van de belangrijkste statistische kenmerken, die in onderwerp 6 in detail worden besproken, en helpt de essentie van de verdelingswetten van de statistische populatie beter te begrijpen. De analyse van een variatiereeks wordt van bijzonder belang in gevallen waarin het nodig is om de relatie tussen opties en frequenties (frequenties) te identificeren en te traceren. Deze afhankelijkheid komt tot uiting in het feit dat het aantal gevallen per optie op een bepaalde manier gerelateerd is aan de omvang van deze optie, dat wil zeggen: bij toenemende waarden van de variërende karakteristiek ondergaan de frequenties (frequenties) van deze waarden bepaalde, systematische veranderingen. Dit betekent dat de getallen in de frequentiekolom (frequentie) niet chaotisch fluctueren, maar in een bepaalde richting veranderen, in een bepaalde volgorde en volgorde.

Als de frequenties een zekere systematiek in hun veranderingen vertonen, betekent dit dat we op weg zijn een patroon te identificeren. Het systeem, de volgorde en de volgorde van veranderingen in frequenties zijn een weerspiegeling van algemene oorzaken, algemene omstandigheden die kenmerkend zijn voor de hele bevolking.

Er mag niet van worden uitgegaan dat het verspreidingspatroon altijd in kant-en-klare vorm wordt gegeven. Er zijn nogal wat variatiereeksen waarin de frequenties bizar verspringen, soms stijgend, soms dalend. In dergelijke gevallen is het raadzaam om uit te zoeken met wat voor soort distributie de onderzoeker te maken heeft: óf deze distributie kent helemaal geen inherente patronen, óf de aard ervan is nog niet onthuld: het eerste geval is zeldzaam, maar het tweede geval is een vrij algemeen en zeer wijdverbreid fenomeen.

Bij het vormen van een intervalreeks kan het totale aantal statistische eenheden dus klein zijn en bevat elk interval een klein aantal varianten (bijvoorbeeld 1-3 eenheden). In dergelijke gevallen kan men niet rekenen op de manifestatie van welk patroon dan ook. Om een ​​natuurlijk resultaat te verkrijgen op basis van willekeurige waarnemingen, moet de wet van de grote getallen in werking treden, d.w.z. zodat er voor elk interval niet meerdere, maar tientallen en honderden statistische eenheden zouden zijn. Daartoe moeten we proberen het aantal waarnemingen zoveel mogelijk te vergroten. Dit is de zekerste manier om patronen in massaprocessen te detecteren. Als er geen echte mogelijkheid is om het aantal waarnemingen te vergroten, kan het identificeren van een patroon worden bereikt door het aantal intervallen in de distributiereeks te verkleinen. Door het aantal intervallen in een variatiereeks te verkleinen, neemt daardoor het aantal frequenties in elk interval toe. Dit betekent dat de willekeurige fluctuaties van elke statistische eenheid over elkaar heen worden gelegd, “gladgestreken” en in een patroon veranderen.

Door de vorming en constructie van variatiereeksen kunnen we slechts een algemeen, benaderend beeld krijgen van de verdeling van de statistische populatie. Een histogram drukt bijvoorbeeld alleen in ruwe vorm de relatie uit tussen de waarden van een kenmerk en zijn frequenties (frequenties). Daarom zijn variatiereeksen in wezen slechts de basis voor verdere, diepgaande studie van de interne regelmaat van de statische verdeling.

TESTVRAGEN VOOR ONDERWERP 5

1. Wat is variatie? Wat veroorzaakt variatie in een eigenschap in een statistische populatie?

2. Welke soorten uiteenlopende kenmerken kunnen voorkomen in statistieken?

3. Wat is een variatiereeks? Welke soorten variatiereeksen kunnen er zijn?

4. Wat is een gerangschikte serie? Wat zijn de voor- en nadelen ervan?

5. Wat is een discrete reeks en wat zijn de voor- en nadelen ervan?

6. Wat is de procedure voor het vormen van een intervalreeks, wat zijn de voor- en nadelen ervan?

7. Wat is een grafische weergave van gerangschikte, discrete intervalverdelingsreeksen?

8. Wat is het cumulatieve deel van de distributie en wat wordt hierdoor gekenmerkt?