Algoritme til at konstruere en intervalvariationsserie med lige store intervaller.

Send dit gode arbejde i videnbasen er enkel. Brug formularen nedenfor

Studerende, kandidatstuderende, unge forskere, der bruger videnbasen i deres studier og arbejde, vil være dig meget taknemmelig.

opslået på http://www.allbest.ru/

OPGAVE1

Følgende data er tilgængelige om løn for ansatte i virksomheden:

Tabel 1.1

Mængden af ​​løn i konventionelle termer. hule. enheder

Det er nødvendigt at konstruere en intervalfordelingsrække, som man kan finde ud fra;

1) gennemsnitsløn;

2) gennemsnitlig lineær afvigelse;

4) standardafvigelse;

5) variationsområde;

6) oscillationskoefficient;

7) lineær variationskoefficient;

8) simpel variationskoefficient;

10) median;

11) asymmetrikoefficient;

12) Pearson asymmetriindeks;

13) kurtosis koefficient.

Løsning

Som du ved, er valgmulighederne (anerkendte værdier) arrangeret i stigende rækkefølge diskrete variationsserier. Med et stort antal mulighed (mere end 10), selv i tilfælde af diskret variation, konstrueres intervalserier.

Hvis en intervalserie er kompileret med lige intervaller, divideres variationsområdet med det angivne antal intervaller. Desuden, hvis den resulterende værdi er heltal og utvetydig (hvilket er sjældent), antages længden af ​​intervallet at være lig med dette tal. I andre tilfælde produceret afrunding Nødvendigvis V side øge, til det sidste ciffer tilbage var lige. Det er klart, når længden af ​​intervallet øges variationsområde med en mængde svarende til produktet af antallet af intervaller: med forskellen mellem den beregnede og den oprindelige længde af intervallet

EN) Hvis størrelsen af ​​udvidelsen af ​​variationsområdet er ubetydelig, så lægges den enten til den største eller trækkes fra den mindste værdi af karakteristikken;

b) Hvis størrelsen af ​​udvidelsen af ​​variationsområdet er mærkbar, så for at undgå forvirring af områdets centrum, divideres det groft i to ved samtidig at lægge til det største og trække fra de mindste værdier af karakteristikken.

Hvis en intervalserie med ulige intervaller kompileres, så forenkles processen, men alligevel skal længden af ​​intervallerne udtrykkes som et tal med det sidste lige ciffer, hvilket i høj grad forenkler efterfølgende beregninger af numeriske karakteristika.

30 er prøvestørrelsen.

Lad os skabe en intervalfordelingsserie ved hjælp af Sturges-formlen:

K = 1 + 3,32*log n,

K - antal grupper;

K = 1 + 3,32*lg 30 = 5,91=6

Vi finder rækkevidden af ​​attributten - løn for arbejdere i virksomheden - (x) ved hjælp af formlen

R= xmax - xmin og divider med 6; R= 195-112=83

Så bliver længden af ​​intervallet l bane=83:6=13,83

Begyndelsen af ​​det første interval vil være 112. Tilføjelse til 112 l ras = 13,83, får vi dens slutværdi 125,83, som også er begyndelsen af ​​det andet interval osv. slutningen af ​​det femte interval - 195.

Når man finder frekvenser, bør man være styret af reglen: "hvis værdien af ​​en funktion falder sammen med grænsen for det interne interval, så skal den tilskrives det forrige interval."

Vi opnår en intervalserie af frekvenser og kumulative frekvenser.

Tabel 1.2

Derfor har 3 medarbejdere løn. gebyr fra 112 til 125,83 konventionelle monetære enheder. Højeste løn gebyr fra 181,15 til 195 konventionelle monetære enheder. kun 6 ansatte.

For at beregne numeriske karakteristika transformerer vi intervalrækken til en diskret række, idet vi tager midten af ​​intervallerne som en mulighed:

Tabel 1.3

14131,83

Brug af den vægtede aritmetiske middelværdiformel

konventionelle monetære enheder

Gennemsnitlig lineær afvigelse:

hvor xi er værdien af ​​den karakteristik, der undersøges for den i-te enhed af populationen,

Gennemsnitlig værdi af det undersøgte træk.

opslået på http://www.allbest.ru/

LOpgivet den http://www.allbest.ru/

Konventionelle monetære enheder

Standardafvigelse:

Spredning:

Relativt variationsområde (oscillationskoefficient): c= R:,

Relativ lineær afvigelse: q = L:

Variationskoefficienten: V = y:

Oscillationskoefficienten viser den relative fluktuation af ekstremværdierne af en karakteristik omkring det aritmetiske middelværdi, og variationskoefficienten karakteriserer graden og homogeniteten af ​​populationen.

c= R: = 83/159,485*100% = 52,043%

Forskellen mellem ekstremværdierne er således 5,16% (=94,84%-100%) mindre end den gennemsnitlige løn for ansatte i virksomheden.

q = L: = 17,765/159,485*100 % = 11,139 %

V = y: = 21,704/159,485*100% = 13,609%

Variationskoefficienten er mindre end 33 %, hvilket indikerer en svag variation i lønnen for arbejdere på virksomheden, dvs. at gennemsnitsværdien er en typisk karakteristik af arbejdernes løn (befolkningen er homogen).

I intervalfordelingsserier mode bestemt af formlen -

Frekvensen af ​​det modale interval, dvs. det interval, der indeholder det største antal muligheder;

Frekvensen af ​​intervallet forud for modal;

Frekvensen af ​​intervallet efter modal;

Modal interval længde;

Den nedre grænse for det modale interval.

Til at bestemme medianer i intervalrækken bruger vi formlen

hvor er den kumulative (akkumulerede) frekvens af intervallet forud for medianen;

Nedre grænse for medianintervallet;

Median interval frekvens;

Længden af ​​medianintervallet.

Median interval- et interval, hvis akkumulerede frekvens (=3+3+5+7) overstiger halvdelen af ​​summen af ​​frekvenser - (153,49; 167,32).

Lad os beregne asymmetri og kurtosis, som vi vil oprette et nyt regneark til:

Tabel 1.4

Faktiske data

Beregningsdata

Lad os beregne tredje ordens øjeblik

Derfor er asymmetrien lig med

Siden 0,3553 0,25 anses asymmetrien for at være signifikant.

Lad os beregne det fjerde ordensmoment

Derfor er kurtosis lig med

Fordi< 0, то эксцесс является плосковершинным.

Graden af ​​asymmetri kan bestemmes ved hjælp af Pearsons asymmetrikoefficient (As): omsætning af oscillationsprøveværdi

hvor er det aritmetiske gennemsnit af fordelingsrækken; -- mode; -- standardafvigelse.

Med en symmetrisk (normal) fordeling = Mo er asymmetrikoefficienten derfor nul. Hvis As > 0, så er der mere tilstand, derfor er der en højrehåndsasymmetri.

Hvis As< 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

Fordelingen er ikke symmetrisk, men har venstresidig asymmetri.

OPGAVE 2

Hvad skal stikprøvestørrelsen være, så stikprøvefejlen med sandsynlighed 0,954 ikke overstiger 0,04, hvis man på baggrund af tidligere undersøgelser ved, at variansen er 0,24?

Løsning

Stikprøvestørrelsen for ikke-gentagen prøvetagning beregnes ved hjælp af formlen:

t - konfidens koefficient (med en sandsynlighed på 0,954 er den lig med 2,0; bestemt ud fra tabeller med sandsynlighedsintegraler),

y2=0,24 - standardafvigelse;

10.000 mennesker - prøvestørrelse;

Dx =0,04 - maksimal fejl for prøvegennemsnittet.

Med en sandsynlighed på 95,4 % kan det fastslås, at stikprøvestørrelsen, der sikrer en relativ fejl på højst 0,04, bør være mindst 566 familier.

OPGAVE3

Følgende data er tilgængelige om indkomst fra virksomhedens hovedaktiviteter, millioner rubler.

For at analysere en række dynamikker skal du bestemme følgende indikatorer:

1) kæde og grundlæggende:

Absolutte stigninger;

vækstrater;

Vækstrate;

2) gennemsnit

Dynamik rækkeniveau;

Absolut stigning;

Vækstrate;

Forøgelseshastighed;

3) absolut værdi på 1 % stigning.

Løsning

1. Absolut stigning (Dy)- dette er forskellen mellem det næste niveau i serien og det forrige (eller grundlæggende):

kæde: DN = yi - yi-1,

grundlæggende: DN = yi - y0,

уi - rækkeniveau,

i - række niveau nummer,

y0 - basisårsniveau.

2. Væksthastighed (tu) er forholdet mellem det efterfølgende niveau af serien og det foregående (eller basisår 2001):

kæde: Tu = ;

grundlæggende: Tu =

3. Vækstrate (TD) er forholdet mellem den absolutte vækst og det tidligere niveau, udtrykt i %.

kæde: Tu = ;

grundlæggende: Tu =

4. Absolut værdi på 1 % stigning (A)- dette er forholdet mellem kædens absolutte vækst og vækstraten, udtrykt i %.

EN =

Gennemsnitligt rækkeniveau beregnes ved hjælp af den aritmetiske middelværdiformel.

Gennemsnitligt indkomstniveau fra kerneaktiviteter i 4 år:

Gennemsnitlig absolut stigning beregnet med formlen:

hvor n er antallet af niveauer i serien.

I gennemsnit steg indtægterne fra kerneaktiviteter for året med 3,333 millioner rubler.

Gennemsnitlig årlig vækstrate beregnet ved hjælp af den geometriske middelformel:

уn er det sidste niveau i rækken,

y0 er seriens begyndelsesniveau.

Tu = 100 % = 102,174 %

Gennemsnitlig årlig vækstrate beregnet med formlen:

T? = Tu - 100 % = 102,74 % - 100 % = 2,74 %.

Således steg indtægterne fra virksomhedens hovedaktiviteter i gennemsnit i løbet af året med 2,74 %.

OPGAVEREN4

Beregn:

1. Individuelle prisindeks;

2. Generelt handelsomsætningsindeks;

3. Samlet prisindeks;

4. Samlet indeks for den fysiske mængde af salg af varer;

5. Opdel den absolutte stigning i værdien af ​​handelsomsætningen efter faktorer (på grund af ændringer i priser og antal solgte varer);

6. Træk korte konklusioner om alle opnåede indikatorer.

Løsning

1. Individuelle prisindekser for produkter A, B, C udgjorde efter betingelsen -

ipA=1,20; iрБ=1,15; iрВ=1,00.

2. Vi vil beregne det generelle handelsomsætningsindeks ved hjælp af formlen:

I w = = 1470/1045*100 % = 140,67 %

Handelens omsætning steg med 40,67% (140,67%-100%).

I gennemsnit steg råvarepriserne med 10,24 pct.

Mængden af ​​ekstra omkostninger for købere fra prisstigninger:

w(p) = ? p1q1 - ? p0q1 = 1470 - 1333,478 = 136,522 millioner rubler.

Som et resultat af stigende priser måtte købere bruge yderligere 136,522 millioner rubler.

4. Generelt indeks for fysisk volumen af ​​handelsomsætning:

Det fysiske volumen af ​​handelsomsætningen steg med 27,61%.

5. Lad os bestemme den overordnede ændring i handelsomsætningen i den anden periode sammenlignet med den første periode:

w = 1470-1045 = 425 millioner rubler.

på grund af prisændringer:

W(p) = 1470 - 1333,478 = 136,522 millioner rubler.

på grund af ændringer i fysisk volumen:

w(q) = 1333,478 - 1045 = 288,478 millioner rubler.

Vareomsætningen steg med 40,67%. Priserne i gennemsnit for 3 varer steg med 10,24%. Det fysiske volumen af ​​handelsomsætningen steg med 27,61%.

Generelt steg salgsmængden med 425 millioner rubler, herunder på grund af stigende priser, steg den med 136,522 millioner rubler og på grund af en stigning i salgsmængden - med 288,478 millioner rubler.

OPGAVE5

Følgende data er tilgængelige for 10 fabrikker i én branche.

Anlægsnummer

Produktoutput, tusinde stk. (X)

Baseret på de givne data:

I) for at bekræfte bestemmelserne i logisk analyse om tilstedeværelsen af ​​en lineær korrelation mellem faktorkarakteristikken (produktvolumen) og den resulterende karakteristik (elektricitetsforbrug), plot de indledende data på grafen for korrelationsfeltet og drag konklusioner om formen af forholdet, angiv dets formel;

2) bestemme parametrene for forbindelsesligningen og plot den resulterende teoretiske linje på grafen for korrelationsfeltet;

3) beregn den lineære korrelationskoefficient,

4) forklare betydningen af ​​indikatorerne opnået i afsnit 2) og 3);

5) ved hjælp af den resulterende model, lav en prognose om det mulige energiforbrug på et anlæg med et produktionsvolumen på 4,5 tusinde enheder.

Løsning

Attributtens data - produktionsvolumen (faktor), vil blive angivet med xi; tegn - elforbrug (resultat) gennem yi; punkter med koordinater (x, y) er plottet på korrelationsfeltet OXY.

Punkterne i korrelationsfeltet er placeret langs en bestemt ret linje. Derfor er sammenhængen lineær, vi vil lede efter en regressionsligning i form af en ret linje Уx=ax+b. For at finde det bruger vi normalligningssystemet:

Lad os lave en beregningstabel.

Ved hjælp af de fundne gennemsnit komponerer vi et system og løser det med hensyn til parametrene a og b:

Så vi får regressionsligningen for y på x: = 3,57692 x + 3,19231

Vi bygger en regressionslinje på korrelationsfeltet.

Ved at erstatte x-værdierne fra kolonne 2 i regressionsligningen får vi de beregnede (kolonne 7) og sammenligner dem med y-dataene, som afspejles i kolonne 8. Forresten bekræftes rigtigheden af ​​beregningerne af sammenfaldet af gennemsnitsværdierne af y og.

Koefficientlineær korrelation vurderer tætheden af ​​forholdet mellem karakteristika x og y og beregnes ved hjælp af formlen

Vinkelkoefficienten for direkte regression a (ved x) karakteriserer retningen af ​​det identificeredeafhængighedertegn: for a>0 er de ens, for a<0- противоположны. Det er absolut værdi - et mål for ændring i den resulterende karakteristik, når faktorkarakteristikken ændres med en måleenhed.

Det frie udtryk for direkte regression afslører retningen, og dens absolutte værdi er et kvantitativt mål for indflydelsen af ​​alle andre faktorer på den resulterende karakteristik.

Hvis< 0, så bruges ressourcen af ​​faktoren karakteristisk for et individuelt objekt med mindre, og hvornår>0 Medstørre effektivitet end gennemsnittet for hele sættet af objekter.

Lad os foretage en post-regressionsanalyse.

Koefficienten ved x af den direkte regression er lig med 3,57692 >0, derfor stiger (falder) elforbruget med en stigning (fald) i produktionsoutput. Forøgelse af produktionen med 1 tusind enheder. giver en gennemsnitlig stigning i elforbruget med 3,57692 tusinde kWh.

2. Fritiden for den direkte regression er lig med 3,19231, derfor øger indflydelsen af ​​andre faktorer produktets effekt på elforbruget i absolutte tal med 3,19231 tusinde kWh.

3. Korrelationskoefficienten på 0,8235 afslører en meget tæt afhængighed af elforbruget af produktoutput.

Det er nemt at lave forudsigelser ved hjælp af regressionsmodellens ligning. For at gøre dette erstattes værdierne af x - produktionsvolumen - i regressionsligningen, og elforbrug forudsiges. I dette tilfælde kan værdierne af x tages ikke kun inden for et givet område, men også uden for det.

Lad os lave en prognose om det mulige energiforbrug på et anlæg med et produktionsvolumen på 4,5 tusinde enheder.

3,57692*4,5 + 3,19231= 19,288 45 tusinde kWh.

LISTE OVER BRUGTE KILDER

1. Zakharenkov S.N. Socioøkonomisk statistik: Lærebog og praktisk vejledning. -Mn.: BSEU, 2002.

2. Efimova M.R., Petrova E.V., Rumyantsev V.N. Generel teori om statistik. - M.: INFRA - M., 2000.

3. Eliseeva I.I. Statistikker. - M.: Prospekt, 2002.

4. Generel teori om statistik / Under generelt. udg. O.E. Bashina, A.A. Spirina. - M.: Finans og statistik, 2000.

5. Socioøkonomisk statistik: Pædagogisk og praktisk. godtgørelse / Zakharenkov S.N. og andre - Mn.: Yerevan State University, 2004.

6. Samfundsøkonomisk statistik: Lærebog. godtgørelse. / Ed. Nesterovich S.R. - Mn.: BSEU, 2003.

7. Teslyuk I.E., Tarlovskaya V.A., Terlizhenko N. Statistics. - Minsk, 2000.

8. Kharchenko L.P. Statistikker. - M.: INFRA - M, 2002.

9. Kharchenko L.P., Dolzhenkova V.G., Ionin V.G. Statistikker. - M.: INFRA - M, 1999.

10. Økonomisk statistik / Udg. Yu.N. Ivanova - M., 2000.

Udgivet på Allbest.ru

...

Lignende dokumenter

    Beregning af det aritmetiske middelværdi for en intervalfordelingsrække. Bestemmelse af det generelle indeks for fysisk volumen af ​​handelsomsætning. Analyse af den absolutte ændring i de samlede produktionsomkostninger på grund af ændringer i fysisk volumen. Beregning af variationskoefficienten.

    test, tilføjet 19/07/2010

    Essensen af ​​engros-, detail- og offentlig handel. Formler til beregning af individuelle og aggregerede omsætningsindekser. Beregning af karakteristika for en intervalfordelingsrække - aritmetisk middelværdi, mode og median, variationskoefficient.

    kursusarbejde, tilføjet 05/10/2013

    Beregning af planlagt og faktisk salgsvolumen, procentdel af planopfyldelse, absolut ændring i omsætning. Bestemmelse af absolut vækst, gennemsnitlige vækstrater og stigning i kontantindkomst. Beregning af strukturelle gennemsnit: tilstande, medianer, kvartiler.

    test, tilføjet 24/02/2012

    Interval serie af fordeling af banker efter overskudsvolumen. Finde tilstanden og medianen af ​​den resulterende intervalfordelingsrække ved hjælp af en grafisk metode og ved beregninger. Beregning af karakteristika for intervalfordelingsrækker. Beregning af det aritmetiske gennemsnit.

    test, tilføjet 15/12/2010

    Formler til bestemmelse af gennemsnitsværdierne af en intervalserie - tilstande, medianer, spredning. Beregning af analytiske indikatorer for dynamikserier ved hjælp af kæde- og basisskemaer, vækstrater og stigninger. Konceptet med et konsolideret indeks over omkostninger, priser, udgifter og omsætning.

    kursusarbejde, tilføjet 27/02/2011

    Koncept og formål, rækkefølge og regler for opbygning af en variationsserie. Analyse af datahomogenitet i grupper. Indikatorer for variation (fluktuation) af en egenskab. Bestemmelse af gennemsnitlig lineær og kvadratisk afvigelse, svingningskoefficient og variation.

    test, tilføjet 04/26/2010

    Begrebet tilstand og median som typiske karakteristika, rækkefølgen og kriterierne for deres bestemmelse. Finde tilstanden og medianen i diskrete og intervalvariationsserier. Kvartiler og deciler som yderligere karakteristika for en variationsstatistisk serie.

    test, tilføjet 09/11/2010

    Konstruktion af en intervalfordelingsserie baseret på grupperingskarakteristika. Karakteristika for afvigelsen af ​​frekvensfordelingen fra en symmetrisk form, beregning af kurtosis og asymmetriindikatorer. Analyse af balance- eller resultatopgørelsesindikatorer.

    test, tilføjet 19/10/2014

    Konvertering af empiriske serier til diskrete serier og interval. Bestemmelse af gennemsnitsværdien for en diskret serie ved hjælp af dens egenskaber. Beregning ved hjælp af en diskret række af tilstands-, median-, variationsindikatorer (spredning, afvigelse, oscillationskoefficient).

    test, tilføjet 17/04/2011

    Konstruktion af en statistisk række af fordeling af organisationer. Grafisk bestemmelse af mode og medianværdier. Korrelationens nærhed ved hjælp af bestemmelseskoefficienten. Bestemmelse af stikprøvefejlen for det gennemsnitlige antal ansatte.

Laboratoriearbejde nr. 1

Ifølge matematisk statistik

Emne: Primær bearbejdning af eksperimentelle data

3. Score i point. 1

5. Testspørgsmål.. 2

6. Metode til udførelse af laboratoriearbejde.. 3

Målet med arbejdet

Tilegnelse af færdigheder i primær behandling af empiriske data ved hjælp af matematisk statistik.

Udfør følgende opgaver baseret på samtlige eksperimentelle data:

Øvelse 1. Konstruer en intervalvariationsfordelingsrække.

Opgave 2. Konstruer et histogram af frekvenser af en intervalvariationsserie.

Opgave 3. Opret en empirisk fordelingsfunktion og plot en graf.

a) tilstand og median;

b) betingede begyndelsesmomenter;

c) prøvegennemsnit;

d) stikprøvevarians, korrigeret populationsvarians, korrigeret standardafvigelse;

e) variationskoefficient;

f) asymmetri;

g) kurtosis;

Opgave 5. Bestem grænserne for de sande værdier af de numeriske karakteristika for den tilfældige variabel, der studeres med en given pålidelighed.

Opgave 6. Indholdsbaseret fortolkning af resultaterne af primær bearbejdning efter opgavens betingelser.

Score i point

Opgave 1-56 point

Opgave 62 point

Forsvar af laboratoriearbejde(mundtlig samtale om testspørgsmål og laboratoriearbejde) - 2 point

Arbejdet skal afleveres skriftligt på A4-ark og omfatter:

1) Titelside (bilag 1)

2) Indledende data.

3) Indlevering af arbejde i henhold til den angivne prøve.

4) Beregningsresultater (udført manuelt og/eller ved hjælp af MS Excel) i den angivne rækkefølge.

5) Konklusioner - meningsfuld fortolkning af resultaterne af primær bearbejdning i henhold til problemets betingelser.

6) Mundtlig samtale om arbejds- og kontrolspørgsmål.



5. Test spørgsmål


Metode til udførelse af laboratoriearbejde

Opgave 1. Konstruer en intervalvariationsfordelingsrække

For at præsentere statistiske data i form af en variationsserie med lige store muligheder, er det nødvendigt:

1. Find de mindste og største værdier i den originale datatabel.

2.Definer variationsområde :

3. Bestem længden af ​​intervallet h, hvis prøven indeholder op til 1000 data, brug formlen: , hvor n – stikprøvestørrelse – mængden af ​​data i stikprøven; for beregninger tag lgn).

Det beregnede forhold afrundes til praktisk heltalsværdi .

4. For at bestemme begyndelsen af ​​det første interval for et lige antal intervaller, anbefales det at tage værdien ; og for et ulige antal intervaller.

5. Skriv grupperingsintervallerne ned og arranger dem i stigende rækkefølge af grænser

, ,………., ,

hvor er den nedre grænse for det første interval. Der tages et passende tal, der ikke er større end , den øvre grænse for det sidste interval bør ikke være mindre end . Det anbefales, at intervallerne indeholder startværdierne for den tilfældige variabel og adskilles fra 5 til 20 intervaller.

6. Skriv de indledende data ned på grupperingsintervaller, dvs. brug kildetabellen til at beregne antallet af tilfældige variable værdier, der falder inden for de angivne intervaller. Hvis nogle værdier falder sammen med grænserne for intervallerne, så henføres de enten kun til det foregående eller kun til det efterfølgende interval.

Note 1. Intervallerne behøver ikke at være lige lange. I områder, hvor værdierne er tættere, er det mere bekvemt at tage mindre, korte intervaller, og hvor der er mindre hyppige intervaller, større.

Note 2.Hvis der for nogle værdier opnås "nul" eller små frekvensværdier, så er det nødvendigt at omgruppere dataene, forstørre intervallerne (øge trinnet).

Med tilgængelige statistiske observationsdata, der karakteriserer et bestemt fænomen, er det først og fremmest nødvendigt at organisere dem, dvs. give en systematisk karakter

engelsk statistiker. UJReichman sagde billedligt om uordnede samlinger, at mødet med en masse ikke-generaliserede data svarer til en situation, hvor en person bliver kastet ind i et krat uden et kompas. Hvad er systematiseringen af ​​statistiske data i form af distributionsserier?

De statistiske rækker af fordelinger er ordnede statistiske aggregater (tabel 17). Den enkleste type statistiske fordelingsserier er en rangordnet serie, dvs. en række tal i stigende eller faldende rækkefølge, der varierer karakteristika. En sådan serie tillader ikke at bedømme de mønstre, der er iboende i de distribuerede data: hvilken værdi har flertallet af indikatorer grupperet, hvilke afvigelser der er fra denne værdi; samt det generelle distributionsbillede. Til dette formål grupperes data, der viser, hvor ofte individuelle observationer forekommer i deres samlede antal (skema 1a 1).

. Tabel 17

. Generelt overblik over statistiske fordelingsserier

. Ordning 1. Statistisk ordning distributionsserie

Fordelingen af ​​befolkningsenheder efter karakteristika, der ikke har kvantitativt udtryk kaldes attributive serier(f.eks. fordeling af virksomheder efter deres produktionsområde)

Rækken af ​​fordeling af befolkningsenheder i henhold til karakteristika, har et kvantitativt udtryk, kaldes variationsserie. I sådanne serier er værdien af ​​karakteristikken (optionerne) i stigende eller faldende rækkefølge

I variationsfordelingsrækken skelnes der mellem to elementer: variant og frekvens . Mulighed- dette er en separat betydning af grupperingsegenskaberne frekvens- et tal, der viser, hvor mange gange hver mulighed forekommer

I matematisk statistik beregnes endnu et element i variationsrækken - til dels. Sidstnævnte er defineret som forholdet mellem hyppigheden af ​​tilfælde af et givet interval og den samlede sum af frekvenser; delen bestemmes i brøkdele af en enhed, procent (%) i ppm (%o)

En variationsfordelingsserie er således en serie, hvor valgmulighederne er arrangeret i stigende eller faldende rækkefølge, og deres frekvenser eller frekvenser er angivet. Variationsserier er diskrete (intervaller) og andre intervaller (kontinuerlige).

. Diskret variationsserie- det er distributionsserier, hvor varianten som værdien af ​​en kvantitativ egenskab kun kan antage en vis værdi. Valgmuligheder adskiller sig fra hinanden med en eller flere enheder

Således kan antallet af dele produceret pr. skift af en bestemt arbejder kun udtrykkes med ét specifikt tal (6, 10, 12 osv.). Et eksempel på en diskret variationsserie kunne være fordelingen af ​​arbejdere efter antallet af producerede dele (tabel 18 18).

. Tabel 18

. Diskret seriefordeling _

. Interval (kontinuerlig) variationsserie- sådanne distributionsserier, hvor værdien af ​​optionerne er givet i form af intervaller, dvs. værdierne af funktionerne kan afvige fra hinanden med en vilkårlig lille mængde. Når man konstruerer en variationsserie af NEP peri-variant karakteristika, er det umuligt at angive hver værdi af varianten, så populationen er fordelt over intervaller. Sidstnævnte kan være lige eller ulige. For hver af dem er frekvenser eller frekvenser angivet (tabel 1 9 19).

I intervalfordelingsrækker med ulige intervaller beregnes matematiske karakteristika såsom fordelingstæthed og relativ fordelingstæthed på et givet interval. Den første karakteristik bestemmes af forholdet mellem frekvens og værdien af ​​det samme interval, den anden - af forholdet mellem frekvens og værdien af ​​det samme interval. For eksemplet ovenfor vil fordelingstætheden i det første interval være 3:5 = 0,6, og den relative tæthed i dette interval er 7,5:5 = 1,55%.

. Tabel 19

. Intervalfordelingsserie _

Matematik statistik- en gren af ​​matematik, der er viet til matematiske metoder til behandling, systematisering og brug af statistiske data til videnskabelige og praktiske konklusioner.

3.1. GRUNDLÆGGENDE KONCEPT FOR MATEMATISK STATISTIK

I medicinske og biologiske problemer er det ofte nødvendigt at undersøge fordelingen af ​​en bestemt karakteristik for et meget stort antal individer. Denne egenskab har forskellige betydninger for forskellige individer, så det er en tilfældig variabel. For eksempel har ethvert terapeutisk lægemiddel forskellig effektivitet, når det anvendes til forskellige patienter. Men for at få en idé om effektiviteten af ​​dette lægemiddel, er det ikke nødvendigt at anvende det på alle sammen syg. Det er muligt at spore resultaterne af brugen af ​​lægemidlet til en relativt lille gruppe patienter og, baseret på de opnåede data, identificere de væsentlige egenskaber (effektivitet, kontraindikationer) af behandlingsprocessen.

Befolkning- et sæt homogene elementer karakteriseret ved en egenskab, der skal studeres. Dette tegn er sammenhængende tilfældig variabel med fordelingstæthed f(x).

For eksempel, hvis vi er interesseret i forekomsten af ​​en sygdom i en bestemt region, så er den generelle befolkning hele befolkningen i regionen. Hvis vi ønsker at finde ud af mænds og kvinders modtagelighed for denne sygdom separat, bør vi overveje to generelle populationer.

For at studere egenskaberne for en generel befolkning vælges en bestemt del af dens elementer.

Prøve- en del af den almindelige befolkning udvalgt til undersøgelse (behandling).

Hvis dette ikke forårsager forvirring, kaldes en prøve som et sæt genstande, udvalgt til undersøgelsen, og helhed

værdier den undersøgte egenskab opnået under eksamen. Disse værdier kan repræsenteres på flere måder.

Simpel statistisk serie - værdier af den karakteristik, der undersøges, registreret i den rækkefølge, de blev opnået.

Et eksempel på en simpel statistisk serie opnået ved at måle overfladebølgehastigheden (m/s) i pandens hud hos 20 patienter er givet i tabel. 3.1.

Tabel 3.1.Simpel statistisk serie

En simpel statistisk serie er den vigtigste og mest komplette måde at registrere undersøgelsesresultater på. Det kan indeholde hundredvis af elementer. Det er meget svært at se på sådan en helhed med ét blik. Derfor opdeles store prøver normalt i grupper. For at gøre dette er ændringsområdet i karakteristikken opdelt i flere (N) intervaller samme bredde og beregn de relative frekvenser (n/n) af den attribut, der falder ind under disse intervaller. Bredden af ​​hvert interval er:

Intervalgrænserne har følgende betydning:

Hvis et prøveelement er grænsen mellem to tilstødende intervaller, klassificeres det som venstre interval. Data grupperet på denne måde kaldes interval statistiske serier.

er en tabel, der viser intervaller af attributværdier og de relative frekvenser for forekomst af attributten inden for disse intervaller.

I vores tilfælde kan vi for eksempel danne følgende intervalstatistiske serier (N = 5, d= 4), tabel. 3.2.

Tabel 3.2.Interval statistiske serier

Her inkluderer intervallet 28-32 to værdier svarende til 28 (tabel 3.1), og intervallet 32-36 indeholder værdierne 32, 33, 34 og 35.

En intervalstatistisk serie kan afbildes grafisk. For at gøre dette er intervaller af attributværdier plottet langs abscisse-aksen, og på hver af dem, som på en base, bygges et rektangel med en højde svarende til den relative frekvens. Det resulterende søjlediagram kaldes histogram.

Ris. 3.1. søjlediagram

I histogrammet er de statistiske mønstre for fordelingen af ​​karakteristikken ret tydeligt synlige.

Med en stor prøvestørrelse (flere tusinde) og små søjlebredder er formen af ​​histogrammet tæt på formen af ​​grafen fordelingstæthed skilt.

Antallet af histogramkolonner kan vælges ved hjælp af følgende formel:

At konstruere et histogram manuelt er en lang proces. Derfor er der udviklet computerprogrammer til automatisk at konstruere dem.

3.2. NUMERISKE KARAKTERISTIKA FOR STATISTISKE SERIER

Mange statistiske procedurer bruger stikprøveestimater for populationens forventninger og varians (eller MSE).

Prøvemiddel(X) er det aritmetiske gennemsnit af alle elementer i en simpel statistisk serie:

For vores eksempel x= 37,05 (m/s).

Prøvens gennemsnit erdet bedstegenerelt gennemsnits-estimatM.

Prøvevarians s 2 lig med summen af ​​kvadrerede afvigelser af elementer fra prøvegennemsnittet, divideret med n- 1:

I vores eksempel er s 2 = 25,2 (m/s) 2.

Bemærk venligst, at når stikprøvevariansen beregnes, er nævneren i formlen ikke stikprøvestørrelsen n, men n-1. Dette skyldes det faktum, at ved beregning af afvigelser i formel (3.3), i stedet for den ukendte matematiske forventning, bruges dens estimat - prøvegennemsnit.

Prøvevarians er det bedste estimering af generel varians (σ 2).

Eksempel på standardafvigelse(s) er kvadratroden af ​​stikprøvevariansen:

For vores eksempel s= 5,02 (m/s).

Selektiv geometriske middelværdi afvigelse er det bedste skøn over den generelle standardafvigelse (σ).

Med en ubegrænset stigning i stikprøvestørrelsen har alle stikprøvekarakteristika tendens til de tilsvarende karakteristika for den generelle befolkning.

Computerformler bruges til at beregne prøvekarakteristika. I Excel udfører disse beregninger de statistiske funktioner AVERAGE, VARIANCE. STANDARDAFVIGELSE

3.3. INTERVALVURDERING

Alle prøvekarakteristika er tilfældige variable. Dette betyder, at for en anden prøve af samme størrelse vil værdierne af prøvekarakteristika være forskellige. Altså selektiv

egenskaber er kun skøn relevante karakteristika for befolkningen.

Ulemperne ved selektiv vurdering kompenseres af interval estimering, repræsenterer numerisk interval indeni som med en given sandsynlighed R d den sande værdi af den estimerede parameter findes.

Lade U r - en eller anden parameter for den generelle befolkning (generel middelværdi, generel varians osv.).

Interval estimering parameter U r kaldes intervallet (U 1, U 2), opfylder betingelsen:

P(U < Ur < U2) = Рд. (3.5)

Sandsynlighed R d hedder tillidssandsynlighed.

Tillidssandsynlighed Pd - sandsynligheden for, at den sande værdi af den estimerede mængde er inde det angivne interval.

I dette tilfælde intervallet (U 1, U 2) hedder konfidensinterval for den parameter, der estimeres.

Ofte bruges i stedet for konfidenssandsynligheden den tilhørende værdi α = 1 - Р d, som kaldes betydningsniveau.

Betydningsniveau er sandsynligheden for, at den sande værdi af den estimerede parameter er uden for konfidensinterval.

Nogle gange er α og P d udtrykt i procent, for eksempel 5 % i stedet for 0,05 og 95 % i stedet for 0,95.

Ved intervalestimering skal du først vælge det relevante tillidssandsynlighed(normalt 0,95 eller 0,99), og find derefter det passende værdiområde for den parameter, der estimeres.

Lad os bemærke nogle generelle egenskaber ved intervalestimater.

1. Jo lavere betydningsniveau (jo mere R d), jo bredere intervalestimat. Så hvis på et signifikansniveau på 0,05 er intervalestimatet for det generelle middel 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Jo større stikprøvestørrelsen n, jo smallere intervalestimat med det valgte signifikansniveau. Lad for eksempel 5 være det procentvise estimat af det generelle gennemsnit (β = 0,05) opnået fra en prøve på 20 elementer, derefter 34,7< M< 39,4.

Ved at øge stikprøvestørrelsen til 80 får vi et mere præcist estimat på samme signifikansniveau: 35,5< M< 38,6.

Generelt kræver konstruktionen af ​​pålidelige konfidensestimater kendskab til den lov, hvorefter den estimerede tilfældige attribut er fordelt i befolkningen. Lad os se på, hvordan et intervalestimat er opbygget generelt gennemsnit egenskab, der er fordelt i befolkningen iflg normal lov.

3.4. INTERVAL ESTIMATION AF DET GENERELLE GENNEMSNITT FOR NORMAL DISTRIBUTIONSLOVEN

Konstruktionen af ​​et intervalestimat af det generelle gennemsnit M for en befolkning med en normalfordelingslov er baseret på følgende egenskab. Til prøveudtagningsvolumen n holdning

adlyder Student-fordelingen med antallet af frihedsgrader ν = n- 1.

Her x- prøvegennemsnit, og s- selektiv standardafvigelse.

Ved at bruge elevfordelingstabeller eller deres computerækvivalent kan du finde en grænseværdi, således at følgende ulighed gælder med en given konfidenssandsynlighed:

Denne ulighed svarer til uligheden for M:

Hvor ε - halv bredde af konfidensintervallet.

Konstruktionen af ​​et konfidensinterval for M udføres således i følgende rækkefølge.

1. Vælg en konfidenssandsynlighed Р d (normalt 0,95 eller 0,99), og find parameteren t ved hjælp af elevfordelingstabellen.

2. Beregn halvbredden af ​​konfidensintervallet ε:

3. Få et intervalestimat af det generelle gennemsnit med den valgte konfidenssandsynlighed:

Det er kort skrevet sådan:

Der er udviklet computerprocedurer til at finde intervalestimater.

Lad os forklare, hvordan man bruger elevfordelingstabellen. Denne tabel har to "indgange": den venstre kolonne, kaldet antallet af frihedsgrader ν = n- 1, og den øverste linje er signifikansniveauet α. Find elevkoefficienten i skæringspunktet mellem den tilsvarende række og kolonne t.

Lad os anvende denne metode på vores prøve. Et fragment af elevfordelingstabellen er præsenteret nedenfor.

Tabel 3.3. Fragment af elevfordelingstabellen

En simpel statistisk serie for en stikprøve på 20 personer (n= 20, ν =19) er vist i tabel. 3.1. For denne serie giver beregninger ved hjælp af formlerne (3.1-3.3): x= 37,05; s= 5,02.

Lad os vælge a = 0,05 (Rd = 0,95). I skæringspunktet mellem række "19" og kolonne "0.05" finder vi t= 2,09.

Lad os beregne nøjagtigheden af ​​estimatet ved hjælp af formlen (3.6): ε = 2.09?5.02/λ /20 = 2.34.

Lad os konstruere et intervalestimat: med en sandsynlighed på 95 % opfylder det ukendte generelle middel uligheden:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. METODER TIL AT TESTE STATISTISKE HYPOTESER

Statistiske hypoteser

Inden du formulerer, hvad en statistisk hypotese er, skal du overveje følgende eksempel.

For at sammenligne to metoder til behandling af en bestemt sygdom blev to grupper af patienter på hver 20 personer udvalgt og behandlet ved hjælp af disse metoder. For hver patient blev det registreret antal procedurer, hvorefter en positiv effekt blev opnået. Baseret på disse data, prøvegennemsnit (X), blev prøvevarianser fundet for hver gruppe (s 2) og prøve standardafvigelser (s).

Resultaterne er præsenteret i tabel. 3.4.

Tabel 3.4

Antallet af procedurer, der kræves for at opnå en positiv effekt, er en tilfældig variabel, som i øjeblikket er indeholdt i den givne prøve.

Fra bordet 3.4 viser, at stikprøvegennemsnittet i den første gruppe er mindre end i den anden. Betyder det, at det samme forhold gælder for generelle gennemsnit: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает statistisk test af hypoteser.

Statistisk hypotese- det er en antagelse om populationers egenskaber.

Vi vil overveje hypoteser om egenskaberne to almindelige befolkninger.

Hvis befolkningerne har berømt, identisk fordeling af den værdi, der estimeres, og forudsætningerne vedrører værdierne nogle parameter af denne fordeling, så kaldes hypoteserne parametrisk. For eksempel udtages prøver fra populationer med normal lov fordeling og lige varians. Skal finde ud af det er de ens generelle gennemsnit af disse populationer.

Hvis intet er kendt om lovene for fordeling af generelle befolkninger, kaldes hypoteser om deres egenskaber ikke-parametrisk. For eksempel, er de ens fordelingslovene for de generelle populationer, som prøverne er trukket fra.

Nul og alternative hypoteser.

Opgaven med at teste hypoteser. Betydningsniveau

Lad os stifte bekendtskab med den terminologi, der bruges, når vi tester hypoteser.

H 0 - nulhypotese (skeptikers hypotese) er en hypotese om fraværet af forskelle mellem sammenlignede prøver. Skeptikeren mener, at forskellene mellem stikprøveestimater opnået fra forskningsresultater er tilfældige;

H 1- alternativ hypotese (optimistisk hypotese) er en hypotese om tilstedeværelsen af ​​forskelle mellem de sammenlignede prøver. En optimist mener, at forskelle mellem stikprøveestimater er forårsaget af objektive årsager og svarer til forskelle i generelle populationer.

Det er kun muligt at teste statistiske hypoteser, når det er muligt at konstruere nogle størrelse(kriterium), hvis fordelingslov i tilfælde af rimelighed H 0 berømt. Så for denne mængde kan vi specificere konfidensinterval, hvori med en given sandsynlighed R d dens værdi falder. Dette interval kaldes kritisk område. Hvis kriterieværdien falder ind i det kritiske område, accepteres hypotesen N 0. Ellers accepteres hypotese H 1.

I medicinsk forskning anvendes P d = 0,95 eller P d = 0,99. Disse værdier stemmer overens betydningsniveauerα = 0,05 eller α = 0,01.

Ved test af statistiske hypoteserbetydningsniveau(α) er sandsynligheden for at forkaste nulhypotesen, når den er sand.

Bemærk venligst, at hypotesetestproceduren i sin kerne er rettet mod opdage forskelle og ikke for at bekræfte deres fravær. Når kriterieværdien går ud over den kritiske region, kan vi med et rent hjerte sige til "skeptikeren" - ja, hvad vil du ellers?! Hvis der ikke var nogen forskelle, ville den beregnede værdi med en sandsynlighed på 95% (eller 99%) være inden for de angivne grænser. Men nej!..

Nå, hvis værdien af ​​kriteriet falder i det kritiske område, så er der ingen grund til at tro, at hypotesen H 0 er korrekt. Dette peger højst sandsynligt på en af ​​to mulige årsager.

1. Prøvestørrelser er ikke store nok til at opdage forskelle. Det er sandsynligt, at fortsatte eksperimenter vil bringe succes.

2. Der er forskelle. Men de er så små, at de ikke har nogen praktisk betydning. I dette tilfælde giver det ikke mening at fortsætte eksperimenterne.

Lad os gå videre til at overveje nogle statistiske hypoteser, der bruges i medicinsk forskning.

3.6. TESTE HYPOTESER OM VARIANSLIGHED, FISCHERS F-KRITERION

I nogle kliniske undersøgelser er den positive effekt påvist ikke så meget størrelse af den parameter, der undersøges, hvor meget af den stabilisering, reducere dens udsving. I dette tilfælde opstår spørgsmålet om at sammenligne to generelle afvigelser baseret på resultaterne af en stikprøveundersøgelse. Dette problem kan løses vha Fishers test.

Formulering af problemet

normal lov distributioner. Prøvestørrelser -

n 1 Og n2, EN prøvevarianser lige s 1 og s 2 2 generelle afvigelser.

Testbare hypoteser:

H 0- generelle afvigelser er det samme;

H 1- generelle afvigelser er forskellige.

Vises hvis prøver er udtaget fra populationer med normal lov fordeling, så hvis hypotesen er sand H 0 forholdet mellem stikprøvevarianser følger Fisher-fordelingen. Derfor som et kriterium for at kontrollere rimeligheden H 0 værdien tages F, beregnet med formlen:

Hvor s 1 og s 2 er prøvevarianser.

Dette forhold adlyder Fisher-fordelingen med antallet af frihedsgrader for tælleren ν 1 = n 1- 1 og antallet af frihedsgrader for nævneren ν 2 = n 2 - 1. Grænserne for det kritiske område findes ved hjælp af Fisher-fordelingstabeller eller ved hjælp af computerfunktionen BRASPOBR.

For eksemplet præsenteret i tabel. 3.4, får vi: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. Ved α = 0,05 er grænserne for det kritiske område henholdsvis: = 0,40, = 2,53.

Kriterieværdien falder ind i det kritiske område, så hypotesen accepteres H 0: generelle prøvevarianser er det samme.

3.7. TESTE HYPOTESER VEDRØRENDE LIGESTILLING AF MIDLER, STUDENT t-KRITERION

Sammenligningsopgave gennemsnit to generelle populationer opstår, når praktisk betydning netop er størrelse den egenskab, der studeres. For eksempel, når man sammenligner behandlingsvarigheden med to forskellige metoder eller antallet af komplikationer, der opstår ved deres brug. I dette tilfælde kan du bruge Elevens t-test.

Formulering af problemet

To prøver (X 1) og (X 2) blev opnået, ekstraheret fra generelle populationer med normal lov distribution og identiske afvigelser. Prøvestørrelser - n 1 og n 2, prøve betyder er lig med X 1 og X 2, og prøvevarianser- s 1 2 og s 2 2 henholdsvis. Har brug for at sammenligne generelle gennemsnit.

Testbare hypoteser:

H 0- generelle gennemsnit er det samme;

H 1- generelle gennemsnit er forskellige.

Det er vist, at hvis hypotesen er sand H 0 t værdi beregnet ved formlen:

fordelt efter elevens lov med antallet af frihedsgrader ν = ν 1 + + ν2 - 2.

Her hvor ν 1 = n 1 - 1 - antal frihedsgrader for den første prøve; ν 2 = n 2 - 1 - antal frihedsgrader for den anden prøve.

Grænserne for det kritiske område findes ved hjælp af t-fordelingstabeller eller ved hjælp af computerfunktionen STUDRIST. Studentfordelingen er symmetrisk omkring nul, så venstre og højre grænser for det kritiske område er identiske i størrelse og modsatte i fortegn: -og

For eksemplet præsenteret i tabel. 3.4 får vi:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. Ved a = 0,05 = 2,02.

Kriterieværdien går ud over venstre grænse af det kritiske område, så vi accepterer hypotesen H 1: generelle gennemsnit er forskellige. Samtidig er befolkningsgennemsnittet første prøve MINDRE.

Anvendelse af Elevens t-test

Elevens t-test gælder kun for prøver fra normal aggregater med identiske generelle afvigelser. Hvis mindst en af ​​betingelserne er overtrådt, er anvendeligheden af ​​kriteriet tvivlsom. Kravet om normalitet for den almindelige befolkning ignoreres normalt, citerer central grænsesætning. Faktisk kan forskellen mellem stikprøvemiddelværdier i tælleren (3.10) betragtes som normalfordelt for ν > 30. Men spørgsmålet om varianslighed kan ikke verificeres, og henvisninger til det faktum, at Fisher-testen ikke opdagede forskelle, kan ikke tages i betragtning. Imidlertid er t-testen meget brugt til at påvise forskelle i befolkningsgennemsnit, dog uden tilstrækkelig evidens.

Nedenfor diskuteres ikke-parametrisk kriterium, som med held bruges til de samme formål, og som ikke kræver nogen normalitet, ingen af ​​dem lighed af varians.

3.8. IKKE-PARAMETRISK SAMMENLIGNING AF TO PRØVER: MANN-WHITNEY KRITERIUM

Ikke-parametriske tests er designet til at opdage forskelle i fordelingslovene for to populationer. Kriterier, der er følsomme over for forskelle generelt gennemsnit, kaldet kriterier flytte Kriterier, der er følsomme over for forskelle generelt dispersioner, kaldet kriterier vægt. Mann-Whitney-testen henviser til kriterierne flytte og bruges til at påvise forskelle i gennemsnittet af to populationer, hvorfra prøver er præsenteret i rangeringsskala. De målte karakteristika er placeret på denne skala i stigende rækkefølge, og derefter nummereret med heltal 1, 2... Disse tal kaldes rækker. Lige mængder tildeles lige rang. Det er ikke værdien af ​​selve egenskaben, der betyder noget, men kun ordinært sted som den rangerer blandt andre mængder.

I tabel 3.5. den første gruppe fra tabel 3.4 præsenteres i udvidet form (linje 1), rangeret (linje 2), og derefter erstattes rækkerne af identiske værdier af aritmetiske gennemsnit. For eksempel fik emnerne 4 og 4 i den første række rang 2 og 3, som derefter blev erstattet med de samme værdier på 2,5.

Tabel 3.5

Formulering af problemet

Uafhængige prøver (X 1) Og (X 2) udvundet fra almindelige populationer med ukendte distributionslove. Prøvestørrelser n 1 Og n 2 henholdsvis. Værdierne af prøveelementer er præsenteret i rangeringsskala. Det er nødvendigt at kontrollere, om disse generelle populationer adskiller sig fra hinanden?

Testbare hypoteser:

H 0- prøverne tilhører den samme generelle population; H 1- prøver tilhører forskellige generelle populationer.

For at teste sådanne hypoteser bruges (/-Mann-Whitney testen.

Først kompileres en kombineret prøve (X) ud fra de to prøver, hvis elementer er rangeret. Derefter findes summen af ​​de rækker, der svarer til elementerne i den første prøve. Dette beløb er kriteriet for test af hypoteser.

U= Summen af ​​rækker af den første prøve. (3.11)

For uafhængige prøver, hvis volumener er større end 20, er værdien U adlyder normalfordelingen, hvis matematiske forventning og standardafvigelse er lig med:

Derfor findes grænserne for det kritiske område ifølge normalfordelingstabeller.

For eksemplet præsenteret i tabel. 3.4, får vi: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. For α = 0,05 får vi: venstre = 338 og højre = 482.

Værdien af ​​kriteriet går ud over venstre grænse af den kritiske region, derfor accepteres hypotese H 1: generelle populationer har forskellige distributionslove. Samtidig er befolkningsgennemsnittet første prøve MINDRE.

Ved behandling af store mængder information, hvilket er særligt vigtigt, når man udfører moderne videnskabelige udviklinger, står forskeren over for den seriøse opgave at gruppere kildedataene korrekt. Hvis dataene er diskrete af natur, så opstår der, som vi har set, ingen problemer - du skal blot beregne frekvensen af ​​hver funktion. Hvis den undersøgte egenskab har sammenhængende natur (hvilket er mere almindeligt i praksis), så er det på ingen måde en triviel opgave at vælge det optimale antal funktionsgrupperingsintervaller.

For at gruppere kontinuerte tilfældige variabler er hele variationsområdet for karakteristikken opdelt i et vist antal intervaller Til.

Grupperet interval (sammenhængende) variationsserie kaldes intervaller rangeret efter værdien af ​​attributten (), hvor antallet af observationer, der falder ind under det r"te interval, eller relative frekvenser (), er angivet sammen med de tilsvarende frekvenser ():

Karakteristiske værdiintervaller

mi frekvens

søjlediagram Og kumulere (ogiva), allerede diskuteret i detaljer af os, er et fremragende middel til datavisualisering, så du kan få en primær idé om datastrukturen. Sådanne grafer (fig. 1.15) er konstrueret for kontinuerlige data på samme måde som for diskrete data, kun under hensyntagen til det faktum, at kontinuerlige data fuldstændigt udfylder området af deres mulige værdier, idet de antager eventuelle værdier.

Ris. 1.15.

Derfor kolonnerne på histogrammet og kumuleringen skal røre hinanden og ikke have områder, hvor attributværdierne ikke falder inden for alle mulige(dvs. histogrammet og kumulater bør ikke have "huller" langs abscisseaksen, som ikke indeholder værdierne af den variable, der undersøges, som i fig. 1.16). Højden af ​​søjlen svarer til frekvensen - antallet af observationer, der falder inden for et givet interval, eller relativ frekvens - andelen af ​​observationer. Intervaller må ikke krydse hinanden og har normalt samme bredde.

Ris. 1.16.

Histogrammet og polygonen er tilnærmelser af sandsynlighedsdensitetskurven (differentialfunktion) f(x) teoretisk fordeling, overvejet i forløbet af sandsynlighedsteori. Derfor er deres konstruktion så vigtig i den primære statistiske behandling af kvantitative kontinuerte data - ud fra deres udseende kan man bedømme den hypotetiske distributionslov.

Cumulate – en kurve af akkumulerede frekvenser (frekvenser) af en intervalvariationsserie. Grafen for den kumulative fordelingsfunktion sammenlignes med den kumulerede F(x), også diskuteret i sandsynlighedsteorikurset.

Grundlæggende er begreberne histogram og kumulering specifikt forbundet med kontinuerlige data og deres intervalvariationsserier, da deres grafer er empiriske estimater af henholdsvis sandsynlighedstæthedsfunktionen og fordelingsfunktionen.

Konstruktionen af ​​en intervalvariationsserie begynder med at bestemme antallet af intervaller k. Og denne opgave er måske den sværeste, vigtigste og mest kontroversielle i det emne, der undersøges.

Antallet af intervaller bør ikke være for lille, da dette vil gøre histogrammet for glat ( overudglattet), mister alle de originale datas variabilitetsfunktioner - i fig. 1.17 kan du se, hvordan de samme data, som graferne i fig. 1.15, bruges til at konstruere et histogram med et mindre antal intervaller (venstre graf).

Samtidig bør antallet af intervaller ikke være for stort - ellers vil vi ikke være i stand til at estimere fordelingstætheden af ​​de undersøgte data langs den numeriske akse: histogrammet vil være underudjævnet (underudglattet), med tomme intervaller, ujævne (se fig. 1.17, højre graf).

Ris. 1.17.

Hvordan bestemmer man det mest foretrukne antal intervaller?

Tilbage i 1926 foreslog Herbert Sturges en formel til beregning af antallet af intervaller, hvori det er nødvendigt at opdele det oprindelige sæt værdier af den karakteristik, der undersøges. Denne formel er virkelig blevet ekstremt populær - de fleste statistiske lærebøger tilbyder den, og mange statistiske pakker bruger den som standard. Hvor berettiget dette er og i alle tilfælde er et meget alvorligt spørgsmål.

Så hvad er Sturges-formlen baseret på?

Overvej den binomiale fordeling)