Algoritmus na zostavenie intervalových variačných radov s rovnakými intervalmi.

Odoslanie dobrej práce do databázy znalostí je jednoduché. Použite nižšie uvedený formulár

Študenti, postgraduálni študenti, mladí vedci, ktorí pri štúdiu a práci využívajú vedomostnú základňu, vám budú veľmi vďační.

Uverejnené dňa http://www.allbest.ru/

ÚLOHA1

K dispozícii sú nasledujúce údaje o mzdách zamestnancov v podniku:

Tabuľka 1.1

Výška mzdy v konvenčnom vyjadrení. Brloh. Jednotky

Je potrebné skonštruovať intervalový distribučný rad, podľa ktorého sa má nájsť;

1) priemerná mzda;

2) priemerná lineárna odchýlka;

4) štandardná odchýlka;

5) rozsah variácií;

6) koeficient oscilácie;

7) lineárny variačný koeficient;

8) jednoduchý variačný koeficient;

10) medián;

11) koeficient asymetrie;

12) Pearsonov index asymetrie;

13) koeficient špičatosti.

Riešenie

Ako viete, možnosti (rozpoznané hodnoty) sú usporiadané vo vzostupnom poradí diskrétne variačné série. S veľkým počtom možnosť (viac ako 10), aj v prípade diskrétnej variácie sa zostavujú intervalové rady.

Ak je intervalový rad zostavený s párnymi intervalmi, potom sa rozsah variácie vydelí určeným počtom intervalov. Navyše, ak je výsledná hodnota celé číslo a jednoznačná (čo je zriedkavé), potom sa predpokladá, že dĺžka intervalu sa rovná tomuto číslu. V iných prípadoch vyrobené zaokrúhľovanie Nevyhnutne V strane zvýšiť, Takže do posledná zostávajúca číslica bola párna. Je zrejmé, že ako sa dĺžka intervalu zvyšuje, rozsah variácie o hodnotu rovnajúcu sa súčinu počtu intervalov: o rozdiel medzi vypočítanou a počiatočnou dĺžkou intervalu

A) Ak je veľkosť rozšírenia rozsahu variácie nevýznamná, potom sa buď pripočíta k najväčšej alebo odpočíta od najmenšej hodnoty charakteristiky;

b) Ak je viditeľná veľkosť rozšírenia rozsahu variácie, potom, aby sa predišlo zámene stredu rozsahu, rozdelí sa zhruba na polovicu súčasným pripočítaním k najväčším a odčítaním od najmenších hodnôt charakteristika.

Ak sa zostavuje intervalový rad s nerovnakými intervalmi, tak sa proces zjednoduší, no aj tak treba dĺžku intervalov vyjadriť ako číslo s poslednou párnou číslicou, čo značne zjednodušuje následné výpočty číselných charakteristík.

30 je veľkosť vzorky.

Vytvorme intervalový distribučný rad pomocou Sturgesovho vzorca:

K = 1 + 3,32 x log n,

K - počet skupín;

K = 1 + 3,32 x lg30 = 5,91 = 6

Pomocou vzorca zistíme rozsah atribútu - mzdy pracovníkov v podniku - (x).

R= xmax - xmin a deliť 6; R = 195-112 = 83

Potom bude dĺžka intervalu l dráha = 83:6 = 13,83

Začiatok prvého intervalu bude 112. Pridáva sa k 112 l ras = 13,83, dostaneme jeho konečnú hodnotu 125,83, čo je zároveň začiatok druhého intervalu atď. koniec piateho intervalu - 195.

Pri hľadaní frekvencií by sme sa mali riadiť pravidlom: „ak sa hodnota funkcie zhoduje s hranicou vnútorného intervalu, mala by sa pripísať predchádzajúcemu intervalu“.

Získame intervalový rad frekvencií a kumulatívnu frekvenciu.

Tabuľka 1.2

Mzdu teda majú 3 zamestnanci. poplatok od 112 do 125,83 konvenčných peňažných jednotiek. Najvyšší plat poplatok od 181,15 do 195 konvenčných peňažných jednotiek. len 6 zamestnancov.

Na výpočet numerických charakteristík transformujeme intervalový rad na diskrétny rad, pričom ako možnosť berieme stred intervalov:

Tabuľka 1.3

14131,83

Použitie vzorca váženého aritmetického priemeru

konvenčné peňažné jednotky

Priemerná lineárna odchýlka:

kde xi je hodnota sledovanej charakteristiky pre i-tú jednotku populácie,

Priemerná hodnota študovaného znaku.

Uverejnené dňa http://www.allbest.ru/

LPoslané dňa http://www.allbest.ru/

Konvenčné peňažné jednotky

štandardná odchýlka:

Rozptyl:

Relatívny rozsah variácie (koeficient oscilácie): c= R:,

Relatívna lineárna odchýlka: q = L:

Variačný koeficient: V = y:

Koeficient oscilácie ukazuje relatívne kolísanie extrémnych hodnôt charakteristiky okolo aritmetického priemeru a koeficient variácie charakterizuje stupeň a homogenitu populácie.

c= R: = 83 / 159,485 x 100 % = 52,043 %

Rozdiel medzi extrémnymi hodnotami je teda o 5,16% (=94,84%-100%) menší ako priemerná mzda zamestnancov v podniku.

q = L: = 17,765/ 159,485 * 100 % = 11,139 %

V = y: = 21,704/ 159,485 * 100 % = 13,609 %

Variačný koeficient je menší ako 33 %, čo naznačuje slabé kolísanie miezd pracovníkov v podniku, t.j. že priemerná hodnota je typickou charakteristikou miezd pracovníkov (obyvateľstvo je homogénne).

V intervalových distribučných radoch móda určený vzorcom -

Frekvencia modálneho intervalu, t. j. intervalu obsahujúceho najväčší počet možností;

Frekvencia intervalu pred modálom;

Frekvencia intervalu nasledujúceho po spôsobe;

Dĺžka modálneho intervalu;

Spodná hranica modálneho intervalu.

Na určenie mediány v intervalovom rade používame vzorec

kde je kumulatívna (akumulovaná) frekvencia intervalu predchádzajúceho mediánu;

Dolná hranica stredného intervalu;

Stredná intervalová frekvencia;

Dĺžka stredného intervalu.

Stredný interval- interval, ktorého akumulovaná frekvencia (=3+3+5+7) presahuje polovicu súčtu frekvencií - (153,49; 167,32).

Vypočítajme asymetriu a špičatosť, pre ktoré vytvoríme nový pracovný hárok:

Tabuľka 1.4

Faktické údaje

Údaje o výpočte

Vypočítajme moment tretieho rádu

Preto sa asymetria rovná

Od 0,3553 0,25 sa asymetria považuje za významnú.

Vypočítajme moment štvrtého rádu

Preto sa špičatosť rovná

Pretože< 0, то эксцесс является плосковершинным.

Stupeň asymetrie možno určiť pomocou Pearsonovho koeficientu asymetrie (As): oscilácia hodnota vzorky obrat

kde je aritmetický priemer distribučného radu; -- móda; -- štandardná odchýlka.

Pri symetrickom (normálnom) rozdelení = Mo je teda koeficient asymetrie nulový. Ak As > 0, potom existuje viac módov, preto existuje pravotočivá asymetria.

Ak As< 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

Rozloženie nie je symetrické, ale má ľavostrannú asymetriu.

ÚLOHA 2

Aká by mala byť veľkosť vzorky, aby s pravdepodobnosťou 0,954 výberová chyba nepresiahla 0,04, ak je na základe predchádzajúcich prieskumov známe, že rozptyl je 0,24?

Riešenie

Veľkosť vzorky pre neopakované vzorkovanie sa vypočíta pomocou vzorca:

t - koeficient spoľahlivosti (s pravdepodobnosťou 0,954 sa rovná 2,0; určený z tabuliek integrálov pravdepodobnosti),

y2 = 0,24 - štandardná odchýlka;

10 000 ľudí - veľkosť vzorky;

Dx =0,04 - maximálna chyba priemeru vzorky.

S pravdepodobnosťou 95,4 % je možné konštatovať, že veľkosť vzorky zabezpečujúca relatívnu chybu najviac 0,04 by mala byť aspoň 566 rodín.

ÚLOHA3

K dispozícii sú nasledujúce údaje o príjmoch z hlavných činností podniku, milióny rubľov.

Ak chcete analyzovať sériu dynamiky, určte nasledujúce ukazovatele:

1) reťaz a základné:

Absolútne zvýšenie;

miery rastu;

Tempo rastu;

2) priemer

Úroveň riadku dynamiky;

Absolútny nárast;

Tempo rastu;

Miera nárastu;

3) absolútna hodnota zvýšenia o 1 %.

Riešenie

1. Absolútny nárast (Dy)- toto je rozdiel medzi ďalšou úrovňou série a predchádzajúcou (alebo základnou):

reťazec: DN = yi - yi-1,

základné: DN = yi - y0,

уi - úroveň riadkov,

i - číslo úrovne riadku,

y0 - úroveň základného roka.

2. Miera rastu (Tu) je pomer nasledujúcej úrovne série a predchádzajúcej úrovne (alebo základného roku 2001):

reťazec: Tu = ;

základné: Tu =

3. Rýchlosť rastu (TD) je pomer absolútneho rastu k predchádzajúcej úrovni, vyjadrený v %.

reťazec: Tu = ;

základné: Tu =

4. Absolútna hodnota zvýšenia o 1 % (A)- ide o pomer absolútneho rastu reťazca k rýchlosti rastu, vyjadrený v %.

A =

Priemerná úroveň riadkov vypočítané pomocou vzorca aritmetického priemeru.

Priemerná úroveň príjmu z hlavných činností za 4 roky:

Priemerný absolútny nárast vypočítané podľa vzorca:

kde n je počet úrovní série.

V priemere za rok vzrástli príjmy z hlavných činností o 3,333 milióna rubľov.

Priemerná ročná miera rastu vypočítané pomocou geometrického priemeru:

уn je posledná úroveň riadku,

y0 je počiatočná úroveň série.

Tu = 100 % = 102,174 %

Priemerná ročná miera rastu vypočítané podľa vzorca:

T? = Tu - 100 % = 102,74 % - 100 % = 2,74 %.

V priemere za rok sa tak výnosy z hlavnej činnosti podniku zvýšili o 2,74 %.

ÚLOHYA4

Vypočítať:

1. Individuálne cenové indexy;

2. Index všeobecného obchodného obratu;

3. Súhrnný cenový index;

4. Súhrnný index fyzického objemu predaja tovaru;

5. Rozčleniť absolútny nárast hodnoty obchodného obratu podľa faktorov (v dôsledku zmien cien a počtu predaných tovarov);

6. Vyvodiť stručné závery o všetkých získaných ukazovateľoch.

Riešenie

1. Jednotlivé cenové indexy produktov A, B, C podľa podmienky predstavovali -

ipA = 1,20; iрБ=1,15; iрВ = 1,00.

2. Všeobecný index obchodného obratu vypočítame pomocou vzorca:

I w = = 1470/1045*100 % = 140,67 %

Obchodný obrat vzrástol o 40,67 % (140,67 % -100 %).

V priemere ceny komodít vzrástli o 10,24 %.

Výška dodatočných nákladov kupujúcich zo zvýšenia ceny:

w(p) = ? p1q1 - ? p0q1 = 1470 - 1333,478 = 136,522 milióna rubľov.

V dôsledku rastúcich cien museli kupujúci minúť ďalších 136,522 milióna rubľov.

4. Všeobecný index fyzického objemu obchodného obratu:

Fyzický objem obchodného obratu vzrástol o 27,61 %.

5. Stanovme celkovú zmenu obchodného obratu v druhom období v porovnaní s prvým obdobím:

w = 1470-1045 = 425 miliónov rubľov.

z dôvodu zmeny cien:

W(p) = 1470 - 1333,478 = 136,522 milióna rubľov.

v dôsledku zmien fyzického objemu:

w(q) = 1333,478 - 1045 = 288,478 milióna rubľov.

Tržby za tovar vzrástli o 40,67 %. Ceny v priemere za 3 tovary vzrástli o 10,24 %. Fyzický objem obchodného obratu vzrástol o 27,61 %.

Vo všeobecnosti sa objem predaja zvýšil o 425 miliónov rubľov, a to aj v dôsledku rastúcich cien o 136,522 milióna rubľov a v dôsledku zvýšenia objemu predaja o 288,478 milióna rubľov.

ÚLOHA5

Nasledujúce údaje sú dostupné pre 10 tovární v jednom odvetví.

Číslo rastliny

Výstup produktu, tisíc kusov. (X)

Na základe uvedených údajov:

I) potvrdiť ustanovenia logickej analýzy o prítomnosti lineárnej korelácie medzi faktorovou charakteristikou (objem produktu) a výslednou charakteristikou (spotreba elektriny), vykresliť počiatočné údaje do grafu korelačného poľa a vyvodiť závery o tvare vzťahu, uveďte jeho vzorec;

2) určiť parametre rovnice spojenia a vyniesť výslednú teoretickú čiaru do grafu korelačného poľa;

3) vypočítajte koeficient lineárnej korelácie,

4) vysvetliť význam ukazovateľov získaných v odsekoch 2) a 3);

5) pomocou výsledného modelu urobte predpoveď o možnej spotrebe energie v závode s objemom výroby 4,5 tisíc kusov.

Riešenie

Údaj atribútu - objem výroby (faktor), bude označený xi; znak - spotreba elektriny (výsledok) cez yi; body so súradnicami (x, y) sú vynesené do korelačného poľa OXY.

Body korelačného poľa sú umiestnené pozdĺž určitej priamky. Vzťah je teda lineárny, budeme hľadať regresnú rovnicu v tvare priamky Уx=ax+b. Aby sme to našli, používame systém normálnych rovníc:

Vytvorme si výpočtovú tabuľku.

Pomocou zistených priemerov zostavíme systém a vyriešime ho s ohľadom na parametre a a b:

Takže dostaneme regresnú rovnicu pre y na x: = 3,57692 x + 3,19231

Na korelačnom poli postavíme regresnú priamku.

Dosadením hodnôt x zo stĺpca 2 do regresnej rovnice získame vypočítané hodnoty (stĺpec 7) a porovnáme ich s údajmi y, čo sa odráža v stĺpci 8. Mimochodom, správnosť výpočtov potvrdzuje zhoda priemerných hodnôt y a.

Koeficientlineárna korelácia vyhodnocuje tesnosť vzťahu medzi charakteristikami x a y a vypočíta sa pomocou vzorca

Uhlový koeficient priamej regresie a (v x) charakterizuje smer identifikovanéhozávislostiznaky: pre a>0 sú rovnaké, pre a<0- противоположны. Jeho absolútna hodnota - miera zmeny výslednej charakteristiky, keď sa charakteristika faktora zmení o jednotku merania.

Voľný člen priamej regresie odhaľuje smer a jeho absolútna hodnota je kvantitatívnou mierou vplyvu všetkých ostatných faktorov na výslednú charakteristiku.

Ak< 0, potom sa zdroj faktora charakteristické pre individuálny objekt používa s menším množstvom a kedy>0 svyššia účinnosť ako je priemer pre celý súbor objektov.

Urobme postregresnú analýzu.

Koeficient pri x priamej regresie je rovný 3,57692 >0, preto s nárastom (poklesom) výrobného výkonu rastie (klesá) spotreba elektriny. Zvýšenie produkcie o 1 tisíc kusov. udáva priemerný nárast spotreby elektriny o 3,57692 tisíc kWh.

2. Voľný člen priamej regresie je rovný 3,19231, teda vplyvom ostatných faktorov sa vplyv výkonu produktu na spotrebu elektriny v absolútnom vyjadrení zvýši o 3,19231 tis. kWh.

3. Korelačný koeficient 0,8235 odhaľuje veľmi úzku závislosť spotreby elektriny od výkonu produktu.

Je ľahké robiť predpovede pomocou rovnice regresného modelu. Na tento účel sa do regresnej rovnice dosadia hodnoty x - objem výroby a predpovedá sa spotreba elektriny. V tomto prípade môžu byť hodnoty x prijaté nielen v rámci daného rozsahu, ale aj mimo neho.

Urobme predpoveď o možnej spotrebe energie v závode s objemom výroby 4,5 tisíc kusov.

3,57692*4,5 + 3,19231= 19,288 45 tisíc kWh.

ZOZNAM POUŽITÝCH ZDROJOV

1. Zacharenkov S.N. Sociálno-ekonomická štatistika: Učebnica a praktická príručka. -Mn.: BSEU, 2002.

2. Efimova M.R., Petrova E.V., Rumyantsev V.N. Všeobecná teória štatistiky. - M.: INFRA - M., 2000.

3. Eliseeva I.I. Štatistiky. - M.: Prospekt, 2002.

4. Všeobecná teória štatistiky / Pod všeobecný. vyd. O.E. Bashina, A.A. Spirina. - M.: Financie a štatistika, 2000.

5. Sociálno-ekonomická štatistika: Vzdelávacia a praktická. príspevok / Zacharenkov S.N. a ďalšie - Mn.: Jerevanská štátna univerzita, 2004.

6. Sociálno-ekonomická štatistika: Učebnica. príspevok. / Ed. Nesterovič S.R. - Mn.: BSEU, 2003.

7. Teslyuk I.E., Tarlovskaya V.A., Terlizhenko N. Statistics. - Minsk, 2000.

8. Charčenko L.P. Štatistiky. - M.: INFRA - M, 2002.

9. Kharchenko L.P., Dolzhenkova V.G., Ionin V.G. Štatistiky. - M.: INFRA - M, 1999.

10. Ekonomická štatistika / Ed. Yu.N. Ivanova - M., 2000.

Uverejnené na Allbest.ru

...

Podobné dokumenty

    Výpočet aritmetického priemeru pre intervalový distribučný rad. Stanovenie všeobecného indexu fyzického objemu obchodného obratu. Analýza absolútnej zmeny celkových výrobných nákladov v dôsledku zmien fyzického objemu. Výpočet variačného koeficientu.

    test, pridané 19.07.2010

    Podstata veľkoobchodu, maloobchodu a verejného obchodu. Vzorce na výpočet individuálnych a súhrnných indexov obratu. Výpočet charakteristík intervalového distribučného radu - aritmetický priemer, modus a medián, variačný koeficient.

    kurzová práca, pridané 05.10.2013

    Výpočet plánovaného a skutočného objemu predaja, percento plnenia plánu, absolútna zmena obratu. Stanovenie absolútneho rastu, priemerných temp rastu a nárastu peňažných príjmov. Výpočet štrukturálnych priemerov: mody, mediány, kvartily.

    test, pridané 24.02.2012

    Intervalové rady rozdelenia bánk podľa objemu zisku. Zistenie módu a mediánu výsledných intervalových distribučných radov pomocou grafickej metódy a výpočtov. Výpočet charakteristík intervalových distribučných radov. Výpočet aritmetického priemeru.

    test, pridaný 15.12.2010

    Vzorce na určenie priemerných hodnôt intervalového radu - režimy, mediány, disperzia. Výpočet analytických ukazovateľov dynamických radov pomocou reťazových a základných schém, rýchlostí rastu a prírastkov. Koncept konsolidovaného indexu nákladov, cien, nákladov a obratu.

    kurzová práca, pridané 27.02.2011

    Koncepcia a účel, poradie a pravidlá pre zostavenie série variácií. Analýza homogenity údajov v skupinách. Indikátory variácie (kolísania) vlastnosti. Stanovenie priemernej lineárnej a štvorcovej odchýlky, koeficientu oscilácie a variácie.

    test, pridané 26.04.2010

    Pojem modus a medián ako typické charakteristiky, poradie a kritériá na ich určenie. Nájdenie módu a mediánu v diskrétnych a intervalových variačných sériách. Kvartily a decily ako dodatočné charakteristiky variačných štatistických radov.

    test, pridané 9.11.2010

    Konštrukcia intervalového distribučného radu na základe zoskupovacích charakteristík. Charakteristika odchýlky frekvenčného rozloženia od symetrického tvaru, výpočet ukazovateľov špičatosti a asymetrie. Analýza ukazovateľov súvahy alebo výkazu ziskov a strát.

    test, pridaný 19.10.2014

    Prevod empirických radov na diskrétne a intervalové. Stanovenie priemernej hodnoty pre diskrétny rad pomocou jeho vlastností. Výpočet pomocou diskrétnej série režimov, mediánu, variačných indikátorov (rozptyl, odchýlka, oscilačný koeficient).

    test, pridané 17.04.2011

    Konštrukcia štatistického radu rozloženia organizácií. Grafické určenie hodnôt módu a mediánu. Tesnosť korelácie pomocou koeficientu determinácie. Stanovenie výberovej chyby priemerného počtu zamestnancov.

Laboratórna práca č.1

Podľa matematických štatistík

Téma: Primárne spracovanie experimentálnych dát

3. Skóre v bodoch. 1

5. Testovacie otázky.. 2

6. Metodika vykonávania laboratórnych prác.. 3

Cieľ práce

Získanie zručností v primárnom spracovaní empirických údajov metódami matematickej štatistiky.

Na základe všetkých experimentálnych údajov vykonajte nasledujúce úlohy:

Cvičenie 1. Zostrojte intervalový variačný distribučný rad.

Úloha 2. Zostrojte histogram frekvencií intervalových variačných sérií.

Úloha 3. Vytvorte empirickú distribučnú funkciu a nakreslite graf.

a) modus a medián;

b) podmienené počiatočné momenty;

c) priemer vzorky;

d) rozptyl vzorky, korigovaný rozptyl populácie, korigovaná smerodajná odchýlka;

e) variačný koeficient;

f) asymetria;

g) špičatosť;

Úloha 5. Určite hranice skutočných hodnôt numerických charakteristík náhodnej premennej, ktorá sa študuje s danou spoľahlivosťou.

Úloha 6. Obsahovo orientovaná interpretácia výsledkov primárneho spracovania podľa podmienok úlohy.

Skóre v bodoch

Úlohy 1-56 bodov

Úloha 62 body

Obhajoba laboratórnej práce(ústny pohovor o testovacích otázkach a laboratórnej práci) - 2 body

Práca musí byť odovzdaná v písomnej forme na listoch A4 a obsahuje:

1) Titulná strana (príloha 1)

2) Počiatočné údaje.

3) Odovzdanie práce podľa určeného vzoru.

4) Výsledky výpočtu (vykonané ručne a/alebo pomocou MS Excel) v určenom poradí.

5) Závery - zmysluplná interpretácia výsledkov primárneho spracovania podľa podmienok problému.

6) Ústny pohovor na pracovné a kontrolné otázky.



5. Testovacie otázky


Metodika vykonávania laboratórnych prác

Úloha 1. Zostrojte intervalový variačný distribučný rad

Aby bolo možné prezentovať štatistické údaje vo forme série variácií s rovnomerne rozloženými možnosťami, je potrebné:

1.V pôvodnej tabuľke údajov nájdite najmenšiu a najväčšiu hodnotu.

2.Definovať rozsah variácií :

3. Určte dĺžku intervalu h, ak vzorka obsahuje do 1000 údajov, použite vzorec: , kde n – veľkosť vzorky – množstvo údajov vo vzorke; pre výpočty vezmite lgn).

Vypočítaný pomer sa zaokrúhli na vhodná celočíselná hodnota .

4. Na určenie začiatku prvého intervalu pre párny počet intervalov sa odporúča použiť hodnotu ; a pre nepárny počet intervalov .

5. Zapíšte si intervaly zoskupovania a usporiadajte ich vo vzostupnom poradí hraníc

, ,………., ,

kde je spodná hranica prvého intervalu. Vyberie sa vhodné číslo, ktoré nie je väčšie ako , horná hranica posledného intervalu by nemala byť menšia ako . Odporúča sa, aby intervaly obsahovali počiatočné hodnoty náhodnej premennej a boli oddelené od 5 až 20 intervaloch.

6. Zapíšte si počiatočné údaje o intervaloch zoskupovania, t.j. použite zdrojovú tabuľku na výpočet počtu hodnôt náhodných premenných spadajúcich do určených intervalov. Ak sa niektoré hodnoty zhodujú s hranicami intervalov, potom sa pripisujú buď len predchádzajúcemu, alebo len nasledujúcemu intervalu.

Poznámka 1. Intervaly nemusia mať rovnakú dĺžku. V oblastiach, kde sú hodnoty hustejšie, je vhodnejšie použiť menšie, krátke intervaly a tam, kde sú intervaly menej časté, väčšie.

Poznámka 2.Ak sa pre niektoré hodnoty získajú „nulové“ alebo malé frekvenčné hodnoty, potom je potrebné preskupiť údaje, zväčšiť intervaly (zvýšenie kroku).

Ak máme k dispozícii štatistické pozorovacie údaje charakterizujúce konkrétny jav, je potrebné ich v prvom rade usporiadať, t.j. dať systematický charakter

anglický štatistik. UJReichman o neusporiadaných zbierkach obrazne povedal, že stretnutie s množstvom nezobecnených údajov sa rovná situácii, keď je človek bez kompasu hodený do húštiny. Aká je systematizácia štatistických údajov vo forme distribučných radov?

Štatistické rady rozdelenia sú usporiadané štatistické agregáty (tabuľka 17). Najjednoduchším typom štatistického distribučného radu je rad zoradených, t.j. rad čísel vo vzostupnom alebo zostupnom poradí, ktoré menia charakteristiky. Takýto rad neumožňuje posúdiť vzorce obsiahnuté v distribuovaných údajoch: ktorá hodnota má zoskupenú väčšinu ukazovateľov, aké sú odchýlky od tejto hodnoty; ako aj celkový obraz distribúcie. Na tento účel sú údaje zoskupené a ukazujú, ako často sa jednotlivé pozorovania vyskytujú v ich celkovom počte (schéma 1a 1).

. Tabuľka 17

. Všeobecný pohľad na štatistické distribučné rady

. Schéma 1. Štatistická schéma distribučná séria

Rozdelenie populačných jednotiek podľa charakteristík, ktoré nemajú kvantitatívne vyjadrenie, sa nazýva tzv atribútový rad(napríklad rozdelenie podnikov podľa ich výrobnej oblasti)

Rad rozdelenia jednotiek obyvateľstva podľa charakteristík, majú kvantitatívne vyjadrenie, sú tzv variačná séria. V takýchto radoch sú hodnoty charakteristiky (možnosti) vo vzostupnom alebo zostupnom poradí

Vo variačnom distribučnom rade sa rozlišujú dva prvky: variant a frekvencia . Možnosť- toto je samostatný význam charakteristík zoskupenia frekvencia- číslo, ktoré ukazuje, koľkokrát sa každá možnosť vyskytne

V matematickej štatistike sa počíta ešte jeden prvok variačného radu - čiastočne. Ten je definovaný ako pomer frekvencie prípadov daného intervalu k celkovému súčtu frekvencií; časť je určená v zlomkoch jednotky, percento (%) v ppm (%o)

Séria distribúcie variácií je teda séria, v ktorej sú možnosti usporiadané vo vzostupnom alebo zostupnom poradí a sú uvedené ich frekvencie alebo frekvencie. Variačné rady sú diskrétne (intervaly) a ostatné intervaly (spojité).

. Séria diskrétnych variácií- ide o distribučné rady, v ktorých variant ako hodnota kvantitatívnej charakteristiky môže nadobudnúť len určitú hodnotu. Možnosti sa navzájom líšia jednou alebo viacerými jednotkami

Počet vyrobených dielov za zmenu konkrétnym pracovníkom teda môže byť vyjadrený len jedným konkrétnym číslom (6, 10, 12 atď.). Príkladom série diskrétnych variácií môže byť rozdelenie pracovníkov podľa počtu vyrobených dielov (tabuľka 18 18).

. Tabuľka 18

. Diskrétna sériová distribúcia _

. Intervalové (kontinuálne) série variácií- také distribučné rady, v ktorých sa hodnota opcií uvádza vo forme intervalov, t.j. hodnoty vlastností sa môžu navzájom líšiť o ľubovoľne malé množstvo. Pri konštrukcii série variácií perivariantných charakteristík NEP nie je možné označiť každú hodnotu variantu, takže populácia je rozdelená do intervalov. Posledné môžu byť rovnaké alebo nerovnaké. Pre každý z nich sú uvedené frekvencie alebo frekvencie (tabuľka 1 9 19).

V intervalových distribučných radoch s nerovnakými intervalmi sa vypočítajú matematické charakteristiky, ako je hustota distribúcie a relatívna hustota distribúcie na danom intervale. Prvá charakteristika je určená pomerom frekvencie k hodnote toho istého intervalu, druhá - pomerom frekvencie k hodnote toho istého intervalu. Vo vyššie uvedenom príklade bude hustota distribúcie v prvom intervale 3: 5 = 0,6 a relatívna hustota v tomto intervale je 7,5: 5 = 1,55 %.

. Tabuľka 19

. Intervalové distribučné série _

Matematické štatistiky- odbor matematiky venovaný matematickým metódam spracovania, systematizácie a využívania štatistických údajov na vedecké a praktické závery.

3.1. ZÁKLADNÉ POJMY MATEMATICKEJ ŠTATISTIKY

V medicínskych a biologických problémoch je často potrebné študovať distribúciu určitej charakteristiky pre veľmi veľký počet jedincov. Táto vlastnosť má pre rôznych jedincov rôzne významy, takže ide o náhodnú premennú. Napríklad každé terapeutické liečivo má rôznu účinnosť, keď sa aplikuje na rôznych pacientov. Aby sme však získali predstavu o účinnosti tohto lieku, nie je potrebné ho aplikovať každý chorý. Je možné vysledovať výsledky užívania lieku na relatívne malej skupine pacientov a na základe získaných údajov identifikovať podstatné znaky (účinnosť, kontraindikácie) liečebného procesu.

Populácia- súbor homogénnych prvkov charakterizovaných nejakým skúmaným atribútom. Toto znamenie je nepretržitý náhodná veličina s hustotou distribúcie f(x).

Ak nás napríklad zaujíma prevalencia ochorenia v určitom regióne, potom všeobecná populácia je celá populácia regiónu. Ak chceme zistiť náchylnosť mužov a žien na túto chorobu oddelene, mali by sme zvážiť dve všeobecné populácie.

Na štúdium vlastností bežnej populácie sa vyberie určitá časť jej prvkov.

Ukážka- časť bežnej populácie vybraná na vyšetrenie (liečbu).

Ak to nespôsobí zmätok, potom sa vzorka nazýva ako súbor predmetov, vybraných do prieskumu a totality

hodnotyštudovaná charakteristika získaná počas vyšetrenia. Tieto hodnoty môžu byť reprezentované niekoľkými spôsobmi.

Jednoduchý štatistický rad - hodnoty sledovanej charakteristiky zaznamenané v poradí, v akom boli získané.

Príklad jednoduchej štatistickej série získanej meraním rýchlosti povrchovej vlny (m/s) v koži čela u 20 pacientov je uvedený v tabuľke. 3.1.

Tabuľka 3.1.Jednoduchý štatistický rad

Jednoduchý štatistický rad je hlavným a najúplnejším spôsobom zaznamenávania výsledkov prieskumu. Môže obsahovať stovky prvkov. Je veľmi ťažké pozrieť sa na takú totalitu jedným pohľadom. Preto sú veľké vzorky zvyčajne rozdelené do skupín. Na tento účel je oblasť zmeny charakteristiky rozdelená na niekoľko (N) intervaloch rovnakú šírku a vypočítajte relatívne početnosti (n/n) atribútu spadajúceho do týchto intervalov. Šírka každého intervalu je:

Hranice intervalov majú nasledujúci význam:

Ak je ľubovoľný prvok vzorky hranicou medzi dvoma susednými intervalmi, potom je klasifikovaný ako vľavo interval. Takto zoskupené dáta sa nazývajú intervalový štatistický rad.

je tabuľka, ktorá zobrazuje intervaly hodnôt atribútov a relatívnu frekvenciu výskytu atribútu v rámci týchto intervalov.

V našom prípade môžeme zostaviť napríklad nasledujúci intervalový štatistický rad (N = 5, d= 4), tabuľka. 3.2.

Tabuľka 3.2.Intervalové štatistické rady

Tu interval 28-32 obsahuje dve hodnoty rovné 28 (tabuľka 3.1) a interval 32-36 obsahuje hodnoty 32, 33, 34 a 35.

Intervalový štatistický rad možno znázorniť graficky. Na tento účel sa intervaly hodnôt atribútov vykreslia pozdĺž osi x a na každej z nich, ako na základni, sa vytvorí obdĺžnik s výškou rovnajúcou sa relatívnej frekvencii. Výsledný stĺpcový graf sa nazýva histogram.

Ryža. 3.1. stĺpcový graf

V histograme sú štatistické vzorce distribúcie charakteristiky celkom jasne viditeľné.

Pri veľkej veľkosti vzorky (niekoľko tisíc) a malých šírkach stĺpcov sa tvar histogramu približuje tvaru grafu hustota distribúcie znamenie.

Počet stĺpcov histogramu je možné zvoliť pomocou nasledujúceho vzorca:

Manuálne vytvorenie histogramu je dlhý proces. Preto boli vyvinuté počítačové programy na ich automatické zostavovanie.

3.2. ČÍSELNÉ CHARAKTERISTIKY ŠTATISTICKÝCH RADOV

Mnohé štatistické postupy používajú vzorové odhady pre očakávanú populáciu a rozptyl (alebo MSE).

Ukážkový priemer(X) je aritmetický priemer všetkých prvkov jednoduchého štatistického radu:

Pre náš príklad X= 37,05 (m/s).

Vzorový priemer jenajlepšívšeobecný priemerný odhadM.

Vzorový rozptyl s 2 rovná súčtu štvorcových odchýlok prvkov od priemeru vzorky, delené o n- 1:

V našom príklade s2 = 25,2 (m/s)2.

Upozorňujeme, že pri výpočte rozptylu vzorky nie je menovateľom vzorca veľkosť vzorky n, ale n-1. Je to spôsobené tým, že pri výpočte odchýlok vo vzorci (3.3) sa namiesto neznámeho matematického očakávania používa jeho odhad - vzorový priemer.

Vzorový rozptyl je najlepší odhad všeobecného rozptylu (σ 2).

Štandardná odchýlka vzorky(s) je druhá odmocnina rozptylu vzorky:

Pre náš príklad s= 5,02 (m/s).

Selektívne odmocnina stredná štvorec odchýlka je najlepší odhad všeobecnej štandardnej odchýlky (σ).

S neobmedzeným nárastom veľkosti vzorky majú všetky charakteristiky vzorky tendenciu k zodpovedajúcim charakteristikám všeobecnej populácie.

Na výpočet charakteristík vzorky sa používajú počítačové vzorce. V Exceli tieto výpočty vykonávajú štatistické funkcie AVERAGE, VARIANCE. ŠTANDARDNÁ ODCHÝLKA

3.3. INTERVALOVÉ HODNOTENIE

Všetky charakteristiky vzorky sú náhodné premenné. To znamená, že pre inú vzorku rovnakej veľkosti budú hodnoty charakteristík vzorky odlišné. Teda selektívne

vlastnosti sú len odhady relevantné charakteristiky populácie.

Nevýhody selektívneho hodnotenia sú kompenzované o intervalový odhad, zastupujúci číselný interval vnútri ktorej s danou pravdepodobnosťou R d nájde sa skutočná hodnota odhadovaného parametra.

Nechaj U r - nejaký parameter všeobecnej populácie (všeobecný priemer, všeobecný rozptyl atď.).

Intervalový odhad parameter U r sa nazýva interval (U 1, U 2), splnenie podmienky:

P(U < Ur < U2) = Рд. (3.5)

Pravdepodobnosť R d volal pravdepodobnosť dôvery.

Pravdepodobnosť spoľahlivosti Pd - pravdepodobnosť, že skutočná hodnota odhadovanej veličiny je vnútri určený interval.

V tomto prípade interval (U 1, U 2) volal interval spoľahlivosti pre odhadovaný parameter.

Často sa namiesto pravdepodobnosti spoľahlivosti používa pridružená hodnota α = 1 - Р d, ktorá je tzv. úroveň významnosti.

Úroveň významnosti je pravdepodobnosť, že skutočná hodnota odhadovaného parametra je vonku interval spoľahlivosti.

Niekedy sú α a Pd vyjadrené v percentách, napríklad 5 % namiesto 0,05 a 95 % namiesto 0,95.

Pri odhade intervalov najprv vyberte vhodné pravdepodobnosť dôvery(zvyčajne 0,95 alebo 0,99) a potom nájdite vhodný rozsah hodnôt pre odhadovaný parameter.

Všimnime si niektoré všeobecné vlastnosti intervalových odhadov.

1. Čím nižšia je hladina významnosti (tým viac R d),čím širší je odhad intervalu. Ak je teda na hladine významnosti 0,05 intervalový odhad všeobecného priemeru 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Čím väčšia je veľkosť vzorky n, tým užší je intervalový odhad so zvolenou hladinou významnosti. Nech je napríklad 5 percentuálny odhad všeobecného priemeru (β = 0,05) získaný zo vzorky 20 prvkov, potom 34,7< M< 39,4.

Zväčšením veľkosti vzorky na 80 dostaneme presnejší odhad na rovnakej hladine významnosti: 35,5< M< 38,6.

Vo všeobecnosti si konštrukcia spoľahlivých odhadov spoľahlivosti vyžaduje znalosť zákona, podľa ktorého je odhadovaný náhodný atribút rozdelený v populácii. Pozrime sa, ako sa zostavuje intervalový odhad všeobecný priemer charakteristika, ktorá je v populácii rozložená podľa normálne zákona.

3.4. INTERVALOVÝ ODHAD VŠEOBECNÉHO PRIEMERU PRE ZÁKON O NORMÁLNEJ DISTRIBÚCII

Konštrukcia intervalového odhadu všeobecného priemeru M pre populáciu so zákonom normálneho rozdelenia je založená na nasledujúcej vlastnosti. Pre odberový objem n postoj

sa riadi Studentovým rozdelením s počtom stupňov voľnosti ν = n- 1.

Tu X- vzorový priemer a s- selektívna smerodajná odchýlka.

Pomocou študentských distribučných tabuliek alebo ich počítačových ekvivalentov môžete nájsť hraničnú hodnotu takú, že s danou pravdepodobnosťou spoľahlivosti platí nasledujúca nerovnosť:

Táto nerovnosť zodpovedá nerovnosti pre M:

Kde ε - polovičná šírka intervalu spoľahlivosti.

Konštrukcia intervalu spoľahlivosti pre M sa teda uskutočňuje v nasledujúcom poradí.

1. Vyberte pravdepodobnosť spoľahlivosti Р d (zvyčajne 0,95 alebo 0,99) a pomocou študentskej tabuľky rozdelenia nájdite parameter t

2. Vypočítajte polovičnú šírku intervalu spoľahlivosti ε:

3. Získajte intervalový odhad všeobecného priemeru so zvolenou pravdepodobnosťou spoľahlivosti:

V skratke sa to píše takto:

Na nájdenie intervalových odhadov boli vyvinuté počítačové postupy.

Dovoľte nám vysvetliť, ako používať tabuľku rozdelenia študentov. Táto tabuľka má dva „vstupy“: ľavý stĺpec, ktorý sa nazýva počet stupňov voľnosti ν = n- 1 a horný riadok je hladina významnosti α. Na priesečníku príslušného riadku a stĺpca nájdite Studentov koeficient t.

Aplikujme túto metódu na našu vzorku. Fragment tabuľky rozdelenia študentov je uvedený nižšie.

Tabuľka 3.3. Fragment študentskej distribučnej tabuľky

Jednoduchá štatistická séria pre vzorku 20 ľudí (n= 20, ν =19) je uvedený v tabuľke. 3.1. Pre túto sériu výpočty pomocou vzorcov (3.1-3.3) dávajú: X= 37,05; s= 5,02.

Poďme si vybrať a = 0,05 (Р d = 0,95). Na priesečníku riadku „19“ a stĺpca „0,05“ nájdeme t= 2,09.

Vypočítajme presnosť odhadu pomocou vzorca (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Zostrojme intervalový odhad: s pravdepodobnosťou 95% neznámy všeobecný priemer spĺňa nerovnosť:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. METÓDY TESTOVANIA ŠTATISTICKÝCH HYPOTÉZ

Štatistické hypotézy

Pred formulovaním toho, čo je štatistická hypotéza, zvážte nasledujúci príklad.

Na porovnanie dvoch metód liečby určitého ochorenia boli vybrané dve skupiny pacientov po 20 ľuďoch, ktoré boli liečené týmito metódami. Pre každého pacienta bol zaznamenaný počet procedúr, po ktorých sa dosiahol pozitívny účinok. Na základe týchto údajov boli pre každú skupinu zistené výberové priemery (X), výberové rozptyly (s 2) a vzorové štandardné odchýlky (s).

Výsledky sú uvedené v tabuľke. 3.4.

Tabuľka 3.4

Počet procedúr potrebných na získanie pozitívneho efektu je náhodná veličina, o ktorej sú všetky informácie aktuálne obsiahnuté v danej vzorke.

Od stola 3.4 ukazuje, že priemer vzorky v prvej skupine je menší ako v druhej. Znamená to, že rovnaký vzťah platí pre všeobecné priemery: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает štatistické testovanie hypotéz.

Štatistická hypotéza- je to predpoklad o vlastnostiach populácií.

Budeme zvažovať hypotézy o vlastnostiach dva všeobecné populácie.

Ak majú populácie slávny, identický rozloženie odhadovanej hodnoty a predpoklady sa týkajú hodnôt nejaký parameter tohto rozdelenia, potom sa hypotézy nazývajú parametrické. Napríklad vzorky sa odoberajú z populácií s normálny zákon rozdelenie a rovnaký rozptyl. Treba to zistiť či sú rovnaké všeobecných priemerov týchto populácií.

Ak nie je nič známe o zákonoch distribúcie všeobecných populácií, potom sa nazývajú hypotézy o ich vlastnostiach neparametrické. Napríklad, či sú rovnaké zákony distribúcie všeobecných populácií, z ktorých sa vzorky odoberajú.

Nulové a alternatívne hypotézy.

Úlohou testovania hypotéz. Úroveň významnosti

Zoznámime sa s terminológiou používanou pri testovaní hypotéz.

H 0 - nulová hypotéza (hypotéza skeptika) je hypotéza o absencii rozdielov medzi porovnávanými vzorkami. Skeptik sa domnieva, že rozdiely medzi odhadmi vzorky získanými z výsledkov výskumu sú náhodné;

H 1- alternatívna hypotéza (optimistická hypotéza) je hypotéza o prítomnosti rozdielov medzi porovnávanými vzorkami. Optimista verí, že rozdiely medzi odhadmi vzorky sú spôsobené objektívnymi príčinami a zodpovedajú rozdielom vo všeobecných populáciách.

Testovanie štatistických hypotéz je možné len vtedy, keď je možné nejaké skonštruovať veľkosť(kritérium), ktorého distribučný zákon v prípade spravodlivosti H 0 slávny. Potom pre toto množstvo môžeme špecifikovať interval spoľahlivosti, do ktorých s danou pravdepodobnosťou R d jeho hodnota klesá. Tento interval sa nazýva kritická oblasť. Ak hodnota kritéria spadá do kritickej oblasti, potom je hypotéza prijatá N 0. V opačnom prípade je hypotéza H 1 prijatá.

V lekárskom výskume sa používa P d = 0,95 alebo P d = 0,99. Tieto hodnoty zodpovedajú úrovne významnosti a = 0,05 alebo a = 0,01.

Pri testovaní štatistických hypotézúroveň významnosti(α) je pravdepodobnosť zamietnutia nulovej hypotézy, keď je pravdivá.

Upozorňujeme, že vo svojej podstate je zameraný postup testovania hypotéz zisťovanie rozdielov a nie potvrdiť ich neprítomnosť. Keď hodnota kritéria presahuje kritickú oblasť, môžeme „skeptikovi“ s čistým srdcom povedať – no, čo ešte chcete?! Ak by neexistovali žiadne rozdiely, potom by s pravdepodobnosťou 95 % (alebo 99 %) bola vypočítaná hodnota v rámci stanovených limitov. Ale nie!..

No, ak hodnota kritéria spadá do kritickej oblasti, potom nie je dôvod domnievať sa, že hypotéza H 0 je správna. To s najväčšou pravdepodobnosťou poukazuje na jeden z dvoch možných dôvodov.

1. Veľkosť vzoriek nie je dostatočne veľká na zistenie rozdielov. Je pravdepodobné, že pokračujúce experimentovanie prinesie úspech.

2. Existujú rozdiely. Ale sú také malé, že nemajú žiadny praktický význam. V tomto prípade pokračovanie experimentov nemá zmysel.

Prejdime k niektorým štatistickým hypotézam používaným v lekárskom výskume.

3.6. TESTOVANIE HYPOTÉZ O ROVNOCNOSTI VARIANTOV, FISCHEROVO F-KRITÉRIUM

V niektorých klinických štúdiách sa pozitívny účinok nepreukázal až tak veľa rozsah skúmaného parametra, koľko z toho stabilizácia, zníženie jeho výkyvov. V tomto prípade vyvstáva otázka porovnania dvoch všeobecných rozptylov na základe výsledkov výberového prieskumu. Tento problém je možné vyriešiť pomocou Fisherov test.

Formulácia problému

normálny zákon distribúcie. Vzorové veľkosti -

n 1 A n2, A vzorové odchýlky rovný s 1 a s 2 2 všeobecné odchýlky.

Testovateľné hypotézy:

H 0- všeobecné odchýlky sú rovnaké;

H 1- všeobecné odchýlky sú rôzne.

Zobrazuje sa, ak sa vzorky odoberajú z populácií s normálny zákon rozdelenie, potom ak je hypotéza pravdivá H 0 pomer výberových rozptylov sleduje Fisherovo rozdelenie. Preto ako kritérium pre kontrolu spravodlivosti H 0 berie sa hodnota F, vypočítané podľa vzorca:

Kde s 1 a s 2 sú výberové rozptyly.

Tento pomer sa riadi Fisherovým rozdelením s počtom stupňov voľnosti čitateľa ν 1 = n 1- 1 a počet stupňov voľnosti menovateľa ν 2 = n 2 - 1. Hranice kritickej oblasti sa nachádzajú pomocou Fisherových distribučných tabuliek alebo pomocou počítačovej funkcie BRASPOBR.

Pre príklad uvedený v tabuľke. 3.4, dostaneme: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. Pri α = 0,05 sú hranice kritickej oblasti v tomto poradí: = 0,40, = 2,53.

Hodnota kritéria spadá do kritickej oblasti, takže hypotéza je prijatá H 0: všeobecné odchýlky vzorky sú rovnaké.

3.7. TESTOVANIE HYPOTÉZ TÝKAJÚCE SA ROVNOSTI PROSTRIEDKOV, KRITÉRIUM ŠTUDENTA

Porovnávacia úloha priemer dve všeobecné populácie vznikajú vtedy, keď je praktický význam presný rozsah skúmaná charakteristika. Napríklad pri porovnaní dĺžky liečby dvoma rôznymi metódami alebo počtu komplikácií vznikajúcich pri ich užívaní. V tomto prípade môžete použiť Studentov t-test.

Formulácia problému

Boli získané dve vzorky (X 1) a (X 2) extrahované zo všeobecných populácií pomocou normálny zákon distribúcia a identické odchýlky. Veľkosti vzoriek - n 1 a n 2, vzorové prostriedky sú rovné X1 a X2 a vzorové odchýlky- s 1 2 a s 2 2 resp. Treba porovnávať všeobecné priemery.

Testovateľné hypotézy:

H 0- všeobecné priemery sú rovnaké;

H 1- všeobecné priemery sú rôzne.

Ukazuje sa, že ak je hypotéza pravdivá H 0 Hodnota t vypočítaná podľa vzorca:

rozdelené podľa Studentovho zákona s počtom stupňov voľnosti ν = ν 1 + + ν2 - 2.

Tu kde ν 1 = n 1 - 1 - počet stupňov voľnosti pre prvú vzorku; v 2 = n 2 - 1 - počet stupňov voľnosti pre druhú vzorku.

Hranice kritickej oblasti sa nachádzajú pomocou tabuliek t-rozdelenia alebo pomocou počítačovej funkcie STUDRIST. Študentova distribúcia je symetrická okolo nuly, takže ľavá a pravá hranica kritickej oblasti sú identické čo do veľkosti a opačného znamienka: -a

Pre príklad uvedený v tabuľke. 3.4, dostaneme:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. Pri α = 0,05 = 2,02.

Hodnota kritéria presahuje ľavú hranicu kritického regiónu, takže hypotézu prijímame H 1: všeobecné priemery sú rôzne. Zároveň populačný priemer prvá vzorka MENEJ.

Použiteľnosť Studentovho t-testu

Študentov t test je použiteľný len pre vzorky z normálne agregáty s identické všeobecné odchýlky. Ak je porušená aspoň jedna z podmienok, potom je uplatniteľnosť kritéria otázna. Požiadavka normality bežnej populácie je zvyčajne ignorovaná, cit centrálna limitná veta. Rozdiel medzi priemermi vzorky v čitateli (3.10) možno považovať za normálne rozdelené pre ν > 30. Ale otázku rovnosti rozptylov nemožno overiť a odkazy na skutočnosť, že Fisherov test nezistil rozdiely, nemožno vziať do úvahy. do úvahy. Avšak t-test sa široko používa na zistenie rozdielov v priemeroch populácie, aj keď bez dostatočných dôkazov.

Nižšie sa diskutuje neparametrické kritérium, ktorý sa úspešne používa na rovnaké účely a ktorý nevyžaduje žiadne normálnosť, ani jedno rovnosť rozptylov.

3.8. NEPARAMETRICKÉ POROVNANIE DVOCH VZORIEK: KRITÉRIUM MANN-WHITNEY

Neparametrické testy sú navrhnuté tak, aby odhalili rozdiely v distribučných zákonoch dvoch populácií. Kritériá, ktoré sú vo všeobecnosti citlivé na rozdiely priemer, nazývané kritériá posun Kritériá, ktoré sú vo všeobecnosti citlivé na rozdiely disperzie, nazývané kritériá stupnica. Mann-Whitney test odkazuje na kritériá posun a používa sa na zistenie rozdielov v priemeroch dvoch populácií, z ktorých sú vzorky prezentované v hodnotiacej stupnici. Namerané charakteristiky sú umiestnené na tejto stupnici vo vzostupnom poradí a následne očíslované celými číslami 1, 2... Tieto čísla sú tzv. hodnosti. Rovnakým množstvám sú priradené rovnaké poradia. Nie je dôležitá hodnota samotného atribútu, ale iba radové miesto ktoré radí medzi ostatné veličiny.

V tabuľke 3.5. prvá skupina z tabuľky 3.4 je uvedená v rozšírenej forme (riadok 1), zoradená (riadok 2) a potom sú poradia identických hodnôt nahradené aritmetickými priemermi. Napríklad položky 4 a 4 v prvom riadku dostali poradie 2 a 3, ktoré boli potom nahradené rovnakými hodnotami 2,5.

Tabuľka 3.5

Formulácia problému

Nezávislé vzorky (X 1) A (X 2) extrahované zo všeobecných populácií s neznámymi distribučnými zákonmi. Veľkosti vzoriek n 1 A n 2 resp. Hodnoty prvkov vzorky sú uvedené v hodnotiacej stupnici. Je potrebné skontrolovať, či sa tieto všeobecné populácie navzájom líšia?

Testovateľné hypotézy:

H 0- vzorky patria do rovnakej všeobecnej populácie; H 1- vzorky patria k rôznym všeobecným populáciám.

Na testovanie takýchto hypotéz sa používa (/-Mann-Whitney test.

Najprv sa z dvoch vzoriek zostaví kombinovaná vzorka (X), ktorej prvky sú zoradené. Potom sa nájde súčet poradí zodpovedajúcich prvkom prvej vzorky. Táto suma je kritériom na testovanie hypotéz.

U= Súčet poradí prvej vzorky. (3.11)

Pre nezávislé vzorky, ktorých objemy sú väčšie ako 20, hodnota U dodržiava normálne rozdelenie, ktorého matematické očakávanie a štandardná odchýlka sa rovnajú:

Preto sa hranice kritickej oblasti nachádzajú podľa tabuliek normálneho rozdelenia.

Pre príklad uvedený v tabuľke. 3.4, dostaneme: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Pre α = 0,05 dostaneme: vľavo = 338 a vpravo = 482.

Hodnota kritéria presahuje ľavú hranicu kritického regiónu, preto je akceptovaná hypotéza H 1: všeobecné populácie majú rôzne distribučné zákony. Zároveň populačný priemer prvá vzorka MENEJ.

Pri spracovaní veľkého množstva informácií, ktoré je obzvlášť dôležité pri modernom vedeckom vývoji, stojí pred výskumníkom vážna úloha správneho zoskupenia zdrojových údajov. Ak sú údaje svojou povahou diskrétne, potom, ako sme videli, nevznikajú žiadne problémy - stačí vypočítať frekvenciu každej funkcie. Ak má skúmaná charakteristika nepretržitý charakteru (čo je v praxi bežnejšie), potom výber optimálneho počtu intervalov zoskupovania prvkov nie je v žiadnom prípade triviálnou úlohou.

Na zoskupenie spojitých náhodných premenných je celý variačný rozsah charakteristiky rozdelený do určitého počtu intervalov Komu.

Zoskupený interval (nepretržitý) variačná séria sa nazývajú intervaly zoradené podľa hodnoty atribútu (), kde počty pozorovaní spadajúcich do r"-tého intervalu alebo relatívne početnosti () sú uvedené spolu s príslušnými početnosťami ():

Charakteristické intervaly hodnôt

mi frekvencia

stĺpcový graf A kumulovať (ogiva), ktoré sme už podrobne rozoberali, sú vynikajúcim prostriedkom vizualizácie údajov, ktorý vám umožňuje získať primárnu predstavu o štruktúre údajov. Takéto grafy (obr. 1.15) sú konštruované pre spojité dáta rovnakým spôsobom ako pre diskrétne dáta, len s prihliadnutím na skutočnosť, že spojité dáta úplne vypĺňajú oblasť ich možných hodnôt, pričom nadobúdajú akékoľvek hodnoty.

Ryža. 1.15.

Preto stĺpce na histograme a kumulácii sa musia navzájom dotýkať a nesmú mať oblasti, v ktorých hodnoty atribútov nespadajú do všetkých možných(t. j. histogram a kumulácie by nemali mať pozdĺž osi x „diery“, ktoré neobsahujú hodnoty skúmanej premennej, ako na obr. 1.16). Výška stĺpca zodpovedá frekvencii – počtu pozorovaní spadajúcich do daného intervalu alebo relatívnej frekvencii – podielu pozorovaní. Intervaly sa nesmie pretínať a zvyčajne majú rovnakú šírku.

Ryža. 1.16.

Histogram a polygón sú aproximáciou krivky hustoty pravdepodobnosti (diferenciálna funkcia) f(x) teoretické rozdelenie, uvažované v rámci teórie pravdepodobnosti. Preto je ich konštrukcia taká dôležitá pri primárnom štatistickom spracovaní kvantitatívnych spojitých údajov - podľa ich vzhľadu možno usudzovať na zákon hypotetického rozdelenia.

Kumulovať – krivka akumulovaných frekvencií (frekvencií) intervalového variačného radu. Graf funkcie kumulatívneho rozdelenia sa porovnáva s kumulovaným F(x), diskutované aj v kurze teórie pravdepodobnosti.

V zásade sú pojmy histogram a kumulovať špecificky spojené so spojitými údajmi a ich intervalovými variačnými sériami, pretože ich grafy sú empirickými odhadmi funkcie hustoty pravdepodobnosti a distribučnej funkcie.

Konštrukcia intervalového variačného radu začína určením počtu intervalov k. A táto úloha je azda najťažšia, najdôležitejšia a najkontroverznejšia v skúmanej problematike.

Počet intervalov by nemal byť príliš malý, pretože to spôsobí, že histogram bude príliš hladký ( prehladený), stráca všetky znaky variability pôvodných údajov – na obr. 1.17 vidno, ako tie isté údaje, na ktorých sú grafy na obr. 1.15, slúži na zostrojenie histogramu s menším počtom intervalov (graf vľavo).

Počet intervalov by zároveň nemal byť príliš veľký - inak nebudeme môcť odhadnúť hustotu rozloženia študovaných údajov pozdĺž číselnej osi: histogram bude nedostatočne vyhladený (nevyhladené), s prázdnymi intervalmi, nerovnomerné (pozri obr. 1.17, pravý graf).

Ryža. 1.17.

Ako určiť najvýhodnejší počet intervalov?

Už v roku 1926 Herbert Sturges navrhol vzorec na výpočet počtu intervalov, do ktorých je potrebné rozdeliť pôvodný súbor hodnôt študovanej charakteristiky. Tento vzorec sa skutočne stal mimoriadne populárnym – väčšina štatistických učebníc ho ponúka a mnohé štatistické balíky ho štandardne používajú. Nakoľko je to opodstatnené a vo všetkých prípadoch je to veľmi vážna otázka.

Takže, na čom je Sturgesov vzorec založený?

Zvážte binomické rozdelenie)