Algorithm para sa pagbuo ng isang serye ng pagkakaiba-iba ng pagitan na may pantay na pagitan.

Ipadala ang iyong mabuting gawa sa base ng kaalaman ay simple. Gamitin ang form sa ibaba

Ang mga mag-aaral, nagtapos na mga mag-aaral, mga batang siyentipiko na gumagamit ng base ng kaalaman sa kanilang pag-aaral at trabaho ay lubos na magpapasalamat sa iyo.

Nai-post sa http://www.allbest.ru/

GAWAIN1

Mayroon kaming sumusunod na data sa sahod ng mga empleyado sa enterprise:

Talahanayan 1.1

Ang halaga ng sahod sa conv. den. mga yunit

Kinakailangang bumuo ng isang serye ng pagitan ng pamamahagi kung saan mahahanap;

1) karaniwang suweldo;

2) average na linear deviation;

4) karaniwang paglihis;

5) saklaw ng pagkakaiba-iba;

6) koepisyent ng oscillation;

7) linear coefficient ng variation;

8) simpleng koepisyent ng pagkakaiba-iba;

10) panggitna;

11) koepisyent ng kawalaan ng simetrya;

12) Pearson asymmetry index;

13) koepisyent ng kurtosis.

Desisyon

Tulad ng alam mo, ang mga pagpipilian (nakilala ang mga halaga) ay nakaayos sa pataas na pagkakasunud-sunod upang mabuo discrete variation series. Na may malaking bilang variant (higit sa 10), kahit na sa kaso ng discrete variation, ang interval series ay binuo.

Kung ang isang serye ng agwat ay pinagsama-sama na may mga pantay na agwat, kung gayon ang hanay ng variation ay hinati sa tinukoy na bilang ng mga agwat. Sa kasong ito, kung ang nakuha na halaga ay integer at hindi malabo (na bihira), kung gayon ang haba ng agwat ay kinuha katumbas ng numerong ito. Sa ibang mga kaso ginawa pagbilog kinakailangan sa gilid pagpapalaki, Kaya sa ang huling natitirang digit ay pantay. Malinaw, na may pagtaas sa haba ng agwat, ang hanay ng pagkakaiba-iba sa pamamagitan ng isang halaga na katumbas ng produkto ng bilang ng mga pagitan: sa pamamagitan ng pagkakaiba sa pagitan ng kinakalkula at paunang haba ng pagitan

a) Kung ang halaga ng pagpapalawak ng hanay ng variation ay hindi gaanong mahalaga, ito ay maaaring idagdag sa pinakamalaki o ibawas mula sa pinakamaliit na halaga ng tampok;

b) Kung ang magnitude ng pagpapalawak ng hanay ng pagkakaiba-iba ay nadarama, kung gayon upang maiwasan ang paghahalo sa gitna ng hanay, ito ay halos nahahati sa kalahati, sabay-sabay na idinaragdag sa pinakamalaki at pagbabawas mula sa pinakamaliit na halaga ng katangian.

Kung ang isang serye ng agwat ay pinagsama-sama na may hindi pantay na mga agwat, kung gayon ang proseso ay pinasimple, ngunit tulad ng dati, ang haba ng mga agwat ay dapat na ipahayag bilang isang numero na may huling kahit na digit, na lubos na nagpapadali sa kasunod na mga kalkulasyon ng mga numerical na katangian.

30 - laki ng sample.

Bumuo tayo ng isang serye ng pamamahagi ng pagitan gamit ang formula ng Sturges:

K \u003d 1 + 3.32 * lg n,

K - bilang ng mga pangkat;

K \u003d 1 + 3.32 * lg 30 \u003d 5.91 \u003d 6

Nahanap namin ang hanay ng sign - ang sahod ng mga empleyado sa enterprise - (x) ayon sa formula

R \u003d xmax - xmin at hatiin ng 6; R=195-112=83

Pagkatapos ang haba ng pagitan ay magiging l lane=83:6=13.83

Ang simula ng unang agwat ay magiging 112. Pagdaragdag sa 112 l ras=13.83, nakukuha natin ang huling halaga nito na 125.83, na siyang simula rin ng pangalawang pagitan, at iba pa. ang dulo ng ikalimang pagitan ay 195.

Kapag naghahanap ng mga frequency, ang isa ay dapat magabayan ng panuntunan: "kung ang halaga ng isang tampok ay nag-tutugma sa hangganan ng panloob na agwat, dapat itong i-refer sa nakaraang agwat."

Kumuha kami ng isang serye ng pagitan ng mga frequency at pinagsama-samang frequency.

Talahanayan 1.2

Samakatuwid, 3 empleyado ang may suweldo. pagbabayad mula 112 hanggang 125.83 na karaniwang mga yunit. Pinakamataas na suweldo pagbabayad mula 181.15 hanggang 195 na mga karaniwang yunit. 6 na manggagawa lamang.

Upang kalkulahin ang mga numerical na katangian, kino-convert namin ang serye ng pagitan sa isang discrete, na ginagawa ang gitna ng mga pagitan bilang isang variant:

Talahanayan 1.3

14131,83

Ayon sa weighted arithmetic mean formula

cond.mon.un.

Average na linear deviation:

kung saan ang xi ay ang halaga ng pinag-aralan na tampok sa i-th unit ng populasyon,

Ang average na halaga ng pinag-aralan na katangian.

Nai-post sa http://www.allbest.ru/

Na-post sa http://www.allbest.ru/

Unit ng pananalapi

Karaniwang lihis:

pagpapakalat:

Relatibong hanay ng variation (coefficient of oscillation): c=R:,

Relatibong linear deviation: q = L:

Ang koepisyent ng pagkakaiba-iba: V = y:

Ang koepisyent ng oscillation ay nagpapakita ng kamag-anak na pagbabagu-bago ng mga matinding halaga ng katangian sa paligid ng arithmetic mean, at ang koepisyent ng pagkakaiba-iba ay nagpapakilala sa antas at homogeneity ng populasyon.

c \u003d R: \u003d 83 / 159.485 * 100% \u003d 52.043%

Kaya, ang pagkakaiba sa pagitan ng matinding halaga ay 5.16% (=94.84%-100%) mas mababa kaysa sa average na halaga ng sahod ng mga empleyado sa negosyo.

q \u003d L: \u003d 17.765 / 159.485 * 100% \u003d 11.139%

V \u003d y: \u003d 21.704 / 159.485 * 100% \u003d 13.609%

Ang koepisyent ng pagkakaiba-iba ay mas mababa sa 33%, na nagpapahiwatig ng mahinang pagkakaiba-iba sa sahod ng mga empleyado sa negosyo, i.e. na ang average ay isang tipikal na katangian ng sahod ng mga manggagawa (homogeneous aggregate).

Sa serye ng pamamahagi ng pagitan fashion ay tinutukoy ng formula -

Ang dalas ng modal interval, ibig sabihin, ang agwat na naglalaman ng pinakamalaking bilang ng mga opsyon;

Ang dalas ng agwat bago ang modal;

Ang dalas ng agwat kasunod ng modal;

Ang haba ng modal interval;

Ang lower bound ng modal interval.

Para sa pagtukoy median sa serye ng pagitan, ginagamit namin ang formula

kung saan ang pinagsama-samang (cumulative) dalas ng pagitan bago ang median;

Ang mas mababang limitasyon ng median interval;

Dalas ng median interval;

Ang haba ng median interval.

Median Interval- interval, ang naipon na dalas kung saan (=3+3+5+7) ay lumampas sa kalahati ng kabuuan ng mga frequency - (153.49; 167.32).

Kalkulahin natin ang skewness at kurtosis, kung saan bubuo tayo ng isang bagong worksheet:

Talahanayan 1.4

Makatotohanang datos

Tinantyang data

Kalkulahin ang sandali ng ikatlong pagkakasunud-sunod

Samakatuwid, ang kawalaan ng simetrya ay

Dahil 0.3553 0.25, kinikilala ang kawalaan ng simetrya bilang makabuluhan.

Kalkulahin ang sandali ng ikaapat na pagkakasunud-sunod

Samakatuwid, ang kurtosis ay

Bilang< 0, то эксцесс является плосковершинным.

Ang antas ng skewness ay maaaring matukoy gamit ang Pearson's skewness coefficient (As): oscillation sample cost turnover

nasaan ang arithmetic mean ng serye ng pamamahagi; -- fashion; -- karaniwang lihis.

Sa isang simetriko (normal) na distribusyon = Mo, samakatuwid, ang koepisyent ng kawalaan ng simetrya ay zero. Kung Аs > 0, pagkatapos ay mayroong higit na mode, samakatuwid, mayroong isang kanang panig na kawalaan ng simetrya.

Kung si As< 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

Ang pamamahagi ay hindi simetriko, ngunit may kaliwang panig na kawalaan ng simetrya.

GAWAIN 2

Ano ang dapat na laki ng sample upang may posibilidad na 0.954 na ang error sa sampling ay hindi lalampas sa 0.04 kung ang pagkakaiba ay nalalaman mula sa mga nakaraang survey na 0.24?

Desisyon

Ang laki ng sample para sa hindi paulit-ulit na sampling ay kinakalkula ng formula:

t - koepisyent ng kumpiyansa (na may posibilidad na 0.954 ito ay katumbas ng 2.0; tinutukoy mula sa mga talahanayan ng mga integral na posibilidad),

y2=0.24 - karaniwang paglihis;

10000 tao - laki ng sample;

Dx =0.04 - marginal error ng sample mean.

Sa probabilidad na 95.4%, maaaring pagtalunan na ang sample size, na nagbibigay ng relatibong error na hindi hihigit sa 0.04, ay dapat na hindi bababa sa 566 na pamilya.

GAWAIN3

Ang sumusunod na data ay magagamit sa kita mula sa pangunahing aktibidad ng negosyo, milyong rubles.

Upang suriin ang isang serye ng mga dinamika, tukuyin ang mga sumusunod na tagapagpahiwatig:

1) chain at basic:

Ganap na mga pakinabang;

Mga rate ng paglago;

Mga rate ng paglago;

2) daluyan

Dynamic na antas ng hanay;

Ganap na paglago;

Rate ng paglago;

Rate ng pagtaas;

3) ang ganap na halaga ng 1% na paglago.

Desisyon

1. ganap na paglaki (Dy)- ito ang pagkakaiba sa pagitan ng susunod na antas ng serye at ng nauna (o basic):

chain: Du \u003d yi - yi-1,

basic: Du \u003d yi - y0,

yi - antas ng hilera,

i - numero ng antas ng hilera,

y0 - antas ng batayang taon.

2. Rate ng paglago (Tu) ay ang ratio ng susunod na antas ng serye at ang nauna (o ang batayang taon 2001):

chain: Tu = ;

basic: Tu =

3. Rate ng paglago (TD) - ito ang ratio ng ganap na paglago sa nakaraang antas, na ipinahayag sa%.

chain: Tu = ;

basic: Tu =

4. Ganap na halaga ng 1% na pagtaas (A)- ay ang ratio ng chain absolute growth sa rate ng paglago, na ipinahayag sa%.

PERO =

antas ng gitnang hilera kinakalkula gamit ang arithmetic mean formula.

Average na antas ng kita mula sa mga pangunahing aktibidad sa loob ng 4 na taon:

Average na ganap na paglago kinakalkula ng formula:

kung saan ang n ay ang bilang ng mga antas sa hilera.

Sa karaniwan, para sa taon, ang kita mula sa mga pangunahing aktibidad ay tumaas ng 3.333 milyong rubles.

Average na taunang rate ng paglago kinakalkula ng geometric mean formula:

уn - ang huling antas ng serye,

y0 - ang unang antas ng serye.

Tu \u003d 100% \u003d 102.174%

Average na taunang rate ng paglago kinakalkula ng formula:

T? \u003d Tu - 100% \u003d 102.74% - 100% \u003d 2.74%.

Kaya, sa karaniwan, para sa taon, ang kita mula sa pangunahing aktibidad ng negosyo ay tumaas ng 2.74%.

MGA GAWAINPERO4

Kalkulahin:

1. Indibidwal na mga indeks ng presyo;

2. Pangkalahatang turnover index;

3. Pinagsama-samang index ng presyo;

4. Pinagsama-samang index ng pisikal na dami ng pagbebenta ng mga kalakal;

5. Ang ganap na pagtaas sa halaga ng turnover at nabubulok ng mga salik (dahil sa mga pagbabago sa mga presyo at bilang ng mga kalakal na naibenta);

6. Gumawa ng maikling konklusyon sa lahat ng mga indicator na nakuha.

Desisyon

1. Ayon sa kondisyon, ang mga indibidwal na indeks ng presyo para sa mga produkto A, B, C ay umabot sa -

ipA=1.20; ipB=1.15; iрВ=1.00.

2. Ang kabuuang turnover index ay kinakalkula ng formula:

I w \u003d \u003d 1470/1045 * 100% \u003d 140.67%

Ang trade turnover ay tumaas ng 40.67% (140.67% -100%).

Sa karaniwan, tumaas ng 10.24% ang presyo ng mga bilihin.

Ang halaga ng mga karagdagang gastos para sa mga mamimili mula sa pagtaas ng presyo:

w(p) = ? p1q1-? p0q1 \u003d 1470 - 1333.478 \u003d 136.522 milyong rubles.

Bilang resulta ng pagtaas ng mga presyo, ang mga mamimili ay kailangang gumastos ng karagdagang 136.522 milyong rubles.

4. Pangkalahatang index ng pisikal na dami ng kalakalan:

Ang pisikal na dami ng kalakalan ay tumaas ng 27.61%.

5. Tukuyin natin ang kabuuang pagbabago sa turnover sa ikalawang yugto kumpara sa unang yugto:

w \u003d 1470- 1045 \u003d 425 milyong rubles.

dahil sa pagbabago ng presyo:

W(p) \u003d 1470 - 1333.478 \u003d 136.522 milyong rubles.

sa pamamagitan ng pagbabago ng pisikal na volume:

w(q) \u003d 1333.478 - 1045 \u003d 288.478 milyong rubles.

Ang turnover ng mga kalakal ay tumaas ng 40.67%. Ang mga presyo sa average para sa 3 mga kalakal ay tumaas ng 10.24%. Ang pisikal na dami ng kalakalan ay tumaas ng 27.61%.

Sa pangkalahatan, ang dami ng mga benta ay tumaas ng 425 milyong rubles, kabilang ang dahil sa pagtaas ng mga presyo, tumaas ito ng 136.522 milyong rubles, at dahil sa pagtaas ng mga volume ng benta - ng 288.478 milyong rubles.

GAWAIN5

Para sa 10 halaman sa isang industriya, available ang sumusunod na data.

Factory No.

Output, libong piraso (X)

Batay sa ibinigay na datos:

I) upang kumpirmahin ang mga probisyon ng lohikal na pagsusuri tungkol sa pagkakaroon ng isang linear na relasyon ng ugnayan sa pagitan ng factor sign (output volume) at ang resultang sign (pagkonsumo ng kuryente), i-plot ang paunang data sa graph ng field ng correlation at gumawa ng mga konklusyon tungkol sa ang anyo ng relasyon, ipahiwatig ang formula nito;

2) tukuyin ang mga parameter ng equation ng koneksyon at i-plot ang resultang teoretikal na linya sa graph ng field ng ugnayan;

3) kalkulahin ang linear correlation coefficient,

4) ipaliwanag ang mga halaga ng mga tagapagpahiwatig na nakuha sa mga talata 2) at 3);

5) gamit ang nakuha na modelo, gumawa ng isang pagtataya tungkol sa posibleng pagkonsumo ng kuryente sa isang planta na may dami ng produksyon na 4.5 libong mga yunit.

Desisyon

Data ng character - ang dami ng output (factor), na tinutukoy ng хi; sign - pagkonsumo ng kuryente (resulta) sa pamamagitan ng ui; Ang mga puntos na may mga coordinate (x, y) ay naka-plot sa field ng ugnayan ng OXY.

Ang mga punto ng patlang ng ugnayan ay matatagpuan sa ilang tuwid na linya. Samakatuwid, ang koneksyon ay linear, hahanapin natin ang equation ng regression sa anyo ng isang tuwid na linya Yx=ax+b. Upang mahanap ito, ginagamit namin ang sistema ng mga normal na equation:

Gumawa tayo ng spreadsheet.

Batay sa mga average na natagpuan, binubuo namin ang system at lutasin ito nang may paggalang sa mga parameter a at b:

Kaya, nakukuha namin ang equation ng regression para sa y sa x: \u003d 3.57692 x + 3.19231

Bumubuo kami ng linya ng regression sa field ng ugnayan.

Ang pagpapalit ng mga halaga ng x mula sa haligi 2 sa equation ng regression, nakuha namin ang mga kinakalkula (kolumna 7) at ihambing ang mga ito sa y data, na makikita sa haligi 8. Sa pamamagitan ng paraan, ang kawastuhan ng mga kalkulasyon ay nakumpirma din sa pamamagitan ng pagkakataon ng mga average na halaga ng y at.

Coefficientlinear na ugnayan sinusuri ang higpit ng ugnayan sa pagitan ng mga tampok na x at y at kinakalkula ng formula

Ang angular coefficient ng direktang regression a (sa x) ay nagpapakilala sa direksyon ng natukoydependenciesmga palatandaan: para sa a>0 sila ay pareho, para sa a<0- противоположны. Ang kanyang ganap halaga - isang sukatan ng pagbabago sa resultang sign kapag ang factorial sign ay nagbabago sa bawat yunit ng pagsukat.

Ang libreng miyembro ng direktang regression ay nagpapakita ng direksyon, at ang ganap na halaga nito - isang dami ng sukat ng impluwensya sa epektibong tanda ng lahat ng iba pang mga kadahilanan.

Kung ang< 0, pagkatapos ay ang mapagkukunan ng kadahilanan na katangian ng isang indibidwal na bagay ay ginagamit na may mas kaunti, at kung kailan>0 kasamamas mataas na pagganap kaysa sa average para sa buong hanay ng mga bagay.

Gumawa tayo ng pagsusuri sa post-regression.

Ang koepisyent sa x ng direktang regression ay 3.57692 > 0, samakatuwid, na may pagtaas (pagbaba) sa output, ang pagkonsumo ng kuryente ay tumataas (bumaba). Pagtaas sa output ng 1 libong piraso. nagbibigay ng average na pagtaas sa konsumo ng kuryente ng 3.57692 thousand kWh.

2. Ang libreng termino ng direktang regression ay katumbas ng 3.19231, samakatuwid, ang impluwensya ng iba pang mga kadahilanan ay nagpapataas ng epekto ng output sa pagkonsumo ng kuryente sa ganap na mga termino ng 3.19231 kWh.

3. Ang koepisyent ng ugnayan na 0.8235 ay nagpapakita ng napakalapit na pagdepende ng pagkonsumo ng kuryente sa output.

Madaling gumawa ng mga hula gamit ang equation ng regression model. Upang gawin ito, ang mga halaga ng x sa dami ng output ay pinapalitan sa equation ng regression at hinuhulaan ang pagkonsumo ng kuryente. Sa kasong ito, ang mga halaga ng x ay maaaring kunin hindi lamang sa loob ng isang naibigay na saklaw, kundi pati na rin sa labas nito.

Gumawa tayo ng forecast tungkol sa posibleng pagkonsumo ng kuryente sa isang planta na may dami ng produksyon na 4.5 thousand units.

3.57692*4.5 + 3.19231= 19.288 45 thousand kWh.

LISTAHAN NG MGA GINAMIT NA PINAGMUMULAN

1. Zakharenkov S.N. Socio-economic statistics: Gabay sa pag-aaral. - Minsk: BSEU, 2002.

2. Efimova M.R., Petrova E.V., Rumyantsev V.N. Pangkalahatang teorya ng istatistika. - M.: INFRA - M., 2000.

3. Eliseeva I.I. Mga istatistika. - M.: Prospekt, 2002.

4. Pangkalahatang teorya ng istatistika / Ed. ed. O.E. Bashina, A.A. Spirin. - M.: Pananalapi at istatistika, 2000.

5. Socio-economic statistics: Textbook.-practice. allowance / Zakharenkov S.N. atbp. - Minsk: YSU, 2004.

6. Socio-economic statistics: Proc. allowance. / Ed. Nesterovich S.R. - Minsk: BSEU, 2003.

7. Teslyuk I.E., Tarlovskaya V.A., Terlizhenko N. Statistics. - Minsk, 2000.

8. Kharchenko L.P. Mga istatistika. - M.: INFRA - M, 2002.

9. Kharchenko L.P., Dolzhenkova V.G., Ionin V.G. Mga istatistika. - M.: INFRA - M, 1999.

10. Mga istatistika ng ekonomiya / Ed. Yu.N. Ivanova - M., 2000.

Naka-host sa Allbest.ru

...

Mga Katulad na Dokumento

    Pagkalkula ng arithmetic mean para sa serye ng pamamahagi ng pagitan. Pagpapasiya ng pangkalahatang indeks ng pisikal na dami ng kalakalan. Pagsusuri ng ganap na pagbabago sa kabuuang halaga ng produksyon dahil sa mga pagbabago sa pisikal na dami. Pagkalkula ng koepisyent ng pagkakaiba-iba.

    pagsubok, idinagdag noong 07/19/2010

    Ang kakanyahan ng pakyawan, tingi at pampublikong kalakalan. Mga formula para sa pagkalkula ng indibidwal, pinagsama-samang mga indeks ng turnover. Pagkalkula ng mga katangian ng serye ng pamamahagi ng agwat - arithmetic mean, mode at median, coefficient of variation.

    term paper, idinagdag noong 05/10/2013

    Pagkalkula ng nakaplano at aktwal na dami ng mga benta, ang porsyento ng plano, ang ganap na pagbabago sa turnover. Pagpapasiya ng ganap na paglago, average na mga rate ng paglago at paglago sa kita ng pera. Pagkalkula ng mga average na istruktura: mga mode, median, quartiles.

    pagsubok, idinagdag noong 02/24/2012

    Interval serye ng pamamahagi ng mga bangko ayon sa dami ng kita. Ang paghahanap ng mode at median ng nakuha na serye ng pamamahagi ng pagitan sa pamamagitan ng isang graphical na pamamaraan at sa pamamagitan ng pagkalkula. Pagkalkula ng mga katangian ng serye ng pamamahagi ng pagitan. Pagkalkula ng arithmetic mean.

    pagsubok, idinagdag noong 12/15/2010

    Mga formula para sa pagtukoy ng mga average na halaga ng serye ng agwat - mga mode, median, mga pagkakaiba-iba. Pagkalkula ng mga analytical indicator ng time series ayon sa chain at basic scheme, growth rate at growth. Ang konsepto ng isang pinagsama-samang index ng gastos, mga presyo, mga gastos at paglilipat.

    term paper, idinagdag noong 02/27/2011

    Ang konsepto at layunin, kaayusan at mga panuntunan para sa pagbuo ng isang variational series. Pagsusuri ng homogeneity ng data sa mga pangkat. Mga indicator ng variation (fluctuation) ng isang katangian. Pagpapasiya ng mean linear at square deviation, oscillation coefficient at variation.

    pagsubok, idinagdag noong 04/26/2010

    Ang konsepto ng mode at median bilang mga tipikal na katangian, ang pagkakasunud-sunod at pamantayan para sa kanilang pagpapasiya. Paghahanap ng mode at median sa isang discrete at interval variation series. Quartile at decile bilang mga karagdagang katangian ng variational statistical series.

    pagsubok, idinagdag noong 09/11/2010

    Pagbubuo ng isang serye ng pagitan ng pamamahagi sa isang batayan ng pagpapangkat. Pagkilala sa paglihis ng pamamahagi ng dalas mula sa simetriko na anyo, pagkalkula ng mga tagapagpahiwatig ng kurtosis at kawalaan ng simetrya. Pagsusuri ng mga tagapagpahiwatig ng balanse o pahayag ng kita.

    control work, idinagdag noong 10/19/2014

    Pagbabago ng empirical series sa discrete at interval. Pagpapasiya ng average na halaga sa isang discrete na serye gamit ang mga katangian nito. Pagkalkula ng isang discrete series ng mga mode, median, variation indicator (dispersion, deviation, oscillation coefficient).

    pagsubok, idinagdag noong 04/17/2011

    Pagbuo ng isang istatistikal na serye ng pamamahagi ng mga organisasyon. Graphical na kahulugan ng halaga ng mode at median. Ang higpit ng ugnayan sa paggamit ng coefficient of determination. Pagpapasiya ng sampling error ng average na bilang ng mga empleyado.

Lab #1

Ayon sa mathematical statistics

Paksa: Pangunahing pagproseso ng pang-eksperimentong data

3. Pagsusuri sa mga puntos. isa

5. Mga tanong sa seguridad.. 2

6. Pamamaraan para sa pagsasagawa ng gawaing laboratoryo .. 3

Layunin

Pagkuha ng mga kasanayan sa pangunahing pagproseso ng empirical na data sa pamamagitan ng mga pamamaraan ng mga istatistika ng matematika.

Sa batayan ng isang set ng pang-eksperimentong data, gawin ang mga sumusunod na gawain:

Ehersisyo 1. Bumuo ng isang serye ng pagkakaiba-iba ng pagitan ng pamamahagi.

Gawain 2. Bumuo ng histogram ng mga frequency ng serye ng pagkakaiba-iba ng pagitan.

Gawain 3. Bumuo ng isang empirical distribution function at plot.

a) mode at median;

b) kondisyonal na mga paunang sandali;

c) sample ibig sabihin;

d) sample na pagkakaiba-iba, naitama ang pagkakaiba-iba ng populasyon, naitama ang karaniwang paglihis;

e) koepisyent ng pagkakaiba-iba;

e) kawalaan ng simetrya;

g) kurtosis;

Gawain 5. Tukuyin ang mga hangganan ng mga tunay na halaga ng mga numerical na katangian ng random na variable sa ilalim ng pag-aaral na may ibinigay na pagiging maaasahan.

Gawain 6. Makabuluhang interpretasyon ng mga resulta ng pangunahing pagproseso ayon sa kondisyon ng problema.

Puntos sa mga puntos

Gawain 1-56 na puntos

Gawain 62 puntos

Proteksyon sa Lab(oral na panayam sa mga tanong sa pagkontrol at gawain sa laboratoryo) - 2 puntos

Ang gawain ay isinumite sa pamamagitan ng pagsulat sa A4 sheet at kasama ang:

1) Pahina ng pamagat (Appendix 1)

2) Paunang data.

3) Pagtatanghal ng trabaho ayon sa tinukoy na sample.

4) Mga resulta ng pagkalkula (manu-manong ginawa at/o gamit ang MS Excel) sa tinukoy na pagkakasunud-sunod.

5) Konklusyon - isang makabuluhang interpretasyon ng mga resulta ng pangunahing pagproseso ayon sa kondisyon ng problema.

6) Oral na panayam sa trabaho at mga tanong sa pagkontrol.



5. Mga tanong sa seguridad


Pamamaraan para sa pagsasagawa ng gawaing laboratoryo

Gawain 1. Bumuo ng isang interval variation series ng distribution

Upang maipakita ang istatistikal na data sa anyo ng isang variational na serye na may pantay na pagitan ng mga variant, ito ay kinakailangan:

1. Sa orihinal na talahanayan ng data, hanapin ang pinakamaliit at pinakamalaking halaga.

2. Tukuyin saklaw ng pagkakaiba-iba :

3. Tukuyin ang haba ng interval h, kung mayroong hanggang 1000 data sa sample, gamitin ang formula: , kung saan n - laki ng sample - ang dami ng data sa sample; Ang lgn ay kinuha para sa mga kalkulasyon).

Ang kinakalkula na ratio ay bilugan hanggang maginhawang halaga ng integer .

4. Upang matukoy ang simula ng unang agwat para sa pantay na bilang ng mga agwat, inirerekomendang kunin ang halaga ; at para sa isang kakaibang bilang ng mga pagitan.

5. Itala ang mga pagitan ng pagpapangkat at ayusin ang mga ito sa pataas na pagkakasunud-sunod ng mga hangganan

, ,………., ,

kung saan ang lower bound ng unang interval. Ang isang maginhawang numero ay kinuha para sa hindi hihigit sa , ang pinakamataas na limitasyon ng huling pagitan ay dapat na hindi bababa sa . Inirerekomenda na ang mga agwat ay naglalaman ng mga paunang halaga ng random na variable at ihiwalay mula sa 5 hanggang 20 mga pagitan.

6. Isulat ang paunang data sa pagitan ng mga pagpapangkat, i.e. kalkulahin mula sa orihinal na talahanayan ang bilang ng mga halaga ng isang random na variable na nasa loob ng tinukoy na mga agwat. Kung ang ilang mga halaga ay nag-tutugma sa mga hangganan ng mga pagitan, pagkatapos ay iuugnay ang mga ito sa nauna o sa kasunod na agwat lamang.

Puna 1. Ang mga agwat ay hindi kailangang pantay-pantay sa haba. Sa mga lugar kung saan ang mga halaga ay mas siksik, mas maginhawang kumuha ng mas maliit na maikling pagitan, at kung saan mas madalas - mas malaki.

Puna 2.Kung para sa ilang mga halaga ay "zero" o maliit na mga halaga ng mga frequency ay nakuha, pagkatapos ay kinakailangan upang muling pangkatin ang data, palakihin ang mga agwat (pagtaas ng hakbang ).

Ang pagkakaroon ng data ng statistical observation na nagpapakilala sa ito o sa hindi pangkaraniwang bagay na iyon, una sa lahat ay kinakailangan upang i-streamline ang mga ito, i.e. gawin itong sistematiko

English statistician. Matalinhagang sinabi ni UjReichman tungkol sa mga hindi nakaayos na pinagsama-samang pagsasama-sama na ang pagharap sa isang masa ng hindi pangkalahatan na data ay katumbas ng isang sitwasyon kapag ang isang tao ay itinapon sa kagubatan nang walang kumpas. Ano ang sistematisasyon ng istatistikal na datos sa anyo ng serye ng pamamahagi?

Ang serye ng pamamahagi ng istatistika ay isang nakaayos na istatistikal na populasyon (Talahanayan 17). Ang pinakasimpleng uri ng serye ng pamamahagi ng istatistika ay isang serye ng ranggo, i.e. isang serye ng mga numero sa pataas o pababang pagkakasunod-sunod na iba't ibang mga palatandaan. Ang ganitong serye ay hindi nagpapahintulot sa amin na hatulan ang mga pattern na likas sa ipinamahagi na data: kung aling halaga ang nakagrupo ng karamihan ng mga tagapagpahiwatig, ano ang mga paglihis mula sa halagang ito; bilang isang pangkalahatang pattern ng pamamahagi. Para sa layuning ito, pinagsama-sama ang data, na nagpapakita kung gaano kadalas nangyayari ang mga indibidwal na obserbasyon sa kanilang kabuuang bilang (Skema 1a 1).

. Talahanayan 17

. Pangkalahatang pagtingin sa serye ng pamamahagi ng istatistika

. Scheme 1. Scheme ng istatistika mga ranggo ng pamamahagi

Ang distribusyon ng mga yunit ng populasyon ayon sa mga katangian na walang quantitative expression ay tinatawag serye ng katangian(halimbawa, ang pamamahagi ng mga negosyo ayon sa kanilang linya ng produksyon)

Ang serye ng pamamahagi ng mga yunit ng populasyon ayon sa mga katangian, ay may isang quantitative expression, ay tinatawag serye ng pagkakaiba-iba. Sa naturang serye, ang halaga ng feature (mga opsyon) ay nasa pataas o pababang pagkakasunod-sunod

Sa serye ng pagkakaiba-iba ng pamamahagi, dalawang elemento ang nakikilala: mga variant at dalas . Pagpipilian- ito ay isang hiwalay na halaga ng tampok na pagpapangkat dalas- isang numero na nagpapakita kung gaano karaming beses nangyayari ang bawat opsyon

Sa mathematical statistics, isa pang elemento ng variational series ang kinakalkula - bahagyang. Ang huli ay tinukoy bilang ang ratio ng dalas ng mga kaso ng isang naibigay na agwat sa kabuuang dami ng mga frequency, ang bahagi ay tinutukoy sa mga fraction ng isang yunit, porsyento (%) sa ppm (% o)

Kaya, ang variational distribution series ay isang serye kung saan ang mga opsyon ay nakaayos sa pataas o pababang pagkakasunud-sunod, ang kanilang mga frequency o frequency ay ipinahiwatig. Ang variational series ay discrete (pererivny) at iba pang mga interval (continuous).

. Discrete variation series- ito ay mga serye ng pamamahagi kung saan ang variant bilang ang halaga ng isang quantitative trait ay maaari lamang tumagal sa isang tiyak na halaga. Ang mga variant ay naiiba sa isa't isa sa pamamagitan ng isa o higit pang mga unit

Kaya, ang bilang ng mga bahagi na ginawa sa bawat shift ng isang partikular na manggagawa ay maaaring ipahayag lamang ng isang tiyak na numero (6, 10, 12, atbp.). Ang isang halimbawa ng isang discrete variation series ay ang pamamahagi ng mga manggagawa ayon sa bilang ng mga bahaging ginawa (Talahanayan 18-18).

. Talahanayan 18

. Discrete na saklaw ng pamamahagi _

. Interval (continuous) variation series- tulad ng serye ng pamamahagi kung saan ang halaga ng mga opsyon ay ibinibigay bilang mga pagitan, i.e. Ang mga halaga ng tampok ay maaaring mag-iba sa bawat isa sa pamamagitan ng isang maliit na halaga. Kapag gumagawa ng variational series ng NEP, imposibleng tukuyin ang bawat halaga ng mga variant, kaya ang set ay ipinamamahagi sa mga pagitan. Ang huli ay maaaring pantay o hindi. Para sa bawat isa sa kanila, ang mga frequency o frequency ay ipinahiwatig (Talahanayan 1 9 19).

Sa serye ng pamamahagi ng agwat na may hindi pantay na agwat, ang mga katangiang pangmatematika tulad ng density ng pamamahagi at kamag-anak na density ng pamamahagi sa isang partikular na agwat ay kinakalkula. Ang unang katangian ay tinutukoy ng ratio ng dalas sa halaga ng parehong pagitan, ang pangalawa - sa pamamagitan ng ratio ng dalas sa halaga ng parehong pagitan. Para sa halimbawa sa itaas, ang density ng pamamahagi sa unang pagitan ay magiging 3: 5 = 0.6, at ang kamag-anak na density sa pagitan na ito ay magiging 7.5: 5 = 1.55%.

. Talahanayan 19

. Serye ng pamamahagi ng pagitan _

Mga istatistika sa matematika- isang sangay ng matematika na nakatuon sa matematikal na mga pamamaraan ng pagproseso, sistematisasyon at paggamit ng istatistikal na data para sa siyentipiko at praktikal na mga konklusyon.

3.1. MGA BATAYANG KONSEPTO NG MATHEMATICAL STATISTICS

Sa mga problemang biomedical, madalas na kinakailangan upang siyasatin ang pamamahagi ng isa o ibang katangian para sa napakalaking bilang ng mga indibidwal. Para sa iba't ibang indibidwal, may ibang kahulugan ang feature na ito, kaya isa itong random variable. Halimbawa, ang anumang therapeutic na gamot ay may iba't ibang bisa kapag inilapat sa iba't ibang mga pasyente. Gayunpaman, upang makakuha ng ideya ng pagiging epektibo ng gamot na ito, hindi kinakailangan na ilapat ito sa lahat may sakit. Posibleng masubaybayan ang mga resulta ng paggamit ng gamot sa isang medyo maliit na grupo ng mga pasyente at, sa batayan ng data na nakuha, upang matukoy ang mga mahahalagang tampok (efficacy, contraindications) ng proseso ng paggamot.

Populasyon- isang hanay ng mga homogenous na elemento na pag-aaralan, na nailalarawan sa pamamagitan ng ilang tampok. Ang tanda na ito ay tuloy-tuloy random variable na may density ng pamamahagi f(x).

Halimbawa, kung interesado tayo sa paglaganap ng isang sakit sa isang partikular na rehiyon, kung gayon ang pangkalahatang populasyon ay ang buong populasyon ng rehiyon. Kung nais nating malaman ang pagkamaramdamin sa sakit na ito ng mga kalalakihan at kababaihan nang hiwalay, dapat isaalang-alang ang dalawang pangkalahatang populasyon.

Upang pag-aralan ang mga katangian ng pangkalahatang populasyon, ang isang tiyak na bahagi ng mga elemento nito ay pinili.

Sampol- bahagi ng pangkalahatang populasyon na pinili para sa pagsusuri (paggamot).

Kung hindi ito nagiging sanhi ng pagkalito, kung gayon ang sample ay tinatawag na koleksyon ng mga bagay pinili para sa pagsusuri, at kabuuan

mga halaga ng katangiang pinag-aaralan, na nakuha sa panahon ng pagsusuri. Ang mga halagang ito ay maaaring ilarawan sa maraming paraan.

Simpleng serye ng istatistika - ang mga halaga ng katangiang pinag-aaralan, na naitala sa pagkakasunud-sunod kung saan sila nakuha.

Ang isang halimbawa ng isang simpleng serye ng istatistika na nakuha sa pamamagitan ng pagsukat ng bilis ng alon sa ibabaw (m/s) sa balat ng noo ng 20 pasyente ay ipinapakita sa Talahanayan. 3.1.

Talahanayan 3.1.Simpleng Statistical Series

Ang isang simpleng serye ng istatistika ay ang pangunahing at pinakakumpletong paraan upang maitala ang mga resulta ng survey. Maaari itong maglaman ng daan-daang elemento. Napakahirap tingnan ang ganoong pinagsama-samang isang sulyap. Samakatuwid, ang malalaking sample ay karaniwang nahahati sa mga grupo. Upang gawin ito, ang lugar ng pagbabago ng katangian ay nahahati sa ilang (N) mga pagitan ng pantay na lapad at kalkulahin ang mga relatibong frequency (n/n) ng feature na nahuhulog sa mga agwat na ito. Ang lapad ng bawat pagitan ay:

Ang mga hangganan ng mga pagitan ay may mga sumusunod na kahulugan:

Kung ang anumang elemento ng sample ay ang hangganan sa pagitan ng dalawang magkatabing pagitan, kung gayon ito ay tinutukoy bilang umalis pagitan. Ang data na nakapangkat sa ganitong paraan ay tinatawag serye ng istatistikal na pagitan.

- ito ay isang talahanayan na nagpapakita ng mga pagitan ng mga halaga ng katangian at ang mga kamag-anak na dalas ng katangian na nahuhulog sa mga pagitan na ito.

Sa aming kaso, maaari naming bumuo, halimbawa, tulad ng isang serye ng istatistika ng pagitan (N = 5, d= 4), tab. 3.2.

Talahanayan 3.2.Interval na serye ng istatistika

Dito, dalawang halaga na katumbas ng 28 ang itinalaga sa pagitan ng 28-32 (Talahanayan 3.1), at ang mga halagang 32, 33, 34 at 35 ay itinalaga sa pagitan ng 32-36.

Maaaring ipakita sa graphical na paraan ang isang serye ng istatistikal na pagitan. Upang gawin ito, ang mga pagitan ng mga halaga ng katangian ay naka-plot sa kahabaan ng abscissa axis, at sa bawat isa sa kanila, bilang batayan, ang isang parihaba ay binuo na may taas na katumbas ng kamag-anak na dalas. Ang resultang bar chart ay tinatawag histogram.

kanin. 3.1. bar graph

Sa histogram, malinaw na nakikita ang mga istatistikal na pattern ng pamamahagi ng tampok.

Sa malaking sample size (ilang libo) at maliit na lapad ng mga column, ang hugis ng histogram ay malapit sa hugis ng graph density ng pamamahagi tanda.

Maaaring piliin ang bilang ng mga column ng histogram gamit ang sumusunod na formula:

Ang paggawa ng histogram nang manu-mano ay isang mahabang proseso. Samakatuwid, ang mga programa sa computer ay binuo para sa kanilang awtomatikong pagtatayo.

3.2. NUMERICAL NA KATANGIAN NG STATISTICAL SERIES

Maraming mga istatistikal na pamamaraan ang gumagamit ng mga sample na pagtatantya para sa mean at variance (o standard deviation) ng populasyon.

sample ibig sabihin(X) ay ang arithmetic mean ng lahat ng elemento ng isang simpleng serye ng istatistika:

Para sa ating halimbawa X= 37.05 (m/s).

Ang sample mean ayang pinakamahusaypagtatantya ng pangkalahatang averageM.

Halimbawang pagkakaiba s 2 ay katumbas ng kabuuan ng mga squared deviations ng mga elemento mula sa sample mean, na hinati ng n- 1:

Sa aming halimbawa, s 2 \u003d 25.2 (m / s) 2.

Pakitandaan na kapag kinakalkula ang sample variance, ang denominator ng formula ay hindi ang sample size n, ngunit n-1. Ito ay dahil sa ang katunayan na kapag kinakalkula ang mga paglihis sa formula (3.3), sa halip na isang hindi kilalang inaasahan sa matematika, ang pagtatantya nito ay ginagamit - sample ibig sabihin.

Ang sample variance ay ang pinakamahusay pagtatantya ng pangkalahatang pagkakaiba (σ 2).

Sample na standard deviation(s) ay ang square root ng sample variance:

Para sa ating halimbawa s= 5.02 (m/s).

pumipili rms ang paglihis ay ang pinakamahusay na pagtatantya ng pangkalahatang RMSE (σ).

Sa walang limitasyong pagtaas sa laki ng sample, ang lahat ng katangian ng sample ay may posibilidad sa mga kaukulang katangian ng pangkalahatang populasyon.

Upang kalkulahin ang mga sample na katangian, ginagamit ang mga formula ng computer. Sa Excel, ang mga kalkulasyon na ito ay gumaganap ng mga statistical function na AVERAGE, VARR. STDEV.

3.3. INTERVAL ESTIMATE

Ang lahat ng sample na katangian ay mga random na variable. Nangangahulugan ito na para sa isa pang sample na may parehong laki, ang mga halaga ng mga katangian ng sample ay magkakaiba. Kaya, pumipili

ang mga katangian ay lamang mga pagtatantya kaugnay na katangian ng pangkalahatang populasyon.

Binabayaran nito ang mga pagkukulang ng piling pagsusuri pagtatantya ng pagitan, kumakatawan pagitan ng numero, sa loob na may ibinigay na posibilidad R d ang tunay na halaga ng tinantyang parameter ay matatagpuan.

Hayaan U r - ilang parameter ng pangkalahatang populasyon (pangkalahatang ibig sabihin, pangkalahatang pagkakaiba, atbp.).

pagtatantya ng pagitan Ang parameter U r ay tinatawag na interval (U 1 , U 2), matugunan ang kondisyon:

P(U < Ur < U2) = Рд. (3.5)

Probability R d tinawag posibilidad ng kumpiyansa.

probabilidad ng kumpiyansa Рd - ang posibilidad na ang tunay na halaga ng tinantyang dami ay sa loob ang tinukoy na pagitan.

Kasabay nito, ang pagitan (U 1 , U 2) tinawag agwat ng kumpiyansa para sa tinantyang parameter.

Kadalasan, sa halip na probabilidad ng kumpiyansa, ang nauugnay na halaga α = 1 - R d, na tinatawag lebel ng kahalagahan.

Lebel ng kahalagahan ay ang posibilidad na ang tunay na halaga ng tinantyang parameter ay sa labas agwat ng kumpiyansa.

Minsan ang α at R d ay ipinahayag bilang isang porsyento, halimbawa, 5% sa halip na 0.05 at 95% sa halip na 0.95.

Sa pagtatantya ng pagitan, piliin muna ang naaangkop antas ng kumpiyansa(karaniwan ay 0.95 o 0.99), at pagkatapos ay hanapin ang kaukulang pagitan ng mga halaga ng tinantyang parameter.

Napansin namin ang ilang pangkalahatang katangian ng mga pagtatantya ng agwat.

1. Mas mababa ang antas ng kahalagahan (mas marami R d), mas malawak ang pagtatantya ng pagitan. Kaya, kung sa antas ng kahalagahan na 0.05 ang pagtatantya ng pagitan ng pangkalahatang ibig sabihin ay 34.7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Mas malaki ang sample size n, mas makitid ang pagtatantya ng pagitan sa napiling antas ng kahalagahan. Hayaan, halimbawa, 5 ang porsyento na pagtatantya ng pangkalahatang average (β=0.05) na nakuha mula sa isang sample ng 20 item, pagkatapos ay 34.7< M< 39,4.

Sa pamamagitan ng pagtaas ng sample size sa 80, makakakuha tayo ng mas tumpak na pagtatantya sa parehong antas ng kahalagahan: 35.5< M< 38,6.

Sa pangkalahatang kaso, ang pagbuo ng mga mapagkakatiwalaang pagtatantya ng kumpiyansa ay nangangailangan ng kaalaman sa batas ayon sa kung saan ang tinantyang random na tampok ay ipinamamahagi sa pangkalahatang populasyon. Isaalang-alang kung paano binuo ang pagtatantya ng pagitan pangkalahatang average katangian, na ipinamahagi sa pangkalahatang populasyon ayon sa normal batas.

3.4. INTERVAL ESTIMATE NG PANGKALAHATANG MEAN PARA SA NORMAL DISTRIBUTION LAW

Ang pagbuo ng isang pagtatantya ng pagitan ng pangkalahatang mean M para sa isang pangkalahatang populasyon na may normal na batas sa pamamahagi ay batay sa sumusunod na ari-arian. Para sa volume sampling n saloobin

sumusunod sa pamamahagi ng Mag-aaral na may bilang ng antas ng kalayaan ν = n- 1.

Dito X ay ang sample mean, at s- pumipili na karaniwang paglihis.

Gamit ang mga talahanayan ng pamamahagi ng Mag-aaral o ang kanilang computer analogue, mahahanap ng isang tao ang ganoong halaga ng hangganan na may ibinigay na posibilidad ng kumpiyansa ang sumusunod na hindi pagkakapantay-pantay ay nasiyahan:

Ang hindi pagkakapantay-pantay na ito ay tumutugma sa hindi pagkakapantay-pantay para sa M:

saan Ang ε ay ang kalahating lapad ng agwat ng kumpiyansa.

Kaya, ang pagbuo ng isang agwat ng kumpiyansa para sa M ay isinasagawa sa sumusunod na pagkakasunud-sunod.

1. Piliin ang probabilidad ng kumpiyansa P d (karaniwan ay 0.95 o 0.99) at para dito, ayon sa talahanayan ng pamamahagi ng Mag-aaral, ang parameter t ay matatagpuan

2. Kalkulahin ang kalahating lapad ng pagitan ng kumpiyansa ε:

3. Ang pagtatantya ng agwat ng pangkalahatang average ay nakuha gamit ang napiling posibilidad ng kumpiyansa:

Sa madaling sabi ito ay nakasulat tulad nito:

Ang mga pamamaraan ng computer ay binuo upang makahanap ng mga pagtatantya ng pagitan.

Ipaliwanag natin kung paano gamitin ang talahanayan ng pamamahagi ng Mag-aaral. Ang talahanayang ito ay may dalawang "mga pasukan": ang kaliwang hanay, na tinatawag na bilang ng mga antas ng kalayaan ν = n- 1, at ang pinakamataas na hilera ay ang antas ng kahalagahan α. Sa intersection ng kaukulang row at column, makikita ang student's coefficient t.

Ilapat natin ang pamamaraang ito sa ating sample. Ang isang fragment ng talahanayan ng pamamahagi ng Mag-aaral ay ipinakita sa ibaba.

Talahanayan 3.3. Fragment ng talahanayan ng pamamahagi ng Mag-aaral

Isang simpleng serye ng istatistika para sa isang sample ng 20 tao (n= 20, ν =19) ay ipinakita sa Talahanayan. 3.1. Para sa seryeng ito, ang mga kalkulasyon gamit ang mga formula (3.1-3.3) ay nagbibigay ng: X= 37,05; s= 5,02.

Pumili tayo α = 0.05 (P d = 0.95). Sa intersection ng row "19" at column "0.05" nakita namin t= 2,09.

Kalkulahin natin ang katumpakan ng pagtatantya sa pamamagitan ng formula (3.6): ε = 2.09?5.02/λ /20 = 2.34.

Bumuo tayo ng pagtatantya ng pagitan: na may posibilidad na 95%, ang hindi kilalang pangkalahatang ibig sabihin ay nakakatugon sa hindi pagkakapantay-pantay:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37.05 ± 2.34 (m/s), Р d = 0.95.

3.5. MGA PARAAN PARA SA PAGPAPATUNAY NG MGA STATISTICAL HYPOTHESES

Mga statistic na hypotheses

Bago bumalangkas kung ano ang istatistikal na hypothesis, isaalang-alang ang sumusunod na halimbawa.

Upang ihambing ang dalawang paraan ng paggamot sa isang tiyak na sakit, dalawang grupo ng mga pasyente ng 20 katao bawat isa ang napili, ang paggamot kung saan ay isinasagawa ayon sa mga pamamaraang ito. Para sa bawat pasyente, a ang bilang ng mga pamamaraan na sinusundan ng isang positibong epekto. Ayon sa mga datos na ito, para sa bawat pangkat, nakakita kami ng sample na ibig sabihin (X), mga pagkakaiba-iba ng sample (s 2) at sample ng RMS (s).

Ang mga resulta ay ipinakita sa talahanayan. 3.4.

Talahanayan 3.4

Ang bilang ng mga pamamaraan na kinakailangan upang makakuha ng positibong epekto ay isang random na variable, ang lahat ng impormasyon tungkol sa kung saan ay kasalukuyang nakapaloob sa sample sa itaas.

Mula sa Table. Ipinapakita ng 3.4 na ang sample mean sa unang pangkat ay mas mababa kaysa sa pangalawa. Nangangahulugan ba ito na pareho ang ratio para sa mga pangkalahatang average: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает istatistikal na pagsubok ng mga hypotheses.

Istatistikong hypothesis- ito ay isang palagay tungkol sa mga katangian ng mga populasyon.

Isasaalang-alang namin ang mga hypotheses tungkol sa mga katangian dalawa pangkalahatang populasyon.

Kung ang mga populasyon ay may kilala, pareho distribusyon ng halagang tinatantya, at ang mga pagpapalagay ay may kinalaman sa mga dami ilang parameter ang pamamahagi na ito, pagkatapos ay tinatawag ang mga hypotheses parametric. Halimbawa, ang mga sample ay kinukuha mula sa mga populasyon na may normal na batas distribusyon at pantay na pagkakaiba. Ito ay kinakailangan upang malaman ay pareho ang pangkalahatang average ng mga populasyon na ito.

Kung walang nalalaman tungkol sa mga batas ng pamamahagi ng mga pangkalahatang populasyon, kung gayon ang mga hypotheses tungkol sa kanilang mga ari-arian ay tinatawag nonparametric. Halimbawa, ay pareho ang mga batas sa pamamahagi ng mga populasyon kung saan kinukuha ang mga sample.

Null at alternatibong hypotheses.

Ang gawain ng pagsubok ng mga hypotheses. Lebel ng kahalagahan

Kilalanin natin ang mga terminolohiya na ginagamit sa pagsusuri ng hypothesis.

H 0 - null hypothesis (skeptic hypothesis) - isa itong hypothesis tungkol sa walang pagkakaiba sa pagitan ng mga inihambing na sample. Ang may pag-aalinlangan ay naniniwala na ang mga pagkakaiba sa pagitan ng mga sample na pagtatantya na nakuha mula sa mga resulta ng pananaliksik ay random;

H 1- isang alternatibong hypothesis (ang optimist's hypothesis) ay isang hypothesis tungkol sa pagkakaroon ng mga pagkakaiba sa pagitan ng mga inihambing na sample. Naniniwala ang optimist na ang mga pagkakaiba sa pagitan ng mga sample na pagtatantya ay sanhi ng mga layuning dahilan at tumutugma sa mga pagkakaiba sa pangkalahatang populasyon.

Ang pagsubok ng mga istatistikal na hypotheses ay magagawa lamang kapag ang mga elemento ng pinaghahambing na mga sample ay maaaring gamitin upang bumuo ng ilan halaga(criterion), ang batas sa pamamahagi kung saan sa kaso ng pagiging patas H 0 kilala. Pagkatapos, para sa dami na ito, maaaring tukuyin ng isa agwat ng kumpiyansa, kung saan may ibinigay na posibilidad R d nakukuha ang halaga nito. Ang agwat na ito ay tinatawag kritikal na lugar. Kung ang halaga ng criterion ay bumaba sa kritikal na rehiyon, kung gayon ang hypothesis ay tinatanggap H 0 . Kung hindi, ang hypothesis H 1 ay tinatanggap.

Sa medikal na pananaliksik, P d = 0.95 o P d = 0.99 ang ginagamit. Ang mga halagang ito ay tumutugma mga antas ng kahalagahanα = 0.05 o α = 0.01.

Kapag sinusubukan ang mga istatistikal na hypotheseslebel ng kahalagahan(α) ay ang posibilidad na tanggihan ang null hypothesis kapag ito ay totoo.

Tandaan na, sa kaibuturan nito, ang pamamaraan ng pagsusuri ng hypothesis ay naglalayong pagtuklas ng pagkakaiba, hindi para kumpirmahin ang kanilang kawalan. Kapag ang criterion value ay lumampas sa critical area, masasabi nating “skeptic” na may dalisay na puso - well, ano pa ang gusto mo ?! Kung walang mga pagkakaiba, pagkatapos ay may posibilidad na 95% (o 99%) ang kinakalkula na halaga ay nasa loob ng tinukoy na mga limitasyon. Kaya hindi!..

Well, kung ang halaga ng criterion ay nahuhulog sa kritikal na rehiyon, kung gayon walang dahilan upang maniwala na ang hypothesis H 0 ay tama. Ito ay malamang na tumuturo sa isa sa dalawang posibleng dahilan.

1. Hindi sapat ang laki ng mga sample upang makita ang mga pagkakaiba. Malamang na ang patuloy na pag-eeksperimento ay magdadala ng tagumpay.

2. May mga pagkakaiba. Ngunit ang mga ito ay napakaliit na ang mga ito ay walang praktikal na kahalagahan. Sa kasong ito, ang pagpapatuloy ng mga eksperimento ay walang saysay.

Magpatuloy tayo upang isaalang-alang ang ilan sa mga istatistikal na hypotheses na ginamit sa medikal na pananaliksik.

3.6. PAGSUSULIT NG HYPOTHESES SA EQUALITY OF VARIANCES, FISHER F-CRITERION

Sa ilang mga klinikal na pag-aaral, ang isang positibong epekto ay hindi gaanong napatunayan ng magnitude parameter sa ilalim ng pag-aaral, kung magkano pagpapapanatag, pagbabawas ng mga pagbabagu-bago nito. Sa kasong ito, ang tanong ay lumitaw sa paghahambing ng dalawang pangkalahatang pagkakaiba-iba batay sa mga resulta ng isang sample na survey. Maaaring malutas ang gawaing ito gamit ang Ang pamantayan ni Fisher.

Pagbubuo ng problema

normal na batas pamamahagi. Mga sample na laki -

n 1 at n2, a mga pagkakaiba-iba ng sample pantay s 1 at s 2 2 pangkalahatang pagkakaiba-iba.

Mga nasubok na hypotheses:

H 0- pangkalahatang pagkakaiba-iba ay pareho;

H 1- pangkalahatang pagkakaiba-iba magkaiba.

Ipinapakita kung ang mga sample ay nakuha mula sa mga populasyon na may normal na batas distribusyon, kung gayon kung totoo ang hypothesis H 0 ang ratio ng sample variances ay sumusunod sa Fisher distribution. Samakatuwid, bilang isang pamantayan para sa pagsubok ng bisa H 0 kinukuha ang halaga F, kinakalkula ng formula:

saan s 1 at s 2 - mga pagkakaiba-iba ng sample.

Ang ratio na ito ay sumusunod sa pamamahagi ng Fisher na may bilang ng mga antas ng kalayaan ng numerator ν 1 = n 1- 1 at ang bilang ng mga antas ng kalayaan ng denominator ν 2 = n 2 - 1. Ang mga hangganan ng kritikal na rehiyon ay matatagpuan ayon sa mga talahanayan ng pamamahagi ni Fisher o gamit ang computer function na BRASPOBR.

Para sa halimbawang ipinakita sa Talahanayan. 3.4, nakukuha namin ang: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; F= 2.16/4.05 = 0.53. Sa α = 0.05, ang mga hangganan ng kritikal na rehiyon ay pantay, ayon sa pagkakabanggit: = 0.40, = 2.53.

Ang halaga ng criterion ay nahulog sa kritikal na rehiyon, kaya tinatanggap ang hypothesis H 0: pangkalahatang mga pagkakaiba-iba ng sample ay pareho.

3.7. PAGSUSULIT NG HYPOTHESIS TUNGKOL SA EQUALITY OF AVERAGES, t-test ng MAG-AARAL

Problema sa paghahambing daluyan dalawang pangkalahatang populasyon ang lumitaw kapag ito ay ang magnitude ang katangiang pinag-aaralan. Halimbawa, kapag inihambing ang tagal ng paggamot sa dalawang magkaibang pamamaraan o ang bilang ng mga komplikasyon na nagmumula sa kanilang paggamit. Sa kasong ito, maaaring gamitin ang t-test ng Mag-aaral.

Pagbubuo ng problema

Dalawang sample (X 1 ) at (X 2 ) ang nakuha mula sa mga populasyon na may normal na batas pamamahagi at ang parehong pagpapakalat. Mga sample na laki - n 1 at n 2, sample ibig sabihin ay katumbas ng X 1 at X 2, at mga pagkakaiba-iba ng sample- s 1 2 at s 2 2 ayon sa pagkakabanggit. Kailangang ikumpara pangkalahatang mga average.

Mga nasubok na hypotheses:

H 0- pangkalahatang mga average ay pareho;

H 1- pangkalahatang mga average magkaiba.

Ito ay ipinapakita na kung ang hypothesis ay totoo H 0 ang halaga ng t, na kinakalkula ng formula:

ipinamahagi ayon sa batas ng Mag-aaral na may bilang ng mga antas ng kalayaan ν = ν 1 + + ν2 - 2.

Dito kung saan ν 1 = n 1 - 1 - bilang ng mga antas ng kalayaan para sa unang sample; v2 = n 2 - 1 - ang bilang ng mga antas ng kalayaan para sa pangalawang sample.

Ang mga hangganan ng kritikal na rehiyon ay matatagpuan mula sa mga talahanayan ng t-distribution o gamit ang computer function na STUDRASP. Ang distribusyon ng Mag-aaral ay simetriko tungkol sa zero, kaya ang kaliwa at kanang mga hangganan ng kritikal na rehiyon ay pareho sa ganap na halaga at magkasalungat sa sign: -at

Para sa halimbawang ipinakita sa Talahanayan. 3.4, nakukuha namin ang:

v 1 \u003d v 2 \u003d 20 - 1 \u003d 19; v = 38, t= -2.51. May α = 0.05 = 2.02.

Ang halaga ng pamantayan ay lumampas sa kaliwang hangganan ng kritikal na rehiyon, kaya tinatanggap namin ang hypothesis H 1: pangkalahatang mga average magkaiba. Kasabay nito, ang average ng pangkalahatang populasyon unang sample MAS MALIIT.

Applicability ng Student's t-test

Ang t-test ng mag-aaral ay nalalapat lamang sa mga sample mula sa normal pinagsama-samang may ang parehong mga pangkalahatang pagkakaiba-iba. Kung hindi bababa sa isa sa mga kundisyon ang nilabag, kung gayon ang applicability ng criterion ay nagdududa. Ang pangangailangan ng normalidad ng pangkalahatang populasyon ay karaniwang binabalewala, na tumutukoy sa Central limit theorem. Sa katunayan, ang pagkakaiba sa sample ay nangangahulugan, na nasa numerator (3.10), ay maaaring ituring na normal na ibinahagi para sa ν > 30. Ngunit ang tanong ng pagkakapantay-pantay ng mga pagkakaiba ay hindi napapailalim sa pagpapatunay, at mga sanggunian sa katotohanan na ang Fisher Ang pagsubok ay hindi nakakita ng mga pagkakaiba ay hindi maaaring isaalang-alang. Gayunpaman, ang t-test ay malawakang ginagamit upang makita ang mga pagkakaiba sa ibig sabihin ng populasyon, kahit na walang sapat na ebidensya.

Sa ibaba ay isinasaalang-alang nonparametric criterion, na matagumpay na ginagamit para sa parehong mga layunin at hindi nangangailangan ng anuman normalidad, hindi rin pagkakapantay-pantay ng mga pagkakaiba-iba.

3.8. NONPARAMETRIC COMPARISON NG DALAWANG SAMPLE: ANG MANN-WHITNEY TEST

Ang nonparametric na pamantayan ay idinisenyo upang makita ang mga pagkakaiba sa mga batas ng pamamahagi ng dalawang pangkalahatang populasyon. Pamantayan na sensitibo sa mga pagkakaiba sa pangkalahatan daluyan, tinatawag na pamantayan shift. Pamantayan na sensitibo sa mga pagkakaiba sa pangkalahatan pagpapakalat, tinatawag na pamantayan sukat. Ang pagsusulit ng Mann-Whitney ay tumutukoy sa pamantayan gupitin at ginagamit upang makita ang mga pagkakaiba sa paraan ng dalawang populasyon, kung saan ipinakita ang mga sample sa iskala ng pagraranggo. Ang mga sinusukat na palatandaan ay matatagpuan sa sukat na ito sa pataas na pagkakasunud-sunod, at pagkatapos ay binibilangan ng mga integer 1, 2 ... Ang mga numerong ito ay tinatawag mga ranggo. Ang mga pantay na halaga ay itinalaga sa parehong mga ranggo. Hindi ang halaga ng katangian mismo ang mahalaga, ngunit lamang ordinal na lugar, na sinasakop nito bukod sa iba pang mga halaga.

Sa mesa. 3.5. ang unang pangkat mula sa talahanayan 3.4 ay ipinakita sa pinalawak na anyo (hilera 1), sumailalim sa ranggo (hanay 2), at pagkatapos ay ang mga ranggo ng parehong mga halaga ay pinalitan ng mga arithmetic mean na halaga. Halimbawa, ang mga elemento 4 at 4 sa unang hilera ay binigyan ng mga ranggo 2 at 3, na pagkatapos ay pinalitan ng parehong mga halaga ng 2.5.

Talahanayan 3.5

Pagbubuo ng problema

Mga independiyenteng sample (X 1) at (X 2) kinuha mula sa mga populasyon na may hindi kilalang mga batas sa pamamahagi. Mga laki ng sample n 1 at n 2 ayon sa pagkakabanggit. Ang mga halaga ng mga elemento ng mga sample ay ipinakita sa iskala ng pagraranggo. Kinakailangang suriin kung ang mga pangkalahatang populasyon na ito ay naiiba sa bawat isa?

Mga nasubok na hypotheses:

H 0- ang mga sample ay nabibilang sa parehong pangkalahatang populasyon; H 1- ang mga sample ay nabibilang sa iba't ibang pangkalahatang populasyon.

Upang subukan ang mga naturang hypotheses, ang (/-Mann-Whitney test ay ginagamit.

Una, ang isang pinagsamang sample (X) ay ginawa mula sa dalawang sample, na ang mga elemento ay niraranggo. Pagkatapos ay matatagpuan ang kabuuan ng mga ranggo na tumutugma sa mga elemento ng unang sample. Ang kabuuan na ito ay ang criterion para sa pagsubok ng mga hypotheses.

U= Ang kabuuan ng mga ranggo ng unang sample. (3.11)

Para sa mga independiyenteng sample na mas malaki sa 20, ang halaga U sumusunod sa isang normal na distribusyon, ang inaasahan sa matematika at karaniwang paglihis nito ay katumbas ng:

Samakatuwid, ang mga hangganan ng kritikal na rehiyon ay matatagpuan ayon sa normal na mga talahanayan ng pamamahagi.

Para sa halimbawang ipinakita sa Talahanayan. 3.4, nakukuha namin: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, U= 339, μ = 410, σ = 37. Para sa α = 0.05 makuha natin: parehong kaliwa = 338 at kanan = 482.

Ang halaga ng criterion ay lumampas sa kaliwang hangganan ng kritikal na rehiyon, kaya tinatanggap ang hypothesis H 1: ang mga pangkalahatang populasyon ay may iba't ibang batas sa pamamahagi. Kasabay nito, ang average ng pangkalahatang populasyon unang sample MAS MALIIT.

Kapag nagpoproseso ng malaking halaga ng impormasyon, na kung saan ay lalong mahalaga kapag nagsasagawa ng mga modernong pang-agham na pag-unlad, ang mananaliksik ay nahaharap sa seryosong gawain ng wastong pagpapangkat ng paunang data. Kung ang data ay discrete, kung gayon, tulad ng nakita natin, walang mga problema - kailangan mo lamang kalkulahin ang dalas ng bawat tampok. Kung ang katangiang pinag-aaralan ay may tuloy-tuloy character (na mas karaniwan sa pagsasanay), kung gayon ang pagpili ng pinakamainam na bilang ng mga agwat para sa pagpapangkat ng isang tampok ay hindi nangangahulugang isang maliit na gawain.

Upang ipangkat ang tuluy-tuloy na mga random na variable, ang buong hanay ng variation ng tampok ay nahahati sa isang tiyak na bilang ng mga agwat sa.

Pinagsamang pagitan (tuloy-tuloy) serye ng pagkakaiba-iba tinatawag na mga agwat na niraranggo ayon sa halaga ng tampok (), kung saan ipinahiwatig kasama ng kaukulang mga frequency () ang bilang ng mga obserbasyon na nahulog sa r "th interval, o mga relatibong frequency ():

Mga agwat ng halaga ng katangian

dalas ng mi

bar graph at pinagsama-sama (ogiva), na tinalakay na namin nang detalyado, ay isang mahusay na tool sa visualization ng data na nagbibigay-daan sa iyong makakuha ng pangunahing pag-unawa sa istruktura ng data. Ang ganitong mga graph (Larawan 1.15) ay binuo para sa tuluy-tuloy na data sa parehong paraan tulad ng para sa discrete data, isinasaalang-alang lamang ang katotohanan na ang tuluy-tuloy na data ay ganap na pinupuno ang lugar ng mga posibleng halaga nito, na kumukuha ng anumang mga halaga.

kanin. 1.15.

Kaya ang mga hanay sa histogram at ang pinagsama-samang dapat ay nasa contact, walang mga lugar kung saan ang mga halaga ng katangian ay hindi nasa loob ng lahat ng posibleng(i.e., ang histogram at cumulate ay hindi dapat magkaroon ng "mga butas" sa kahabaan ng abscissa axis, kung saan ang mga halaga ng variable na pinag-aaralan ay hindi bumabagsak, tulad ng sa Fig. 1.16). Ang taas ng bar ay tumutugma sa dalas - ang bilang ng mga obserbasyon na nahuhulog sa ibinigay na agwat, o ang kamag-anak na dalas - ang proporsyon ng mga obserbasyon. Mga pagitan hindi dapat tumawid at kadalasan ay pareho ang lapad.

kanin. 1.16.

Ang histogram at ang polygon ay mga pagtatantya ng probability density curve (differential function) f(x) theoretical distribution, na isinasaalang-alang sa kurso ng probability theory. Samakatuwid, ang kanilang pagtatayo ay napakahalaga sa pangunahing pagpoproseso ng istatistika ng dami ng tuluy-tuloy na data - sa pamamagitan ng kanilang anyo ay maaaring hatulan ng isa ang hypothetical distribution law.

Cumulate - ang kurba ng mga naipon na frequency (frequencies) ng serye ng pagkakaiba-iba ng pagitan. Ang graph ng integral distribution function ay inihambing sa cumulate F(x), isinasaalang-alang din sa kurso ng teorya ng posibilidad.

Karaniwan, ang mga konsepto ng histogram at cumulates ay tiyak na nauugnay sa tuluy-tuloy na data at ang kanilang mga serye ng pagkakaiba-iba ng pagitan, dahil ang kanilang mga graph ay mga empirical na pagtatantya ng probability density function at distribution function, ayon sa pagkakabanggit.

Ang pagbuo ng isang serye ng pagkakaiba-iba ng pagitan ay nagsisimula sa pagtukoy sa bilang ng mga pagitan k. At ang gawaing ito ay marahil ang pinakamahirap, mahalaga at kontrobersyal sa isyung pinag-aaralan.

Ang bilang ng mga pagitan ay hindi dapat masyadong maliit, dahil ang histogram ay magiging masyadong makinis ( oversmoothed), nawawala ang lahat ng mga tampok ng pagkakaiba-iba ng paunang data - sa Fig. 1.17 makikita mo kung paano ang parehong data kung saan ang mga graph ng Fig. 1.15 ay ginagamit upang bumuo ng histogram na may mas maliit na bilang ng mga pagitan (kaliwang graph).

Kasabay nito, ang bilang ng mga agwat ay hindi dapat masyadong malaki - kung hindi, hindi namin matantya ang density ng pamamahagi ng data na pinag-aaralan kasama ang numerical axis: ang histogram ay magiging undersmoothed (undersmooth) na may mga hindi napunong pagitan, hindi pantay (tingnan ang Fig. 1.17, kanang graph).

kanin. 1.17.

Paano matukoy ang pinakagustong bilang ng mga pagitan?

Noong 1926, iminungkahi ni Herbert Sturges ang isang pormula para sa pagkalkula ng bilang ng mga agwat kung saan kinakailangan upang hatiin ang paunang hanay ng mga halaga ng pinag-aralan na katangian. Ang formula na ito ay talagang naging napakasikat - karamihan sa mga istatistikal na aklat-aralin ay nag-aalok nito, at maraming mga istatistikal na pakete ang gumagamit nito bilang default. Kung ito ay makatwiran at sa lahat ng kaso ay isang napakaseryosong tanong.

Kaya ano ang batayan ng formula ng Sturges?

Isaalang-alang ang binomial distribution )