Agwat ng kumpiyansa para sa inaasahan sa matematika. Mga sample at agwat ng kumpiyansa

Agwat ng kumpiyansa para sa inaasahan sa matematika - ito ay isang agwat na kinakalkula mula sa data na, na may kilalang probabilidad, ay naglalaman ng mathematical na inaasahan ng pangkalahatang populasyon. Ang natural na pagtatantya para sa mathematical na inaasahan ay ang arithmetic mean ng mga naobserbahang halaga nito. Samakatuwid, sa buong aralin ay gagamitin natin ang mga katagang "average" at "average na halaga". Sa mga problema sa pagkalkula ng agwat ng kumpiyansa, ang isang sagot na kadalasang kinakailangan ay tulad ng "Ang agwat ng kumpiyansa ng average na numero [halaga sa isang partikular na problema] ay mula sa [mas maliit na halaga] hanggang sa [mas malaking halaga]." Gamit ang isang agwat ng kumpiyansa, maaari mong suriin hindi lamang ang mga average na halaga, kundi pati na rin ang proporsyon ng isang partikular na katangian ng pangkalahatang populasyon. Ang mga average na halaga, dispersion, standard deviation at error, kung saan makakarating tayo sa mga bagong kahulugan at formula, ay tinalakay sa aralin Mga katangian ng sample at populasyon .

Mga pagtatantya ng punto at pagitan ng mean

Kung ang average na halaga ng populasyon ay tinatantya ng isang numero (punto), kung gayon ang isang tiyak na average, na kinakalkula mula sa isang sample ng mga obserbasyon, ay kinuha bilang isang pagtatantya ng hindi kilalang average na halaga ng populasyon. Sa kasong ito, ang halaga ng sample mean - isang random na variable - ay hindi tumutugma sa mean na halaga ng pangkalahatang populasyon. Samakatuwid, kapag ipinapahiwatig ang ibig sabihin ng sample, dapat mong sabay na ipahiwatig ang error sa sampling. Ang sukat ng error sa sampling ay ang karaniwang error, na ipinahayag sa parehong mga yunit bilang ang ibig sabihin. Samakatuwid, ang sumusunod na notasyon ay kadalasang ginagamit: .

Kung ang pagtatantya ng average ay kailangang maiugnay sa isang tiyak na posibilidad, kung gayon ang parameter ng interes sa populasyon ay dapat na tasahin hindi sa pamamagitan ng isang numero, ngunit sa pamamagitan ng isang pagitan. Ang agwat ng kumpiyansa ay isang agwat kung saan, na may tiyak na posibilidad P matatagpuan ang halaga ng tinantyang indicator ng populasyon. Ang pagitan ng kumpiyansa kung saan ito ay malamang P = 1 - α ang random na variable ay matatagpuan, kinakalkula tulad ng sumusunod:

,

α = 1 - P, na makikita sa apendiks sa halos anumang aklat sa mga istatistika.

Sa pagsasagawa, hindi alam ang ibig sabihin at pagkakaiba ng populasyon, kaya ang pagkakaiba ng populasyon ay pinapalitan ng sample na variance, at ang ibig sabihin ng populasyon ng sample mean. Kaya, ang agwat ng kumpiyansa sa karamihan ng mga kaso ay kinakalkula tulad ng sumusunod:

.

Ang formula ng confidence interval ay maaaring gamitin upang tantyahin ang ibig sabihin ng populasyon kung

  • ang karaniwang paglihis ng populasyon ay kilala;
  • o ang karaniwang paglihis ng populasyon ay hindi alam, ngunit ang laki ng sample ay higit sa 30.

Ang sample mean ay isang walang pinapanigan na pagtatantya ng average ng populasyon. Sa turn, ang sample variance ay hindi isang walang pinapanigan na pagtatantya ng pagkakaiba-iba ng populasyon. Upang makakuha ng walang pinapanigan na pagtatantya ng pagkakaiba-iba ng populasyon sa sample na formula ng pagkakaiba, laki ng sample n dapat palitan ng n-1.

Halimbawa 1. Ang impormasyon ay nakolekta mula sa 100 random na napiling mga cafe sa isang tiyak na lungsod na ang average na bilang ng mga empleyado sa kanila ay 10.5 na may karaniwang paglihis na 4.6. Tukuyin ang 95% confidence interval para sa bilang ng mga empleyado ng cafe.

nasaan ang kritikal na halaga ng karaniwang normal na distribusyon para sa antas ng kabuluhan α = 0,05 .

Kaya, ang 95% confidence interval para sa average na bilang ng mga empleyado ng cafe ay mula 9.6 hanggang 11.4.

Halimbawa 2. Para sa isang random na sample mula sa isang populasyon ng 64 na mga obserbasyon, ang mga sumusunod na kabuuang halaga ay kinakalkula:

kabuuan ng mga halaga sa mga obserbasyon,

kabuuan ng mga squared deviations ng mga halaga mula sa mean .

Kalkulahin ang 95% na agwat ng kumpiyansa para sa inaasahan sa matematika.

Kalkulahin natin ang karaniwang paglihis:

,

Kalkulahin natin ang average na halaga:

.

Pinapalitan namin ang mga halaga sa expression para sa agwat ng kumpiyansa:

nasaan ang kritikal na halaga ng karaniwang normal na distribusyon para sa antas ng kabuluhan α = 0,05 .

Nakukuha namin:

Kaya, ang 95% na agwat ng kumpiyansa para sa inaasahan ng matematika ng sample na ito ay mula 7.484 hanggang 11.266.

Halimbawa 3. Para sa random na sample ng populasyon ng 100 obserbasyon, ang kinakalkula na mean ay 15.2 at ang standard deviation ay 3.2. Kalkulahin ang 95% confidence interval para sa inaasahang halaga, pagkatapos ay ang 99% confidence interval. Kung ang sample power at ang variation nito ay mananatiling hindi nagbabago at ang confidence coefficient ay tumaas, magpapaliit ba o lalawak ang confidence interval?

Pinapalitan namin ang mga halagang ito sa expression para sa agwat ng kumpiyansa:

nasaan ang kritikal na halaga ng karaniwang normal na distribusyon para sa antas ng kabuluhan α = 0,05 .

Nakukuha namin:

.

Kaya, ang 95% na agwat ng kumpiyansa para sa mean ng sample na ito ay mula 14.57 hanggang 15.82.

Muli naming pinapalitan ang mga halagang ito sa expression para sa agwat ng kumpiyansa:

nasaan ang kritikal na halaga ng karaniwang normal na distribusyon para sa antas ng kabuluhan α = 0,01 .

Nakukuha namin:

.

Kaya, ang 99% na agwat ng kumpiyansa para sa mean ng sample na ito ay mula 14.37 hanggang 16.02.

Tulad ng nakikita natin, habang tumataas ang koepisyent ng kumpiyansa, tumataas din ang kritikal na halaga ng karaniwang normal na distribusyon, at, dahil dito, ang mga panimulang punto at pagtatapos ng pagitan ay matatagpuan sa malayo mula sa mean, at sa gayon ang agwat ng kumpiyansa para sa pag-asa sa matematika ay tumataas. .

Mga pagtatantya ng punto at pagitan ng tiyak na gravity

Ang bahagi ng ilang sample na katangian ay maaaring bigyang-kahulugan bilang isang pagtatantya ng punto ng bahagi p ng parehong katangian sa pangkalahatang populasyon. Kung ang value na ito ay kailangang iugnay sa probabilidad, dapat kalkulahin ang confidence interval ng specific gravity p katangian sa populasyon na may posibilidad P = 1 - α :

.

Halimbawa 4. Sa ilang lungsod mayroong dalawang kandidato A At B tumatakbong mayor. Ang 200 residente ng lungsod ay random na na-survey, kung saan 46% ang tumugon na iboboto nila ang kandidato A, 26% - para sa kandidato B at 28% ang hindi alam kung sino ang kanilang iboboto. Tukuyin ang 95% confidence interval para sa proporsyon ng mga residente ng lungsod na sumusuporta sa kandidato A.

Mga tagubilin

Mangyaring tandaan na pagitan(l1 o l2), ang gitnang lugar kung saan ang pagtatantya l*, at kung saan ang tunay na halaga ng parameter ay malamang na nilalaman, ay ang kumpiyansa pagitan om o ang katumbas na halaga ng alpha probability ng kumpiyansa. Sa kasong ito, ang l* mismo ay tumutukoy sa mga pagtatantya ng punto. Halimbawa, batay sa mga resulta ng anumang mga sample na halaga ng isang random na halaga X (x1, x2,..., xn), kinakailangan upang kalkulahin ang hindi kilalang parameter ng indicator l, kung saan ang pamamahagi ay nakasalalay. Sa kasong ito, ang pagkuha ng isang pagtatantya ng isang ibinigay na parameter l* ay binubuo sa katotohanan na para sa bawat sample ay kinakailangan na magtalaga ng isang tiyak na halaga ng parameter, iyon ay, upang lumikha ng isang function ng mga resulta ng pagmamasid ng indicator Q , ang halaga nito ay kukunin na katumbas ng tinantyang halaga ng parameter l* sa anyo ng formula : l*=Q*(x1, x2,..., xn).

Pakitandaan na ang anumang function batay sa mga resulta ng pagmamasid ay tinatawag na mga istatistika. Bukod dito, kung ganap nitong inilalarawan ang parameter (phenomenon) na isinasaalang-alang, kung gayon ito ay tinatawag na sapat na istatistika. At dahil random ang mga resulta ng mga obserbasyon, magiging random variable din ang l*. Ang gawain ng pagkalkula ng mga istatistika ay dapat isagawa na isinasaalang-alang ang pamantayan para sa kalidad nito. Narito ito ay kinakailangan upang isaalang-alang na ang pamamahagi ng batas ng pagtatantya ay medyo tiyak, ang probabilidad density pamamahagi W(x, l).

Maaari mong kalkulahin ang tiwala pagitan medyo simple kung alam mo ang batas tungkol sa pamamahagi ng pagtatasa. Halimbawa, isang katiwala pagitan mga pagtatantya na may kaugnayan sa mathematical na inaasahan (ang average na halaga ng isang random na halaga) mx* =(1/n)*(x1+x2+ …+xn) . Ang pagtatantya na ito ay magiging walang kinikilingan, ibig sabihin, ang mathematical na inaasahan o average na halaga ng indicator ay magiging katumbas ng tunay na halaga ng parameter (M(mx*) = mx).

Maaari mong itatag na ang pagkakaiba ng pagtatantya batay sa mathematical na inaasahan ay: bx*^2=Dx/n. Batay sa limitasyon sa gitnang teorama, maaari tayong gumuhit ng kaukulang konklusyon na ang batas ng pamamahagi ng pagtatantya na ito ay Gaussian (normal). Samakatuwid, upang magsagawa ng mga kalkulasyon, maaari mong gamitin ang indicator Ф(z) - ang integral ng mga probabilidad. Sa kasong ito, piliin ang haba ng kumpiyansa pagitan at 2ld, para makuha mo ang: alpha = P(mx-ld (gamit ang property ng probability integral ayon sa formula: Ф(-z)=1- Ф(z)).

Bumuo ng tiwala pagitan mga pagtatantya ng inaasahan sa matematika: - hanapin ang halaga ng formula (alpha + 1)/2; - pumili mula sa probability integral table ng isang halaga na katumbas ng lд/sqrt(Dx/n); - kumuha ng pagtatantya ng totoong dispersion: Dx *=(1/n)*( (x1 - mx*)^2+(x2 - mx*)^2+…+(xn - mx*)^2); - tukuyin ang ld; - hanapin ang kumpiyansa pagitan ayon sa formula: (mx*-ld, mx*+ld).

Agwat ng kumpiyansa(CI; sa English, confidence interval - CI) na nakuha sa isang pag-aaral na may sample ay nagbibigay ng sukatan ng katumpakan (o kawalan ng katiyakan) ng mga resulta ng pag-aaral upang makagawa ng mga konklusyon tungkol sa populasyon ng lahat ng naturang mga pasyente (ang pangkalahatang populasyon). Ang tamang kahulugan ng isang 95% CI ay maaaring buuin tulad ng sumusunod: 95% ng naturang mga pagitan ay maglalaman ng tunay na halaga sa populasyon. Ang interpretasyong ito ay medyo hindi gaanong tumpak: Ang CI ay ang hanay ng mga halaga kung saan maaari kang maging 95% sigurado na naglalaman ito ng tunay na halaga. Kapag gumagamit ng CI, ang diin ay sa pagtukoy ng isang quantitative effect, kumpara sa P value na nagreresulta mula sa pagsubok ng statistical significance. Ang halaga ng P ay hindi tinatantya ang anumang dami, ngunit sa halip ay nagsisilbing sukatan ng lakas ng ebidensya laban sa null hypothesis ng "walang epekto." Ang halaga ng P mismo ay hindi nagsasabi sa amin ng anuman tungkol sa laki ng pagkakaiba, o kahit tungkol sa direksyon nito. Samakatuwid, ang mga independiyenteng halaga ng P ay ganap na hindi nagbibigay-kaalaman sa mga artikulo o abstract. Sa kaibahan, ang CI ay nagpapahiwatig ng parehong laki ng epekto ng agarang interes, tulad ng benepisyo ng isang paggamot, at ang lakas ng ebidensya. Samakatuwid, ang DI ay direktang nauugnay sa pagsasanay ng EBM.

Ang diskarte sa pagtatantya sa pagsusuri sa istatistika, na ipinakita ng CI, ay naglalayong sukatin ang dami ng isang epekto ng interes (sensitivity ng isang diagnostic test, rate ng mga hinulaang kaso, relatibong pagbabawas ng panganib sa paggamot, atbp.) at upang masukat din ang kawalan ng katiyakan doon epekto. Kadalasan, ang CI ay ang hanay ng mga halaga sa magkabilang panig ng pagtatantya kung saan ang totoong halaga ay malamang na magsinungaling, at maaari kang maging 95% sigurado dito. Ang kasunduan na gamitin ang 95% na posibilidad ay arbitrary, gayundin ang P value.<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

Ang CI ay batay sa ideya na ang parehong pag-aaral na ginawa sa iba't ibang sample ng mga pasyente ay hindi magbubunga ng magkatulad na resulta, ngunit ang kanilang mga resulta ay ibabahagi sa paligid ng isang totoo ngunit hindi kilalang halaga. Sa madaling salita, inilalarawan ito ng CI bilang "sample-dependent variability." Ang CI ay hindi nagpapakita ng karagdagang kawalan ng katiyakan dahil sa iba pang mga dahilan; sa partikular, hindi kasama dito ang epekto ng selective loss sa follow-up, mahinang pagsunod o hindi tumpak na pagsukat ng resulta, kawalan ng pagbulag, atbp. Ang CI samakatuwid ay palaging minamaliit ang kabuuang halaga ng kawalan ng katiyakan.

Pagkalkula ng Interval ng Kumpiyansa

Talahanayan A1.1. Mga karaniwang error at agwat ng kumpiyansa para sa mga piling klinikal na sukat

Karaniwan, ang isang CI ay kinakalkula mula sa isang naobserbahang pagtatantya ng isang dami, tulad ng pagkakaiba (d) sa pagitan ng dalawang proporsyon, at ang karaniwang error (SE) sa pagtatantya ng pagkakaibang iyon. Ang tinatayang 95% CI na nakuha sa ganitong paraan ay d ± 1.96 SE. Ang formula ay nagbabago ayon sa likas na katangian ng sukatan ng kinalabasan at ang saklaw ng CI. Halimbawa, sa isang randomized, placebo-controlled na pagsubok ng isang acellular pertussis vaccine, 72 sa 1670 (4.3%) na mga sanggol na nakatanggap ng bakuna ay nagkaroon ng pertussis at 240 sa 1665 (14.4%) sa control group. Ang pagkakaiba sa porsyento, na kilala bilang ganap na pagbabawas ng panganib, ay 10.1%. Ang SE ng pagkakaibang ito ay 0.99%. Alinsunod dito, ang 95% CI ay 10.1% + 1.96 x 0.99%, ibig sabihin. mula 8.2 hanggang 12.0.

Sa kabila ng kanilang magkakaibang pamamaraang pilosopikal, ang mga CI at mga pagsusulit sa kahalagahan ng istatistika ay malapit na nauugnay sa matematika.

Kaya, ang halaga ng P ay "makabuluhan", i.e. R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Ang kawalan ng katiyakan (pagkakamali) ng pagtatantya, na ipinahayag sa CI, ay higit na nauugnay sa square root ng sample size. Ang mga maliliit na sample ay nagbibigay ng mas kaunting impormasyon kaysa sa mga malalaki, at ang CI ay katumbas na mas malawak sa isang mas maliit na sample. Halimbawa, ang isang artikulong naghahambing sa pagganap ng tatlong pagsubok na ginamit upang masuri ang impeksyon sa Helicobacter pylori ay nag-ulat ng pagiging sensitibo ng urea breath test na 95.8% (95% CI 75–100). Habang ang 95.8% na bilang ay kahanga-hanga, ang maliit na sample ng 24 na mga pasyenteng nasa hustong gulang na may J. pylori ay nangangahulugan na mayroong makabuluhang kawalan ng katiyakan sa pagtatantya na ito, tulad ng ipinapakita ng malawak na CI. Sa katunayan, ang mas mababang limitasyon ng 75% ay mas mababa kaysa sa 95.8% na pagtatantya. Kung ang parehong sensitivity ay naobserbahan sa isang sample ng 240 tao, ang 95% CI ay magiging 92.5-98.0, na nagbibigay ng higit na katiyakan na ang pagsubok ay lubos na sensitibo.

Sa mga randomized na kinokontrol na pagsubok (RCT), ang mga hindi makabuluhang resulta (ibig sabihin, ang mga may P >0.05) ay partikular na madaling kapitan ng maling interpretasyon. Ang CI ay partikular na kapaki-pakinabang dito dahil ipinapakita nito kung gaano kaayon ang mga resulta sa klinikal na kapaki-pakinabang na totoong epekto. Halimbawa, sa isang RCT na naghahambing ng colonic suture at staple anastomosis, ang impeksyon sa sugat ay nabuo sa 10.9% at 13.5% ng mga pasyente, ayon sa pagkakabanggit (P = 0.30). Ang 95% CI para sa pagkakaibang ito ay 2.6% (−2 hanggang +8). Kahit na sa pag-aaral na ito ng 652 mga pasyente, nananatiling posible na mayroong katamtamang pagkakaiba sa saklaw ng mga impeksyon na nagreresulta mula sa dalawang pamamaraan. Ang mas kaunting pananaliksik, mas malaki ang kawalan ng katiyakan. Sung et al. nagsagawa ng isang RCT upang ihambing ang pagbubuhos ng octreotide na may talamak na sclerotherapy para sa talamak na pagdurugo ng variceal sa 100 mga pasyente. Sa pangkat ng octreotide, ang bleeding control rate ay 84%; sa sclerotherapy group - 90%, na nagbibigay ng P = 0.56. Tandaan na ang mga rate ng patuloy na pagdurugo ay katulad ng para sa impeksyon sa sugat sa pag-aaral na nabanggit. Sa kasong ito, gayunpaman, ang 95% CI para sa pagkakaiba sa pagitan ng mga interbensyon ay 6% (−7 hanggang +19). Ang hanay na ito ay medyo malawak kumpara sa 5% na pagkakaiba na magiging interesado sa klinikal. Maliwanag, ang pag-aaral ay hindi nagbubukod ng isang makabuluhang pagkakaiba sa pagiging epektibo. Samakatuwid, ang konklusyon ng mga may-akda na "octreotide infusion at sclerotherapy ay pantay na epektibo sa paggamot ng pagdurugo mula sa varicose veins" ay tiyak na hindi wasto. Sa mga kasong tulad nito, kung saan, tulad dito, ang 95% CI para sa absolute risk reduction (ARR) ay may kasamang zero, ang CI para sa NNT (numero na kailangan upang gamutin) ay medyo mahirap bigyang-kahulugan . Ang NPL at ang CI nito ay nakuha mula sa mga reciprocal ng ACP (multiply ng 100 kung ang mga halagang ito ay ibinibigay bilang mga porsyento). Dito nakukuha natin ang NPL = 100: 6 = 16.6 na may 95% CI na -14.3 hanggang 5.3. Tulad ng makikita mula sa talababa na "d" sa talahanayan. A1.1, ang CI na ito ay kinabibilangan ng mga halaga ng NPL mula 5.3 hanggang infinity at NPL mula 14.3 hanggang infinity.

Maaaring buuin ang mga CI para sa pinakakaraniwang ginagamit na istatistikal na pagtatantya o paghahambing. Para sa mga RCT, kabilang dito ang pagkakaiba sa pagitan ng mga mean na proporsyon, mga kamag-anak na panganib, mga ratio ng odds, at mga NLR. Katulad nito, ang mga CI ay maaaring makuha para sa lahat ng pangunahing pagtatantya na ginawa sa diagnostic test accuracy studies—sensitivity, specificity, positive predictive value (lahat ng mga ito ay simpleng proporsyon), at likelihood ratios—mga pagtatantya na nakuha sa meta-analyses at paghahambing-may-kontrol. pag-aaral. Ang isang personal na programa sa computer na sumasaklaw sa marami sa mga paggamit na ito ng mga MDI ay magagamit sa ikalawang edisyon ng Statistics with Confidence. Ang mga macro para sa pagkalkula ng mga CI para sa mga proporsyon ay magagamit nang walang bayad para sa Excel at ang mga programang istatistikal na SPSS at Minitab sa http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Maramihang mga pagtatantya ng epekto ng paggamot

Habang ang mga CI ay kanais-nais para sa mga pangunahing resulta ng pag-aaral, hindi sila kinakailangan para sa lahat ng mga kinalabasan. Ang CI ay may kinalaman sa klinikal na mahahalagang paghahambing. Halimbawa, kapag naghahambing ng dalawang grupo, ang tamang CI ay ang ginawa para sa pagkakaiba sa pagitan ng mga pangkat, tulad ng ipinapakita sa mga halimbawa sa itaas, at hindi ang CI na maaaring itayo para sa pagtatantya sa bawat pangkat. Hindi lamang nakatutulong na magbigay ng hiwalay na mga CI para sa mga pagtatantya sa bawat grupo, ang pagtatanghal na ito ay maaaring mapanlinlang. Katulad nito, ang tamang diskarte kapag inihahambing ang pagiging epektibo ng mga paggamot sa iba't ibang mga subgroup ay direktang ihambing ang dalawa (o higit pang) subgroup. Hindi tama na ipagpalagay na ang isang paggamot ay epektibo sa isang subgroup lamang kung ang CI nito ay nagbubukod ng halaga na walang epekto at ang iba ay hindi. Kapaki-pakinabang din ang mga CI kapag naghahambing ng mga resulta sa maraming subgroup. Sa Fig. Ang 1.1 ay nagpapakita ng kamag-anak na panganib ng eclampsia sa mga babaeng may preeclampsia sa mga subgroup ng kababaihan mula sa isang placebo-controlled na RCT ng magnesium sulfate.

kanin. A1.2. Ipinapakita ng forest plot ang mga resulta ng 11 randomized na klinikal na pagsubok ng bovine rotavirus vaccine para sa pag-iwas sa pagtatae kumpara sa placebo. Ang isang 95% na agwat ng kumpiyansa ay ginamit upang tantiyahin ang kamag-anak na panganib ng pagtatae. Ang laki ng itim na parisukat ay proporsyonal sa dami ng impormasyon. Bilang karagdagan, ang buod na pagtatantya ng pagiging epektibo ng paggamot at ang 95% na agwat ng kumpiyansa (ipinahiwatig ng isang brilyante) ay ipinapakita. Gumamit ang meta-analysis ng random effects na modelo na mas malaki kaysa sa ilang paunang tinukoy; halimbawa, maaaring ito ang sukat na ginamit sa pagkalkula ng laki ng sample. Ang isang mas mahigpit na pamantayan ay nangangailangan na ang buong hanay ng CI ay magpakita ng benepisyong higit sa isang itinakdang minimum.

Napag-usapan na natin ang kamalian ng pagkuha ng kakulangan ng istatistikal na kahalagahan bilang isang indikasyon na ang dalawang paggamot ay pantay na epektibo. Parehong mahalaga na huwag ipantay ang istatistikal na kahalagahan sa klinikal na kahalagahan. Maaaring ipalagay ang klinikal na kahalagahan kapag ang resulta ay makabuluhan ayon sa istatistika at ang laki ng pagtatantya ng pagiging epektibo ng paggamot

Maaaring ipakita ng mga pag-aaral kung ang mga resulta ay makabuluhan sa istatistika at alin ang mahalaga sa klinika at alin ang hindi. Sa Fig. Ipinapakita ng A1.2 ang mga resulta ng apat na pagsubok, kung saan ang buong CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Ipagpalagay na mayroon kaming isang malaking bilang ng mga item na may normal na pamamahagi ng ilang mga katangian (halimbawa, isang buong bodega ng mga gulay na may parehong uri, ang laki at bigat nito ay nag-iiba). Gusto mong malaman ang karaniwang mga katangian ng buong batch ng mga kalakal, ngunit wala kang oras o pagnanais na sukatin at timbangin ang bawat gulay. Naiintindihan mo na hindi ito kailangan. Ngunit ilang piraso ang kailangang kunin para sa isang spot check?

Bago magbigay ng ilang mga formula na kapaki-pakinabang para sa sitwasyong ito, alalahanin natin ang ilang notasyon.

Una, kung susukatin natin ang buong bodega ng mga gulay (ang hanay ng mga elementong ito ay tinatawag na pangkalahatang populasyon), malalaman natin sa lahat ng katumpakan na magagamit sa amin ang average na timbang ng buong batch. Tawagin natin itong average X avg .g en . - pangkalahatang average. Alam na natin kung ano ang ganap na natutukoy kung ang ibig sabihin ng halaga at paglihis nito ay kilala . Totoo, habang hindi kami X average na gen. o s Hindi natin alam ang pangkalahatang populasyon. Maaari lang kaming kumuha ng isang partikular na sample, sukatin ang mga halaga na kailangan namin at kalkulahin para sa sample na ito ang parehong average na halaga ng X avg. at ang standard deviation S na pinili.

Ito ay kilala na kung ang aming sample check ay naglalaman ng isang malaking bilang ng mga elemento (karaniwan ay n ay mas malaki kaysa sa 30), at sila ay kinuha random talaga, pagkatapos ay s ang pangkalahatang populasyon ay halos hindi mag-iiba mula sa pagpili ng S ..

Bilang karagdagan, para sa kaso ng normal na pamamahagi maaari naming gamitin ang mga sumusunod na formula:

May posibilidad na 95%


May posibilidad na 99%



Sa pangkalahatan, may posibilidad na P (t)


Ang ugnayan sa pagitan ng t value at probability value na P (t), kung saan gusto nating malaman ang confidence interval, ay maaaring kunin mula sa sumusunod na talahanayan:


Kaya, natukoy namin kung saang saklaw ang average na halaga para sa populasyon ay namamalagi (na may ibinigay na posibilidad).

Maliban kung mayroon tayong sapat na malaking sample, hindi natin masasabi na ang populasyon ay may s = S piliin Bilang karagdagan, sa kasong ito ang pagiging malapit ng sample sa normal na pamamahagi ay may problema. Sa kasong ito, ginagamit din namin ang S select sa halip s sa formula:




ngunit ang halaga ng t para sa isang nakapirming probabilidad na P(t) ay depende sa bilang ng mga elemento sa sample n. Kung mas malaki ang n, mas malapit ang magreresultang agwat ng kumpiyansa sa halagang ibinigay ng formula (1). Ang mga halaga ng t sa kasong ito ay kinuha mula sa isa pang talahanayan (T-test ng Mag-aaral), na ipinakita namin sa ibaba:

Ang mga halaga ng t-test ng mag-aaral para sa posibilidad na 0.95 at 0.99


Halimbawa 3. 30 katao ang random na pinili mula sa mga empleyado ng kumpanya. Ayon sa sample, lumabas na ang average na suweldo (bawat buwan) ay 30 libong rubles na may karaniwang paglihis ng 5 libong rubles. Tukuyin ang average na suweldo sa kumpanya na may posibilidad na 0.99.

Solusyon: Ayon sa kundisyon mayroon kaming n = 30, X avg. =30000, S=5000, P = 0.99. Upang mahanap ang agwat ng kumpiyansa, gagamitin namin ang formula na tumutugma sa t test ng Estudyante. Mula sa talahanayan para sa n = 30 at P = 0.99 nakita namin ang t = 2.756, samakatuwid,


mga. hinahanap na katiwala pagitan 27484< Х ср.ген < 32516.

Kaya, na may posibilidad na 0.99 maaari nating sabihin na ang pagitan (27484; 32516) ay naglalaman sa loob mismo ng average na suweldo sa kumpanya.

Inaasahan namin na gagamitin mo ang pamamaraang ito, at hindi kinakailangan na mayroon kang isang talahanayan sa bawat oras. Ang mga kalkulasyon ay maaaring awtomatikong isagawa sa Excel. Habang nasa Excel file, i-click ang fx button sa tuktok na menu. Pagkatapos, piliin ang uri ng "statistical" sa mga function, at mula sa iminungkahing listahan sa window - STUDAR DISCOVER. Pagkatapos, sa prompt, paglalagay ng cursor sa field na "probability", ipasok ang halaga ng inverse probability (i.e. sa aming kaso, sa halip na probabilidad na 0.95, kailangan mong i-type ang probabilidad na 0.05). Tila, ang spreadsheet ay idinisenyo sa paraang sinasagot ng resulta ang tanong kung gaano tayo malamang na magkamali. Katulad nito, sa Degree of Freedom field, maglagay ng value (n-1) para sa iyong sample.

Ang katalinuhan ay binubuo hindi lamang sa kaalaman, kundi pati na rin sa kakayahang mag-aplay ng kaalaman sa pagsasanay. (Aristotle)

Mga pagitan ng kumpiyansa

pangkalahatang pagsusuri

Sa pamamagitan ng pagkuha ng sample mula sa populasyon, nakakakuha kami ng puntong pagtatantya ng parameter ng interes at kinakalkula ang karaniwang error upang ipahiwatig ang katumpakan ng pagtatantya.

Gayunpaman, para sa karamihan ng mga kaso ang karaniwang error na tulad nito ay hindi katanggap-tanggap. Mas kapaki-pakinabang na pagsamahin ang sukat na ito ng katumpakan sa isang pagtatantya ng pagitan para sa parameter ng populasyon.

Magagawa ito sa pamamagitan ng paggamit ng kaalaman sa pamamahagi ng teoretikal na probabilidad ng sample statistic (parameter) upang makalkula ang pagitan ng kumpiyansa (CI - Confidence Interval, CI - Confidence Interval) para sa parameter.

Sa pangkalahatan, ang agwat ng kumpiyansa ay nagpapalawak ng mga pagtatantya sa parehong direksyon sa pamamagitan ng isang tiyak na multiple ng karaniwang error (ng isang ibinigay na parameter); ang dalawang halaga (mga limitasyon ng kumpiyansa) na tumutukoy sa pagitan ay karaniwang pinaghihiwalay ng kuwit at nakapaloob sa mga panaklong.

Ang pagitan ng kumpiyansa para sa mean

Gamit ang Normal Distribution

Karaniwang ipinamamahagi ang sample mean kung malaki ang sample na laki, kaya maaari mong ilapat ang kaalaman sa normal na distribusyon kapag isinasaalang-alang ang sample mean.

Sa partikular, 95% ng distribusyon ng sample na paraan ay nasa loob ng 1.96 standard deviations (SD) ng average ng populasyon.

Kapag mayroon lamang kaming isang sample, tinatawag namin itong karaniwang error ng mean (SEM) at kalkulahin ang 95% na agwat ng kumpiyansa para sa mean tulad ng sumusunod:

Kung uulitin natin ang eksperimentong ito nang ilang beses, ang pagitan ay maglalaman ng totoong populasyon na ibig sabihin ay 95% ng oras.

Kadalasan ito ay isang agwat ng kumpiyansa, tulad ng pagitan ng mga halaga kung saan ang ibig sabihin ng tunay na populasyon (pangkalahatang ibig sabihin) ay may 95% na posibilidad ng kumpiyansa.

Bagama't hindi ito ganap na mahigpit (ang ibig sabihin ng populasyon ay isang nakapirming halaga at samakatuwid ay hindi maaaring magkaroon ng posibilidad na nakalakip dito) upang bigyang-kahulugan ang isang agwat ng kumpiyansa sa ganitong paraan, ito ay mas madaling maunawaan sa konsepto.

Paggamit t- pamamahagi

Maaari mong gamitin ang normal na distribusyon kung alam mo ang halaga ng pagkakaiba sa populasyon. Gayundin, kapag ang laki ng sample ay maliit, ang sample mean ay sumusunod sa isang normal na distribusyon kung ang pinagbabatayan ng data ng populasyon ay normal na ipinamamahagi.

Kung ang data na pinagbabatayan ng populasyon ay hindi karaniwang ipinamamahagi at/o ang pagkakaiba-iba ng populasyon ay hindi alam, ang sample mean ay sumusunod T-distribution ng mag-aaral.

Kinakalkula namin ang 95% na agwat ng kumpiyansa para sa pangkalahatang populasyon na ibig sabihin ng sumusunod:

Nasaan ang percentage point (percentile) t- Ang t distribution ng mag-aaral na may (n-1) na antas ng kalayaan, na nagbibigay ng dalawang panig na posibilidad na 0.05.

Sa pangkalahatan, nagbibigay ito ng mas malawak na hanay kaysa sa paggamit ng normal na distribusyon dahil isinasaalang-alang nito ang karagdagang kawalan ng katiyakan na ipinakilala sa pamamagitan ng pagtantya sa pamantayan ng paglihis ng populasyon at/o dahil sa maliit na laki ng sample.

Kapag malaki ang sample size (sa pagkakasunud-sunod ng 100 o higit pa), ang pagkakaiba sa pagitan ng dalawang distribusyon ( t-Mag-aaral at normal) ay hindi gaanong mahalaga. Gayunpaman, palagi nilang ginagamit t- pamamahagi kapag kinakalkula ang mga pagitan ng kumpiyansa, kahit na ang laki ng sample ay malaki.

Karaniwan ang 95% CI ay iniulat. Maaaring kalkulahin ang iba pang mga agwat ng kumpiyansa, tulad ng 99% CI para sa mean.

Sa halip na produkto ng karaniwang error at ang halaga ng talahanayan t- pamamahagi, na tumutugma sa isang dalawang panig na posibilidad na 0.05, i-multiply ito (karaniwang error) sa halaga na tumutugma sa isang dalawang panig na posibilidad na 0.01. Ito ay isang mas malawak na agwat ng kumpiyansa kaysa sa 95% na agwat ng kumpiyansa dahil ito ay nagpapakita ng mas mataas na kumpiyansa na ang agwat ay aktwal na kasama ang ibig sabihin ng populasyon.

Agwat ng kumpiyansa para sa proporsyon

Ang sampling distribution ng mga proporsyon ay may binomial distribution. Gayunpaman, kung ang laki ng sample n ay makatwirang malaki, kung gayon ang sampling distribution ng proporsyon ay humigit-kumulang normal sa mean .

Sinusuri namin sa pamamagitan ng selective ratio p=r/n(Saan r- ang bilang ng mga indibidwal sa sample na may mga katangian na interesado sa amin), at ang karaniwang error ay tinatantya:

Ang 95% na agwat ng kumpiyansa para sa proporsyon ay tinatantya:

Kung maliit ang sample size (karaniwan ay kapag n.p. o n(1-p) mas mababa 5 ), pagkatapos ay kinakailangan na gamitin ang binomial distribution upang makalkula ang tumpak na mga pagitan ng kumpiyansa.

Tandaan na kung p ipinahayag bilang isang porsyento, kung gayon (1-p) pinalitan ng (100-p).

Interpretasyon ng mga agwat ng kumpiyansa

Kapag binibigyang-kahulugan ang agwat ng kumpiyansa, interesado kami sa mga sumusunod na tanong:

Gaano kalawak ang agwat ng kumpiyansa?

Ang isang malawak na agwat ng kumpiyansa ay nagpapahiwatig na ang pagtatantya ay hindi tumpak; ang makitid ay nagpapahiwatig ng tumpak na pagtatantya.

Ang lapad ng agwat ng kumpiyansa ay depende sa laki ng karaniwang error, na depende naman sa laki ng sample at, kapag isinasaalang-alang ang isang numerical variable, ang pagkakaiba-iba ng data ay gumagawa ng mas malawak na mga pagitan ng kumpiyansa kaysa sa mga pag-aaral ng isang malaking set ng data ng ilang mga variable. .

Kasama ba sa CI ang anumang mga halaga ng partikular na interes?

Maaari mong suriin kung ang malamang na halaga para sa isang parameter ng populasyon ay nasa loob ng agwat ng kumpiyansa. Kung gayon, ang mga resulta ay pare-pareho sa malamang na halagang ito. Kung hindi, malamang na hindi (para sa isang 95% na agwat ng kumpiyansa ang pagkakataon ay halos 5%) na ang parameter ay may ganoong halaga.