Interval spoľahlivosti. ABC lekárskej štatistiky

Zostavme si v MS EXCEL interval spoľahlivosti pre odhad strednej hodnoty rozdelenia v prípade známej hodnoty rozptylu.

Samozrejme výber úroveň dôveryúplne závisí od aktuálnej úlohy. Miera dôvery cestujúceho v leteckej doprave v spoľahlivosť lietadla by teda samozrejme mala byť vyššia ako miera dôvery kupujúceho v spoľahlivosť žiarovky.

Vyhlásenie o probléme

Predpokladajme, že od všeobecná populácia s prijatím vzorka veľkosť n. Predpokladá sa, že smerodajná odchýlka táto distribúcia je známa. Nevyhnutné na základe toho vzorky hodnotiť neznáme distribučný priemer(μ, ) a zostrojte zodpovedajúce bilaterálne interval spoľahlivosti.

Bodový odhad

Ako je známe z štatistiky(nazvime to X porov) je nestranný odhad priemeru toto všeobecná populácia a má rozdelenie N(μ;σ 2 /n).

Poznámka: Čo ak potrebujete stavať interval spoľahlivosti v prípade distribúcie, ktorá nie je normálne? V tomto prípade prichádza na pomoc, ktorá hovorí, že s dostatočne veľkou veľkosťou vzorky n z distribúcie nie normálne, výberové rozdelenie štatistiky Х priem bude približne korešpondovať normálne rozdelenie s parametrami N(μ;σ 2 /n).

takže, bodový odhad stredná distribučné hodnoty máme je vzorový priemer, t.j. X porov. Teraz sa poďme zamestnať interval spoľahlivosti.

Budovanie intervalu spoľahlivosti

Zvyčajne, keď poznáme rozdelenie a jeho parametre, vieme vypočítať pravdepodobnosť, že náhodná premenná nadobudne hodnotu z daného intervalu. Teraz urobme opak: nájdime interval, do ktorého náhodná premenná s danou pravdepodobnosťou spadá. Napríklad z nehnuteľností normálne rozdelenie je známe, že s pravdepodobnosťou 95% sa náhodná premenná rozloží normálny zákon, bude spadať do intervalu približne +/- 2 od stredná hodnota(pozri článok o). Tento interval bude slúžiť ako náš prototyp interval spoľahlivosti.

Teraz sa pozrime, či poznáme distribúciu , vypočítať tento interval? Aby sme odpovedali na otázku, musíme špecifikovať formu distribúcie a jej parametre.

Vieme, že forma distribúcie je normálne rozdelenie(pamätajte, že hovoríme o distribúcia vzoriek štatistiky X porov).

Parameter μ nám nie je známy (len ho treba odhadnúť pomocou interval spoľahlivosti), ale máme jej odhad X cf, vypočítané na základe vzorkovanie, ktoré možno použiť.

Druhý parameter je priemerná štandardná odchýlka vzorky bude známy, rovná sa σ/√n.

Pretože nepoznáme μ, potom zostrojíme interval +/- 2 štandardné odchýlky nie z stredná hodnota, ale z jeho známeho odhadu X porov. Tie. pri výpočte interval spoľahlivosti nebudeme to predpokladať X porov spadá do intervalu +/- 2 štandardné odchýlky na μ s pravdepodobnosťou 95% a budeme predpokladať, že interval je +/- 2 štandardné odchýlky od X porov s pravdepodobnosťou 95 % pokryje μ - priemer bežnej populácie, z ktorých vzorka. Tieto dva výroky sú ekvivalentné, ale druhý výrok nám umožňuje konštruovať interval spoľahlivosti.

Okrem toho spresňujeme interval: náhodná premenná rozložená cez normálny zákon, s 95% pravdepodobnosťou spadá do intervalu +/- 1,960 štandardné odchýlky, nie +/- 2 štandardné odchýlky. Dá sa to vypočítať pomocou vzorca \u003d NORM.ST.OBR ((1 + 0,95) / 2), cm. vzorový súbor Sheet Spacing.

Teraz môžeme sformulovať pravdepodobnostné tvrdenie, ktoré nám poslúži na formovanie interval spoľahlivosti:
"Pravdepodobnosť, že priemer populácie nachádza sa od vzorový priemer do 1,960" štandardné odchýlky priemeru vzorky", sa rovná 95 %.

Hodnota pravdepodobnosti uvedená vo vyhlásení má špeciálny názov , ktorý je spojený s hladina významnosti α (alfa) jednoduchým vyjadrením úroveň dôvery =1 . V našom prípade úroveň významnosti α =1-0,95=0,05 .

Teraz na základe tohto pravdepodobnostného tvrdenia napíšeme výraz na výpočet interval spoľahlivosti:

kde Za/2 štandardné normálne rozdelenie(taká hodnota náhodnej premennej z, čo P(z>=Za/2 ) = a/2).

Poznámka: Horný α/2-kvantil definuje šírku interval spoľahlivosti v štandardné odchýlky vzorový priemer. Horný α/2-kvantil štandardné normálne rozdelenie je vždy väčšie ako 0, čo je veľmi výhodné.

V našom prípade pri α=0,05 horný α/2-kvantil rovná sa 1,960. Pre ostatné hladiny významnosti α (10 %; 1 %) horný α/2-kvantil Za/2 možno vypočítať pomocou vzorca = NORM.ST.OBR (1-α / 2) alebo, ak je známy úroveň dôvery, =NORM.ST.OBR((1+úroveň spoľahlivosti)/2).

Zvyčajne pri stavbe intervaly spoľahlivosti pre odhad priemeru iba použiť horné α/2-kvantil a nepoužívajte nižšie α/2-kvantil. Je to možné, pretože štandardné normálne rozdelenie symetrické okolo osi x ( hustota jeho distribúcie symetrický o priemer, t.j. 0). Preto nie je potrebné počítať nižší α/2-kvantil(nazýva sa jednoducho α /2-kvantil), pretože je to rovné horné α/2-kvantil so znamienkom mínus.

Pripomeňme, že bez ohľadu na tvar rozdelenia x, zodpovedajúca náhodná premenná X porov distribuovaný približne dobre N(μ;σ 2 /n) (pozri článok o). Preto vo všeobecnosti vyššie uvedený výraz pre interval spoľahlivosti je len približná. Ak je x rozdelené na normálny zákon N(μ;σ 2 /n), potom výraz pre interval spoľahlivosti je presný.

Výpočet intervalu spoľahlivosti v MS EXCEL

Poďme vyriešiť problém.
Čas odozvy elektronického komponentu na vstupný signál je dôležitou charakteristikou zariadenia. Technik chce vykresliť interval spoľahlivosti pre priemerný čas odozvy na úrovni spoľahlivosti 95 %. Inžinier z predchádzajúcich skúseností vie, že štandardná odchýlka času odozvy je 8 ms. Je známe, že inžinier vykonal 25 meraní, aby odhadol čas odozvy, priemerná hodnota bola 78 ms.

Riešenie: Inžinier chce vedieť dobu odozvy elektronického zariadenia, no chápe, že doba odozvy nie je pevná, ale náhodná premenná, ktorá má svoje vlastné rozdelenie. Takže najlepšie, v čo môže dúfať, je určiť parametre a tvar tohto rozdelenia.

Žiaľ, zo stavu problému nepoznáme formu rozloženia doby odozvy (nemusí byť normálne). , táto distribúcia je tiež neznáma. Len on je známy smerodajná odchýlka a = 8. Preto zatiaľ nevieme vypočítať pravdepodobnosti a konštruovať interval spoľahlivosti.

Hoci však distribúciu nepoznáme čas samostatná odpoveď, vieme, že podľa CPT, distribúcia vzoriek priemerný čas odozvy je približne normálne(predpokladáme, že podmienky CPT sa vykonávajú, pretože veľkosť vzorky dostatočne veľké (n=25)) .

ďalej priemer toto rozdelenie sa rovná stredná hodnota distribúcie odozvy jednotiek, t.j. μ. ALE smerodajná odchýlka tohto rozdelenia (σ/√n) možno vypočítať pomocou vzorca =8/ROOT(25) .

Je tiež známe, že inžinier dostal bodový odhad parameter μ rovný 78 ms (X cf). Preto teraz môžeme vypočítať pravdepodobnosti, pretože poznáme formu distribúcie ( normálne) a jeho parametre (Х ср a σ/√n).

Inžinier chce vedieť očakávaná hodnotaμ distribúcie času odozvy. Ako je uvedené vyššie, toto μ sa rovná očakávanie distribúcie vzorky priemerného času odozvy. Ak použijeme normálne rozdelenie N(X cf; σ/√n), potom bude požadované μ v rozsahu +/-2*σ/√n s pravdepodobnosťou približne 95 %.

Úroveň významnosti rovná sa 1-0,95=0,05.

Nakoniec nájdite ľavý a pravý okraj interval spoľahlivosti.
Ľavý okraj: \u003d 78-NORM.ST.INR (1-0,05 / 2) * 8 / ROOT (25) = 74,864
Pravý okraj: \u003d 78 + NORM. ST. OBR (1-0,05 / 2) * 8 / ROOT (25) \u003d 81,136

Ľavý okraj: =NORM.INV(0,05/2; 78; 8/SQRT(25))
Pravý okraj: =NORM.INV(1-0,05/2; 78, 8/SQRT(25))

Odpoveď: interval spoľahlivosti pri 95 % hladina spoľahlivosti a σ=8ms rovná sa 78+/-3,136 ms

AT príklad súboru na hárku Sigma známy vytvoril formulár na výpočet a konštrukciu bilaterálne interval spoľahlivosti za svojvoľné vzorky s daným σ a úroveň významnosti.

Funkcia CONFIDENCE.NORM().

Ak hodnoty vzorky sú v rozsahu B20:B79 , a úroveň významnosti rovná 0,05; potom vzorec MS EXCEL:
=AVERAGE(B20:B79)-CONFIDENCE(0,05;σ; COUNT(B20:B79))
vráti ľavý okraj interval spoľahlivosti.

Rovnakú hranicu možno vypočítať pomocou vzorca:
=AVERAGE(B20:B79)-NORM.ST.INV(1-0.05/2)*σ/SQRT(COUNT(B20:B79))

Poznámka: Funkcia TRUST.NORM() sa objavila v MS EXCEL 2010. Staršie verzie MS EXCEL používali funkciu TRUST().

Intervaly spoľahlivosti ( Angličtina Intervaly spoľahlivosti) jeden z typov intervalových odhadov používaných v štatistike, ktoré sú vypočítané pre danú hladinu významnosti. Umožňujú konštatovať, že skutočná hodnota neznámeho štatistického parametra bežnej populácie je v získanom rozsahu hodnôt s pravdepodobnosťou, ktorá je daná zvolenou hladinou štatistickej významnosti.

Normálne rozdelenie

Keď je známa variácia (σ 2 ) populácie údajov, z-skóre sa môže použiť na výpočet limitov spoľahlivosti (hraničné body intervalu spoľahlivosti). V porovnaní s použitím t-distribúcie, použitie z-skóre poskytne nielen užší interval spoľahlivosti, ale poskytne aj spoľahlivejšie odhady priemeru a štandardnej odchýlky (σ), keďže Z-skóre je založené na normálnom rozdelení.

Vzorec

Na určenie hraničných bodov intervalu spoľahlivosti za predpokladu, že je známa štandardná odchýlka súboru údajov, sa používa nasledujúci vzorec

L = X - Za/2 σ
√n

Príklad

Predpokladajme, že veľkosť vzorky je 25 pozorovaní, priemer vzorky je 15 a štandardná odchýlka populácie je 8. Pre hladinu významnosti α=5% je Z-skóre Zα/2=1,96. V tomto prípade bude dolná a horná hranica intervalu spoľahlivosti

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

Môžeme teda konštatovať, že s pravdepodobnosťou 95 % bude matematické očakávanie bežnej populácie spadať do intervalu od 11,864 do 18,136.

Metódy na zúženie intervalu spoľahlivosti

Povedzme, že rozsah je príliš široký na účely našej štúdie. Existujú dva spôsoby, ako znížiť rozsah intervalu spoľahlivosti.

  1. Znížte hladinu štatistickej významnosti α.
  2. Zväčšite veľkosť vzorky.

Znížením hladiny štatistickej významnosti na α=10% dostaneme Z-skóre rovné Z α/2 =1,64. V tomto prípade bude dolná a horná hranica intervalu

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

A samotný interval spoľahlivosti možno zapísať ako

V tomto prípade môžeme predpokladať, že s pravdepodobnosťou 90 % bude priemer populácie spadať do rozsahu .

Ak chceme zachovať hladinu štatistickej významnosti α, tak jedinou alternatívou je zväčšiť veľkosť vzorky. Zvýšením na 144 pozorovaní získame nasledujúce hodnoty hraníc spoľahlivosti

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

Samotný interval spoľahlivosti bude vyzerať takto:

Zúženie intervalu spoľahlivosti bez zníženia úrovne štatistickej významnosti je teda možné len zväčšením veľkosti vzorky. Ak nie je možné zväčšiť veľkosť vzorky, tak zúženie intervalu spoľahlivosti možno dosiahnuť výlučne znížením hladiny štatistickej významnosti.

Vytvorenie intervalu spoľahlivosti pre nenormálne rozdelenie

Ak nie je známa štandardná odchýlka populácie alebo distribúcia nie je normálna, na vytvorenie intervalu spoľahlivosti sa použije t-rozdelenie. Táto technika je konzervatívnejšia, čo je vyjadrené v širších intervaloch spoľahlivosti v porovnaní s technikou založenou na Z-skóre.

Vzorec

Na výpočet dolnej a hornej hranice intervalu spoľahlivosti na základe t-distribúcie sa používajú nasledujúce vzorce

L = X - ta σ
√n

Študentovo rozdelenie alebo t-rozdelenie závisí iba od jedného parametra - počtu stupňov voľnosti, ktorý sa rovná počtu hodnôt jednotlivých znakov (počet pozorovaní vo vzorke). Hodnotu Studentovho t-testu pre daný počet stupňov voľnosti (n) a hladinu štatistickej významnosti α možno nájsť vo vyhľadávacích tabuľkách.

Príklad

Predpokladajme, že veľkosť vzorky je 25 individuálnych hodnôt, priemer vzorky je 50 a štandardná odchýlka vzorky je 28. Musíte zostrojiť interval spoľahlivosti pre hladinu štatistickej významnosti α=5 %.

V našom prípade je počet stupňov voľnosti 24 (25-1), preto zodpovedajúca tabuľková hodnota Studentovho t-testu pre hladinu štatistickej významnosti α=5 % je 2,064. Preto budú dolné a horné hranice intervalu spoľahlivosti

L = 50 - 2,064 28 = 38,442
√25
L = 50 + 2,064 28 = 61,558
√25

A samotný interval môže byť napísaný ako

Môžeme teda konštatovať, že s pravdepodobnosťou 95 % bude matematické očakávanie bežnej populácie v rozmedzí.

Použitie t-distribúcie vám umožňuje zúžiť interval spoľahlivosti buď znížením štatistickej významnosti alebo zvýšením veľkosti vzorky.

Znížením štatistickej významnosti z 95 % na 90 % v podmienkach nášho príkladu dostaneme zodpovedajúcu tabuľkovú hodnotu Studentovho t-testu 1,711.

L = 50 - 1,711 28 = 40,418
√25
L = 50 + 1,711 28 = 59,582
√25

V tomto prípade môžeme povedať, že s pravdepodobnosťou 90 % budú matematické očakávania bežnej populácie v rozmedzí.

Ak nechceme znižovať štatistickú významnosť, tak jedinou alternatívou je zväčšiť veľkosť vzorky. Povedzme, že ide o 64 jednotlivých pozorovaní a nie 25 ako v počiatočnej podmienke príkladu. Tabuľková hodnota Studentovho t-testu pre 63 stupňov voľnosti (64-1) a hladina štatistickej významnosti α=5 % je 1,998.

L = 50 - 1,998 28 = 43,007
√64
L = 50 + 1,998 28 = 56,993
√64

To nám dáva príležitosť tvrdiť, že s pravdepodobnosťou 95 % budú matematické očakávania všeobecnej populácie v rozmedzí.

Veľké vzorky

Veľké vzorky sú vzorky z populácie údajov s viac ako 100 individuálnymi pozorovaniami. Štatistické štúdie ukázali, že väčšie vzorky majú tendenciu byť normálne rozdelené, aj keď rozdelenie populácie nie je normálne. Okrem toho pri takýchto vzorkách poskytuje použitie z-skóre a t-distribúcie približne rovnaké výsledky pri konštrukcii intervalov spoľahlivosti. Pre veľké vzorky je teda prijateľné použiť z-skóre pre normálnu distribúciu namiesto t-distribúcie.

Zhrnutie

Interval spoľahlivosti(CI; v angličtine, interval spoľahlivosti - CI) získaný v štúdii na vzorke poskytuje mieru presnosti (alebo neistoty) výsledkov štúdie, aby bolo možné vyvodiť závery o populácii všetkých takýchto pacientov (všeobecná populácia ). Správna definícia 95 % CI môže byť formulovaná nasledovne: 95 % takýchto intervalov bude obsahovať skutočnú hodnotu v populácii. Táto interpretácia je o niečo menej presná: CI je rozsah hodnôt, v rámci ktorého si môžete byť na 95 % istí, že obsahuje skutočnú hodnotu. Pri použití CI sa kladie dôraz na stanovenie kvantitatívneho účinku, na rozdiel od hodnoty P, ktorá sa získa ako výsledok testovania štatistickej významnosti. Hodnota P nevyhodnocuje žiadne množstvo, ale slúži skôr ako miera sily dôkazu proti nulovej hypotéze „žiadny účinok“. Samotná hodnota P nám nehovorí nič o veľkosti rozdielu, dokonca ani o jeho smere. Preto sú nezávislé hodnoty P v článkoch alebo abstraktoch absolútne neinformatívne. Na rozdiel od toho, CI označuje mieru účinku bezprostredného záujmu, ako je užitočnosť liečby, ako aj silu dôkazov. Preto DI priamo súvisí s praxou DM.

Odhadový prístup k štatistickej analýze, znázornený pomocou CI, má za cieľ zmerať veľkosť sledovaného účinku (citlivosť diagnostického testu, predpokladaný výskyt, zníženie relatívneho rizika s liečbou atď.), ako aj meranie neistoty v tom, že účinok. Najčastejšie je CI rozsah hodnôt na oboch stranách odhadu, v ktorom sa pravdepodobne bude nachádzať skutočná hodnota, a môžete si tým byť na 95 % istý. Konvencia používať 95% pravdepodobnosť je ľubovoľná, rovnako ako hodnota P<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

CI je založená na myšlienke, že rovnaká štúdia vykonaná na rôznych súboroch pacientov by nepriniesla identické výsledky, ale že ich výsledky by boli rozdelené okolo skutočnej, ale neznámej hodnoty. Inými slovami, CI to opisuje ako „variabilita závislú od vzorky“. CI neodráža dodatočnú neistotu z iných príčin; nezahŕňa najmä účinky selektívnej straty pacientov na sledovanie, slabú komplianciu alebo nepresné meranie výsledkov, nedostatok oslepenia atď. CI tak vždy podceňuje celkovú mieru neistoty.

Výpočet intervalu spoľahlivosti

Tabuľka A1.1. Štandardné chyby a intervaly spoľahlivosti pre niektoré klinické merania

Typicky sa CI vypočítava z pozorovaného odhadu kvantitatívnej miery, ako je rozdiel (d) medzi dvoma podielmi a štandardná chyba (SE) v odhade tohto rozdielu. Takto získaný približný 95 % CI je d ± 1,96 SE. Vzorec sa mení podľa povahy výslednej miery a pokrytia CI. Napríklad v randomizovanej placebom kontrolovanej štúdii s acelulárnou vakcínou proti čiernemu kašľu sa čierny kašeľ vyvinul u 72 z 1670 (4,3 %) dojčiat, ktoré dostali vakcínu, a u 240 z 1665 (14,4 %) v kontrolnej skupine. Percentuálny rozdiel, známy ako absolútne zníženie rizika, je 10,1 %. SE tohto rozdielu je 0,99 %. V súlade s tým je 95 % CI 10,1 % + 1,96 x 0,99 %, t.j. od 8.2 do 12.0.

Napriek rôznym filozofickým prístupom sú CI a testy štatistickej významnosti matematicky úzko prepojené.

Hodnota P je teda „signifikantná“, t.j. R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Neistota (nepresnosť) odhadu vyjadrená v CI do značnej miery súvisí s druhou odmocninou veľkosti vzorky. Malé vzorky poskytujú menej informácií ako veľké vzorky a CI sú primerane širšie v menších vzorkách. Napríklad článok porovnávajúci výkonnosť troch testov používaných na diagnostiku infekcie Helicobacter pylori uvádza citlivosť dychového testu na močovinu 95,8 % (95 % CI 75-100). Zatiaľ čo údaj 95,8 % vyzerá pôsobivo, malá veľkosť vzorky 24 dospelých pacientov s H. pylori znamená, že v tomto odhade je značná neistota, ako ukazuje široký CI. Spodná hranica 75 % je skutočne oveľa nižšia ako odhad 95,8 %. Ak by sa rovnaká citlivosť pozorovala na vzorke 240 ľudí, potom by 95 % CI bol 92,5 – 98,0, čo by dávalo väčšiu istotu, že test je vysoko citlivý.

V randomizovaných kontrolovaných štúdiách (RCT) sú nevýznamné výsledky (t. j. tie s P > 0,05) obzvlášť náchylné na nesprávnu interpretáciu. CI je tu obzvlášť užitočná, pretože ukazuje, nakoľko sú výsledky kompatibilné s klinicky užitočným skutočným účinkom. Napríklad v RCT porovnávajúcom sutúru a anastomózu svoriek v hrubom čreve sa infekcia rany vyvinula u 10,9 % a 13,5 % pacientov (P = 0,30). 95 % CI pre tento rozdiel je 2,6 % (-2 až +8). Dokonca aj v tejto štúdii, ktorá zahŕňala 652 pacientov, zostáva pravdepodobné, že existuje mierny rozdiel vo výskyte infekcií vyplývajúcich z týchto dvoch postupov. Čím menšia štúdia, tým väčšia neistota. Sung a kol. vykonali RCT na porovnanie infúzie oktreotidu s núdzovou skleroterapiou pre akútne krvácanie z varixov u 100 pacientov. V skupine s oktreotidom bola miera zastavenia krvácania 84 %; v skupine so skleroterapiou - 90 %, čo dáva P = 0,56. Všimnite si, že miera pokračujúceho krvácania je podobná ako pri infekcii rany v uvedenej štúdii. V tomto prípade je však 95 % CI pre rozdiel v intervenciách 6 % (-7 až +19). Tento rozsah je dosť široký v porovnaní s 5% rozdielom, ktorý by bol klinicky zaujímavý. Je zrejmé, že štúdia nevylučuje významný rozdiel v účinnosti. Rozhodne teda neplatí záver autorov „infúzia oktreotidu a skleroterapia sú rovnako účinné pri liečbe krvácania z kŕčových žíl“. V prípadoch, ako je tento, kde 95 % CI pre zníženie absolútneho rizika (ARR) zahŕňa nulu, ako tu, je CI pre NNT (počet potrebný na liečbu) dosť ťažké interpretovať. NLP a jeho CI sa získavajú z recipročných hodnôt ACP (vynásobením 100, ak sú tieto hodnoty uvedené v percentách). Tu dostaneme NPP = 100: 6 = 16,6 s 95 % CI -14,3 až 5,3. Ako je zrejmé z poznámky pod čiarou „d“ v tabuľke. A1.1, tento CI obsahuje hodnoty pre NTPP od 5,3 do nekonečna a NTLP od 14,3 do nekonečna.

CI možno zostaviť pre väčšinu bežne používaných štatistických odhadov alebo porovnaní. V prípade RCT zahŕňa rozdiel medzi priemernými podielmi, relatívnymi rizikami, pomermi šancí a NRR. Podobne možno CI získať pre všetky hlavné odhady uskutočnené v štúdiách presnosti diagnostických testov – citlivosť, špecifickosť, pozitívna prediktívna hodnota (všetky sú jednoduché pomery) a pomery pravdepodobnosti – odhady získané v metaanalýzach a porovnaní s kontrolou. štúdia. Osobný počítačový program, ktorý pokrýva mnohé z týchto použití DI, je dostupný v druhom vydaní Štatistiky s istotou. Makrá na výpočet CI pre proporcie sú voľne dostupné pre Excel a štatistické programy SPSS a Minitab na http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Viacnásobné hodnotenie účinku liečby

Zatiaľ čo konštrukcia CI je žiaduca pre primárne výsledky štúdie, nevyžaduje sa pre všetky výsledky. CI sa týka klinicky dôležitých porovnaní. Napríklad pri porovnávaní dvoch skupín je správny CI ten, ktorý je zostavený pre rozdiel medzi skupinami, ako je uvedené v príkladoch vyššie, a nie CI, ktorý je možné zostaviť pre odhad v každej skupine. Nielenže je zbytočné uvádzať samostatné CI pre skóre v každej skupine, ale táto prezentácia môže byť zavádzajúca. Podobne správnym prístupom pri porovnávaní účinnosti liečby v rôznych podskupinách je priame porovnanie dvoch (alebo viacerých) podskupín. Je nesprávne predpokladať, že liečba je účinná len v jednej podskupine, ak jej CI vylučuje hodnotu zodpovedajúcu žiadnemu účinku, zatiaľ čo v iných nie. CI sú tiež užitočné pri porovnávaní výsledkov vo viacerých podskupinách. Na obr. A1.1 ukazuje relatívne riziko eklampsie u žien s preeklampsiou v podskupinách žien z placebom kontrolovanej RCT síranu horečnatého.

Ryža. A1.2. Forest Graph ukazuje výsledky 11 randomizovaných klinických štúdií vakcíny proti rotavírusu hovädzieho dobytka na prevenciu hnačky oproti placebu. Na odhad relatívneho rizika hnačky sa použil 95 % interval spoľahlivosti. Veľkosť čierneho štvorca je úmerná množstvu informácií. Okrem toho je zobrazený súhrnný odhad účinnosti liečby a 95 % interval spoľahlivosti (označený kosoštvorcom). Metaanalýza použila model náhodných efektov, ktorý presahuje niektoré vopred stanovené; môže to byť napríklad veľkosť použitá pri výpočte veľkosti vzorky. Podľa prísnejšieho kritéria musí celý rozsah CI vykazovať prínos, ktorý presahuje vopred stanovené minimum.

Už sme diskutovali o omyle, keď sme neprítomnosť štatistickej významnosti považovali za indikáciu, že dve liečby sú rovnako účinné. Rovnako dôležité je nerovnať štatistickú významnosť s klinickou významnosťou. Klinický význam možno predpokladať, keď je výsledok štatisticky významný a veľkosť odpovede na liečbu

Štúdie môžu ukázať, či sú výsledky štatisticky významné a ktoré z nich sú klinicky dôležité a ktoré nie. Na obr. A1.2 ukazuje výsledky štyroch pokusov, pre ktoré bola celá CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

A ďalšie.Všetky sú to odhady ich teoretických náprotivkov, ktoré by sa dali získať, keby neexistovala vzorka, ale všeobecná populácia. Ale bohužiaľ, bežná populácia je veľmi drahá a často nedostupná.

Pojem intervalového odhadu

Akýkoľvek odhad vzorky má určitý rozptyl, pretože je náhodná premenná v závislosti od hodnôt v konkrétnej vzorke. Preto pre spoľahlivejšie štatistické závery treba poznať nielen bodový odhad, ale aj interval, ktorý s vysokou pravdepodobnosťou γ (gama) pokrýva odhadovaný ukazovateľ θ (theta).

Formálne sú to dve takéto hodnoty (štatistika) T1(X) a T2(X), čo T1< T 2 , pre ktoré pri danej úrovni pravdepodobnosti γ podmienka je splnená:

Je to skrátka pravdepodobné γ alebo viac, skutočná hodnota je medzi bodmi T1(X) a T2(X), ktoré sa nazývajú dolná a horná hranica interval spoľahlivosti.

Jednou z podmienok konštrukcie intervalov spoľahlivosti je jeho maximálna úzka, t.j. mala by byť čo najkratšia. Túžba je celkom prirodzená, pretože. výskumník sa snaží presnejšie lokalizovať zistenie požadovaného parametra.

Z toho vyplýva, že interval spoľahlivosti by mal pokrývať maximálne pravdepodobnosti rozdelenia. a samotné skóre bude v strede.

To znamená, že pravdepodobnosť odchýlky (skutočného ukazovateľa od odhadu) smerom nahor sa rovná pravdepodobnosti odchýlky smerom nadol. Treba tiež poznamenať, že pre zošikmené distribúcie sa interval vpravo nerovná intervalu vľavo.

Vyššie uvedený obrázok jasne ukazuje, že čím vyššia je úroveň spoľahlivosti, tým širší je interval - priamy vzťah.

Toto bol malý úvod do teórie intervalového odhadu neznámych parametrov. Prejdime k hľadaniu hraníc spoľahlivosti pre matematické očakávania.

Interval spoľahlivosti pre matematické očakávania

Ak sú pôvodné údaje rozdelené na , priemer bude normálna hodnota. Vyplýva to z pravidla, že lineárna kombinácia normálnych hodnôt má tiež normálne rozdelenie. Preto by sme na výpočet pravdepodobností mohli použiť matematický aparát zákona normálneho rozdelenia.

To si však bude vyžadovať znalosť dvoch parametrov – očakávanej hodnoty a rozptylu, ktoré väčšinou nie sú známe. Namiesto parametrov môžete samozrejme použiť odhady (aritmetický priemer a ), ale potom rozdelenie priemeru nebude celkom normálne, bude mierne sploštené. Írsky občan William Gosset si túto skutočnosť šikovne všimol, keď svoj objav zverejnil v marci 1908 v časopise Biometrica. Z dôvodu utajenia podpísal Gosset so Študentom. Takto sa objavilo Študentovo t-rozdelenie.

Normálna distribúcia údajov, ktorú používa K. Gauss pri analýze chýb v astronomických pozorovaniach, je však v pozemskom živote extrémne vzácna a je dosť ťažké ju určiť (na vysokú presnosť je potrebných asi 2 000 pozorovaní). Preto je najlepšie upustiť od predpokladu normality a použiť metódy, ktoré nezávisia od distribúcie pôvodných údajov.

Vzniká otázka: aké je rozdelenie aritmetického priemeru, ak sa vypočítava z údajov neznámeho rozdelenia? Odpoveď dáva dobre známe z teórie pravdepodobnosti Centrálna limitná veta(CPT). V matematike existuje niekoľko jeho verzií (formulácie sa v priebehu rokov zdokonaľovali), ale všetky, zhruba povedané, vedú k konštatovaniu, že súčet veľkého počtu nezávislých náhodných premenných sa riadi zákonom normálneho rozdelenia.

Pri výpočte aritmetického priemeru sa používa súčet náhodných premenných. Z toho vyplýva, že aritmetický priemer má normálne rozdelenie, v ktorom očakávaná hodnota je očakávaná hodnota počiatočných údajov a rozptyl je .

Chytrí ľudia vedia dokázať CLT, ale overíme si to pomocou experimentu v Exceli. Simulujme vzorku 50 rovnomerne rozdelených náhodných premenných (pomocou excelovej funkcie RANDOMBETWEEN). Potom urobíme 1000 takýchto vzoriek a pre každú vypočítame aritmetický priemer. Pozrime sa na ich distribúciu.

Je vidieť, že rozdelenie priemeru sa blíži normálnemu zákonu. Ak sa objem vzoriek a ich počet ešte zväčšia, podobnosť bude ešte lepšia.

Teraz, keď sme na vlastné oči videli platnosť CLT, môžeme pomocou , vypočítať intervaly spoľahlivosti pre aritmetický priemer, ktoré pokrývajú skutočný priemer alebo matematické očakávania s danou pravdepodobnosťou.

Na stanovenie hornej a dolnej hranice je potrebné poznať parametre normálneho rozdelenia. Spravidla nie sú, preto sa používajú odhady: aritmetický priemer a rozptyl vzorky. Táto metóda opäť poskytuje dobrú aproximáciu iba pre veľké vzorky. Keď sú vzorky malé, často sa odporúča použiť Studentovu distribúciu. Neverte! Študentovo rozdelenie pre priemer sa vyskytuje iba vtedy, keď pôvodné údaje majú normálne rozdelenie, teda takmer nikdy. Preto je lepšie okamžite nastaviť minimálnu latku pre množstvo požadovaných údajov a použiť asymptoticky správne metódy. Hovorí sa, že stačí 30 pozorovaní. Vezmite 50 - nemôžete sa pokaziť.

T 1.2 sú dolné a horné hranice intervalu spoľahlivosti

– vzorový aritmetický priemer

s0– vzorová štandardná odchýlka (nezaujatá)

n - veľkosť vzorky

γ – úroveň spoľahlivosti (zvyčajne sa rovná 0,9, 0,95 alebo 0,99)

c γ =Φ -1 ((1+γ)/2) je recipročná funkcia štandardného normálneho rozdelenia. Jednoducho povedané, ide o počet štandardných chýb od aritmetického priemeru po dolnú alebo hornú hranicu (uvedené tri pravdepodobnosti zodpovedajú hodnotám 1,64, 1,96 a 2,58).

Podstatou vzorca je, že sa vezme aritmetický priemer a potom sa z neho vyčlení určitá čiastka ( s γ) štandardné chyby ( s 0 /√n). Všetko je známe, vezmite a počítajte.

Pred masovým používaním počítačov na získanie hodnôt funkcie normálneho rozdelenia a jeho inverznej funkcie používali . Stále sa používajú, ale efektívnejšie je obrátiť sa na hotové vzorce Excelu. Všetky prvky z vyššie uvedeného vzorca ( , a ) možno jednoducho vypočítať v Exceli. Existuje však aj hotový vzorec na výpočet intervalu spoľahlivosti - NORMÁLNA DÔVERA. Jeho syntax je nasledovná.

CONFIDENCE NORM(alfa; štandardný_vývoj; veľkosť)

alfa– hladina významnosti alebo hladina spoľahlivosti, ktorá sa vo vyššie uvedenom zápise rovná 1-γ, t.j. pravdepodobnosť, že matematickéočakávanie bude mimo intervalu spoľahlivosti. S úrovňou spoľahlivosti 0,95 je alfa 0,05 atď.

štandard_vyp je štandardná odchýlka údajov vzorky. Nemusíte počítať štandardnú chybu, Excel bude deliť odmocninou z n.

veľkosť– veľkosť vzorky (n).

Výsledkom funkcie CONFIDENCE.NORM je druhý člen zo vzorca na výpočet intervalu spoľahlivosti, t.j. polovičný interval. V súlade s tým sú dolné a horné body priemer ± získaná hodnota.

Je teda možné zostaviť univerzálny algoritmus na výpočet intervalov spoľahlivosti pre aritmetický priemer, ktorý nezávisí od distribúcie počiatočných údajov. Cenou za univerzálnosť je jej asymptotická povaha, t.j. nutnosť použiť relatívne veľké vzorky. V dobe moderných technológií však zhromaždenie správneho množstva údajov zvyčajne nie je ťažké.

Testovanie štatistických hypotéz pomocou intervalu spoľahlivosti

(modul 111)

Jedným z hlavných problémov riešených v štatistike je. Stručne povedané, jeho podstatou je toto. Vychádza sa napríklad z predpokladu, že očakávanie bežnej populácie sa rovná nejakej hodnote. Potom sa skonštruuje distribúcia priemerov vzorky, ktorú možno pozorovať s daným očakávaním. Ďalej sa pozrieme na to, kde sa v tomto podmienenom rozdelení nachádza skutočný priemer. Ak prekročí povolené limity, potom je výskyt takéhoto priemeru veľmi nepravdepodobný a pri jedinom opakovaní experimentu je takmer nemožné, čo je v rozpore s predloženou hypotézou, ktorá je úspešne zamietnutá. Ak priemer neprekročí kritickú úroveň, hypotéza sa nezamietne (ale ani sa nepotvrdí!).

Takže pomocou intervalov spoľahlivosti, v našom prípade pre očakávanie, môžete otestovať aj niektoré hypotézy. Je to veľmi jednoduché. Predpokladajme, že aritmetický priemer pre nejakú vzorku je 100. Testuje sa hypotéza, že očakávanie je povedzme 90. To znamená, že ak otázku položíme primitívne, znie takto: môže to byť so skutočnou hodnotou priemeru? rovná 90, pozorovaný priemer bol 100?

Na zodpovedanie tejto otázky budú potrebné ďalšie informácie o štandardnej odchýlke a veľkosti vzorky. Povedzme, že štandardná odchýlka je 30 a počet pozorovaní je 64 (na ľahké extrahovanie koreňa). Potom je štandardná chyba priemeru 30/8 alebo 3,75. Na výpočet 95 % intervalu spoľahlivosti budete musieť vyčleniť dve štandardné chyby na oboch stranách priemeru (presnejšie 1,96). Interval spoľahlivosti bude približne 100 ± 7,5 alebo od 92,5 do 107,5.

Ďalšie zdôvodnenie je nasledovné. Ak testovaná hodnota spadá do intervalu spoľahlivosti, potom to nie je v rozpore s hypotézou, pretože zapadá do limitov náhodných výkyvov (s pravdepodobnosťou 95 %). Ak je testovaný bod mimo intervalu spoľahlivosti, potom je pravdepodobnosť takejto udalosti veľmi malá, v každom prípade pod prijateľnou úrovňou. Preto sa hypotéza zamieta, pretože je v rozpore s pozorovanými údajmi. V našom prípade je hypotéza očakávania mimo intervalu spoľahlivosti (testovaná hodnota 90 nie je zahrnutá v intervale 100±7,5), preto ju treba zamietnuť. Pri odpovedi na vyššie uvedenú primitívnu otázku by sme mali povedať: nie, nemôže, v žiadnom prípade sa to stáva veľmi zriedka. Často to indikuje konkrétnu pravdepodobnosť chybného zamietnutia hypotézy (p-level), a nie danú úroveň, podľa ktorej bol interval spoľahlivosti zostavený, ale o tom inokedy.

Ako vidíte, nie je ťažké vytvoriť interval spoľahlivosti pre priemer (alebo matematické očakávania). Hlavná vec je zachytiť podstatu a potom to pôjde. V praxi väčšina používa 95 % interval spoľahlivosti, čo je šírka približne dvoch štandardných chýb na oboch stranách priemeru.

To je zatiaľ všetko. Všetko najlepšie!

INTERVALY BEZPEČNOSTI PRE FREKVENCIE A ČASTI

© 2008

Národný inštitút verejného zdravia, Oslo, Nórsko

Článok popisuje a rozoberá výpočet intervalov spoľahlivosti pre frekvencie a proporcie pomocou Waldovej, Wilsonovej, Klopperovej-Pearsonovej metódy, pomocou uhlovej transformácie a Waldovej metódy s Agresti-Cowllovou korekciou. Predkladaný materiál poskytuje všeobecné informácie o metódach výpočtu intervalov spoľahlivosti pre frekvencie a proporcie a má vzbudiť záujem čitateľov časopisu nielen o používanie intervalov spoľahlivosti pri prezentovaní výsledkov vlastného výskumu, ale aj o prečítanie odbornej literatúry pred začať pracovať na budúcich publikáciách.

Kľúčové slová: interval spoľahlivosti, frekvencia, podiel

V jednej z predchádzajúcich publikácií bol stručne spomenutý popis kvalitatívnych údajov a bolo oznámené, že ich intervalový odhad je vhodnejší ako bodový odhad na popis frekvencie výskytu študovanej charakteristiky v bežnej populácii. Vzhľadom na to, že štúdie sa vykonávajú s použitím údajov zo vzorky, projekcia výsledkov na všeobecnú populáciu musí obsahovať prvok nepresnosti v odhade vzorky. Interval spoľahlivosti je mierou presnosti odhadovaného parametra. Je zaujímavé, že v niektorých knihách o základoch štatistiky pre lekárov je téma intervalov spoľahlivosti pre frekvencie úplne ignorovaná. V tomto článku zvážime niekoľko spôsobov, ako vypočítať intervaly spoľahlivosti pre frekvencie, za predpokladu charakteristík vzorky, ako je neopakovanie sa a reprezentatívnosť, ako aj nezávislosť pozorovaní od seba navzájom. Frekvencia v tomto článku nie je chápaná ako absolútne číslo, ktoré ukazuje, koľkokrát sa tá či oná hodnota vyskytuje v súhrne, ale ako relatívna hodnota, ktorá určuje podiel účastníkov štúdie, ktorí majú skúmanú vlastnosť.

V biomedicínskom výskume sa najčastejšie používajú 95% intervaly spoľahlivosti. Tento interval spoľahlivosti je oblasť, do ktorej skutočný podiel spadá 95 % času. Inými slovami, s 95% istotou možno povedať, že skutočná hodnota frekvencie výskytu znaku v bežnej populácii bude v rámci 95% intervalu spoľahlivosti.

Väčšina štatistických učebníc pre medicínskych výskumníkov uvádza, že frekvenčná chyba sa vypočítava pomocou vzorca

kde p je frekvencia výskytu znaku vo vzorke (hodnota od 0 do 1). Vo väčšine domácich vedeckých článkov sa uvádza hodnota frekvencie výskytu znaku vo vzorke (p), ako aj jeho chyba (s) v tvare p ± s. Je však účelnejšie uviesť 95 % interval spoľahlivosti pre frekvenciu výskytu znaku vo všeobecnej populácii, ktorý bude zahŕňať hodnoty od

predtým.

V niektorých učebniciach sa pre malé vzorky odporúča nahradiť hodnotu 1,96 hodnotou t pre N - 1 stupňov voľnosti, kde N je počet pozorovaní vo vzorke. Hodnota t sa nachádza v tabuľkách pre t-rozdelenie, ktoré sú dostupné takmer vo všetkých učebniciach štatistiky. Použitie distribúcie t pre Waldovu metódu neposkytuje viditeľné výhody oproti iným metódam diskutovaným nižšie, a preto nie je niektorými autormi vítané.

Vyššie uvedená metóda na výpočet intervalov spoľahlivosti pre frekvencie alebo zlomky je pomenovaná po Abrahamovi Waldovi (Abraham Wald, 1902–1950), pretože sa začala široko používať po publikácii Walda a Wolfowitza v roku 1939. Samotnú metódu však navrhol Pierre Simon Laplace (1749–1827) už v roku 1812.

Waldova metóda je veľmi populárna, no jej aplikácia je spojená so značnými problémami. Metóda sa neodporúča pre malé veľkosti vzoriek, ako aj v prípadoch, keď frekvencia výskytu prvku má tendenciu k 0 alebo 1 (0 % alebo 100 %) a pri frekvenciách 0 a 1 jednoducho nie je možná. aproximácia normálneho rozdelenia, ktorá sa používa pri výpočte chyby, "nefunguje" v prípadoch, keď n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Keďže nová premenná je normálne rozdelená, dolná a horná hranica 95 % intervalu spoľahlivosti pre premennú φ bude φ-1,96 a φ+1,96 vľavo">

Namiesto 1,96 pre malé vzorky sa odporúča nahradiť hodnotu t za N - 1 stupňov voľnosti. Táto metóda nedáva záporné hodnoty a umožňuje presnejšie odhadnúť intervaly spoľahlivosti pre frekvencie ako Waldova metóda. Okrem toho je opísaný v mnohých domácich referenčných knihách o lekárskej štatistike, čo však neviedlo k jeho širokému použitiu v lekárskom výskume. Výpočet intervalov spoľahlivosti pomocou uhlovej transformácie sa neodporúča pre frekvencie blížiace sa k 0 alebo 1.

Tu sa popis metód na odhadovanie intervalov spoľahlivosti vo väčšine kníh o základoch štatistiky pre medicínskych výskumníkov zvyčajne končí a tento problém je typický nielen pre domácu, ale aj zahraničnú literatúru. Obe metódy sú založené na centrálnej limitnej vete, čo znamená veľkú vzorku.

Vzhľadom na nedostatky odhadu intervalov spoľahlivosti pomocou vyššie uvedených metód navrhli Clopper (Clopper) a Pearson (Pearson) v roku 1934 metódu na výpočet takzvaného presného intervalu spoľahlivosti, berúc do úvahy binomické rozdelenie skúmaného znaku. Táto metóda je dostupná v mnohých online kalkulačkách, avšak takto získané intervaly spoľahlivosti sú vo väčšine prípadov príliš široké. Zároveň sa táto metóda odporúča použiť v prípadoch, keď je potrebný konzervatívny odhad. Stupeň konzervatívnosti metódy sa zvyšuje so znižovaním veľkosti vzorky, najmä pre N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Podľa mnohých štatistikov sa najoptimálnejší odhad intervalov spoľahlivosti pre frekvencie vykonáva Wilsonovou metódou, navrhnutou už v roku 1927, ale prakticky sa nepoužíva v domácom biomedicínskom výskume. Táto metóda nielenže umožňuje odhadnúť intervaly spoľahlivosti pre veľmi malé aj veľmi vysoké frekvencie, ale je použiteľná aj pre malý počet pozorovaní. Vo všeobecnosti má interval spoľahlivosti podľa Wilsonovho vzorca tvar od



kde pri výpočte 95 % intervalu spoľahlivosti nadobúda hodnotu 1,96, N je počet pozorovaní a p je frekvencia znaku vo vzorke. Táto metóda je dostupná v online kalkulačkách, takže jej aplikácia nie je problematická. a neodporúčame používať túto metódu pre n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Okrem Wilsonovej metódy sa tiež predpokladá, že Waldova metóda korigovaná Agresti-Caull poskytuje optimálny odhad intervalu spoľahlivosti pre frekvencie. Korekcia Agresti-Coulle je vo Waldovom vzorci nahradením frekvencie výskytu znaku vo vzorke (p) za p`, pri výpočte, ktorá 2 sa pripočíta k čitateľovi a 4 k menovateľovi, tj. , p` = (X + 2) / (N + 4), kde X je počet účastníkov štúdie, ktorí majú skúmanú vlastnosť, a N je veľkosť vzorky. Táto modifikácia poskytuje výsledky veľmi podobné výsledkom Wilsonovho vzorca, s výnimkou prípadov, keď sa frekvencia udalostí blíži k 0 % alebo 100 % a vzorka je malá. Okrem vyššie uvedených metód na výpočet intervalov spoľahlivosti pre frekvencie boli navrhnuté korekcie kontinuity pre Waldovu metódu aj Wilsonovu metódu pre malé vzorky, ale štúdie ukázali, že ich použitie je nevhodné.

Zvážte použitie vyššie uvedených metód na výpočet intervalov spoľahlivosti pomocou dvoch príkladov. V prvom prípade študujeme veľkú vzorku 1000 náhodne vybraných účastníkov štúdie, z ktorých 450 má skúmanú vlastnosť (či už ide o rizikový faktor, výsledok alebo akúkoľvek inú vlastnosť), čo je frekvencia 0,45, resp. 45 %. V druhom prípade sa štúdia uskutočňuje na malej vzorke, povedzme, len 20 ľudí a iba 1 účastník štúdie (5 %) má skúmanú vlastnosť. Intervaly spoľahlivosti pre Waldovu metódu, Waldovu metódu s Agresti-Coll korekciou, Wilsonovu metódu boli vypočítané pomocou online kalkulačky vyvinutej Jeffom Saurom (http://www./wald.htm). Wilsonove intervaly spoľahlivosti korigované na kontinuitu sa vypočítali pomocou kalkulačky poskytnutej Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Výpočty pomocou Fisherovej uhlovej transformácie sa uskutočňovali "ručne" s použitím kritickej hodnoty t pre 19 a 999 stupňov voľnosti. Výsledky výpočtu sú uvedené v tabuľke pre oba príklady.

Intervaly spoľahlivosti vypočítané šiestimi rôznymi spôsobmi pre dva príklady opísané v texte

Metóda výpočtu intervalu spoľahlivosti

P = 0,0500 alebo 5 %

95 % CI pre X = 450, N = 1 000, P = 0,4500 alebo 45 %

–0,0455–0,2541

Walda s korekciou Agresti-Coll

<,0001–0,2541

Wilson s korekciou kontinuity

Klopper-Pearsonova "presná metóda"

Uhlová transformácia

<0,0001–0,1967

Ako je možné vidieť z tabuľky, v prvom príklade interval spoľahlivosti vypočítaný „všeobecne akceptovanou“ Waldovou metódou ide do zápornej oblasti, čo nemôže byť prípad frekvencií. Bohužiaľ, takéto incidenty nie sú v ruskej literatúre nezvyčajné. Tradičný spôsob reprezentácie údajov ako frekvencie a jej chyba tento problém čiastočne maskuje. Napríklad, ak je frekvencia výskytu vlastnosti (v percentách) prezentovaná ako 2,1 ± 1,4, potom to nie je také „dráždivé“ ako 2,1 % (95 % CI: –0,7; 4,9), hoci a znamená to isté. Waldova metóda s Agresti-Coullovou korekciou a výpočtom pomocou uhlovej transformácie dáva dolnú hranicu smerujúcu k nule. Wilsonova metóda s korekciou kontinuity a „presná metóda“ poskytujú širšie intervaly spoľahlivosti ako Wilsonova metóda. V druhom príklade všetky metódy poskytujú približne rovnaké intervaly spoľahlivosti (rozdiely sa objavujú iba v tisícinách), čo nie je prekvapujúce, pretože frekvencia udalosti v tomto príklade sa príliš nelíši od 50 % a veľkosť vzorky je dosť veľká. .

Čitateľom zaujímajúcim sa o tento problém môžeme odporučiť práce R. G. Newcomba a Browna, Caia a Dasguptu, ktoré uvádzajú klady a zápory použitia 7 a 10 rôznych metód na výpočet intervalov spoľahlivosti, resp. Z domácich príručiek sa odporúča kniha a, v ktorej sú okrem podrobného popisu teórie uvedené metódy Walda, Wilsona, ako aj metóda na výpočet intervalov spoľahlivosti s prihliadnutím na binomické rozdelenie frekvencií. . Okrem bezplatných online kalkulačiek (http://www./wald.htm a http://faculty.vassar.edu/lowry/prop1.html) možno intervaly spoľahlivosti pre frekvencie (nielen!) vypočítať pomocou Program CIA (Confidence Intervals Analysis), ktorý si môžete stiahnuť z http://www. lekárska škola. soton. ac. uk/cia/ .

Nasledujúci článok sa bude zaoberať jednorozmernými spôsobmi porovnávania kvalitatívnych údajov.

Bibliografia

Banerjee A. Lekárska štatistika v jednoduchom jazyku: úvodný kurz / A. Banerzhi. - M. : Praktické lekárstvo, 2007. - 287 s. Lekárska štatistika / . - M. : Lekárska informačná agentúra, 2007. - 475 s. Glanz S. Medico-biologická štatistika / S. Glants. - M. : Prax, 1998. Dátové typy, overovanie distribúcie a popisná štatistika / // Ekológia človeka - 2008. - č. 1. - S. 52–58. Zhizhin K.S.. Lekárska štatistika: učebnica / . - Rostov n / D: Phoenix, 2007. - 160 s. Aplikovaná lekárska štatistika / , . - St. Petersburg. : Folio, 2003. - 428 s. Lakin G. F. Biometria / . - M. : Vyššia škola, 1990. - 350 s. Medik V. A. Matematická štatistika v medicíne / , . - M. : Financie a štatistika, 2007. - 798 s. Matematická štatistika v klinickom výskume / , . - M. : GEOTAR-MED, 2001. - 256 s. Junkerov V. A. Medicínsko-štatistické spracovanie údajov medicínskeho výskumu /,. - St. Petersburg. : VmedA, 2002. - 266 s. Agresti A. Pre intervalový odhad binomických proporcií je približné lepšie ako presné / A. Agresti, B. Coull // Americký štatistik. - 1998. - N 52. - S. 119-126. Altman D.Štatistika s istotou // D. Altman, D. Machin, T. Bryant, M. J. Gardner. - Londýn: BMJ Books, 2000. - 240 s. Brown L.D. Intervalový odhad pre binomický podiel / L. D. Brown, T. T. Cai, A. Dasgupta // Štatistická veda. - 2001. - N 2. - S. 101-133. Clopper C.J. Použitie spoľahlivosti alebo fiduciálnych limitov ilustrované v prípade binomickej / C. J. Clopper, E. S. Pearson // Biometrika. - 1934. - N 26. - S. 404-413. Garcia-Perez M.A. O intervale spoľahlivosti pre binomický parameter / M. A. Garcia-Perez // Kvalita a kvantita. - 2005. - N 39. - S. 467-481. Motulsky H. Intuitívna bioštatistika // H. Motulsky. - Oxford: Oxford University Press, 1995. - 386 s. Newcombe R.G. Obojstranné intervaly spoľahlivosti pre jednu proporciu: Porovnanie siedmich metód / R. G. Newcombe // Štatistika v medicíne. - 1998. - N. 17. - S. 857–872. Sauro J. Odhadovanie miery dokončenia z malých vzoriek pomocou binomických intervalov spoľahlivosti: porovnania a odporúčania / J. Sauro, J. R. Lewis // Zborník výročného stretnutia spoločnosti pre ľudské faktory a ergonómiu. – Orlando, FL, 2005. Wald A. Limity spoľahlivosti pre spojité distribučné funkcie // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - S. 105–118. Wilson E. B. Pravdepodobná inferencia, zákon nástupníctva a štatistická inferencia / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - S. 209-212.

INTERVALY DÔVERY PRE PROPORCIE

A. M. Grjibovski

Národný inštitút verejného zdravia, Oslo, Nórsko

Článok predstavuje niekoľko metód na výpočty intervalov spoľahlivosti pre binomické proporcie, a to Waldovu, Wilsonovu, arcsínusovú, Agresti-Coullovu a presnú Clopper-Pearsonovu metódu. Príspevok poskytuje len všeobecný úvod do problematiky odhadu intervalu spoľahlivosti binomickej proporcie a jeho cieľom je nielen podnietiť čitateľov k využívaniu intervalov spoľahlivosti pri prezentácii výsledkov vlastného empirického výskumu, ale aj podnietiť ich, aby pred začatím práce nahliadli do štatistických kníh. analýza vlastných údajov a príprava rukopisov.

Kľúčové slová: interval spoľahlivosti, podiel

Kontaktné informácie:

Senior Advisor, National Institute of Public Health, Oslo, Nórsko