Betrouwbaarheidsinterval. ABC van medische statistieken

Laten we een betrouwbaarheidsinterval bouwen in MS EXCEL voor het schatten van de gemiddelde waarde van de verdeling in het geval van een bekende waarde van de variantie.

Natuurlijk de keuze niveau van vertrouwen hangt volledig af van de taak die voorhanden is. De mate van vertrouwen van de vliegtuigpassagier in de betrouwbaarheid van het vliegtuig moet dus natuurlijk hoger zijn dan de mate van vertrouwen van de koper in de betrouwbaarheid van de gloeilamp.

Taak Formulering

Laten we aannemen dat vanaf bevolking genomen hebben steekproef maat n. Er wordt aangenomen dat standaardafwijking deze verdeling is bekend. Op grond hiervan noodzakelijk monsters waardeer het onbekende distributie betekenen(μ, ) en construeer de overeenkomstige bilateraal Betrouwbaarheidsinterval.

Punt schatting

Zoals bekend uit statistieken(laten we het noemen X vgl) is zuivere schatting van het gemiddelde dit bevolking en heeft de verdeling N(μ;σ 2 /n).

Opmerking: Wat als je moet bouwen Betrouwbaarheidsinterval in het geval van distributie, welke is niet normaal? Komt in dit geval te hulp, wat zegt dat met een voldoende grote maat monsters n van distributie niet- normaal, steekproefverdeling van statistieken Х av zullen ongeveer corresponderen normale verdeling met parameters N(μ;σ 2 /n).

Dus, puntschatting midden distributie waarden we hebben zijn steekproef gemiddelde, d.w.z. X vgl. Laten we nu aan de slag gaan Betrouwbaarheidsinterval.

Een betrouwbaarheidsinterval opbouwen

Gewoonlijk kunnen we, als we de verdeling en de parameters ervan kennen, de waarschijnlijkheid berekenen dat een willekeurige variabele een waarde uit een bepaald interval zal aannemen. Laten we nu het tegenovergestelde doen: zoek het interval waarin de willekeurige variabele valt met een bepaalde waarschijnlijkheid. Bijvoorbeeld van eigendommen normale verdeling het is bekend dat met een kans van 95% een willekeurige variabele wordt verdeeld over gewone wet, valt binnen het interval ongeveer +/- 2 van gemiddelde waarde(zie artikel over). Dit interval zal dienen als ons prototype voor Betrouwbaarheidsinterval.

Laten we nu eens kijken of we de verdeling weten , om dit interval te berekenen? Om de vraag te beantwoorden, moeten we de vorm van distributie en de parameters ervan specificeren.

We weten wat de vorm van distributie is normale verdeling(vergeet niet dat we het hebben over steekproeven distributie statistieken X vgl).

De parameter μ is ons niet bekend (hij moet alleen worden geschat met behulp van Betrouwbaarheidsinterval), maar we hebben de schatting X zie, berekend op basis van steekproef, die kan worden gebruikt.

De tweede parameter is steekproefgemiddelde standaarddeviatie bekend zal zijn, het is gelijk aan σ/√n.

Omdat weten we μ niet, dan bouwen we het interval +/- 2 op standaard afwijkingen niet van gemiddelde waarde, maar van de bekende schatting X vgl. Die. bij het rekenen Betrouwbaarheidsinterval daar gaan we NIET van uit X vgl valt binnen het interval +/- 2 standaard afwijkingen van μ met een waarschijnlijkheid van 95%, en we gaan ervan uit dat het interval +/- 2 is standaard afwijkingen van X vgl met een kans van 95% zal μ dekken - het gemiddelde van de algemene bevolking, van welke steekproef. Deze twee verklaringen zijn equivalent, maar de tweede verklaring stelt ons in staat om te construeren Betrouwbaarheidsinterval.

Daarnaast verfijnen we het interval: een willekeurige variabele verdeeld over gewone wet, valt met een waarschijnlijkheid van 95% binnen het interval +/- 1.960 standaard afwijkingen, niet +/- 2 standaard afwijkingen. Dit kan worden berekend met behulp van de formule \u003d NORM.ST.OBR ((1 + 0,95) / 2), cm. voorbeeldbestand Bladafstand.

Nu kunnen we een probabilistische verklaring formuleren die ons zal dienen om te vormen Betrouwbaarheidsinterval:
"De kans dat populatie gemiddelde gelegen van steekproef gemiddeld binnen 1.960" standaarddeviaties van het steekproefgemiddelde", is gelijk aan 95%.

De waarschijnlijkheidswaarde die in de verklaring wordt genoemd, heeft een speciale naam , waarmee wordt geassocieerd significantieniveau α (alfa) door een eenvoudige uitdrukking vertrouwensniveau =1 . In ons geval mate van belangrijkheid α =1-0,95=0,05 .

Nu, op basis van deze probabilistische verklaring, schrijven we een uitdrukking voor berekening Betrouwbaarheidsinterval:

waar Zα/2 standaard normale verdeling(zo'n waarde van een willekeurige variabele z, Wat P(z>=Za/2 )=α/2).

Opmerking: Bovenste α/2-kwantiel bepaalt de breedte Betrouwbaarheidsinterval V standaard afwijkingen steekproef gemiddelde. Bovenste α/2-kwantiel standaard normale verdeling is altijd groter dan 0, wat erg handig is.

In ons geval, bij α=0,05, bovenste α/2-kwantiel gelijk aan 1.960. Voor andere significantieniveaus α (10%; 1%) bovenste α/2-kwantiel Za/2 kan worden berekend met de formule \u003d NORM.ST.OBR (1-α / 2) of, indien bekend vertrouwensniveau, =NORM.ST.OBR((1+betrouwbaarheidsniveau)/2).

Meestal bij het bouwen betrouwbaarheidsintervallen voor het schatten van het gemiddelde gebruik alleen bovenste α/2-kwantiel en niet gebruiken lagere α/2-kwantiel. Dit is mogelijk omdat standaard normale verdeling symmetrisch rond de x-as ( dichtheid van de distributie symmetrisch over gemiddeld, d.w.z. 0). Rekenen is dus niet nodig lager α/2-kwantiel(het heet gewoon α /2-kwantiel), omdat het is gelijk bovenste α/2-kwantiel met een minteken.

Bedenk dat, ongeacht de vorm van de verdeling van x, de overeenkomstige willekeurige variabele X vgl gedistribueerd ongeveer Prima N(μ;σ 2 /n) (zie artikel over). Daarom is in het algemeen de bovenstaande uitdrukking voor Betrouwbaarheidsinterval is slechts bij benadering. Als x is verdeeld over gewone wet N(μ;σ 2 /n), dan de uitdrukking voor Betrouwbaarheidsinterval is accuraat.

Berekening van betrouwbaarheidsinterval in MS EXCEL

Laten we het probleem oplossen.
De reactietijd van een elektronische component op een ingangssignaal is een belangrijke eigenschap van een apparaat. Een ingenieur wil een betrouwbaarheidsinterval uitzetten voor de gemiddelde responstijd bij een betrouwbaarheidsniveau van 95%. Uit eerdere ervaring weet de engineer dat de standaarddeviatie van de responstijd 8 ms is. Het is bekend dat de ingenieur 25 metingen heeft gedaan om de responstijd te schatten, de gemiddelde waarde was 78 ms.

Oplossing: Een ingenieur wil de reactietijd van een elektronisch apparaat weten, maar hij begrijpt dat de reactietijd niet vaststaat, maar een willekeurige variabele is die zijn eigen verdeling heeft. Dus het beste waarop hij kan hopen, is het bepalen van de parameters en vorm van deze verdeling.

Helaas weten we vanuit de toestand van het probleem niet de vorm van de verdeling van de reactietijd (het hoeft niet zo te zijn normaal). , deze verdeling is ook niet bekend. Alleen hij is bekend standaardafwijkingσ=8. Daarom, terwijl we de kansen niet kunnen berekenen en construeren Betrouwbaarheidsinterval.

Hoewel we de distributie niet kennen tijd aparte reactie, dat weten we volgens CPT, steekproeven distributie gemiddelde responstijd is ongeveer normaal(we gaan ervan uit dat de voorwaarden CPT worden uitgevoerd, omdat maat monsters groot genoeg (n=25)) .

Bovendien, gemiddeld deze verdeling is gelijk aan gemiddelde waarde eenheidsresponsverdelingen, d.w.z. μ. A standaardafwijking van deze verdeling (σ/√n) kan worden berekend met de formule =8/ROOT(25) .

Het is ook bekend dat de ingenieur ontvangen puntschatting parameter μ gelijk aan 78 ms (X cf). Daarom kunnen we nu de kansen berekenen, omdat we kennen het distributieformulier ( normaal) en zijn parameters (Х ср en σ/√n).

Ingenieur wil het weten verwachte waardeμ van de responstijdverdeling. Zoals hierboven vermeld, is deze μ gelijk aan verwachting van de steekproefverdeling van de gemiddelde responstijd. Als we gebruiken normale verdeling N(X cf; σ/√n), dan zal de gewenste μ in het bereik +/-2*σ/√n liggen met een waarschijnlijkheid van ongeveer 95%.

Mate van belangrijkheid is gelijk aan 1-0,95=0,05.

Zoek ten slotte de linker- en rechterrand Betrouwbaarheidsinterval.
Linkerrand: \u003d 78-NORM.ST.INR (1-0,05 / 2) * 8 / ROOT (25) = 74,864
Rechterrand: \u003d 78 + NORM ST OBR (1-0,05 / 2) * 8 / ROOT (25) \u003d 81,136

Linkerrand: =NORM.INV(0,05/2; 78; 8/WORTEL(25))
Rechterrand: =NORM.INV(1-0,05/2; 78; 8/WORTEL(25))

Antwoord: Betrouwbaarheidsinterval bij 95% betrouwbaarheidsniveau en σ=8msec gelijk aan 78+/-3.136ms

IN voorbeeldbestand op blad Sigma bekend heeft een formulier gemaakt voor berekening en constructie bilateraal Betrouwbaarheidsinterval voor willekeurig monsters met een gegeven σ en mate van belangrijkheid.

VERTROUWEN.NORM() functie

Als de waarden monsters zijn in het assortiment B20:B79 , A mate van belangrijkheid gelijk aan 0,05; dan MS EXCEL-formule:
=GEMIDDELDE(B20:B79)-VERTROUWEN(0,05;σ; AANTAL(B20:B79))
zal de linkergrens teruggeven Betrouwbaarheidsinterval.

Dezelfde grens kan worden berekend met de formule:
=GEMIDDELDE(B20:B79)-NORM.ST.INV(1-0,05/2)*σ/WORTEL(AANTAL(B20:B79))

Opmerking: De functie TRUST.NORM() verscheen in MS EXCEL 2010. Eerdere versies van MS EXCEL gebruikten de functie TRUST().

Betrouwbaarheidsintervallen ( Engels Betrouwbaarheidsintervallen) een van de soorten intervalschattingen die worden gebruikt in statistieken, die worden berekend voor een bepaald significantieniveau. Ze stellen ons in staat een verklaring af te leggen dat de werkelijke waarde van een onbekende statistische parameter van de algemene bevolking in het verkregen waardenbereik ligt met een waarschijnlijkheid die wordt gegeven door het gekozen niveau van statistische significantie.

Normale verdeling

Wanneer de variantie (σ 2 ) van de gegevenspopulatie bekend is, kan een z-score worden gebruikt om betrouwbaarheidsgrenzen (grenspunten van het betrouwbaarheidsinterval) te berekenen. Vergeleken met het gebruik van een t-verdeling, levert het gebruik van een z-score niet alleen een smaller betrouwbaarheidsinterval op, maar biedt het ook betrouwbaardere schattingen van het gemiddelde en de standaarddeviatie (σ), aangezien de Z-score is gebaseerd op een normale verdeling.

Formule

Om de grenspunten van het betrouwbaarheidsinterval te bepalen, mits de standaarddeviatie van de gegevenspopulatie bekend is, wordt de volgende formule gebruikt

L = X - Z α/2 σ
√n

Voorbeeld

Stel dat de steekproefomvang 25 waarnemingen is, het steekproefgemiddelde 15 en de standaarddeviatie van de populatie 8. Voor een significantieniveau van α=5% is de Z-score Z α/2 =1,96. In dit geval zijn de onder- en bovengrens van het betrouwbaarheidsinterval

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

We kunnen dus stellen dat met een waarschijnlijkheid van 95% de wiskundige verwachting van de algemene bevolking zal vallen in het bereik van 11.864 tot 18.136.

Methoden voor het verkleinen van het betrouwbaarheidsinterval

Laten we zeggen dat het bereik te breed is voor de doeleinden van ons onderzoek. Er zijn twee manieren om het bereik van het betrouwbaarheidsinterval te verkleinen.

  1. Verlaag het niveau van statistische significantie α.
  2. Vergroot de steekproefomvang.

Als we het niveau van statistische significantie verlagen tot α=10%, krijgen we een Z-score gelijk aan Z α/2 =1,64. In dit geval zijn de onder- en bovengrenzen van het interval

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

En het betrouwbaarheidsinterval zelf kan worden geschreven als

In dit geval kunnen we ervan uitgaan dat met een waarschijnlijkheid van 90% de wiskundige verwachting van de algemene bevolking binnen het bereik zal vallen.

Als we het niveau van statistische significantie α willen behouden, dan is het enige alternatief het vergroten van de steekproefomvang. Door het te verhogen tot 144 waarnemingen, verkrijgen we de volgende waarden van de betrouwbaarheidsgrenzen

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

Het betrouwbaarheidsinterval zelf ziet er als volgt uit:

Het verkleinen van het betrouwbaarheidsinterval zonder het niveau van statistische significantie te verlagen is dus alleen mogelijk door de steekproefomvang te vergroten. Als het niet mogelijk is om de steekproefomvang te vergroten, kan de vernauwing van het betrouwbaarheidsinterval alleen worden bereikt door het niveau van statistische significantie te verlagen.

Het bouwen van een betrouwbaarheidsinterval voor een niet-normale verdeling

Als de standaarddeviatie van de populatie niet bekend is of als de verdeling niet normaal is, wordt de t-verdeling gebruikt om een ​​betrouwbaarheidsinterval te construeren. Deze techniek is conservatiever, wat wordt uitgedrukt in bredere betrouwbaarheidsintervallen, vergeleken met de techniek op basis van de Z-score.

Formule

De volgende formules worden gebruikt om de onder- en bovengrens van het betrouwbaarheidsinterval te berekenen op basis van de t-verdeling

L = X - tα σ
√n

De studentverdeling of t-verdeling hangt af van slechts één parameter: het aantal vrijheidsgraden, dat gelijk is aan het aantal individuele kenmerkwaarden (het aantal waarnemingen in de steekproef). De waarde van Student's t-toets voor een gegeven aantal vrijheidsgraden (n) en het niveau van statistische significantie α zijn te vinden in de opzoektabellen.

Voorbeeld

Stel dat de steekproefomvang 25 individuele waarden is, de gemiddelde waarde van de steekproef 50 en de standaarddeviatie van de steekproef 28. U moet een betrouwbaarheidsinterval construeren voor het niveau van statistische significantie α=5%.

In ons geval is het aantal vrijheidsgraden 24 (25-1), daarom is de overeenkomstige tabelwaarde van Student's t-toets voor het niveau van statistische significantie α=5% 2,064. Daarom zullen de onder- en bovengrenzen van het betrouwbaarheidsinterval zijn

L = 50 - 2.064 28 = 38,442
√25
L = 50 + 2.064 28 = 61,558
√25

En het interval zelf kan worden geschreven als

We kunnen dus stellen dat met een waarschijnlijkheid van 95% de wiskundige verwachting van de algemene bevolking binnen het bereik zal liggen.

Door een t-verdeling te gebruiken, kunt u het betrouwbaarheidsinterval verkleinen door de statistische significantie te verkleinen of door de steekproefomvang te vergroten.

Door de statistische significantie te verminderen van 95% naar 90% in de omstandigheden van ons voorbeeld, krijgen we de overeenkomstige tabelwaarde van Student's t-toets 1.711.

L = 50 - 1.711 28 = 40,418
√25
L = 50 + 1.711 28 = 59,582
√25

In dit geval kunnen we zeggen dat met een waarschijnlijkheid van 90% de wiskundige verwachting van de algemene bevolking binnen het bereik zal liggen.

Als we de statistische significantie niet willen verkleinen, is het enige alternatief het vergroten van de steekproefomvang. Laten we zeggen dat het 64 individuele waarnemingen zijn, en niet 25 zoals in de begintoestand van het voorbeeld. De tabelwaarde van Student's t-toets voor 63 vrijheidsgraden (64-1) en het niveau van statistische significantie α=5% is 1,998.

L = 50 - 1.998 28 = 43,007
√64
L = 50 + 1.998 28 = 56,993
√64

Dit geeft ons de mogelijkheid om te stellen dat met een waarschijnlijkheid van 95% de wiskundige verwachting van de algemene bevolking binnen het bereik zal liggen.

Grote monsters

Grote steekproeven zijn steekproeven uit een gegevenspopulatie met meer dan 100 individuele waarnemingen.Statistische studies hebben aangetoond dat grotere steekproeven normaal verdeeld zijn, zelfs als de verdeling van de populatie niet normaal is. Bovendien geeft het gebruik van z-score en t-verdeling voor dergelijke steekproeven ongeveer dezelfde resultaten bij het construeren van betrouwbaarheidsintervallen. Voor grote steekproeven is het dus acceptabel om een ​​z-score te gebruiken voor een normale verdeling in plaats van een t-verdeling.

Opsommen

Betrouwbaarheidsinterval(CI; in het Engels, betrouwbaarheidsinterval - CI) verkregen in het onderzoek bij de steekproef geeft een maat voor de nauwkeurigheid (of onzekerheid) van de resultaten van het onderzoek, om conclusies te trekken over de populatie van al dergelijke patiënten (algemene populatie ). De juiste definitie van 95% BI kan als volgt worden geformuleerd: 95% van dergelijke intervallen zal de werkelijke waarde in de populatie bevatten. Deze interpretatie is iets minder nauwkeurig: CI is het bereik van waarden waarbinnen je voor 95% zeker weet dat het de werkelijke waarde bevat. Bij het gebruik van CI ligt de nadruk op het bepalen van het kwantitatieve effect, in tegenstelling tot de P-waarde, die wordt verkregen door toetsing op statistische significantie. De P-waarde evalueert geen enkel bedrag, maar dient eerder als een maatstaf voor de sterkte van het bewijs tegen de nulhypothese van "geen effect". De waarde van P zegt op zichzelf niets over de grootte van het verschil, of zelfs maar over de richting ervan. Daarom zijn onafhankelijke waarden van P absoluut niet informatief in artikelen of samenvattingen. CI daarentegen geeft zowel de hoeveelheid effect van direct belang aan, zoals het nut van een behandeling, als de sterkte van het bewijs. Daarom is DI direct gerelateerd aan de praktijk van DM.

De scorebenadering van statistische analyse, geïllustreerd door CI, heeft tot doel de omvang van het effect van belang te meten (gevoeligheid van de diagnostische test, voorspelde incidentie, relatieve risicoreductie bij behandeling, enz.) en de onzekerheid in dat effect te meten. Meestal is de CI het bereik van waarden aan weerszijden van de schatting waarin de werkelijke waarde waarschijnlijk zal liggen, en u kunt er 95% zeker van zijn. De conventie om de waarschijnlijkheid van 95% te gebruiken is willekeurig, evenals de waarde van P<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

De CI is gebaseerd op het idee dat dezelfde studie uitgevoerd op verschillende groepen patiënten geen identieke resultaten zou opleveren, maar dat hun resultaten zouden worden verdeeld rond de werkelijke maar onbekende waarde. Met andere woorden, de CI beschrijft dit als "steekproefafhankelijke variabiliteit". De CI weerspiegelt geen extra onzekerheid vanwege andere oorzaken; in het bijzonder omvat het niet de effecten van selectief verlies van patiënten op tracking, slechte therapietrouw of onnauwkeurige uitkomstmeting, gebrek aan blindering, enz. CI onderschat dus altijd de totale hoeveelheid onzekerheid.

Betrouwbaarheidsinterval berekening

Tabel A1.1. Standaardfouten en betrouwbaarheidsintervallen voor sommige klinische metingen

Doorgaans wordt CI berekend op basis van een waargenomen schatting van een kwantitatieve maatstaf, zoals het verschil (d) tussen twee verhoudingen en de standaardfout (SE) in de schatting van dat verschil. Het aldus verkregen geschatte betrouwbaarheidsinterval van 95% is d ± 1,96 SE. De formule verandert afhankelijk van de aard van de uitkomstmaat en de dekking van het CI. In een gerandomiseerde, placebogecontroleerde studie met acellulair kinkhoestvaccin ontwikkelde zich bijvoorbeeld kinkhoest bij 72 van de 1670 (4,3%) baby's die het vaccin kregen en bij 240 van de 1665 (14,4%) in de controlegroep. Het procentuele verschil, ook wel de absolute risicoreductie genoemd, is 10,1%. De SE van dit verschil is 0,99%. Dienovereenkomstig is het 95%-BI 10,1% + 1,96 x 0,99%, d.w.z. van 8.2 tot 12.0.

Ondanks verschillende filosofische benaderingen zijn CI's en tests voor statistische significantie wiskundig nauw verwant.

De waarde van P is dus "significant", d.w.z. R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

De onzekerheid (onnauwkeurigheid) van de schatting, uitgedrukt in BI, hangt grotendeels samen met de vierkantswortel van de steekproefomvang. Kleine steekproeven geven minder informatie dan grote steekproeven, en CI's zijn navenant breder in kleinere steekproeven. Een artikel waarin bijvoorbeeld de prestaties werden vergeleken van drie tests die werden gebruikt om Helicobacter pylori-infectie te diagnosticeren, rapporteerde een gevoeligheid van de ureumademtest van 95,8% (95% BI 75-100). Hoewel het cijfer van 95,8% er indrukwekkend uitziet, betekent de kleine steekproefomvang van 24 volwassen H. pylori-patiënten dat er aanzienlijke onzekerheid bestaat in deze schatting, zoals blijkt uit het brede BI. De ondergrens van 75% is inderdaad veel lager dan de schatting van 95,8%. Als dezelfde gevoeligheid zou worden waargenomen in een steekproef van 240 mensen, dan zou het 95%-BI 92,5-98,0 zijn, wat meer zekerheid geeft dat de test zeer gevoelig is.

In gerandomiseerde gecontroleerde onderzoeken (RCT's) zijn niet-significante resultaten (d.w.z. die met P > 0,05) bijzonder vatbaar voor verkeerde interpretatie. De CI is hier bijzonder nuttig omdat het aangeeft hoe compatibel de resultaten zijn met het klinisch bruikbare werkelijke effect. In een RCT waarin hechting versus nietjesanastomose in de dikke darm werd vergeleken, ontwikkelde zich bijvoorbeeld een wondinfectie bij respectievelijk 10,9% en 13,5% van de patiënten (P = 0,30). Het 95%-BI voor dit verschil is 2,6% (-2 tot +8). Zelfs in deze studie, die 652 patiënten omvatte, blijft het waarschijnlijk dat er een bescheiden verschil is in de incidentie van infecties als gevolg van de twee procedures. Hoe kleiner het onderzoek, hoe groter de onzekerheid. Gezongen et al. voerde een RCT uit waarbij octreotide-infusie werd vergeleken met noodsclerotherapie voor acute varicesbloedingen bij 100 patiënten. In de octreotide-groep was het percentage bloedingsstilstand 84%; in de sclerotherapiegroep - 90%, wat P = 0,56 oplevert. Merk op dat het aantal aanhoudende bloedingen vergelijkbaar is met dat van wondinfectie in het genoemde onderzoek. In dit geval is het 95%-BI voor het verschil tussen interventies echter 6% (-7 tot +19). Dit bereik is vrij breed in vergelijking met een verschil van 5% dat van klinisch belang zou zijn. Het is duidelijk dat de studie een significant verschil in werkzaamheid niet uitsluit. Daarom is de conclusie van de auteurs "octreotide-infusie en sclerotherapie even effectief bij de behandeling van bloedingen uit spataderen" absoluut niet geldig. In gevallen zoals deze waar het 95%-BI voor absolute risicoreductie (ARR) nul omvat, zoals hier, is het BI voor NNT (aantal dat nodig is om te behandelen) nogal moeilijk te interpreteren. De NLP en zijn CI worden verkregen uit de reciproques van de ACP (vermenigvuldig ze met 100 als deze waarden als percentages worden gegeven). Hier krijgen we NPP = 100: 6 = 16,6 met een 95% BI van -14,3 tot 5,3. Zoals te zien is in voetnoot "d" in tabel. A1.1, deze CI bevat waarden voor NTPP van 5,3 tot oneindig en NTLP van 14,3 tot oneindig.

CI's kunnen worden samengesteld voor de meest gebruikte statistische schattingen of vergelijkingen. Voor RCT's omvat het het verschil tussen gemiddelde verhoudingen, relatieve risico's, odds ratio's en NRR's. Evenzo kunnen CI's worden verkregen voor alle belangrijke schattingen die zijn gemaakt in onderzoeken naar de nauwkeurigheid van diagnostische tests - gevoeligheid, specificiteit, positief voorspellende waarde (allemaal eenvoudige verhoudingen) en waarschijnlijkheidsratio's - schattingen verkregen in meta-analyses en vergelijking met controle. studeert. Bij de tweede editie van Statistics with Confidence is een pc-programma beschikbaar dat veel van deze toepassingen van DI omvat. Macro's voor het berekenen van CI's voor verhoudingen zijn vrij verkrijgbaar voor Excel en de statistische programma's SPSS en Minitab op http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Meerdere evaluaties van het behandeleffect

Hoewel de constructie van CI's wenselijk is voor primaire uitkomsten van een onderzoek, zijn ze niet vereist voor alle uitkomsten. De CI betreft klinisch belangrijke vergelijkingen. Als u bijvoorbeeld twee groepen vergelijkt, is de juiste CI de CI die is gebouwd voor het verschil tussen de groepen, zoals weergegeven in de bovenstaande voorbeelden, en niet de CI die kan worden gebouwd voor de schatting in elke groep. Niet alleen is het nutteloos om afzonderlijke CI's te geven voor de scores in elke groep, deze presentatie kan ook misleidend zijn. Evenzo is de juiste benadering bij het vergelijken van de werkzaamheid van behandelingen in verschillende subgroepen het rechtstreeks vergelijken van twee (of meer) subgroepen. Het is onjuist om aan te nemen dat behandeling alleen effectief is in één subgroep als de CI de waarde uitsluit die overeenkomt met geen effect, en andere niet. CI's zijn ook nuttig bij het vergelijken van resultaten over meerdere subgroepen. Op afb. A1.1 toont het relatieve risico op eclampsie bij vrouwen met pre-eclampsie in subgroepen van vrouwen uit een placebogecontroleerde RCT van magnesiumsulfaat.

Rijst. A1.2. De Forest Graph toont de resultaten van 11 gerandomiseerde klinische onderzoeken met het runderrotavirusvaccin voor diarreepreventie versus placebo. Het 95% betrouwbaarheidsinterval werd gebruikt om het relatieve risico op diarree in te schatten. De grootte van het zwarte vierkant is evenredig met de hoeveelheid informatie. Daarnaast worden een samenvattende schatting van de werkzaamheid van de behandeling en een betrouwbaarheidsinterval van 95% (aangegeven door een ruit) weergegeven. De meta-analyse maakte gebruik van een random-effects-model dat sommige vooraf vastgestelde modellen overschrijdt; het kan bijvoorbeeld de grootte zijn die wordt gebruikt bij het berekenen van de steekproefomvang. Onder een strenger criterium moet het gehele aanbod van CI's een voordeel laten zien dat een vooraf bepaald minimum overschrijdt.

We hebben de misvatting al besproken om de afwezigheid van statistische significantie te beschouwen als een indicatie dat twee behandelingen even effectief zijn. Het is net zo belangrijk om statistische significantie niet gelijk te stellen aan klinische significantie. Klinisch belang kan worden aangenomen wanneer het resultaat statistisch significant is en de omvang van de behandelingsrespons

Studies kunnen aantonen of de resultaten statistisch significant zijn en welke klinisch belangrijk zijn en welke niet. Op afb. A1.2 toont de resultaten van vier onderzoeken waarvan het gehele CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

En andere.Het zijn allemaal schattingen van hun theoretische tegenhangers, die zouden kunnen worden verkregen als er geen steekproef was, maar de algemene bevolking. Maar helaas, de algemene bevolking is erg duur en vaak niet beschikbaar.

Het concept van intervalschatting

Elke steekproefschatting heeft enige spreiding, omdat is een willekeurige variabele, afhankelijk van de waarden in een bepaalde steekproef. Daarom moet men voor betrouwbaardere statistische gevolgtrekkingen niet alleen de puntschatting kennen, maar ook het interval, dat met een hoge waarschijnlijkheid γ (gamma) dekt de geschatte indicator θ (tèta).

Formeel zijn dit twee van dergelijke waarden (statistieken) T1(X) En T2(X), Wat T1< T 2 , waarvoor bij een bepaald waarschijnlijkheidsniveau γ voorwaarde is vervuld:

Kortom, het is waarschijnlijk γ of meer de werkelijke waarde tussen de punten ligt T1(X) En T2(X), die de onder- en bovengrenzen worden genoemd Betrouwbaarheidsinterval.

Een van de voorwaarden voor het construeren van betrouwbaarheidsintervallen is de maximale smalheid ervan, d.w.z. het moet zo kort mogelijk zijn. Verlangen is heel natuurlijk, omdat. de onderzoeker probeert de bevinding van de gewenste parameter nauwkeuriger te lokaliseren.

Hieruit volgt dat het betrouwbaarheidsinterval de maximale kansen van de verdeling moet dekken. en de partituur zelf staat centraal.

Dat wil zeggen, de kans op afwijking (van de werkelijke indicator van de schatting) naar boven is gelijk aan de kans op afwijking naar beneden. Er moet ook worden opgemerkt dat voor scheve verdelingen het interval aan de rechterkant niet gelijk is aan het interval aan de linkerkant.

Bovenstaande figuur laat duidelijk zien dat hoe groter het betrouwbaarheidsniveau, hoe breder het interval - een directe relatie.

Dit was een kleine inleiding tot de theorie van intervalschatting van onbekende parameters. Laten we verder gaan met het vinden van betrouwbaarheidslimieten voor de wiskundige verwachting.

Betrouwbaarheidsinterval voor wiskundige verwachting

Als de oorspronkelijke gegevens zijn verdeeld over , dan is het gemiddelde een normale waarde. Dit volgt uit de regel dat een lineaire combinatie van normaalwaarden ook normaal verdeeld is. Daarom kunnen we voor het berekenen van de kansen het wiskundige apparaat van de normale verdelingswet gebruiken.

Dit vereist echter de kennis van twee parameters - de verwachte waarde en de variantie, die meestal niet bekend zijn. Je kunt natuurlijk schattingen gebruiken in plaats van parameters (rekenkundig gemiddelde en ), maar dan zal de verdeling van het gemiddelde niet helemaal normaal zijn, maar iets afgevlakt. De Ierse burger William Gosset merkte dit feit slim op toen hij zijn ontdekking in de uitgave van Biometrica van maart 1908 publiceerde. Om geheimhoudingsredenen tekende Gosset met Student. Dit is hoe de Student's t-verdeling verscheen.

De normale verdeling van gegevens, gebruikt door K. Gauss bij de analyse van fouten in astronomische waarnemingen, is echter uiterst zeldzaam in het aardse leven en het is vrij moeilijk om dit vast te stellen (er zijn ongeveer 2000 waarnemingen nodig voor hoge nauwkeurigheid). Daarom is het het beste om de normaliteitsaanname te laten vallen en methoden te gebruiken die niet afhankelijk zijn van de verdeling van de oorspronkelijke gegevens.

De vraag rijst: wat is de verdeling van het rekenkundig gemiddelde als het wordt berekend uit de gegevens van een onbekende verdeling? Het antwoord wordt gegeven door het bekende in de kansrekening Centrale limietstelling(CPT). In de wiskunde zijn er verschillende versies van (de formuleringen zijn in de loop der jaren verfijnd), maar ze komen allemaal grofweg neer op de stelling dat de som van een groot aantal onafhankelijke willekeurige variabelen voldoet aan de normale verdelingswet.

Bij het berekenen van het rekenkundig gemiddelde wordt de som van willekeurige variabelen gebruikt. Hieruit blijkt dat het rekenkundig gemiddelde een normale verdeling heeft, waarin de verwachte waarde de verwachte waarde is van de initiële gegevens, en de variantie is .

Slimme mensen weten hoe ze de CLT moeten bewijzen, maar we zullen dit verifiëren met behulp van een experiment in Excel. Laten we een steekproef van 50 uniform verdeelde willekeurige variabelen simuleren (met behulp van de Excel-functie RANDOMBETWEEN). Dan maken we 1000 van zulke steekproeven en berekenen we voor elk het rekenkundig gemiddelde. Laten we eens kijken naar hun verspreiding.

Het is te zien dat de verdeling van het gemiddelde dicht bij de normale wet ligt. Als het aantal monsters en hun aantal nog groter wordt gemaakt, zal de gelijkenis nog beter zijn.

Nu we zelf de validiteit van de CLT hebben gezien, kunnen we, met behulp van , de betrouwbaarheidsintervallen voor het rekenkundig gemiddelde berekenen, die het ware gemiddelde of de wiskundige verwachting met een gegeven waarschijnlijkheid dekken.

Om de boven- en ondergrenzen vast te stellen, is het vereist om de parameters van de normale verdeling te kennen. In de regel zijn het geen schattingen, daarom worden schattingen gebruikt: rekenkundig gemiddelde En steekproefvariantie. Nogmaals, deze methode geeft alleen een goede benadering voor grote steekproeven. Als de steekproeven klein zijn, wordt vaak aanbevolen om Student's distributie te gebruiken. Geloof niet! Studentverdeling voor het gemiddelde vindt alleen plaats als de oorspronkelijke gegevens een normale verdeling hebben, dat wil zeggen bijna nooit. Daarom is het beter om onmiddellijk de minimumbalk in te stellen voor de hoeveelheid vereiste gegevens en asymptotisch correcte methoden te gebruiken. Ze zeggen dat 30 waarnemingen voldoende zijn. Neem 50 - je kunt niet fout gaan.

T1.2 zijn de onder- en bovengrenzen van het betrouwbaarheidsinterval

- steekproef rekenkundig gemiddelde

s0- steekproef standaarddeviatie (onbevooroordeeld)

N – steekproefomvang

γ – betrouwbaarheidsniveau (meestal gelijk aan 0,9, 0,95 of 0,99)

c γ =Φ -1 ((1+γ)/2) is het omgekeerde van de standaard normale verdelingsfunctie. Eenvoudig gezegd is dit het aantal standaardfouten van het rekenkundig gemiddelde tot de onder- of bovengrens (de aangegeven drie waarschijnlijkheden komen overeen met de waarden van 1,64, 1,96 en 2,58).

De essentie van de formule is dat het rekenkundig gemiddelde wordt genomen en er vervolgens een bepaald bedrag van wordt gereserveerd ( met y) standaardfouten ( s 0 /√n). Alles is bekend, neem het en tel.

Vóór het massale gebruik van pc's gebruikten ze om de waarden van de normale verdelingsfunctie en de inverse ervan te verkrijgen . Ze worden nog steeds gebruikt, maar het is efficiënter om gebruik te maken van kant-en-klare Excel-formules. Alle elementen uit bovenstaande formule ( , en ) zijn eenvoudig te berekenen in Excel. Maar er is ook een kant-en-klare formule om het betrouwbaarheidsinterval te berekenen - VERTROUWEN NORM. De syntaxis is de volgende.

BETROUWBAARHEIDSNORM(alfa; standaarddev; grootte)

alfa– significantieniveau of betrouwbaarheidsniveau, dat in de bovenstaande notatie gelijk is aan 1-γ, d.w.z. de kans dat de wiskundigede verwachting zal buiten het betrouwbaarheidsinterval liggen. Met een betrouwbaarheidsniveau van 0,95 is alfa 0,05, enzovoort.

standaard_uit is de standaarddeviatie van de steekproefgegevens. U hoeft de standaardfout niet te berekenen, Excel deelt door de wortel van n.

maat– steekproefomvang (n).

Het resultaat van de functie VERTROUWEN.NORM is de tweede term uit de formule voor het berekenen van het betrouwbaarheidsinterval, d.w.z. half interval. Dienovereenkomstig zijn de onderste en bovenste punten het gemiddelde ± de verkregen waarde.

Het is dus mogelijk om een ​​universeel algoritme te bouwen voor het berekenen van betrouwbaarheidsintervallen voor het rekenkundig gemiddelde, dat niet afhankelijk is van de verdeling van de initiële gegevens. De prijs voor universaliteit is de asymptotische aard ervan, d.w.z. de noodzaak om relatief grote steekproeven te gebruiken. In het tijdperk van moderne technologie is het echter meestal niet moeilijk om de juiste hoeveelheid gegevens te verzamelen.

Statistische hypothesen testen met behulp van een betrouwbaarheidsinterval

(module 111)

Een van de belangrijkste problemen die in de statistiek worden opgelost, is. In een notendop is dit de essentie. Er wordt bijvoorbeeld aangenomen dat de verwachting van de algemene bevolking gelijk is aan een bepaalde waarde. Vervolgens wordt de verdeling van steekproefgemiddelden geconstrueerd, die kan worden waargenomen met een gegeven verwachting. Vervolgens kijken we waar in deze voorwaardelijke verdeling het reële gemiddelde zich bevindt. Als het de toegestane limieten overschrijdt, is het zeer onwaarschijnlijk dat een dergelijk gemiddelde verschijnt, en met een enkele herhaling van het experiment is het bijna onmogelijk, wat in tegenspraak is met de aangevoerde hypothese, die met succes is afgewezen. Komt het gemiddelde niet verder dan het kritische niveau, dan wordt de hypothese niet verworpen (maar ook niet bewezen!).

Met behulp van betrouwbaarheidsintervallen, in ons geval voor de verwachting, kun je dus ook enkele hypothesen toetsen. Het is heel gemakkelijk om te doen. Stel dat het rekenkundig gemiddelde voor een steekproef 100 is. De hypothese wordt getest dat de verwachting bijvoorbeeld 90 is. Dat wil zeggen, als we de vraag primitief stellen, klinkt het als volgt: kan het zijn dat, met de werkelijke waarde van de gemiddelde gelijk aan 90, het waargenomen gemiddelde was 100?

Om deze vraag te beantwoorden, is aanvullende informatie over standaarddeviatie en steekproefomvang vereist. Laten we zeggen dat de standaarddeviatie 30 is en het aantal waarnemingen 64 (om de wortel gemakkelijk te extraheren). Dan is de standaardfout van het gemiddelde 30/8 of 3,75. Om het 95%-betrouwbaarheidsinterval te berekenen, moet u twee standaardfouten aan beide zijden van het gemiddelde opzij zetten (preciezer: 1,96). Het betrouwbaarheidsinterval zal ongeveer 100 ± 7,5 zijn, of van 92,5 tot 107,5.

De verdere redenering is als volgt. Als de geteste waarde binnen het betrouwbaarheidsinterval valt, is deze immers niet in tegenspraak met de hypothese past binnen de grenzen van willekeurige fluctuaties (met een waarschijnlijkheid van 95%). Als het geteste punt buiten het betrouwbaarheidsinterval ligt, is de kans op een dergelijke gebeurtenis zeer klein, in ieder geval onder het aanvaardbare niveau. Daarom wordt de hypothese verworpen omdat deze in tegenspraak is met de waargenomen gegevens. In ons geval ligt de verwachtingshypothese buiten het betrouwbaarheidsinterval (de geteste waarde van 90 is niet opgenomen in het interval van 100 ± 7,5), dus moet deze worden verworpen. Als je de primitieve vraag hierboven beantwoordt, zou je moeten zeggen: nee, het kan in ieder geval niet gebeuren, dit gebeurt uiterst zelden. Vaak duidt dit op een specifieke waarschijnlijkheid van het ten onrechte verwerpen van de hypothese (p-niveau), en niet op een bepaald niveau waarop het betrouwbaarheidsinterval is gebouwd, maar daarover een andere keer meer.

Zoals je kunt zien, is het niet moeilijk om een ​​betrouwbaarheidsinterval voor het gemiddelde (of de wiskundige verwachting) op te bouwen. Het belangrijkste is om de essentie te vangen, en dan gaan de dingen. In de praktijk gebruiken de meesten het 95%-betrouwbaarheidsinterval, dat ongeveer twee standaardfouten breed is aan weerszijden van het gemiddelde.

Dat is het voor nu. Al het beste!

BETROUWBARE INTERVALLEN VOOR FREQUENTIES EN ONDERDELEN

© 2008

Nationaal Instituut voor Volksgezondheid, Oslo, Noorwegen

Het artikel beschrijft en bespreekt de berekening van betrouwbaarheidsintervallen voor frequenties en verhoudingen met behulp van de Wald, Wilson, Klopper-Pearson-methoden, met behulp van de hoektransformatie en de Wald-methode met Agresti-Cowll-correctie. Het gepresenteerde materiaal geeft algemene informatie over methoden voor het berekenen van betrouwbaarheidsintervallen voor frequenties en verhoudingen en is bedoeld om de lezers van het tijdschrift niet alleen te interesseren voor het gebruik van betrouwbaarheidsintervallen bij het presenteren van de resultaten van hun eigen onderzoek, maar ook voor het lezen van gespecialiseerde literatuur alvorens te beginnen. werken aan toekomstige publicaties.

Trefwoorden: betrouwbaarheidsinterval, frequentie, proportie

In een van de eerdere publicaties werd de beschrijving van kwalitatieve gegevens kort vermeld en werd gemeld dat hun intervalschatting de voorkeur verdient boven een puntschatting voor het beschrijven van de frequentie van voorkomen van het bestudeerde kenmerk in de algemene bevolking. Aangezien studies worden uitgevoerd met behulp van steekproefgegevens, moet de projectie van de resultaten op de algemene bevolking inderdaad een element van onnauwkeurigheid bevatten in de steekproefschatting. Het betrouwbaarheidsinterval is een maat voor de nauwkeurigheid van de geschatte parameter. Het is interessant dat in sommige boeken over de basisprincipes van statistiek voor artsen het onderwerp betrouwbaarheidsintervallen voor frequenties volledig wordt genegeerd. In dit artikel zullen we verschillende manieren bekijken om betrouwbaarheidsintervallen voor frequenties te berekenen, uitgaande van steekproefkenmerken zoals niet-recidief en representativiteit, evenals de onafhankelijkheid van waarnemingen van elkaar. De frequentie in dit artikel wordt niet opgevat als een absoluut getal dat aangeeft hoe vaak deze of gene waarde in het geheel voorkomt, maar als een relatieve waarde die het aandeel van de studiedeelnemers bepaalt die de onderzochte eigenschap hebben.

In biomedisch onderzoek worden 95% betrouwbaarheidsintervallen het meest gebruikt. Dit betrouwbaarheidsinterval is het gebied waarbinnen het werkelijke aandeel 95% van de tijd valt. Met andere woorden, er kan met 95% zekerheid worden gezegd dat de werkelijke waarde van de frequentie van voorkomen van een kenmerk in de algemene populatie binnen het 95% betrouwbaarheidsinterval zal liggen.

De meeste statistische handboeken voor medische onderzoekers melden dat de frequentiefout wordt berekend met behulp van de formule

waarbij p de frequentie is waarmee het kenmerk in de steekproef voorkomt (waarde van 0 tot 1). In de meeste binnenlandse wetenschappelijke artikelen wordt de waarde van de frequentie van voorkomen van een kenmerk in de steekproef (p), evenals de fout (s) in de vorm van p ± s aangegeven. Het is echter handiger om een ​​betrouwbaarheidsinterval van 95% te presenteren voor de frequentie van voorkomen van een eigenschap in de algemene populatie, inclusief waarden uit

voor.

In sommige handboeken wordt aanbevolen om voor kleine steekproeven de waarde 1,96 te vervangen door de waarde van t voor N - 1 vrijheidsgraden, waarbij N het aantal waarnemingen in de steekproef is. De waarde van t is te vinden in de tabellen voor de t-verdeling, die in bijna alle handboeken over statistiek staan. Het gebruik van de distributie van t voor de Wald-methode biedt geen zichtbare voordelen ten opzichte van andere methoden die hieronder worden besproken, en wordt daarom door sommige auteurs niet toegejuicht.

De bovenstaande methode voor het berekenen van betrouwbaarheidsintervallen voor frequenties of breuken is vernoemd naar Abraham Wald (Abraham Wald, 1902–1950), aangezien deze op grote schaal werd gebruikt na de publicatie van Wald en Wolfowitz in 1939. De methode zelf werd echter al in 1812 voorgesteld door Pierre Simon Laplace (1749–1827).

De Wald-methode is erg populair, maar de toepassing ervan gaat gepaard met aanzienlijke problemen. De methode wordt niet aanbevolen voor kleine steekproeven, evenals in gevallen waarin de frequentie van voorkomen van een kenmerk neigt naar 0 of 1 (0% of 100%) en eenvoudigweg niet mogelijk is voor frequenties van 0 en 1. Bovendien, de normale verdelingsbenadering, die wordt gebruikt bij het berekenen van de fout, "werkt niet" in gevallen waarin n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Aangezien de nieuwe variabele een normale verdeling heeft, zijn de onder- en bovengrenzen van het 95%-betrouwbaarheidsinterval voor de variabele φ φ-1,96 en φ+1,96links">

In plaats van 1,96 voor kleine steekproeven, wordt aanbevolen om de waarde van t te vervangen door N - 1 vrijheidsgraden. Deze methode geeft geen negatieve waarden en stelt je in staat om de betrouwbaarheidsintervallen voor frequenties nauwkeuriger in te schatten dan de Wald-methode. Bovendien wordt het beschreven in veel binnenlandse naslagwerken over medische statistieken, wat er echter niet toe leidde dat het op grote schaal werd gebruikt in medisch onderzoek. Het berekenen van betrouwbaarheidsintervallen met behulp van een hoektransformatie wordt niet aanbevolen voor frequenties die de 0 of 1 naderen.

Dit is waar de beschrijving van methoden voor het schatten van betrouwbaarheidsintervallen in de meeste boeken over de basisprincipes van statistiek voor medische onderzoekers meestal eindigt, en dit probleem is niet alleen typerend voor binnenlandse, maar ook voor buitenlandse literatuur. Beide methoden zijn gebaseerd op de centrale limietstelling, wat een grote steekproef impliceert.

Gezien de tekortkomingen van het schatten van betrouwbaarheidsintervallen met behulp van de bovenstaande methoden, stelden Clopper (Clopper) en Pearson (Pearson) in 1934 een methode voor om het zogenaamde exacte betrouwbaarheidsinterval te berekenen, rekening houdend met de binominale verdeling van het bestudeerde kenmerk. Deze methode is beschikbaar in veel online rekenmachines, maar de betrouwbaarheidsintervallen die op deze manier worden verkregen, zijn in de meeste gevallen te breed. Tegelijkertijd wordt deze methode aanbevolen voor gebruik in gevallen waarin een conservatieve schatting vereist is. De mate van conservativiteit van de methode neemt toe naarmate de steekproefomvang afneemt, vooral voor N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Volgens veel statistici wordt de meest optimale schatting van betrouwbaarheidsintervallen voor frequenties uitgevoerd door de Wilson-methode, die al in 1927 werd voorgesteld, maar praktisch niet wordt gebruikt in binnenlands biomedisch onderzoek. Deze methode maakt het niet alleen mogelijk om betrouwbaarheidsintervallen te schatten voor zowel zeer kleine als zeer hoge frequenties, maar is ook toepasbaar op een klein aantal waarnemingen. Over het algemeen heeft het betrouwbaarheidsinterval volgens de formule van Wilson de vorm van



waar het de waarde 1,96 aanneemt bij het berekenen van het 95% betrouwbaarheidsinterval, N is het aantal waarnemingen en p is de frequentie van het kenmerk in de steekproef. Deze methode is beschikbaar in online rekenmachines, dus de toepassing ervan is niet problematisch. en raad het gebruik van deze methode voor n p niet aan< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Naast de Wilson-methode wordt aangenomen dat de Agresti-Caull-gecorrigeerde Wald-methode ook een optimale schatting geeft van het betrouwbaarheidsinterval voor frequenties. De Agresti-Coulle-correctie is een vervanging in de Wald-formule voor de frequentie van voorkomen van een kenmerk in de steekproef (p) door p`, bij het berekenen welke 2 wordt toegevoegd aan de teller en 4 wordt toegevoegd aan de noemer, dat wil zeggen , p` = (X + 2) / (N + 4), waarbij X het aantal studiedeelnemers is dat het onderzochte kenmerk heeft, en N de steekproefomvang is. Deze aanpassing levert resultaten op die erg lijken op die van de Wilson-formule, behalve wanneer het aantal gebeurtenissen 0% of 100% benadert en de steekproef klein is. Naast de bovenstaande methoden voor het berekenen van betrouwbaarheidsintervallen voor frequenties, zijn continuïteitscorrecties voorgesteld voor zowel de Wald-methode als de Wilson-methode voor kleine steekproeven, maar studies hebben aangetoond dat het gebruik ervan ongepast is.

Overweeg de toepassing van de bovenstaande methoden voor het berekenen van betrouwbaarheidsintervallen aan de hand van twee voorbeelden. In het eerste geval bestuderen we een grote steekproef van 1.000 willekeurig geselecteerde studiedeelnemers, van wie er 450 de onderzochte eigenschap hebben (of het nu een risicofactor, een uitkomst of een andere eigenschap is), wat een frequentie is van 0,45, of 45%. In het tweede geval wordt het onderzoek uitgevoerd met een kleine steekproef, bijvoorbeeld slechts 20 mensen, en slechts 1 deelnemer aan het onderzoek (5%) heeft de eigenschap die wordt bestudeerd. Betrouwbaarheidsintervallen voor de Wald-methode, voor de Wald-methode met Agresti-Coll-correctie, voor de Wilson-methode werden berekend met behulp van een online rekenmachine ontwikkeld door Jeff Sauro (//www./wald.htm). Voor continuïteit gecorrigeerde Wilson-betrouwbaarheidsintervallen werden berekend met behulp van de rekenmachine van Wassar Stats: Web Site for Statistical Computation (//faculty.vassar.edu/lowry/prop1.html). Berekeningen met behulp van de Fisher-hoektransformatie werden "handmatig" uitgevoerd met behulp van de kritische waarde van t voor respectievelijk 19 en 999 vrijheidsgraden. De berekeningsresultaten worden voor beide voorbeelden in de tabel weergegeven.

Betrouwbaarheidsintervallen berekend op zes verschillende manieren voor de twee voorbeelden die in de tekst worden beschreven

Betrouwbaarheidsinterval berekeningsmethode

P=0,0500 of 5%

95%-BI voor X=450, N=1000, P=0,4500 of 45%

–0,0455–0,2541

Walda met Agresti-Coll correctie

<,0001–0,2541

Wilson met continuïteitscorrectie

Klopper-Pearson's "exacte methode"

Hoekige transformatie

<0,0001–0,1967

Zoals uit de tabel blijkt, valt voor het eerste voorbeeld het betrouwbaarheidsinterval berekend door de "algemeen aanvaarde" Wald-methode in het negatieve gebied, wat niet het geval kan zijn voor frequenties. Helaas zijn dergelijke incidenten niet ongewoon in de Russische literatuur. De traditionele manier om gegevens weer te geven als een frequentie en de bijbehorende fout maskeert dit probleem gedeeltelijk. Als bijvoorbeeld de frequentie van voorkomen van een kenmerk (in procenten) wordt gepresenteerd als 2,1 ± 1,4, dan is dit niet zo "irriterend" als 2,1% (95% BI: -0,7; 4,9), hoewel en hetzelfde betekent. De Wald-methode met de Agresti-Coulle-correctie en de berekening met behulp van de hoektransformatie geven een ondergrens die neigt naar nul. De Wilson-methode met continuïteitscorrectie en de "exacte methode" geven grotere betrouwbaarheidsintervallen dan de Wilson-methode. Voor het tweede voorbeeld geven alle methoden ongeveer dezelfde betrouwbaarheidsintervallen (verschillen verschijnen alleen in duizendsten), wat niet verwonderlijk is, aangezien de frequentie van de gebeurtenis in dit voorbeeld niet veel verschilt van 50%, en de steekproefomvang vrij groot is .

Voor lezers die geïnteresseerd zijn in dit probleem, kunnen we de werken aanbevelen van R.G. Newcombe en Brown, Cai en Dasgupta, die de voor- en nadelen geven van het gebruik van respectievelijk 7 en 10 verschillende methoden voor het berekenen van betrouwbaarheidsintervallen. Uit binnenlandse handleidingen wordt het boek aanbevolen, waarin naast een gedetailleerde beschrijving van de theorie de methoden van Wald, Wilson, evenals een methode voor het berekenen van betrouwbaarheidsintervallen, rekening houdend met de binominale frequentieverdeling, worden gepresenteerd . Naast gratis online rekenmachines (http://www./wald.htm en http://faculty.vassar.edu/lowry/prop1.html), kunnen betrouwbaarheidsintervallen voor frequenties (en niet alleen!) CIA-programma (Confidence Intervals Analysis), dat kan worden gedownload van http://www. medische school. zoton. ac. vk/cia/.

Het volgende artikel gaat in op univariate manieren om kwalitatieve gegevens te vergelijken.

Bibliografie

Banerjee A. Medische statistiek in gewone taal: een inleidende cursus / A. Banerzhi. - M. : Praktische geneeskunde, 2007. - 287 p. Medische statistieken / . - M. : Medisch Informatiebureau, 2007. - 475 p. Glanz S. Medico-biologische statistiek / S. Glants. - M.: Praktijk, 1998. Gegevenstypen, verspreidingsverificatie en beschrijvende statistieken // Menselijke ecologie - 2008. - Nr. 1. - P. 52-58. Zhizhin K.S.. Medische statistieken: handboek / . - Rostov n / D: Phoenix, 2007. - 160 p. Toegepaste medische statistiek / , . - St. Petersburg. : Folio, 2003. - 428 p. Laken GF. Biometrie / . - M. : Hogere school, 1990. - 350 p. Dokter V.A. Wiskundige statistiek in de geneeskunde / , . - M. : Financiën en statistiek, 2007. - 798 p. Wiskundige statistiek in klinisch onderzoek / , . - M. : GEOTAR-MED, 2001. - 256 p. Junkerov V. EN. Medisch-statistische verwerking van medische onderzoeksgegevens /,. - St. Petersburg. : VmedA, 2002. - 266 p. Agresti A. Benadering is beter dan exact voor intervalschatting van binominale proporties / A. Agresti, B. Coull // Amerikaanse statisticus. - 1998. - N 52. - S. 119-126. Altman D. Statistieken met vertrouwen // D. Altman, D. Machin, T. Bryant, MJ Gardner. - Londen: BMJ Books, 2000. - 240 p. Bruin LD Intervalschatting voor een binominale verhouding / L. D. Brown, T. T. Cai, A. Dasgupta // Statistische wetenschap. - 2001. - N 2. - P. 101-133. Klopper C.J. Het gebruik van betrouwbaarheids- of fiduciaire limieten geïllustreerd in het geval van de binominale / C. J. Clopper, E. S. Pearson // Biometrika. - 1934. - N 26. - P. 404-413. Garcia-Perez MA. Over het betrouwbaarheidsinterval voor de binominale parameter / M. A. Garcia-Perez // Kwaliteit en kwantiteit. - 2005. - N 39. - P. 467-481. Motulsky H. Intuïtieve biostatistiek // H. Motulsky. - Oxford: Oxford University Press, 1995. - 386 p. Newcombe RG Tweezijdige betrouwbaarheidsintervallen voor het enkele aandeel: vergelijking van zeven methoden / R. G. Newcombe // Statistieken in de geneeskunde. - 1998. - N. 17. - P. 857-872. Sauro J. Voltooiingspercentages schatten op basis van kleine steekproeven met behulp van binominale betrouwbaarheidsintervallen: vergelijkingen en aanbevelingen / J. Sauro, JR Lewis // Proceedings of the Human Factors and Ergonomics Society Annual Meeting. – Orlando, Florida, 2005. Wald A. Betrouwbaarheidsgrenzen voor continue verdelingsfuncties // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - P. 105–118. Wilson E.B. Waarschijnlijke gevolgtrekking, het erfrecht en statistische gevolgtrekking / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - P. 209-212.

BETROUWBAARHEIDSINTERVALLEN VOOR VERHOUDINGEN

A. M. Grjibovski

Nationaal Instituut voor Volksgezondheid, Oslo, Noorwegen

Het artikel presenteert verschillende methoden voor het berekenen van betrouwbaarheidsintervallen voor binominale verhoudingen, namelijk Wald, Wilson, arcsine, Agresti-Coull en exacte Clopper-Pearson-methoden. Het artikel geeft slechts een algemene inleiding tot het probleem van de schatting van het betrouwbaarheidsinterval van een binominale verhouding en het doel is niet alleen de lezers te stimuleren om betrouwbaarheidsintervallen te gebruiken bij het presenteren van resultaten van eigen empirische onderzoeksintervallen, maar ook om hen aan te moedigen om statistische boeken te raadplegen alvorens tot het analyseren van eigen gegevens en het voorbereiden van manuscripten.

sleutelwoorden: betrouwbaarheidsinterval, proportie

Contactgegevens:

Senior adviseur, Nationaal Instituut voor Volksgezondheid, Oslo, Noorwegen