Betrouwbaarheidsinterval voor wiskundige verwachtingen. Steekproeven en betrouwbaarheidsintervallen

Betrouwbaarheidsinterval voor wiskundige verwachtingen - dit is een interval berekend op basis van gegevens die, met een bekende waarschijnlijkheid, de wiskundige verwachting van de algemene bevolking bevatten. Een natuurlijke schatting voor de wiskundige verwachting is het rekenkundig gemiddelde van de waargenomen waarden. Daarom zullen we in de hele les de termen ‘gemiddeld’ en ‘gemiddelde waarde’ gebruiken. Bij problemen bij het berekenen van een betrouwbaarheidsinterval is het meest gevraagde antwoord zoiets als: "Het betrouwbaarheidsinterval van het gemiddelde getal [waarde in een bepaald probleem] loopt van [kleinere waarde] tot [grotere waarde]." Met behulp van een betrouwbaarheidsinterval kunt u niet alleen gemiddelde waarden evalueren, maar ook het aandeel van een bepaald kenmerk in de algemene bevolking. Gemiddelde waarden, spreiding, standaarddeviatie en fout, waardoor we tot nieuwe definities en formules zullen komen, worden in de les besproken Kenmerken van de steekproef en populatie .

Punt- en intervalschattingen van het gemiddelde

Als de gemiddelde waarde van de populatie wordt geschat met een getal (punt), wordt een specifiek gemiddelde, dat wordt berekend op basis van een steekproef van waarnemingen, genomen als een schatting van de onbekende gemiddelde waarde van de populatie. In dit geval valt de waarde van het steekproefgemiddelde – een willekeurige variabele – niet samen met de gemiddelde waarde van de algemene bevolking. Daarom moet u bij het aangeven van het steekproefgemiddelde tegelijkertijd de steekproeffout aangeven. De maatstaf voor de steekproeffout is de standaardfout, die wordt uitgedrukt in dezelfde eenheden als het gemiddelde. Daarom wordt vaak de volgende notatie gebruikt: .

Als de schatting van het gemiddelde met een bepaalde waarschijnlijkheid moet worden geassocieerd, moet de parameter die van belang is in de populatie niet worden beoordeeld op basis van één getal, maar op basis van een interval. Een betrouwbaarheidsinterval is een interval waarin met een bepaalde waarschijnlijkheid P de waarde van de geschatte populatie-indicator wordt gevonden. Betrouwbaarheidsinterval waarin het waarschijnlijk is P = 1 - α de willekeurige variabele wordt gevonden, als volgt berekend:

,

α = 1 - P, die te vinden is in de bijlage bij vrijwel elk boek over statistiek.

In de praktijk zijn het populatiegemiddelde en de variantie niet bekend, dus wordt de populatievariantie vervangen door de steekproefvariantie, en het populatiegemiddelde door het steekproefgemiddelde. Het betrouwbaarheidsinterval wordt dus in de meeste gevallen als volgt berekend:

.

De betrouwbaarheidsintervalformule kan worden gebruikt om het populatiegemiddelde if te schatten

  • de standaarddeviatie van de populatie is bekend;
  • of de standaarddeviatie van de populatie is onbekend, maar de steekproefomvang is groter dan 30.

Het steekproefgemiddelde is een onbevooroordeelde schatting van het populatiegemiddelde. Op zijn beurt de steekproefvariantie is geen onbevooroordeelde schatting van de populatievariantie. Om een ​​onbevooroordeelde schatting te verkrijgen van de populatievariantie in de steekproefvariantieformule, steekproefomvang N vervangen moet worden door N-1.

Voorbeeld 1. Er werd informatie verzameld van 100 willekeurig geselecteerde cafés in een bepaalde stad dat het gemiddelde aantal werknemers daarin 10,5 bedraagt ​​met een standaardafwijking van 4,6. Bepaal het 95% betrouwbaarheidsinterval voor het aantal cafémedewerkers.

waarbij is de kritische waarde van de standaardnormale verdeling voor het significantieniveau α = 0,05 .

Het 95%-betrouwbaarheidsinterval voor het gemiddelde aantal cafémedewerkers varieerde dus van 9,6 tot 11,4.

Voorbeeld 2. Voor een willekeurige steekproef uit een populatie van 64 waarnemingen werden de volgende totaalwaarden berekend:

som van waarden in observaties,

som van kwadratische afwijkingen van waarden van het gemiddelde .

Bereken het 95% betrouwbaarheidsinterval voor de wiskundige verwachting.

Laten we de standaardafwijking berekenen:

,

Laten we de gemiddelde waarde berekenen:

.

We vervangen de waarden in de uitdrukking voor het betrouwbaarheidsinterval:

waarbij is de kritische waarde van de standaardnormale verdeling voor het significantieniveau α = 0,05 .

We krijgen:

Het 95% betrouwbaarheidsinterval voor de wiskundige verwachting van deze steekproef varieerde dus van 7,484 tot 11,266.

Voorbeeld 3. Voor een willekeurige populatiesteekproef van 100 waarnemingen is het berekende gemiddelde 15,2 en de standaarddeviatie 3,2. Bereken het betrouwbaarheidsinterval van 95% voor de verwachte waarde en vervolgens het betrouwbaarheidsinterval van 99%. Als de steekproefkracht en de variatie ervan onveranderd blijven en de betrouwbaarheidscoëfficiënt toeneemt, zal het betrouwbaarheidsinterval dan smaller of breder worden?

We vervangen deze waarden in de uitdrukking voor het betrouwbaarheidsinterval:

waarbij is de kritische waarde van de standaardnormale verdeling voor het significantieniveau α = 0,05 .

We krijgen:

.

Het 95%-betrouwbaarheidsinterval voor het gemiddelde van deze steekproef varieerde dus van 14,57 tot 15,82.

We vervangen deze waarden opnieuw in de uitdrukking voor het betrouwbaarheidsinterval:

waarbij is de kritische waarde van de standaardnormale verdeling voor het significantieniveau α = 0,01 .

We krijgen:

.

Het 99%-betrouwbaarheidsinterval voor het gemiddelde van deze steekproef varieerde dus van 14,37 tot 16,02.

Zoals we zien, neemt de kritische waarde van de standaard normale verdeling ook toe naarmate de betrouwbaarheidscoëfficiënt toeneemt, en als gevolg daarvan bevinden de begin- en eindpunten van het interval zich verder van het gemiddelde, en dus neemt het betrouwbaarheidsinterval voor de wiskundige verwachting toe. .

Punt- en intervalschattingen van het soortelijk gewicht

Het aandeel van een bepaald steekproefkenmerk kan worden geïnterpreteerd als een puntschatting van het aandeel P met hetzelfde kenmerk in de algemene bevolking. Als deze waarde in verband moet worden gebracht met de waarschijnlijkheid, moet het betrouwbaarheidsinterval van het soortelijk gewicht worden berekend P kenmerk in de populatie met waarschijnlijkheid P = 1 - α :

.

Voorbeeld 4. In een stad zijn er twee kandidaten A En B zijn kandidaat voor burgemeester. Er werden willekeurig 200 stadsbewoners ondervraagd, waarvan 46% antwoordde dat ze op de kandidaat zouden stemmen A, 26% - voor de kandidaat B en 28% weet niet op wie ze zullen stemmen. Bepaal het 95% betrouwbaarheidsinterval voor het aandeel stadsbewoners dat de kandidaat steunt A.

Instructies

Houd er rekening mee dat interval(l1 of l2), waarvan het centrale gebied de schatting l* zal zijn, en ook waarin de werkelijke waarde van de parameter waarschijnlijk vervat zal zijn, zal het vertrouwen zijn interval om of de overeenkomstige waarde van de bealfa. In dit geval zal l* zelf verwijzen naar puntschattingen. Op basis van de resultaten van eventuele steekproefwaarden met een willekeurige waarde X (x1, x2,..., xn) is het bijvoorbeeld noodzakelijk om de onbekende parameter van de indicator l te berekenen, waarvan de verdeling zal afhangen. In dit geval zal het verkrijgen van een schatting van een bepaalde parameter l* erin bestaan ​​dat het voor elk monster nodig zal zijn om een ​​bepaalde waarde van de parameter toe te kennen, dat wil zeggen om een ​​functie te creëren van de observatieresultaten van de indicator Q. , waarvan de waarde gelijk wordt gesteld aan de geschatte waarde van de parameter l* in de vorm van de formule: l*=Q*(x1, x2,..., xn).

Houd er rekening mee dat elke functie die op observatieresultaten is gebaseerd, statistieken wordt genoemd. Bovendien, als het de betreffende parameter (fenomeen) volledig beschrijft, wordt het voldoende statistiek genoemd. En omdat de resultaten van waarnemingen willekeurig zijn, zal l* ook een willekeurige variabele zijn. Bij het berekenen van statistieken moet rekening worden gehouden met de criteria voor de kwaliteit ervan. Hier moet er rekening mee worden gehouden dat de verdelingswet van de schatting vrij definitief is, de kansdichtheidsverdeling W(x, l).

Je kunt het vertrouwen berekenen interval vrij eenvoudig als je de wet kent over de verdeling van de aanslag. Bijvoorbeeld een vertrouwenspersoon interval schattingen in relatie tot de wiskundige verwachting (de gemiddelde waarde van een willekeurige waarde) mx* =(1/n)*(x1+x2+ …+xn) . Deze schatting zal onbevooroordeeld zijn, dat wil zeggen dat de wiskundige verwachting of gemiddelde waarde van de indicator gelijk zal zijn aan de werkelijke waarde van de parameter (M(mx*) = mx).

U kunt vaststellen dat de variantie van de schatting op basis van de wiskundige verwachting is: bx*^2=Dx/n. Op basis van de centrale limietstelling kunnen we de overeenkomstige conclusie trekken dat de verdelingswet van deze schatting Gaussiaans (normaal) is. Om berekeningen uit te voeren, kunt u daarom de indicator Ф(z) gebruiken - de integraal van waarschijnlijkheden. Selecteer in dit geval de lengte van het vertrouwen interval en 2ld, dus je krijgt: alpha = P(mx-ld (met behulp van de eigenschap van de waarschijnlijkheidsintegraal volgens de formule: Ф(-z)=1- Ф(z)).

Vertrouwen op te bouwen interval schattingen van wiskundige verwachtingen: - zoek de waarde van de formule (alpha + 1)/2; - selecteer uit de tabel met waarschijnlijkheidsintegralen een waarde gelijk aan lд/sqrt(Dx/n); - maak een schatting van de werkelijke spreiding: Dx *=(1/n)*( (x1 - mx*)^2+(x2 - mx*)^2+…+(xn - mx*)^2); - bepaal ld; - vind het vertrouwen interval volgens de formule: (mx*-ld, mx*+ld).

Betrouwbaarheidsinterval(CI; in het Engels: betrouwbaarheidsinterval - CI) verkregen in een onderzoek met een steekproef geeft een maatstaf voor de nauwkeurigheid (of onzekerheid) van de onderzoeksresultaten om conclusies te trekken over de populatie van al dergelijke patiënten (de algemene populatie). De juiste definitie van een 95%-BI kan als volgt worden geformuleerd: 95% van dergelijke intervallen zal de werkelijke waarde in de populatie bevatten. Deze interpretatie is iets minder nauwkeurig: CI is het bereik van waarden waarbinnen je 95% zeker kunt zijn dat het de werkelijke waarde bevat. Bij het gebruik van een CI ligt de nadruk op het bepalen van een kwantitatief effect, in tegenstelling tot de P-waarde die voortkomt uit het testen van statistische significantie. De P-waarde schat geen enkele hoeveelheid in, maar dient eerder als een maatstaf voor de kracht van het bewijs tegen de nulhypothese van ‘geen effect’. De waarde van P op zichzelf zegt ons niets over de grootte van het verschil, of zelfs maar over de richting ervan. Daarom zijn onafhankelijke P-waarden absoluut niet-informatief in artikelen of samenvattingen. Daarentegen geeft de CI zowel de omvang van het effect van direct belang aan, zoals het voordeel van een behandeling, als de kracht van het bewijsmateriaal. Daarom is DI direct gerelateerd aan de praktijk van EBM.

De schattingsbenadering van statistische analyse, geïllustreerd door CI, heeft tot doel de kwantiteit van een interessant effect te meten (gevoeligheid van een diagnostische test, aantal voorspelde gevallen, relatieve risicoreductie met behandeling, enz.) en ook om de onzekerheid daarin te meten. effect. Meestal is de CI het bereik van waarden aan weerszijden van de schatting waarin de werkelijke waarde waarschijnlijk zal liggen, en u kunt er 95% zeker van zijn. De afspraak om de waarschijnlijkheid van 95% te gebruiken is willekeurig, net als de P-waarde.<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

CI is gebaseerd op het idee dat hetzelfde onderzoek, uitgevoerd op verschillende steekproeven van patiënten, geen identieke resultaten zou opleveren, maar dat hun resultaten zouden worden verdeeld rond een echte maar onbekende waarde. Met andere woorden, CI beschrijft het als ‘steekproefafhankelijke variabiliteit’. De CI weerspiegelt geen extra onzekerheid vanwege andere redenen; het omvat met name niet de impact van selectief verlies voor de follow-up, slechte naleving of onnauwkeurige uitkomstmeting, gebrek aan verblinding, enz. Het CI onderschat daarom altijd de totale hoeveelheid onzekerheid.

Berekening van het betrouwbaarheidsinterval

Tabel A1.1. Standaardfouten en betrouwbaarheidsintervallen voor geselecteerde klinische metingen

Normaal gesproken wordt een CI berekend op basis van een waargenomen schatting van een grootheid, zoals het verschil (d) tussen twee verhoudingen, en de standaardfout (SE) in de schatting van dat verschil. Het geschatte 95% BI dat op deze manier wordt verkregen, is d ± 1,96 SE. De formule verandert afhankelijk van de aard van de uitkomstmaat en de reikwijdte van het CI. In een gerandomiseerde, placebogecontroleerde studie met een acellulair kinkhoestvaccin ontwikkelden bijvoorbeeld 72 van de 1670 (4,3%) zuigelingen die het vaccin kregen, kinkhoest en 240 van de 1665 (14,4%) in de controlegroep. Het procentuele verschil, bekend als de absolute risicoreductie, bedraagt ​​10,1%. De SE van dit verschil is 0,99%. Dienovereenkomstig is het 95%-BI 10,1% + 1,96 x 0,99%, d.w.z. van 8,2 tot 12,0.

Ondanks hun verschillende filosofische benaderingen zijn CI's en statistische significantietests wiskundig nauw met elkaar verbonden.

De P-waarde is dus “significant”, d.w.z. R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

De onzekerheid (onnauwkeurigheid) van de schatting, uitgedrukt in CI, houdt grotendeels verband met de vierkantswortel van de steekproefomvang. Kleine steekproeven leveren minder informatie op dan grote, en de CI is dienovereenkomstig breder in een kleinere steekproef. Een artikel waarin de prestaties werden vergeleken van drie tests die werden gebruikt om een ​​Helicobacter pylori-infectie te diagnosticeren, rapporteerde bijvoorbeeld een gevoeligheid van de ureum-ademtest van 95,8% (95% BI 75-100). Hoewel het cijfer van 95,8% indrukwekkend is, betekent de kleine steekproef van 24 volwassen patiënten met J. pylori dat er aanzienlijke onzekerheid bestaat in deze schatting, zoals blijkt uit de brede CI. De ondergrens van 75% is inderdaad veel lager dan de schatting van 95,8%. Als dezelfde gevoeligheid zou worden waargenomen bij een steekproef van 240 mensen, zou het 95%-BI 92,5-98,0 zijn, wat meer zekerheid geeft dat de test zeer gevoelig is.

In gerandomiseerde gecontroleerde onderzoeken (RCT's) zijn niet-significante resultaten (dat wil zeggen die met P > 0,05) bijzonder vatbaar voor verkeerde interpretatie. De CI is hier bijzonder nuttig omdat deze laat zien hoe consistent de resultaten zijn met het klinisch bruikbare werkelijke effect. In een RCT waarin bijvoorbeeld colonhechtingen en stapelanastomose werden vergeleken, ontwikkelde zich wondinfectie bij respectievelijk 10,9% en 13,5% van de patiënten (P = 0,30). Het 95% BI voor dit verschil is 2,6% (−2 tot +8). Zelfs in dit onderzoek onder 652 patiënten blijft het mogelijk dat er een bescheiden verschil is in de incidentie van infecties als gevolg van de twee procedures. Hoe minder onderzoek, hoe groter de onzekerheid. Sung et al. voerde een RCT uit om octreotide-infusie te vergelijken met acute sclerotherapie voor acute varicesbloedingen bij 100 patiënten. In de octreotidegroep was het bloedingspercentage 84%; in de sclerotherapiegroep - 90%, wat P = 0,56 oplevert. Merk op dat de aantallen aanhoudende bloedingen vergelijkbaar zijn met die bij wondinfecties in het genoemde onderzoek. In dit geval is het 95%-BI voor het verschil tussen interventies echter 6% (-7 tot +19). Dit bereik is vrij breed vergeleken met het verschil van 5% dat van klinisch belang zou zijn. Het is duidelijk dat het onderzoek een significant verschil in effectiviteit niet uitsluit. Daarom is de conclusie van de auteurs dat “octreotide-infusie en sclerotherapie even effectief zijn bij de behandeling van bloedingen uit spataderen” absoluut ongeldig. In gevallen als deze, waar, zoals hier, het 95%-BI voor absolute risicoreductie (ARR) nul omvat, is het BI voor NNT (aantal nodig om te behandelen) vrij moeilijk te interpreteren. De NPL en de CI worden verkregen uit de reciprocals van de ACP (vermenigvuldigd met 100 als deze waarden als percentages worden gegeven). Hier krijgen we NPL = 100: 6 = 16,6 met een 95% BI van -14,3 tot 5,3. Zoals blijkt uit voetnoot “d” in de tabel. A1.1, deze CI omvat waarden van NPL van 5,3 tot oneindig en NPL van 14,3 tot oneindig.

CI's kunnen worden geconstrueerd voor de meest gebruikte statistische schattingen of vergelijkingen. Voor RCT's omvat het het verschil tussen gemiddelde proporties, relatieve risico's, odds ratio's en NLR's. Op dezelfde manier kunnen CI's worden verkregen voor alle belangrijke schattingen die zijn gemaakt in onderzoeken naar de nauwkeurigheid van diagnostische tests: gevoeligheid, specificiteit, positief voorspellende waarde (die allemaal eenvoudige proporties zijn) en waarschijnlijkheidsratio's - schattingen verkregen in meta-analyses en vergelijking met de controlegroep. studies. Een personal computerprogramma dat veel van deze toepassingen van MDI's bestrijkt, is beschikbaar bij de tweede editie van Statistics with Confidence. Macro's voor het berekenen van CI's voor verhoudingen zijn gratis beschikbaar voor Excel en de statistische programma's SPSS en Minitab op http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Meerdere schattingen van het behandelingseffect

Hoewel CI’s wenselijk zijn voor primaire onderzoeksresultaten, zijn ze niet noodzakelijk voor alle uitkomsten. De CI betreft klinisch belangrijke vergelijkingen. Als u bijvoorbeeld twee groepen vergelijkt, is het juiste CI het CI dat is geconstrueerd voor het verschil tussen de groepen, zoals weergegeven in de bovenstaande voorbeelden, en niet het CI dat kan worden geconstrueerd voor de schatting in elke groep. Niet alleen is het niet nuttig om afzonderlijke CI's te geven voor schattingen in elke groep, deze presentatie kan ook misleidend zijn. Op dezelfde manier is de juiste aanpak bij het vergelijken van de effectiviteit van behandelingen in verschillende subgroepen het rechtstreeks vergelijken van twee (of meer) subgroepen. Het is onjuist om aan te nemen dat een behandeling slechts in één subgroep effectief is als de CI de waarde uitsluit die overeenkomt met geen effect en de andere niet. CI's zijn ook nuttig bij het vergelijken van resultaten over meerdere subgroepen. In afb. Een 1.1 toont het relatieve risico op eclampsie bij vrouwen met pre-eclampsie in subgroepen van vrouwen uit een placebogecontroleerde RCT met magnesiumsulfaat.

Rijst. A1.2. Het bosperceel toont de resultaten van 11 gerandomiseerde klinische onderzoeken met het boviene rotavirusvaccin voor de preventie van diarree, vergeleken met placebo. Om het relatieve risico op diarree te schatten, werd een betrouwbaarheidsinterval van 95% gebruikt. De grootte van het zwarte vierkant is evenredig met de hoeveelheid informatie. Bovendien worden de samenvattende schatting van de effectiviteit van de behandeling en het 95% betrouwbaarheidsinterval (aangegeven door een diamant) weergegeven. De meta-analyse maakte gebruik van een model met willekeurige effecten dat groter was dan sommige vooraf gespecificeerde modellen; Dit kan bijvoorbeeld de omvang zijn die wordt gebruikt bij het berekenen van de steekproefomvang. Een strenger criterium vereist dat het gehele CI-bereik een voordeel laat zien dat groter is dan een vooraf gespecificeerd minimum.

We hebben al gesproken over de misvatting om een ​​gebrek aan statistische significantie aan te nemen als indicatie dat twee behandelingen even effectief zijn. Het is net zo belangrijk om statistische significantie niet gelijk te stellen aan klinisch belang. Klinisch belang kan worden aangenomen wanneer het resultaat statistisch significant is en de omvang van de schatting van de effectiviteit van de behandeling

Studies kunnen aantonen of de resultaten statistisch significant zijn en welke klinisch belangrijk zijn en welke niet. In afb. In A1.2 zijn de resultaten van vier testen weergegeven, waarvan de gehele CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Stel dat we een groot aantal artikelen hebben met een normale verdeling van enkele kenmerken (bijvoorbeeld een volledig magazijn met groenten van hetzelfde type, waarvan de grootte en het gewicht variëren). U wilt de gemiddelde kenmerken van de hele partij goederen weten, maar u heeft niet de tijd en de zin om elke groente te meten en te wegen. Je begrijpt dat dit niet nodig is. Maar hoeveel stuks zouden er nodig zijn voor een controle ter plaatse?

Laten we, voordat we verschillende formules geven die nuttig zijn voor deze situatie, enkele notaties in herinnering brengen.

Ten eerste, als we het hele magazijn met groenten zouden meten (deze reeks elementen wordt de algemene populatie genoemd), dan zouden we met alle beschikbare nauwkeurigheid het gemiddelde gewicht van de hele partij weten. Laten we dit gemiddelde noemen X gem .g nl . - algemeen gemiddelde. We weten al wat volledig bepaald is als de gemiddelde waarde en de afwijking s bekend zijn . Dat is waar, ook al zijn we noch X-gemiddelde gen. noch S We kennen de algemene bevolking niet. We kunnen alleen een bepaald monster nemen, de waarden meten die we nodig hebben en voor dit monster zowel de gemiddelde waarde X-gemiddelde als de standaarddeviatie S berekenen.

Het is bekend dat als onze steekproefcontrole een groot aantal elementen bevat (meestal is n groter dan 30), en deze worden genomen echt willekeurig, dan s de algemene bevolking zal nauwelijks verschillen van S-selectie..

Bovendien kunnen we voor het geval van een normale verdeling de volgende formules gebruiken:

Met een waarschijnlijkheid van 95%


Met een waarschijnlijkheid van 99%



In het algemeen, met waarschijnlijkheid P (t)


De relatie tussen de t-waarde en de waarschijnlijkheidswaarde P (t), waarmee we het betrouwbaarheidsinterval willen weten, kunnen we uit de volgende tabel halen:


We hebben dus bepaald in welk bereik de gemiddelde waarde voor de populatie ligt (met een gegeven waarschijnlijkheid).

Tenzij we een voldoende grote steekproef hebben, kunnen we niet zeggen dat de populatie s = heeft S selecteren Bovendien is in dit geval de mate waarin de steekproef nauw aansluit bij de normale verdeling problematisch. In dit geval gebruiken we in plaats daarvan ook S select s in de formule:




maar de waarde van t voor een vaste waarschijnlijkheid P(t) zal afhangen van het aantal elementen in de steekproef n. Hoe groter n, hoe dichter het resulterende betrouwbaarheidsinterval bij de waarde van formule (1) zal liggen. De t-waarden zijn in dit geval afkomstig uit een andere tabel (Student’s t-test), die we hieronder presenteren:

Student's t-testwaarden voor waarschijnlijkheid 0,95 en 0,99


Voorbeeld 3. Uit de werknemers van het bedrijf werden willekeurig 30 mensen geselecteerd. Volgens de steekproef bleek dat het gemiddelde salaris (per maand) 30 duizend roebel bedraagt ​​met een standaardafwijking van 5 duizend roebel. Bepaal het gemiddelde salaris in het bedrijf met een waarschijnlijkheid van 0,99.

Oplossing: Op voorwaarde hebben we n = 30, X gem. =30.000, S=5000, P=0,99. Om het betrouwbaarheidsinterval te vinden, gebruiken we de formule die overeenkomt met de Student's t-test. Uit de tabel voor n = 30 en P = 0,99 vinden we t = 2,756, dus


die. gezochte vertrouwenspersoon interval 27484< Х ср.ген < 32516.

Met een waarschijnlijkheid van 0,99 kunnen we dus zeggen dat het interval (27484; 32516) het gemiddelde salaris in het bedrijf bevat.

Wij hopen dat u van deze werkwijze gebruik zult maken en het is niet nodig dat u iedere keer een tafel bij u heeft. Berekeningen kunnen automatisch worden uitgevoerd in Excel. Terwijl u zich in het Excel-bestand bevindt, klikt u op de fx-knop in het bovenste menu. Selecteer vervolgens het type "statistisch" uit de functies en uit de voorgestelde lijst in het venster - STUDAR DISCOVER. Plaats vervolgens bij de prompt de cursor in het veld "waarschijnlijkheid" en voer de waarde van de inverse waarschijnlijkheid in (d.w.z. in ons geval moet u in plaats van de waarschijnlijkheid van 0,95 de waarschijnlijkheid van 0,05 typen). Blijkbaar is de spreadsheet zo ontworpen dat het resultaat antwoord geeft op de vraag hoe waarschijnlijk het is dat we ongelijk hebben. Op dezelfde manier voert u in het veld Mate van vrijheid een waarde (n-1) in voor uw monster.

Intelligentie bestaat niet alleen uit kennis, maar ook uit het vermogen om kennis in de praktijk toe te passen. (Aristoteles)

Betrouwbaarheidsintervallen

algemene beoordeling

Door een steekproef uit de populatie te nemen, verkrijgen we een puntschatting van de betreffende parameter en berekenen we de standaardfout om de nauwkeurigheid van de schatting aan te geven.

In de meeste gevallen is de standaardfout als zodanig echter niet acceptabel. Het is veel nuttiger om deze nauwkeurigheidsmaatstaf te combineren met een intervalschatting voor de populatieparameter.

Dit kan worden gedaan door kennis van de theoretische waarschijnlijkheidsverdeling van de steekproefstatistiek (parameter) te gebruiken om een ​​betrouwbaarheidsinterval (CI - Betrouwbaarheidsinterval, CI - Betrouwbaarheidsinterval) voor de parameter te berekenen.

Over het algemeen breidt een betrouwbaarheidsinterval schattingen in beide richtingen uit met een bepaald veelvoud van de standaardfout (van een gegeven parameter); de twee waarden (betrouwbaarheidsgrenzen) die het interval definiëren, worden meestal gescheiden door een komma en tussen haakjes geplaatst.

Betrouwbaarheidsinterval voor het gemiddelde

Normale verdeling gebruiken

Het steekproefgemiddelde is normaal verdeeld als de steekproefomvang groot is, dus u kunt kennis van de normale verdeling toepassen bij het overwegen van het steekproefgemiddelde.

Concreet ligt 95% van de verdeling van de steekproefgemiddelden binnen 1,96 standaardafwijkingen (SD) van het populatiegemiddelde.

Als we maar één steekproef hebben, noemen we dit de standaardfout van het gemiddelde (SEM) en berekenen we het 95%-betrouwbaarheidsinterval voor het gemiddelde als volgt:

Als we dit experiment verschillende keren herhalen, bevat het interval 95% van de tijd het werkelijke populatiegemiddelde.

Meestal is dit een betrouwbaarheidsinterval, zoals het interval van waarden waarbinnen het werkelijke populatiegemiddelde (algemeen gemiddelde) ligt met een betrouwbaarheidskans van 95%.

Hoewel het niet helemaal rigoureus is (het populatiegemiddelde is een vaste waarde en er kan daarom geen waarschijnlijkheid aan worden verbonden) om een ​​betrouwbaarheidsinterval op deze manier te interpreteren, is het conceptueel gemakkelijker te begrijpen.

Gebruik T- verdeling

U kunt de normale verdeling gebruiken als u de waarde van de variantie in de populatie kent. Wanneer de steekproefomvang klein is, volgt het steekproefgemiddelde bovendien een normale verdeling als de onderliggende populatiegegevens normaal verdeeld zijn.

Als de gegevens die ten grondslag liggen aan de populatie niet normaal verdeeld zijn en/of de populatievariantie onbekend is, voldoet het steekproefgemiddelde Student's t-verdeling.

We berekenen het 95%-betrouwbaarheidsinterval voor het gemiddelde van de algemene bevolking als volgt:

Waar is het procentpunt (percentiel) T- Student's t-verdeling met (n-1) vrijheidsgraden, wat een tweezijdige waarschijnlijkheid van 0,05 oplevert.

Over het algemeen biedt het een breder bereik dan het gebruik van de normale verdeling, omdat het rekening houdt met de extra onzekerheid die wordt geïntroduceerd door het schatten van de standaarddeviatie van de populatie en/of vanwege de kleine steekproefomvang.

Wanneer de steekproefomvang groot is (in de orde van 100 of meer), is het verschil tussen de twee verdelingen ( t-student en normaal) is onbeduidend. Ze gebruiken echter altijd T- verdeling bij het berekenen van betrouwbaarheidsintervallen, zelfs als de steekproefomvang groot is.

Meestal wordt het 95%-BI gerapporteerd. Andere betrouwbaarheidsintervallen kunnen worden berekend, zoals het 99% BI voor het gemiddelde.

In plaats van het product van de standaardfout en de tabelwaarde T- verdeling, die overeenkomt met een tweezijdige waarschijnlijkheid van 0,05, vermenigvuldigt u deze (standaardfout) met de waarde die overeenkomt met een tweezijdige waarschijnlijkheid van 0,01. Dit is een breder betrouwbaarheidsinterval dan het 95%-betrouwbaarheidsinterval, omdat het een groter vertrouwen weerspiegelt dat het interval daadwerkelijk het populatiegemiddelde omvat.

Betrouwbaarheidsinterval voor proportie

De steekproefverdeling van verhoudingen heeft een binominale verdeling. Echter, als de steekproefomvang N redelijk groot is, dan is de steekproefverdeling van de proportie ongeveer normaal met het gemiddelde.

We evalueren op basis van selectieve ratio p=r/n(Waar R- het aantal individuen in de steekproef met de karakteristieke kenmerken die voor ons van belang zijn), en de standaardfout wordt geschat:

Het 95%-betrouwbaarheidsinterval voor het aandeel wordt geschat:

Als de steekproefomvang klein is (meestal wanneer n.p. of n(1-p) minder 5 ), dan is het noodzakelijk om de binominale verdeling te gebruiken om nauwkeurige betrouwbaarheidsintervallen te berekenen.

Merk op dat als P uitgedrukt in een percentage, dus (1-p) vervangen door (100-p).

Interpretatie van betrouwbaarheidsintervallen

Bij het interpreteren van een betrouwbaarheidsinterval zijn we geïnteresseerd in de volgende vragen:

Hoe breed is het betrouwbaarheidsinterval?

Een breed betrouwbaarheidsinterval geeft aan dat de schatting onnauwkeurig is; smal geeft een nauwkeurige schatting aan.

De breedte van het betrouwbaarheidsinterval hangt af van de grootte van de standaardfout, die op zijn beurt afhangt van de steekproefomvang en bij het beschouwen van een numerieke variabele levert de variabiliteit van de gegevens bredere betrouwbaarheidsintervallen op dan studies met een grote dataset van weinig variabelen. .

Bevat de CI waarden die van bijzonder belang zijn?

U kunt controleren of de waarschijnlijke waarde voor een populatieparameter binnen het betrouwbaarheidsinterval valt. Als dat zo is, zijn de resultaten consistent met deze waarschijnlijke waarde. Zo niet, dan is het onwaarschijnlijk (bij een betrouwbaarheidsinterval van 95% is de kans bijna 5%) dat de parameter die waarde heeft.