Konfidensinterval til estimering af middelværdien (spredning er kendt) i MS EXCEL. Kvantitative analysemetoder: Estimering af konfidensintervaller

"Katren-Style" fortsætter med at udgive en cyklus af Konstantin Kravchik om medicinsk statistik. I to tidligere artikler berørte forfatteren forklaringen af ​​sådanne begreber som og.

Konstantin Kravchik

Matematiker-analytiker. Specialist inden for statistisk forskning inden for medicin og humaniora

Moskva by

Meget ofte kan du i artikler om kliniske forsøg finde en mystisk sætning: "konfidensinterval" (95% CI eller 95% CI - konfidensinterval). For eksempel kan en artikel sige: "Studens t-test blev brugt til at vurdere betydningen af ​​forskelle, med et 95 % konfidensinterval beregnet."

Hvad er værdien af ​​"95 % konfidensintervallet", og hvorfor beregne det?

Hvad er et konfidensinterval? - Det er det interval, hvori de sande middelværdier i befolkningen falder. Og hvad, der er "usande" gennemsnit? På en måde, ja, det gør de. I forklarede vi, at det er umuligt at måle parameteren af ​​interesse i hele befolkningen, så forskerne nøjes med en begrænset stikprøve. I denne prøve (for eksempel efter kropsvægt) er der én gennemsnitsværdi (en vis vægt), som vi bedømmer gennemsnitsværdien i hele den generelle befolkning efter. Det er dog usandsynligt, at gennemsnitsvægten i stikprøven (især en lille en) vil falde sammen med gennemsnitsvægten i den generelle befolkning. Derfor er det mere korrekt at beregne og bruge rækken af ​​gennemsnitsværdier for den generelle befolkning.

Antag for eksempel, at 95 % konfidensintervallet (95 % CI) for hæmoglobin er mellem 110 og 122 g/L. Det betyder, at med 95 % sandsynlighed vil den sande middelværdi for hæmoglobin i den almindelige befolkning ligge i området fra 110 til 122 g/l. Med andre ord kender vi ikke det gennemsnitlige hæmoglobin i den generelle befolkning, men vi kan angive værdiintervallet for denne funktion med 95% sandsynlighed.

Konfidensintervaller er særligt relevante for forskellen i middelværdier mellem grupper, eller det man kalder effektstørrelsen.

Antag, at vi sammenlignede effektiviteten af ​​to jernpræparater: et, der har været på markedet i lang tid, og et, der lige er blevet registreret. Efter terapiforløbet blev koncentrationen af ​​hæmoglobin i de undersøgte grupper af patienter vurderet, og det statistiske program beregnede for os, at forskellen mellem gennemsnitsværdierne for de to grupper med en sandsynlighed på 95 % ligger i intervallet fra 1,72 til 14,36 g/l (tabel 1).

Tab. 1. Kriterium for uafhængige stikprøver
(grupper sammenlignes efter hæmoglobinniveau)

Dette skal fortolkes som følger: Hos en del af patienter i den almindelige befolkning, der tager et nyt lægemiddel, vil hæmoglobin i gennemsnit være højere med 1,72-14,36 g/l end hos dem, der tog et allerede kendt lægemiddel.

Med andre ord, i den generelle befolkning er forskellen i de gennemsnitlige værdier for hæmoglobin i grupper med 95% sandsynlighed inden for disse grænser. Det vil være op til forskeren at vurdere, om det er meget eller lidt. Pointen med alt dette er, at vi ikke arbejder med én gennemsnitsværdi, men med en række værdier, derfor estimerer vi mere pålideligt forskellen i en parameter mellem grupper.

I statistiske pakker kan man efter forskerens skøn selvstændigt indsnævre eller udvide grænserne for konfidensintervallet. Ved at sænke sandsynligheden for konfidensintervallet indsnævrer vi intervallet af middel. For eksempel, ved 90 % CI, vil intervallet af middelværdier (eller middelforskelle) være snævrere end ved 95 % CI.

Omvendt udvides rækkevidden af ​​værdier ved at øge sandsynligheden til 99 %. Ved sammenligning af grupper kan den nedre grænse for CI krydse nulmærket. For eksempel, hvis vi udvidede grænserne for konfidensintervallet til 99 %, så varierede grænserne for intervallet fra –1 til 16 g/L. Det betyder, at der i den generelle befolkning er grupper, hvor forskellen mellem gennemsnittet for den undersøgte egenskab er 0 (M=0).

Konfidensintervaller kan bruges til at teste statistiske hypoteser. Hvis konfidensintervallet krydser nulværdien, så er nulhypotesen, som antager, at grupperne ikke adskiller sig i den undersøgte parameter, sand. Et eksempel er beskrevet ovenfor, hvor vi udvidede grænserne til 99%. Et sted i den almindelige befolkning fandt vi grupper, der ikke adskilte sig på nogen måde.

95 % konfidensinterval for forskel i hæmoglobin, (g/l)


Figuren viser 95 % konfidensintervallet for den gennemsnitlige hæmoglobinforskel mellem de to grupper som en linje. Linjen passerer nulmærket, derfor er der en forskel mellem middelværdierne lig med nul, hvilket bekræfter nulhypotesen om, at grupperne ikke adskiller sig. Forskellen mellem grupperne går fra -2 til 5 g/l, hvilket betyder, at hæmoglobin enten kan falde med 2 g/l eller stige med 5 g/l.

Konfidensintervallet er en meget vigtig indikator. Takket være den kan du se, om forskellene i grupperne virkelig skyldtes forskellen i middelværdierne eller på grund af en stor stikprøve, for med en stor stikprøve er chancerne for at finde forskelle større end med en lille.

I praksis kan det se sådan ud. Vi tog en prøve på 1000 personer, målte hæmoglobinniveauet og fandt ud af, at konfidensintervallet for forskellen i middelværdierne ligger fra 1,2 til 1,5 g/L. Niveauet af statistisk signifikans i dette tilfælde s

Vi ser, at hæmoglobinkoncentrationen steg, men næsten umærkeligt, derfor viste den statistiske signifikans sig netop på grund af prøvestørrelsen.

Konfidensintervaller kan beregnes ikke kun for gennemsnit, men også for proportioner (og risikoforhold). For eksempel er vi interesserede i konfidensintervallet for andelen af ​​patienter, der opnåede remission, mens de tog det udviklede lægemiddel. Antag, at 95 % CI for proportionerne, dvs. for andelen af ​​sådanne patienter, er i intervallet 0,60-0,80. Således kan vi sige, at vores medicin har en terapeutisk effekt i 60 til 80% af tilfældene.

Konfidensinterval

Konfidensinterval- et udtryk, der bruges i matematisk statistik til interval (i modsætning til punkt) estimering af statistiske parametre, hvilket er at foretrække med en lille stikprøvestørrelse. Konfidensintervallet er det interval, der dækker den ukendte parameter med en given pålidelighed.

Metoden med konfidensintervaller er udviklet af den amerikanske statistiker Jerzy Neumann, baseret på den engelske statistiker Ronald Fischers ideer.

Definition

Konfidensintervalparameter θ tilfældig variabel fordeling x med tillidsniveau 100 p%, genereret af prøven ( x 1 ,…,x n), kaldes et interval med grænser ( x 1 ,…,x n) og ( x 1 ,…,x n) som er realiseringer af stokastiske variable L(x 1 ,…,x n) og U(x 1 ,…,x n) sådan at

.

Grænsepunkterne for konfidensintervallet kaldes tillidsgrænser.

En intuitionsbaseret fortolkning af konfidensintervallet ville være: hvis s er stor (f.eks. 0,95 eller 0,99), så indeholder konfidensintervallet næsten helt sikkert den sande værdi θ .

En anden fortolkning af begrebet et konfidensinterval: det kan betragtes som et interval af parameterværdier θ kompatible med eksperimentelle data og ikke modsige dem.

Eksempler

  • Konfidensinterval for den matematiske forventning af en normal prøve;
  • Konfidensinterval for den normale stikprøvevarians.

Bayesiansk konfidensinterval

I Bayesiansk statistik er der en definition af et konfidensinterval, der er ens, men adskiller sig i nogle nøgledetaljer. Her betragtes den estimerede parameter i sig selv som en tilfældig variabel med en vis a priori-fordeling (ensartet i det simpleste tilfælde), og stikprøven er fast (i klassisk statistik er alt præcis det modsatte). Det bayesianske konfidensintervall er det interval, der dækker parameterværdien med den posteriore sandsynlighed:

.

Generelt er klassiske og Bayesianske konfidensintervaller forskellige. I den engelsksprogede litteratur kaldes det bayesianske konfidensinterval normalt for begrebet troværdigt interval, og den klassiske konfidensinterval.

Noter

Kilder

Wikimedia Foundation. 2010 .

  • Baby (film)
  • Kolonist

Se, hvad "Konfidensinterval" er i andre ordbøger:

    Konfidensinterval- intervallet beregnet ud fra stikprøvedataene, som med en given sandsynlighed (konfidens) dækker den ukendte sande værdi af den estimerede fordelingsparameter. Kilde: GOST 20522 96: Jordbund. Metoder til statistisk behandling af resultater ... Ordbogsopslagsbog med vilkår for normativ og teknisk dokumentation

    konfidensinterval- for en skalær parameter for den generelle befolkning er dette et segment, der højst sandsynligt indeholder denne parameter. Denne sætning er meningsløs uden yderligere afklaring. Da grænserne for konfidensintervallet estimeres ud fra stikprøven, er det naturligt at ... ... Ordbog over sociologisk statistik

    KONFIDENSINTERVAL er en parameterestimeringsmetode, der adskiller sig fra punktestimering. Lad en prøve x1, gives. . ., xn fra en fordeling med en sandsynlighedstæthed f(x, α), og a*=a*(x1, . . ., xn) er estimatet α, g(a*, α) er sandsynlighedstætheden af skøn. Leder efter…… Geologisk Encyklopædi

    KONFIDENSINTERVAL- (konfidensinterval) Det interval, hvor konfidensen af ​​en parameterværdi for en population afledt af en stikprøveundersøgelse har en vis grad af sandsynlighed, såsom 95 %, på grund af selve stikprøven. Bredde … … Økonomisk ordbog

    konfidensinterval- er det interval, hvori den sande værdi af den bestemte mængde er placeret med en given konfidenssandsynlighed. Generel kemi: lærebog / A. V. Zholnin ... Kemiske termer

    Konfidensinterval CI- Konfidensinterval, CI * davyaralny interval, CI * konfidensinterval interval for fortegnsværdien, beregnet for c.l. fordelingsparameter (f.eks. middelværdien af ​​en funktion) over stikprøven og med en vis sandsynlighed (f.eks. 95 % for 95 % ... Genetik. encyklopædisk ordbog

    KONFIDENSINTERVAL- det koncept, der opstår ved estimering af parameteren statistic. fordeling efter interval af værdier. D. i. for parameteren q svarende til den givne koefficient. konfidens P, er lig med et sådant interval (q1, q2), at for enhver fordeling af sandsynligheden for ulighed ... ... Fysisk encyklopædi

    konfidensinterval- - Telekommunikationsemner, grundlæggende begreber EN konfidensinterval ... Teknisk oversætterhåndbog

    konfidensinterval- pasikliovimo intervalas statusas T sritis Standartizacija ir metrologija apibrėžtis Dydžio verčių intervalas, kuriame su pasirinktąja tikimybe yra matavimo rezultato vertė. atitikmenys: engl. konfidensinterval vok. Vertrauensbereich, m rus.… … Penkiakalbis aiskinamasis metrologijos terminų žodynas

    konfidensinterval- pasikliovimo intervalas statusas T sritis chemija apibrėžtis Dydžio verčių intervalas, kuriame su pasirinktąja tikimybe yra matavimo rezultatų vertė. atitikmenys: engl. konfidensinterval rus. tillidsområde; konfidensinterval... Chemijos terminų aiskinamasis žodynas

Antag, at vi har et stort antal varer med en normal fordeling af nogle karakteristika (for eksempel et fuldt lager af grøntsager af samme type, hvis størrelse og vægt varierer). Du vil gerne kende de gennemsnitlige egenskaber for hele varepartiet, men du har hverken tid eller lyst til at måle og veje hver grøntsag. Du forstår, at dette ikke er nødvendigt. Men hvor mange stykker skal du tage til tilfældig inspektion?

Før vi giver nogle formler, der er nyttige for denne situation, husker vi nogle notationer.

For det første, hvis vi målte hele lageret af grøntsager (dette sæt af elementer kaldes den generelle befolkning), så ville vi vide med al den nøjagtighed, der er tilgængelig for os, gennemsnitsværdien af ​​vægten af ​​hele partiet. Lad os kalde dette gennemsnit X jfr .g da . - generelt gennemsnit. Vi ved allerede, hvad der er fuldstændig bestemt, hvis dens middelværdi og afvigelse s er kendt . Sandt nok, indtil videre er vi hverken X gns. eller s vi kender ikke den almindelige befolkning. Vi kan kun tage nogle prøver, måle de værdier vi har brug for og beregne for denne prøve både middelværdien X sr. i prøven og standardafvigelsen S sb.

Det er kendt, at hvis vores brugerdefinerede check indeholder et stort antal elementer (normalt er n større end 30), og de tages virkelig tilfældigt, derefter s den generelle befolkning vil næsten ikke adskille sig fra S ..

Derudover kan vi i tilfælde af en normalfordeling bruge følgende formler:

Med en sandsynlighed på 95 %


Med en sandsynlighed på 99 %



Generelt, med sandsynlighed Р (t)


Forholdet mellem værdien af ​​t og værdien af ​​sandsynligheden P(t), som vi ønsker at kende konfidensintervallet med, kan tages fra følgende tabel:


Vi har således bestemt, i hvilket interval gennemsnitsværdien for den generelle befolkning er (med en given sandsynlighed).

Medmindre vi har en stor nok stikprøve, kan vi ikke påstå, at populationen har s = S sel. I dette tilfælde er prøvens nærhed til normalfordelingen desuden problematisk. Brug i dette tilfælde også S sb i stedet s i formlen:




men værdien af ​​t for en fast sandsynlighed P(t) vil afhænge af antallet af elementer i stikprøven n. Jo større n, jo tættere vil det resulterende konfidensinterval være på værdien givet af formel (1). t-værdierne i dette tilfælde er taget fra en anden tabel (Studentens t-test), som vi giver nedenfor:

Elevens t-testværdier for sandsynlighed 0,95 og 0,99


Eksempel 3 30 personer blev tilfældigt udvalgt blandt de ansatte i virksomheden. Ifølge prøven viste det sig, at den gennemsnitlige løn (per måned) er 30 tusind rubler med en gennemsnitlig kvadratafvigelse på 5 tusind rubler. Med en sandsynlighed på 0,99 bestemme den gennemsnitlige løn i virksomheden.

Afgørelse: Ved betingelse har vi n = 30, X jfr. =30000, S=5000, P=0,99. For at finde konfidensintervallet bruger vi formlen svarende til Elevens kriterium. Ifølge tabellen for n \u003d 30 og P \u003d 0,99 finder vi t \u003d 2,756, derfor,


de der. ønsket tillid interval 27484< Х ср.ген < 32516.

Så med en sandsynlighed på 0,99 kan man argumentere for, at intervallet (27484; 32516) indeholder gennemsnitslønnen i virksomheden.

Vi håber, at du vil bruge denne metode uden nødvendigvis at have et regneark med dig hver gang. Beregninger kan udføres automatisk i Excel. Mens du er i en Excel-fil, skal du klikke på fx-knappen i topmenuen. Vælg derefter blandt funktionerne typen "statistisk", og fra den foreslåede liste i boksen - STEUDRASP. Placer derefter markøren i feltet "sandsynlighed" ved prompten, og skriv værdien af ​​den gensidige sandsynlighed (det vil sige i vores tilfælde, i stedet for sandsynligheden på 0,95, skal du indtaste sandsynligheden på 0,05). Tilsyneladende er regnearket designet således, at resultatet besvarer spørgsmålet om, hvor sandsynligt vi kan tage fejl. På samme måde skal du i feltet "frihedsgrad" indtaste værdien (n-1) for din prøve.

Konfidensintervallet kom til os fra statistikområdet. Dette er et defineret interval, der tjener til at estimere en ukendt parameter med en høj grad af pålidelighed. Den nemmeste måde at forklare dette på er med et eksempel.

Antag, at du skal undersøge en tilfældig variabel, for eksempel hastigheden af ​​serverens svar på en klientanmodning. Hver gang en bruger indtaster adressen på et bestemt websted, svarer serveren med en anden hastighed. Den undersøgte responstid har således en tilfældig karakter. Så konfidensintervallet giver dig mulighed for at bestemme grænserne for denne parameter, og så vil det være muligt at hævde, at med en sandsynlighed på 95% vil serveren være i det område, vi beregnede.

Eller du skal finde ud af, hvor mange der kender til virksomhedens mærke. Når konfidensintervallet beregnes, vil man fx kunne sige, at med 95 % sandsynlighed ligger andelen af ​​forbrugere, der kender til dette, i intervallet fra 27 % til 34 %.

Tæt forbundet med dette udtryk er en sådan værdi som konfidensniveauet. Det repræsenterer sandsynligheden for, at den ønskede parameter er inkluderet i konfidensintervallet. Denne værdi bestemmer, hvor stort vores ønskede område vil være. Jo større værdi den tager, jo smallere bliver konfidensintervallet og omvendt. Normalt er den sat til 90 %, 95 % eller 99 %. Værdien på 95% er den mest populære.

Denne indikator er også påvirket af variansen af ​​observationer, og dens definition er baseret på den antagelse, at det undersøgte træk adlyder. Denne erklæring er også kendt som Gauss' lov. Ifølge ham kaldes en sådan fordeling af alle sandsynligheder for en kontinuert stokastisk variabel, som kan beskrives ved en sandsynlighedstæthed, normal. Hvis antagelsen om en normalfordeling viste sig at være forkert, kan estimatet vise sig at være forkert.

Lad os først finde ud af, hvordan man beregner konfidensintervallet for Her er to tilfælde mulige. Spredning (graden af ​​spredning af en tilfældig variabel) kan eller er måske ikke kendt. Hvis det er kendt, så beregnes vores konfidensinterval ved hjælp af følgende formel:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - tegn,

t er en parameter fra Laplace-fordelingstabellen,

σ er kvadratroden af ​​dispersionen.

Hvis variansen er ukendt, kan den beregnes, hvis vi kender alle værdierne for den ønskede funktion. Til dette bruges følgende formel:

σ2 = х2ср - (хр)2, hvor

х2ср - den gennemsnitlige værdi af kvadraterne af den egenskab, der undersøges,

(xsr)2 er kvadratet af denne funktion.

Formlen, hvormed konfidensintervallet beregnes i dette tilfælde, ændres lidt:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - prøvegennemsnit,

α - tegn,

t er en parameter, der findes ved hjælp af elevens distributionstabel t \u003d t (ɣ; n-1),

sqrt(n) er kvadratroden af ​​den samlede stikprøvestørrelse,

s er kvadratroden af ​​variansen.

Overvej dette eksempel. Antag, at baseret på resultaterne af 7 målinger, blev den undersøgte egenskab bestemt til at være 30 og prøvevariansen lig med 36. Det er nødvendigt at finde et konfidensinterval med en sandsynlighed på 99 %, der indeholder den sande værdi af det målte parameter.

Lad os først bestemme, hvad t er lig med: t \u003d t (0,99; 7-1) \u003d 3,71. Ved at bruge ovenstående formel får vi:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Konfidensintervallet for variansen beregnes både i tilfælde af et kendt gennemsnit, og når der ikke er data om den matematiske forventning, og kun værdien af ​​det upartiske punktestimat af variansen er kendt. Vi vil ikke her give formlerne til dens beregning, da de er ret komplekse, og om ønsket kan de altid findes på nettet.

Vi bemærker kun, at det er praktisk at bestemme konfidensintervallet ved hjælp af Excel-programmet eller en netværkstjeneste, som kaldes det.