Konfidensintervall for å estimere gjennomsnittet (spredning er kjent) i MS EXCEL. Kvantitative analysemetoder: Estimering av konfidensintervaller

"Katren-Style" fortsetter å publisere en syklus av Konstantin Kravchik om medisinsk statistikk. I to tidligere artikler har forfatteren vært inne på forklaringen av slike begreper som og.

Konstantin Kravchik

Matematiker-analytiker. Spesialist innen statistisk forskning innen medisin og humaniora

Moskva by

Svært ofte i artikler om kliniske studier kan du finne en mystisk setning: "konfidensintervall" (95 % CI eller 95 % CI – konfidensintervall). For eksempel kan en artikkel si: "Studentens t-test ble brukt til å evaluere betydningen av forskjeller, med et 95 % konfidensintervall beregnet."

Hva er verdien av "95 % konfidensintervall" og hvorfor beregne det?

Hva er et konfidensintervall? – Dette er området der de sanne middelverdiene i befolkningen faller. Og hva, det er "usanne" gjennomsnitt? På en måte, ja, det gjør de. I forklarte vi at det er umulig å måle parameteren av interesse i hele populasjonen, så forskerne nøyer seg med et begrenset utvalg. I dette utvalget (for eksempel etter kroppsvekt) er det én gjennomsnittsverdi (en viss vekt), som vi bedømmer gjennomsnittsverdien etter i hele befolkningen generelt. Det er imidlertid lite sannsynlig at gjennomsnittsvekten i utvalget (spesielt en liten en) vil falle sammen med gjennomsnittsvekten i befolkningen generelt. Derfor er det mer riktig å beregne og bruke rekkevidden av gjennomsnittsverdier for den generelle befolkningen.

Anta for eksempel at 95 % konfidensintervall (95 % KI) for hemoglobin er mellom 110 og 122 g/L. Dette betyr at med 95 % sannsynlighet vil den sanne gjennomsnittsverdien for hemoglobin i den generelle befolkningen være i området fra 110 til 122 g/l. Med andre ord, vi kjenner ikke gjennomsnittlig hemoglobin i den generelle befolkningen, men vi kan indikere verdiområdet for denne funksjonen med 95% sannsynlighet.

Konfidensintervaller er spesielt relevante for forskjellen i middel mellom grupper, eller det som kalles effektstørrelsen.

Anta at vi sammenlignet effektiviteten til to jernpreparater: en som har vært på markedet lenge og en som nettopp er registrert. Etter behandlingsforløpet ble konsentrasjonen av hemoglobin i de studerte pasientgruppene vurdert, og det statistiske programmet beregnet for oss at forskjellen mellom gjennomsnittsverdiene til de to gruppene med en sannsynlighet på 95 % er i området fra 1,72 til 14,36 g/l (tabell 1).

Tab. 1. Kriterium for uavhengige utvalg
(gruppene sammenlignes etter hemoglobinnivå)

Dette skal tolkes slik: Hos en del av pasientene i den generelle befolkningen som tar et nytt legemiddel, vil hemoglobinet i gjennomsnitt være høyere med 1,72–14,36 g/l enn hos de som tok et allerede kjent legemiddel.

Med andre ord, i den generelle befolkningen er forskjellen i gjennomsnittsverdiene for hemoglobin i grupper med 95 % sannsynlighet innenfor disse grensene. Det vil være opp til forskeren å vurdere om dette er mye eller lite. Poenget med alt dette er at vi ikke jobber med én gjennomsnittsverdi, men med en rekke verdier, derfor estimerer vi mer pålitelig forskjellen i en parameter mellom grupper.

I statistiske pakker, etter forskerens skjønn, kan man uavhengig begrense eller utvide grensene for konfidensintervallet. Ved å senke sannsynlighetene for konfidensintervallet, begrenser vi middelområdet. For eksempel, ved 90 % KI, vil området for gjennomsnitt (eller gjennomsnittlige forskjeller) være smalere enn ved 95 % KI.

Omvendt, øker sannsynligheten til 99 % utvider verdiområdet. Ved sammenligning av grupper kan den nedre grensen for CI krysse nullmerket. For eksempel, hvis vi utvidet grensene for konfidensintervallet til 99 %, varierte grensene for intervallet fra –1 til 16 g/L. Dette betyr at i den generelle befolkningen er det grupper, hvor forskjellen mellom gjennomsnittene for den studerte egenskapen er 0 (M=0).

Konfidensintervaller kan brukes til å teste statistiske hypoteser. Hvis konfidensintervallet krysser null, er nullhypotesen, som antar at gruppene ikke er forskjellige i den studerte parameteren, sann. Et eksempel er beskrevet ovenfor, da vi utvidet grensene til 99 %. Et sted i den generelle befolkningen fant vi grupper som ikke var forskjellige på noen måte.

95 % konfidensintervall for forskjell i hemoglobin, (g/l)

Figuren viser 95 % konfidensintervall for gjennomsnittlig hemoglobinforskjell mellom de to gruppene som en linje. Linjen passerer nullmerket, derfor er det en forskjell mellom middelene lik null, noe som bekrefter nullhypotesen om at gruppene ikke er forskjellige. Forskjellen mellom gruppene varierer fra -2 til 5 g/l, noe som betyr at hemoglobin enten kan synke med 2 g/l eller øke med 5 g/l.

Konfidensintervallet er en svært viktig indikator. Takket være den kan du se om forskjellene i gruppene virkelig skyldtes forskjellen i gjennomsnitt eller på grunn av et stort utvalg, for med et stort utvalg er sjansene for å finne forskjeller større enn med et lite.

I praksis kan det se slik ut. Vi tok en prøve på 1000 personer, målte hemoglobinnivået og fant ut at konfidensintervallet for forskjellen i gjennomsnittet ligger fra 1,2 til 1,5 g/L. Nivået av statistisk signifikans i dette tilfellet s

Vi ser at hemoglobinkonsentrasjonen økte, men nesten umerkelig, derfor dukket den statistiske signifikansen opp nettopp på grunn av prøvestørrelsen.

Konfidensintervaller kan beregnes ikke bare for gjennomsnitt, men også for proporsjoner (og risikoforhold). For eksempel er vi interessert i konfidensintervallet for andelen pasienter som oppnådde remisjon mens de tok det utviklede stoffet. Anta at 95 % KI for proporsjonene, dvs. for andelen slike pasienter, er i området 0,60–0,80. Dermed kan vi si at medisinen vår har en terapeutisk effekt i 60 til 80 % av tilfellene.

Konfidensintervall

Konfidensintervall- et begrep som brukes i matematisk statistikk for intervall (i motsetning til punkt) estimering av statistiske parametere, som er å foretrekke med en liten prøvestørrelse. Konfidensintervallet er intervallet som dekker den ukjente parameteren med en gitt pålitelighet.

Metoden for konfidensintervaller ble utviklet av den amerikanske statistikeren Jerzy Neumann, basert på ideene til den engelske statistikeren Ronald Fischer.

Definisjon

Konfidensintervallparameter θ tilfeldig variabel fordeling X med tillitsnivå 100 p%, generert av prøven ( x 1 ,…,x n), kalles et intervall med grenser ( x 1 ,…,x n) og ( x 1 ,…,x n) som er realiseringer av tilfeldige variabler L(X 1 ,…,X n) og U(X 1 ,…,X n) slik at

Grensepunktene for konfidensintervallet kalles tillitsgrenser.

En intuisjonsbasert tolkning av konfidensintervallet vil være: if s er stor (si 0,95 eller 0,99), så inneholder konfidensintervallet nesten helt sikkert den sanne verdien θ .

En annen tolkning av konseptet med et konfidensintervall: det kan betraktes som et intervall av parameterverdier θ kompatibel med eksperimentelle data og ikke motsier dem.

Eksempler

Konfidensintervall for den matematiske forventningen til et normalt utvalg;
Konfidensintervall for den normale prøvevariansen.

Bayesiansk konfidensintervall

I Bayesiansk statistikk er det en definisjon av et konfidensintervall som er likt, men som er forskjellig i noen nøkkeldetaljer. Her betraktes selve den estimerte parameteren som en tilfeldig variabel med noen gitt a priori-fordeling (uniform i det enkleste tilfellet), og utvalget er fast (i klassisk statistikk er alt nøyaktig motsatt). Bayesiansk konfidensintervall er intervallet som dekker parameterverdien med posterior sannsynlighet:

Generelt er klassiske og Bayesianske konfidensintervaller forskjellige. I den engelskspråklige litteraturen kalles det Bayesianske konfidensintervallet vanligvis begrepet troverdig intervall, og klassikeren konfidensintervall.

Notater

Kilder

Wikimedia Foundation. 2010 .

Baby (film)
Kolonist

Se hva "Konfidensintervall" er i andre ordbøker:

Konfidensintervall- intervallet beregnet fra utvalgsdataene, som med en gitt sannsynlighet (konfidens) dekker den ukjente sanne verdien av den estimerte fordelingsparameteren. Kilde: GOST 20522 96: Jordsmonn. Metoder for statistisk behandling av resultater ... Ordbok-referansebok med vilkår for normativ og teknisk dokumentasjon

konfidensintervall- for en skalar parameter for den generelle befolkningen, er dette et segment som mest sannsynlig inneholder denne parameteren. Denne frasen er meningsløs uten ytterligere avklaring. Siden grensene for konfidensintervallet er estimert fra utvalget, er det naturlig å ... ... Ordbok for sosiologisk statistikk

KONFIDENSINTERVALL er en parameterestimeringsmetode som skiller seg fra punktestimering. La en prøve x1, gis. . ., xn fra en fordeling med en sannsynlighetstetthet f(x, α), og a*=a*(x1, . . ., xn) er estimatet α, g(a*, α) er sannsynlighetstettheten til anslag. Ser etter… … Geologisk leksikon

KONFIDENSINTERVALL- (konfidensintervall) Intervallet der konfidensen til en parameterverdi for en populasjon avledet fra en utvalgsundersøkelse har en viss grad av sannsynlighet, for eksempel 95 %, på grunn av selve utvalget. Bredde … … Økonomisk ordbok

konfidensintervall- - intervallet der den sanne verdien av den bestemte mengden er lokalisert med en gitt konfidenssannsynlighet. Generell kjemi: lærebok / A. V. Zholnin ... Kjemiske termer

Konfidensintervall CI- Konfidensintervall, CI * davyaralny-intervall, CI * konfidensintervallintervall for tegnverdien, beregnet for c.l. distribusjonsparameter (f.eks. middelverdien av en funksjon) over utvalget og med en viss sannsynlighet (f.eks. 95 % for 95 % ... Genetikk. encyklopedisk ordbok

KONFIDENSINTERVALL- konseptet som oppstår ved estimering av parameteren statistich. fordeling etter intervall av verdier. D. i. for parameteren q som tilsvarer den gitte koeffisienten. konfidens P, er lik et slikt intervall (q1, q2) at for enhver fordeling av sannsynligheten for ulikhet ... ... Fysisk leksikon

konfidensintervall- - Telekommunikasjonsemner, grunnleggende konsepter EN konfidensintervall ... Teknisk oversetterhåndbok

konfidensintervall- pasikliovimo intervalas statusas T sritis Standartizacija ir metrologija apibrėžtis Dydžio verčių intervalas, kuriame su pasirinktąja tikimybe yra matavimo rezultato vertė. atitikmenys: engl. konfidensintervall vok. Vertrauensbereich, m rus.… … Penkiakalbis aiskinamasis metrologijos terminų žodynas

konfidensintervall- pasikliovimo intervalas statusas T sritis chemija apibrėžtis Dydžio verčių intervalas, kuriame su pasirinktąja tikimybe yra matavimo rezultatų vertė. atitikmenys: engl. konfidensintervall rus. tillit område; konfidensintervall... Chemijos terminų aiskinamasis žodynas

Anta at vi har et stort antall varer med en normal fordeling av noen egenskaper (for eksempel et fullt lager av samme type grønnsaker, hvis størrelse og vekt varierer). Du vil vite gjennomsnittsegenskapene til hele varepartiet, men du har verken tid eller lyst til å måle og veie hver grønnsak. Du forstår at dette ikke er nødvendig. Men hvor mange stykker må du ta for tilfeldig inspeksjon?

Før vi gir noen formler som er nyttige for denne situasjonen, husker vi noen notasjon.

For det første, hvis vi målte hele lageret av grønnsaker (dette settet med elementer kalles den generelle befolkningen), ville vi vite med all nøyaktighet tilgjengelig for oss gjennomsnittsverdien av vekten av hele partiet. La oss kalle dette gjennomsnittet X jfr .g no . - generelt gjennomsnitt. Vi vet allerede hva som er fullstendig bestemt hvis middelverdien og avviket er kjent . Riktignok er vi så langt verken X snitt eller s vi kjenner ikke befolkningen generelt. Vi kan bare ta noen prøve, måle verdiene vi trenger og beregne for denne prøven både middelverdien X sr. i prøven og standardavviket S sb.

Det er kjent at hvis vår tilpassede sjekk inneholder et stort antall elementer (vanligvis er n større enn 30), og de blir tatt virkelig tilfeldig, deretter s den generelle befolkningen vil nesten ikke skille seg fra S ..

I tillegg, når det gjelder normalfordeling, kan vi bruke følgende formler:

Med en sannsynlighet på 95 %

Med en sannsynlighet på 99 %

Generelt, med sannsynlighet Р (t)

Forholdet mellom verdien av t og verdien av sannsynligheten P (t), som vi ønsker å vite konfidensintervallet med, kan hentes fra følgende tabell:

Dermed har vi bestemt i hvilket område gjennomsnittsverdien for den generelle befolkningen er (med en gitt sannsynlighet).

Med mindre vi har et stort nok utvalg, kan vi ikke påstå at populasjonen har s = S sel. I tillegg, i dette tilfellet, er utvalgets nærhet til normalfordelingen problematisk. Bruk i dette tilfellet også S sb i stedet s i formelen:

men verdien av t for en fast sannsynlighet P(t) vil avhenge av antall elementer i utvalget n. Jo større n, desto nærmere vil det resulterende konfidensintervallet være verdien gitt av formel (1). t-verdiene i dette tilfellet er hentet fra en annen tabell (Studentens t-test), som vi gir nedenfor:

Elevens t-testverdier for sannsynlighet 0,95 og 0,99

Eksempel 3 30 personer ble tilfeldig valgt ut blant de ansatte i selskapet. I følge utvalget viste det seg at gjennomsnittslønnen (per måned) er 30 tusen rubler med et gjennomsnittlig kvadratavvik på 5 tusen rubler. Med en sannsynlighet på 0,99 bestemme gjennomsnittslønnen i firmaet.

Løsning: Etter betingelse har vi n = 30, X jfr. =30000, S=5000, P=0,99. For å finne konfidensintervallet bruker vi formelen som tilsvarer Elevens kriterium. I følge tabellen for n \u003d 30 og P \u003d 0,99 finner vi t \u003d 2,756, derfor,

de. ønsket tillit intervall 27484< Х ср.ген < 32516.

Så, med en sannsynlighet på 0,99, kan det argumenteres for at intervallet (27484; 32516) inneholder gjennomsnittslønnen i selskapet.

Vi håper at du vil bruke denne metoden uten å nødvendigvis ha med deg et regneark hver gang. Beregninger kan utføres automatisk i Excel. Mens du er i en Excel-fil, klikker du på fx-knappen på toppmenyen. Deretter velger du blant funksjonene typen "statistisk", og fra den foreslåtte listen i boksen - STEUDRASP. Deretter, ved ledeteksten, plasserer du markøren i "sannsynlighetsfeltet", skriver du inn verdien av den gjensidige sannsynligheten (det vil si, i vårt tilfelle, i stedet for sannsynligheten på 0,95, må du skrive inn sannsynligheten på 0,05). Tilsynelatende er regnearket utformet slik at resultatet svarer på spørsmålet om hvor sannsynlig vi kan ta feil. På samme måte skriver du inn verdien (n-1) for prøven i feltet "frihetsgrad".

Konfidensintervallet kom til oss fra statistikkfeltet. Dette er et definert område som tjener til å estimere en ukjent parameter med høy grad av pålitelighet. Den enkleste måten å forklare dette på er med et eksempel.

Anta at du må undersøke en tilfeldig variabel, for eksempel hastigheten på serverens svar på en klientforespørsel. Hver gang en bruker skriver inn adressen til et bestemt nettsted, svarer serveren med en annen hastighet. Dermed har den undersøkte responstiden en tilfeldig karakter. Så, konfidensintervallet lar deg bestemme grensene for denne parameteren, og da vil det være mulig å hevde at med en sannsynlighet på 95% vil serveren være i området vi beregnet.

Eller du må finne ut hvor mange som vet om merkevaren til selskapet. Når konfidensintervallet beregnes, vil man for eksempel kunne si at med 95 % sannsynlighet ligger andelen forbrukere som vet om dette i området fra 27 % til 34 %.

Nært knyttet til dette begrepet er en slik verdi som konfidensnivået. Den representerer sannsynligheten for at den ønskede parameteren er inkludert i konfidensintervallet. Denne verdien bestemmer hvor stort vårt ønskede utvalg vil være. Jo større verdien den tar, jo smalere blir konfidensintervallet, og omvendt. Vanligvis er den satt til 90 %, 95 % eller 99 %. Verdien på 95% er den mest populære.

Denne indikatoren er også påvirket av variansen til observasjoner og dens definisjon er basert på antakelsen om at funksjonen som studeres adlyder. Denne uttalelsen er også kjent som Gauss' lov. Ifølge ham kalles en slik fordeling av alle sannsynligheter for en kontinuerlig tilfeldig variabel normal, som kan beskrives med en sannsynlighetstetthet. Hvis antakelsen om en normalfordeling viste seg å være feil, kan anslaget vise seg å være feil.

La oss først finne ut hvordan vi beregner konfidensintervallet for Her er to tilfeller mulige. Spredning (graden av spredning av en tilfeldig variabel) kan være kjent eller ikke. Hvis det er kjent, beregnes vårt konfidensintervall ved å bruke følgende formel:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - tegn,

t er en parameter fra Laplace-fordelingstabellen,

σ er kvadratroten av dispersjonen.

Hvis variansen er ukjent, kan den beregnes hvis vi kjenner alle verdiene til den ønskede funksjonen. For dette brukes følgende formel:

σ2 = х2ср - (хр)2, hvor

х2ср - gjennomsnittsverdien av kvadratene til egenskapen som studeres,

(xsr)2 er kvadratet til dette attributtet.

Formelen som konfidensintervallet beregnes med i dette tilfellet endres litt:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - eksempelgjennomsnitt,

α - tegn,

t er en parameter som er funnet ved hjelp av studentens distribusjonstabell t \u003d t (ɣ; n-1),

sqrt(n) er kvadratroten av den totale prøvestørrelsen,

s er kvadratroten av variansen.

Tenk på dette eksemplet. Anta at, basert på resultatene av 7 målinger, ble egenskapen som ble undersøkt bestemt til å være 30 og prøvevariansen lik 36. Det er nødvendig å finne, med en sannsynlighet på 99 %, et konfidensintervall som inneholder den sanne verdien av den målte parameteren.

Først, la oss bestemme hva t er lik: t \u003d t (0,99; 7-1) \u003d 3,71. Ved å bruke formelen ovenfor får vi:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Konfidensintervallet for variansen beregnes både i tilfelle av et kjent gjennomsnitt og når det ikke er data om den matematiske forventningen, og bare verdien av det objektive punktestimatet av variansen er kjent. Vi vil ikke gi her formlene for beregningen, siden de er ganske komplekse, og om ønskelig kan de alltid finnes på nettet.

Vi bemerker bare at det er praktisk å bestemme konfidensintervallet ved å bruke Excel-programmet eller en nettverkstjeneste, som kalles det.