Betrouwbaarheidsinterval voor het schatten van het gemiddelde (variantie is bekend) in MS EXCEL.

Betrouwbaarheidsinterval– de grenswaarden van een statistische grootheid die bij een gegeven beγ in dit interval zal liggen bij het bemonsteren van een groter volume. Aangeduid als P(θ - ε. In de praktijk wordt de beγ gekozen uit waarden die vrij dicht bij de eenheid liggen: γ = 0,9, γ = 0,95, γ = 0,99.

Doel van de dienst. Met behulp van deze service kunt u het volgende bepalen:

  • betrouwbaarheidsinterval voor het algemeen gemiddelde, betrouwbaarheidsinterval voor de variantie;
  • betrouwbaarheidsinterval voor de standaarddeviatie, betrouwbaarheidsinterval voor het algemene aandeel;
De resulterende oplossing wordt opgeslagen in een Word-bestand (zie voorbeeld). Hieronder vindt u een video-instructie over het invullen van de initiële gegevens.

Voorbeeld nr. 1. Op een collectieve boerderij ondergingen op een totale kudde van 1000 schapen 100 schapen selectief gecontroleerd scheren. Als resultaat hiervan werd een gemiddelde wolknipbeurt van 4,2 kg per schaap vastgesteld. Bepaal met een waarschijnlijkheid van 0,99 de gemiddelde kwadratische fout van de steekproef bij het bepalen van de gemiddelde wolscheerbeurt per schaap en de grenzen waarbinnen de scheerwaarde valt als de variantie 2,5 is. Het voorbeeld is niet-repetitief.
Voorbeeld nr. 2. Uit een partij geïmporteerde producten bij de post van de noordelijke douane in Moskou werden 20 monsters van product "A" genomen door middel van willekeurige herhaalde bemonstering. Als resultaat van de test werd het gemiddelde vochtgehalte van product “A” in het monster vastgesteld, dat gelijk bleek te zijn aan 6% met een standaardafwijking van 1%.
Bepaal met waarschijnlijkheid 0,683 de grenzen van het gemiddelde vochtgehalte van het product in de gehele partij geïmporteerde producten.
Voorbeeld nr. 3. Uit een enquête onder 36 studenten bleek dat het gemiddelde aantal door hen gelezen studieboeken tijdens het academiejaar gelijk was aan 6. Ervan uitgaande dat het aantal door een student gelezen studieboeken per semester een normale verdelingswet kent met een standaarddeviatie gelijk aan 6, vindt : A) met een betrouwbaarheid van 0,99 intervalschatting voor de wiskundige verwachting van deze willekeurige variabele; B) Met welke waarschijnlijkheid kunnen we zeggen dat het gemiddelde aantal leerboeken dat een student per semester leest, berekend op basis van deze steekproef, in absolute waarde niet meer dan 2 zal afwijken van de wiskundige verwachting.

Classificatie van betrouwbaarheidsintervallen

Per type parameter dat wordt beoordeeld:

Per monstertype:

  1. Betrouwbaarheidsinterval voor een oneindige steekproef;
  2. Betrouwbaarheidsinterval voor het uiteindelijke monster;
Het monster wordt resampling genoemd, als het geselecteerde object wordt teruggestuurd naar de populatie voordat het volgende wordt geselecteerd. Het monster wordt non-repeat genoemd, als het geselecteerde object niet wordt geretourneerd naar de populatie. In de praktijk hebben we meestal te maken met niet-repetitieve monsters.

Berekening van de gemiddelde steekproeffout bij willekeurige steekproeven

De discrepantie tussen de waarden van indicatoren verkregen uit de steekproef en de overeenkomstige parameters van de algemene bevolking wordt genoemd representativiteitsfout.
Benamingen van de belangrijkste parameters van de algemene en steekproefpopulaties.
Formules voor gemiddelde bemonsteringsfouten
herselectieherhaal selectie
voor gemiddeldom te delenvoor gemiddeldom te delen
De relatie tussen de bemonsteringsfoutlimiet (Δ) wordt met enige waarschijnlijkheid gegarandeerd Р(t), en de gemiddelde bemonsteringsfout heeft de vorm: of Δ = t·μ, waarbij T– betrouwbaarheidscoëfficiënt, bepaald afhankelijk van het waarschijnlijkheidsniveau P(t) volgens de tabel van de Laplace-integraalfunctie.

Formules voor het berekenen van de steekproefomvang met behulp van een puur willekeurige steekproefmethode

Schatting van betrouwbaarheidsintervallen

leerdoelen

Statistieken overwegen het volgende twee hoofdtaken:

    We hebben een schatting gebaseerd op steekproefgegevens en we willen een probabilistische uitspraak doen over waar de werkelijke waarde van de geschatte parameter ligt.

    We hebben een specifieke hypothese die moet worden getest met behulp van voorbeeldgegevens.

In dit onderwerp beschouwen we de eerste taak. Laten we ook de definitie van een betrouwbaarheidsinterval introduceren.

Een betrouwbaarheidsinterval is een interval dat is opgebouwd rond de geschatte waarde van een parameter en dat laat zien waar de werkelijke waarde van de geschatte parameter zich bevindt met een a priori gespecificeerde waarschijnlijkheid.

Na het bestuderen van het materiaal over dit onderwerp:

    leren wat een betrouwbaarheidsinterval is voor een schatting;

    statistische problemen leren classificeren;

    de techniek beheersen van het construeren van betrouwbaarheidsintervallen, zowel met behulp van statistische formules als met behulp van softwaretools;

    leren de vereiste steekproefomvang te bepalen om bepaalde parameters voor de nauwkeurigheid van statistische schattingen te bereiken.

Verdelingen van steekproefkenmerken

T-verdeling

Zoals hierboven besproken ligt de verdeling van de willekeurige variabele dicht bij de gestandaardiseerde normale verdeling met parameters 0 en 1. Omdat we de waarde van σ niet kennen, vervangen we deze door een schatting van s. De hoeveelheid heeft al een andere verdeling, namelijk of Distributie voor studenten, die wordt bepaald door de parameter n -1 (het aantal vrijheidsgraden). Deze verdeling ligt dicht bij de normale verdeling (hoe groter n, hoe dichter de verdelingen).

In afb. 95
de studentenverdeling met 30 vrijheidsgraden wordt gepresenteerd. Zoals u kunt zien, ligt deze zeer dicht bij de normale verdeling.

Vergelijkbaar met de functies voor het werken met de normale verdeling NORMIDIST en NORMINV, zijn er functies voor het werken met de t-verdeling - STUDIST (TDIST) en STUDRASOBR (TINV). Een voorbeeld van het gebruik van deze functies is te zien in het bestand STUDRASP.XLS (sjabloon en oplossing) en in Fig. 96
.

Verdelingen van andere kenmerken

Zoals we al weten, hebben we een t-verdeling nodig om de nauwkeurigheid van het schatten van de wiskundige verwachting te bepalen. Om andere parameters, zoals variantie, te schatten, zijn verschillende verdelingen vereist. Twee daarvan zijn de F-verdeling en x 2 -verdeling.

Betrouwbaarheidsinterval voor het gemiddelde

Betrouwbaarheidsinterval- dit is een interval dat is opgebouwd rond de geschatte waarde van de parameter en laat zien waar de werkelijke waarde van de geschatte parameter zich bevindt met een a priori gespecificeerde waarschijnlijkheid.

Er vindt de constructie van een betrouwbaarheidsinterval voor de gemiddelde waarde plaats op de volgende manier:

Voorbeeld

Het fastfoodrestaurant wil zijn assortiment uitbreiden met een nieuw type broodje. Om de vraag ernaar te schatten, is de manager van plan om willekeurig 40 bezoekers te selecteren uit degenen die het al hebben geprobeerd en hen te vragen hun houding ten opzichte van het nieuwe product te beoordelen op een schaal van 1 tot 10. De manager wil een schatting maken van de verwachte aantal punten dat het nieuwe product zal ontvangen en construeer voor deze schatting een betrouwbaarheidsinterval van 95%. Hoe doe je dit? (zie bestand SANDWICH1.XLS (sjabloon en oplossing).

Oplossing

Om dit probleem op te lossen kun je gebruik maken van . De resultaten worden gepresenteerd in Fig. 97
.

Betrouwbaarheidsinterval voor de totale waarde

Soms is het met behulp van voorbeeldgegevens nodig om niet de wiskundige verwachting te schatten, maar de totale som van waarden. In een situatie met een accountant kan het bijvoorbeeld interessant zijn om niet de gemiddelde rekeninggrootte te schatten, maar de som van alle rekeningen.

Laat N het totale aantal elementen zijn, n de steekproefomvang, T 3 de som van de waarden in de steekproef, T" de schatting voor de som over de gehele populatie, dan , en het betrouwbaarheidsinterval wordt berekend met de formule , waarbij s de schatting is van de standaarddeviatie voor de steekproef, en de schatting van het gemiddelde voor de steekproef.

Voorbeeld

Stel dat een belastingdienst de totale belastingteruggaven voor 10.000 belastingbetalers wil schatten. De belastingbetaler ontvangt een terugbetaling of betaalt aanvullende belastingen. Zoek het 95% betrouwbaarheidsinterval voor het restitutiebedrag, uitgaande van een steekproefomvang van 500 personen (zie het bestand AMOUNT OF REFUND.XLS (sjabloon en oplossing).

Oplossing

StatPro heeft geen speciale procedure voor dit geval, maar er kan worden opgemerkt dat de grenzen kunnen worden verkregen uit de grenzen voor het gemiddelde op basis van de bovenstaande formules (Fig. 98).
).

Betrouwbaarheidsinterval voor proportie

Laat p de wiskundige verwachting zijn van het aandeel klanten, en laat p b de schatting zijn van dit aandeel verkregen uit een steekproef met omvang n. Er kan worden aangetoond dat dit voldoende groot is de beoordelingsverdeling zal bijna normaal zijn met wiskundige verwachting p en standaarddeviatie . De standaardschattingsfout wordt in dit geval uitgedrukt als , en het betrouwbaarheidsinterval is als .

Voorbeeld

Het fastfoodrestaurant wil zijn assortiment uitbreiden met een nieuw type broodje. Om de vraag ernaar te beoordelen, selecteerde de manager willekeurig 40 bezoekers uit degenen die het al hadden geprobeerd en vroeg hen om hun houding ten opzichte van het nieuwe product te beoordelen op een schaal van 1 tot 10. De manager wil een schatting maken van het verwachte aandeel van klanten die het nieuwe product minimaal 6 punten geven (hij verwacht dat deze klanten de consumenten van het nieuwe product zullen zijn).

Oplossing

In eerste instantie maken we een nieuwe kolom aan op basis van attribuut 1 als de beoordeling van de klant meer dan 6 punten was en anders 0 (zie bestand SANDWICH2.XLS (sjabloon en oplossing).

Methode 1

Door het getal 1 te tellen, schatten we het aandeel en gebruiken we vervolgens de formules.

De zcr-waarde is afkomstig uit speciale normale verdelingstabellen (bijvoorbeeld 1,96 voor een betrouwbaarheidsinterval van 95%).

Door deze aanpak en specifieke gegevens te gebruiken om een ​​interval van 95% te construeren, verkrijgen we de volgende resultaten (Fig. 99
). De kritische waarde van de parameter zcr is 1,96. De standaardfout van de schatting is 0,077. De ondergrens van het betrouwbaarheidsinterval is 0,475. De bovengrens van het betrouwbaarheidsinterval is 0,775. De manager heeft dus het recht om met 95% zekerheid te geloven dat het percentage klanten dat het nieuwe product een beoordeling van 6 punten of hoger geeft, tussen 47,5 en 77,5 zal liggen.

Methode 2

Dit probleem kan worden opgelost met behulp van standaard StatPro-tools. Om dit te doen, volstaat het op te merken dat het aandeel in dit geval samenvalt met de gemiddelde waarde van de kolom Type. Vervolgens solliciteren wij StatPro/statistische gevolgtrekking/analyse van één monster om een ​​betrouwbaarheidsinterval van het gemiddelde (schatting van de wiskundige verwachting) voor de kolom Type te construeren. De in dit geval verkregen resultaten zullen zeer dicht bij de resultaten van de eerste methode liggen (Fig. 99).

Betrouwbaarheidsinterval voor standaarddeviatie

s wordt gebruikt als schatting van de standaarddeviatie (de formule wordt gegeven in Hoofdstuk 1). De dichtheidsfunctie van de schatting s is de chikwadraatfunctie, die, net als de t-verdeling, n-1 vrijheidsgraden heeft. Er zijn speciale functies voor het werken met deze distributie CHIDIST en CHIINV.

Het betrouwbaarheidsinterval zal in dit geval niet langer symmetrisch zijn. Een conventioneel grensdiagram wordt getoond in Fig. 100 .

Voorbeeld

De machine moet onderdelen produceren met een diameter van 10 cm, maar door verschillende omstandigheden kunnen er fouten optreden. De kwaliteitscontroleur maakt zich zorgen over twee omstandigheden: ten eerste moet de gemiddelde waarde 10 cm zijn; ten tweede zullen, zelfs in dit geval, als de afwijkingen groot zijn, veel onderdelen worden afgewezen. Dagelijks maakt hij een monster van 50 onderdelen (zie bestand QUALITY CONTROL.XLS (sjabloon en oplossing). Welke conclusies kan zo’n monster opleveren?

Oplossing

Laten we 95% betrouwbaarheidsintervallen construeren voor het gemiddelde en de standaarddeviatie met behulp van StatPro/statistische gevolgtrekking/analyse van één monster(Afb. 101
).

Vervolgens berekenen we, uitgaande van een normale verdeling van de diameters, het aandeel defecte producten, waarbij we een maximale afwijking van 0,065 instellen. Gebruikmakend van de mogelijkheden van de substitutietabel (in het geval van twee parameters), brengen we de afhankelijkheid van het aandeel defecten van de gemiddelde waarde en standaardafwijking in kaart (Fig. 102
).

Betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden

Dit is een van de belangrijkste toepassingen van statistische methoden. Voorbeelden van situaties.

    Een manager van een kledingwinkel wil graag weten hoeveel meer of minder de gemiddelde vrouwelijke klant in de winkel uitgeeft dan de gemiddelde mannelijke klant.

    De twee luchtvaartmaatschappijen vliegen vergelijkbare routes. Een consumentenorganisatie wil het verschil vergelijken tussen de gemiddelde verwachte vluchtvertragingstijden voor beide luchtvaartmaatschappijen.

    Het bedrijf verstuurt kortingsbonnen voor bepaalde soorten goederen in de ene stad en niet in de andere. Managers willen de gemiddelde aankoopvolumes van deze producten in de komende twee maanden vergelijken.

    Een autodealer heeft bij presentaties vaak te maken met getrouwde stellen. Om hun persoonlijke reacties op de presentatie te begrijpen, worden paren vaak afzonderlijk geïnterviewd. De manager wil het verschil in de beoordelingen van mannen en vrouwen evalueren.

Geval van onafhankelijke monsters

Het verschil tussen de gemiddelden zal een t-verdeling hebben met n 1 + n 2 - 2 vrijheidsgraden. Het betrouwbaarheidsinterval voor μ 1 - μ 2 wordt uitgedrukt door de relatie:

Dit probleem kan niet alleen worden opgelost met behulp van de bovenstaande formules, maar ook met behulp van standaard StatPro-tools. Om dit te doen, is het voldoende om te gebruiken

Betrouwbaarheidsinterval voor het verschil tussen verhoudingen

Laat dit de wiskundige verwachting van aandelen zijn. Laten dit hun steekproefschattingen zijn, opgebouwd uit monsters van respectievelijk grootte n 1 en n 2. Vervolgens wordt een schatting gemaakt van het verschil. Daarom wordt het betrouwbaarheidsinterval van dit verschil uitgedrukt als:

Hier is z cr een waarde die is verkregen uit een normale verdeling met behulp van speciale tabellen (bijvoorbeeld 1,96 voor een betrouwbaarheidsinterval van 95%).

De standaardschattingsfout wordt in dit geval uitgedrukt door de relatie:

.

Voorbeeld

De winkel, die zich voorbereidde op een grote uitverkoop, voerde het volgende marketingonderzoek uit. De 300 beste kopers werden geselecteerd en willekeurig verdeeld in twee groepen van elk 150 leden. Alle geselecteerde kopers kregen een uitnodiging om aan de verkoop deel te nemen, maar alleen leden van de eerste groep ontvingen een kortingsbon die recht gaf op 5% korting. Tijdens de verkoop werden de aankopen van alle 300 geselecteerde kopers geregistreerd. Hoe kan een manager de resultaten interpreteren en een oordeel vellen over de effectiviteit van coupons? (zie bestand COUPONS.XLS (sjabloon en oplossing)).

Oplossing

Voor ons specifieke geval deden 55 van de 150 klanten die een kortingsbon ontvingen een aankoop in de uitverkoop, en van de 150 die geen kortingsbon ontvingen, deden er slechts 35 een aankoop (Fig. 103).
). Dan zijn de waarden van de steekproefverhoudingen respectievelijk 0,3667 en 0,2333. En het steekproefverschil daartussen is respectievelijk gelijk aan 0,1333. Uitgaande van een betrouwbaarheidsinterval van 95% vinden we uit de normale verdelingstabel z cr = 1,96. De berekening van de standaardfout van het steekproefverschil is 0,0524. Uiteindelijk ontdekken we dat de ondergrens van het 95% betrouwbaarheidsinterval respectievelijk 0,0307 en de bovengrens 0,2359 is. De verkregen resultaten kunnen zo worden geïnterpreteerd dat we voor elke 100 klanten die een kortingsbon hebben ontvangen, 3 tot 23 nieuwe klanten kunnen verwachten. We moeten echter niet vergeten dat deze conclusie op zichzelf niet de effectiviteit van het gebruik van kortingsbonnen betekent (aangezien we door het geven van korting winst verliezen!). Laten we dit aantonen met specifieke gegevens. Laten we aannemen dat de gemiddelde aankoopgrootte 400 roebel is, waarvan 50 roebel. er is winst voor de winkel. Dan is de verwachte winst op 100 klanten die geen coupon hebben ontvangen:

50 0,2333 100 = 1166,50 wrijven.

Soortgelijke berekeningen voor 100 klanten die een kortingsbon hebben ontvangen, geven:

30 0,3667 100 = 1100,10 wrijven.

De daling van de gemiddelde winst tot 30 wordt verklaard door het feit dat klanten die een kortingsbon hebben ontvangen, met behulp van de korting gemiddeld een aankoop doen voor 380 roebel.

De eindconclusie geeft dus de ineffectiviteit aan van het gebruik van dergelijke kortingsbonnen in deze specifieke situatie.

Opmerking. Dit probleem kan worden opgelost met behulp van standaard StatPro-tools. Om dit te doen, volstaat het om dit probleem te reduceren tot het probleem van het schatten van het verschil tussen twee gemiddelden met behulp van de methode, en vervolgens toe te passen StatPro/statistische gevolgtrekking/analyse van twee monsters een betrouwbaarheidsinterval construeren voor het verschil tussen twee gemiddelde waarden.

Controle van de betrouwbaarheidsintervallengte

De lengte van het betrouwbaarheidsinterval hangt af van volgende voorwaarden:

    gegevens rechtstreeks (standaardafwijking);

    mate van belang;

    steekproefomvang.

Steekproefgrootte voor het schatten van het gemiddelde

Laten we eerst het probleem in het algemene geval bekijken. Laten we de waarde van de helft van de lengte van het ons gegeven betrouwbaarheidsinterval aanduiden als B (Fig. 104).
). We weten dat het betrouwbaarheidsinterval voor de gemiddelde waarde van een willekeurige variabele X wordt uitgedrukt als , Waar . Geloven:

en door n uit te drukken, krijgen we .

Helaas weten we niet de exacte waarde van de variantie van de willekeurige variabele X. Bovendien kennen we de waarde van tcr niet, omdat deze afhankelijk is van n via het aantal vrijheidsgraden. In deze situatie kunnen we het volgende doen. In plaats van variantie s gebruiken we een schatting van de variantie op basis van beschikbare implementaties van de willekeurige variabele die wordt bestudeerd. In plaats van de t cr-waarde gebruiken we de z cr-waarde voor de normale verdeling. Dit is zeer acceptabel, aangezien de distributiedichtheidsfuncties voor de normale en t-verdelingen zeer dicht bij elkaar liggen (behalve in het geval van kleine n). De vereiste formule heeft dus de vorm:

.

Omdat de formule over het algemeen niet-gehele resultaten oplevert, wordt afronding op een overmaat van het resultaat genomen als de gewenste steekproefomvang.

Voorbeeld

Het fastfoodrestaurant wil zijn assortiment uitbreiden met een nieuw type broodje. Om de vraag ernaar te beoordelen, is de manager van plan om willekeurig een aantal bezoekers te selecteren uit degenen die het al hebben geprobeerd en hen te vragen hun houding ten opzichte van het nieuwe product te beoordelen op een schaal van 1 tot 10. De manager wil een schatting maken het verwachte aantal punten dat het nieuwe product zal ontvangen en construeer voor deze schatting een betrouwbaarheidsinterval van 95%. Tegelijkertijd wil hij dat de halve breedte van het betrouwbaarheidsinterval niet groter is dan 0,3. Hoeveel bezoekers moet hij interviewen?

als volgt:

Hier rotten is een schatting van de proportie p, en B is een gegeven helft van de lengte van het betrouwbaarheidsinterval. Met behulp van de waarde kan een overschatting voor n worden verkregen rotten= 0,5. In dit geval zal de lengte van het betrouwbaarheidsinterval de gespecificeerde waarde B voor geen enkele echte waarde van p overschrijden.

Voorbeeld

Laat de manager uit het vorige voorbeeld plannen om een ​​schatting te maken van het aandeel klanten dat de voorkeur geeft aan een nieuw type product. Hij wil een betrouwbaarheidsinterval van 90% construeren waarvan de halve lengte niet groter is dan 0,05. Hoeveel cliënten moeten in de willekeurige steekproef worden opgenomen?

Oplossing

In ons geval is de waarde van z cr = 1,645. Daarom wordt de benodigde hoeveelheid berekend als .

Als de manager reden had om aan te nemen dat de gewenste p-waarde bijvoorbeeld ongeveer 0,3 was, dan zouden we, door deze waarde in de bovenstaande formule in te vullen, een kleinere willekeurige steekproefwaarde krijgen, namelijk 228.

Formule voor het bepalen willekeurige steekproefomvang in geval van verschil tussen twee gemiddelden geschreven als:

.

Voorbeeld

Sommige computerbedrijven hebben een klantenservicecentrum. De laatste tijd is het aantal klachten van klanten over de slechte kwaliteit van de dienstverlening toegenomen. Bij het servicecentrum zijn hoofdzakelijk twee soorten medewerkers werkzaam: degenen die niet veel ervaring hebben, maar wel speciale vooropleidingen hebben gevolgd, en degenen die wel ruime praktijkervaring hebben, maar geen speciale cursussen hebben gevolgd. Het bedrijf wil de klachten van klanten over het afgelopen halfjaar analyseren en het gemiddelde aantal klachten per twee groepen medewerkers vergelijken. Aangenomen wordt dat de aantallen in de steekproeven voor beide groepen hetzelfde zullen zijn. Hoeveel werknemers moeten in de steekproef worden opgenomen om een ​​95%-interval te verkrijgen met een halve lengte van maximaal 2?

Oplossing

Hier is σots een schatting van de standaarddeviatie van beide willekeurige variabelen, in de veronderstelling dat ze dichtbij elkaar liggen. In ons probleem moeten we dus op de een of andere manier deze schatting verkrijgen. Dit kan bijvoorbeeld als volgt worden gedaan. Als een manager de gegevens over klachten van klanten van de afgelopen zes maanden heeft bekeken, kan het zijn dat elke medewerker doorgaans tussen de 6 en 36 klachten ontvangt. Wetende dat voor een normale verdeling vrijwel alle waarden niet meer dan drie standaardafwijkingen verwijderd zijn van het gemiddelde, kan hij redelijkerwijs aannemen dat:

, vanaf waar σots = 5.

Als we deze waarde in de formule vervangen, krijgen we .

Formule voor het bepalen willekeurige steekproefomvang bij het schatten van het verschil tussen de verhoudingen heeft de vorm:

Voorbeeld

Sommige bedrijven hebben twee fabrieken die vergelijkbare producten produceren. Een bedrijfsleider wil het percentage defecte producten in beide fabrieken vergelijken. Volgens de beschikbare informatie varieert het defectpercentage in beide fabrieken van 3 tot 5%. Het is de bedoeling om een ​​betrouwbaarheidsinterval van 99% te construeren met een halve lengte van niet meer dan 0,005 (of 0,5%). Hoeveel producten moeten er uit elke fabriek worden geselecteerd?

Oplossing

Hier zijn p 1ots en p 2ots schattingen van twee onbekende aantallen defecten in de eerste en tweede fabriek. Als we p 1ots = p 2ots = 0,5 stellen, krijgen we een overschatte waarde voor n. Maar omdat we in ons geval enige a priori informatie over deze aandelen hebben, nemen we de bovenste schatting van deze aandelen, namelijk 0,05. We krijgen

Bij het schatten van sommige populatieparameters op basis van steekproefgegevens is het nuttig om niet alleen een puntschatting van de parameter te geven, maar ook om een ​​betrouwbaarheidsinterval te geven dat laat zien waar de exacte waarde van de parameter die wordt geschat kan liggen.

In dit hoofdstuk hebben we ook kennis gemaakt met kwantitatieve relaties die ons in staat stellen dergelijke intervallen voor verschillende parameters te construeren; manieren geleerd om de lengte van het betrouwbaarheidsinterval te controleren.

Merk ook op dat het probleem van het schatten van de steekproefomvang (het probleem van het plannen van een experiment) kan worden opgelost met behulp van standaard StatPro-tools, namelijk StatPro/Statistische gevolgtrekking/Selectie van de steekproefomvang.

Het betrouwbaarheidsinterval komt uit de statistiek. Dit is een bepaald bereik dat dient om een ​​onbekende parameter met een hoge mate van betrouwbaarheid te schatten. De eenvoudigste manier om dit uit te leggen is met een voorbeeld.

Stel dat u een willekeurige variabele moet bestuderen, bijvoorbeeld de reactiesnelheid van de server op een clientverzoek. Elke keer dat een gebruiker het adres van een specifieke site typt, reageert de server met verschillende snelheden. De onderzochte responstijd is dus willekeurig. Het betrouwbaarheidsinterval stelt ons dus in staat de grenzen van deze parameter te bepalen, en dan kunnen we zeggen dat de server zich met een waarschijnlijkheid van 95% binnen het bereik zal bevinden dat we hebben berekend.

Of u moet weten hoeveel mensen op de hoogte zijn van het handelsmerk van het bedrijf. Wanneer het betrouwbaarheidsinterval wordt berekend, kan bijvoorbeeld worden gezegd dat het aandeel consumenten dat zich hiervan bewust is met een waarschijnlijkheid van 95% tussen 27% en 34% ligt.

Nauw verwant aan deze term is de waarde van deid. Het vertegenwoordigt de waarschijnlijkheid dat de gewenste parameter in het betrouwbaarheidsinterval is opgenomen. Hoe groot ons gewenste bereik zal zijn, hangt af van deze waarde. Hoe groter de waarde die nodig is, hoe smaller het betrouwbaarheidsinterval wordt, en omgekeerd. Normaal gesproken is deze ingesteld op 90%, 95% of 99%. De waarde 95% is het populairst.

Deze indicator wordt ook beïnvloed door de spreiding van waarnemingen en de definitie ervan is gebaseerd op de veronderstelling dat het onderzochte kenmerk voldoet. Deze verklaring staat ook bekend als de wet van Gauss. Volgens hem is normaal een verdeling van alle kansen van een continue willekeurige variabele die kan worden beschreven door een waarschijnlijkheidsdichtheid. Als de aanname van een normale verdeling onjuist is, kan de schatting onjuist zijn.

Laten we eerst eens kijken hoe we het betrouwbaarheidsinterval kunnen berekenen. Er zijn hier twee mogelijke gevallen. Dispersie (de mate van spreiding van een willekeurige variabele) kan wel of niet bekend zijn. Als het bekend is, wordt ons betrouwbaarheidsinterval berekend met behulp van de volgende formule:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - teken,

t - parameter uit de Laplace-distributietabel,

σ is de vierkantswortel van de variantie.

Als de variantie onbekend is, kan deze worden berekend als we alle waarden van het gewenste kenmerk kennen. Hiervoor wordt de volgende formule gebruikt:

σ2 = х2ср - (хср)2, waarbij

х2ср - gemiddelde waarde van vierkanten van het bestudeerde kenmerk,

(хср)2 is het kwadraat van dit kenmerk.

De formule waarmee het betrouwbaarheidsinterval in dit geval wordt berekend, verandert enigszins:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - steekproefgemiddelde,

α - teken,

t is een parameter die wordt gevonden met behulp van de Student-verdelingstabel t = t(ɣ;n-1),

sqrt(n) - vierkantswortel van de totale steekproefomvang,

s is de vierkantswortel van de variantie.

Denk eens aan dit voorbeeld. Stel dat op basis van de resultaten van zeven metingen het bestudeerde kenmerk gelijk is aan 30 en dat de steekproefvariantie gelijk is aan 36. Het is noodzakelijk om, met een waarschijnlijkheid van 99%, een betrouwbaarheidsinterval te vinden dat de ware waarde bevat. waarde van de gemeten parameter.

Laten we eerst bepalen waar t gelijk aan is: t = t (0,99; 7-1) = 3,71. Met behulp van de bovenstaande formule krijgen we:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (vierkant(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Het betrouwbaarheidsinterval voor de variantie wordt berekend zowel in het geval van een bekend gemiddelde als wanneer er geen gegevens zijn over de wiskundige verwachting, en alleen de waarde van de puntzuivere schatting van de variantie bekend is. We zullen hier geen formules geven om het te berekenen, omdat ze behoorlijk complex zijn en desgewenst altijd op internet te vinden zijn.

Laten we alleen opmerken dat het handig is om het betrouwbaarheidsinterval te bepalen met behulp van Excel of een netwerkdienst, die zo wordt genoemd.

Betrouwbaarheidsintervallen.

De berekening van het betrouwbaarheidsinterval is gebaseerd op de gemiddelde fout van de overeenkomstige parameter. Betrouwbaarheidsinterval laat zien binnen welke grenzen met waarschijnlijkheid (1-a) de werkelijke waarde van de geschatte parameter ligt. Hier is a het significantieniveau, (1-a) wordt ook wel begenoemd.

In het eerste hoofdstuk lieten we zien dat bijvoorbeeld voor het rekenkundig gemiddelde het werkelijke populatiegemiddelde in ongeveer 95% van de gevallen binnen 2 standaardfouten van het gemiddelde ligt. De grenzen van het 95% betrouwbaarheidsinterval voor het gemiddelde zullen dus gescheiden zijn van het steekproefgemiddelde met tweemaal de gemiddelde fout van het gemiddelde, d.w.z. we vermenigvuldigen de gemiddelde fout van het gemiddelde met een bepaalde coëfficiënt, afhankelijk van het betrouwbaarheidsniveau. Voor het gemiddelde en het verschil tussen de gemiddelden wordt de Student-coëfficiënt (kritische waarde van de Student-toets) genomen, voor het aandeel en het verschil tussen de aandelen de kritische waarde van het z-criterium. Het product van de coëfficiënt en de gemiddelde fout kan de maximale fout van een gegeven parameter worden genoemd, d.w.z. het maximale dat we kunnen verkrijgen bij de beoordeling ervan.

Betrouwbaarheidsinterval voor rekenkundig gemiddelde : .

Hier is het steekproefgemiddelde;

Gemiddelde fout van het rekenkundig gemiddelde;

S - steekproefstandaardafwijking;

N

f = n-1 (studentencoëfficiënt).

Betrouwbaarheidsinterval voor verschillen in rekenkundige gemiddelden :

Hier is het verschil tussen steekproefgemiddelden;

- gemiddelde fout van het verschil tussen rekenkundige gemiddelden;

s1, s2 – steekproefstandaarddeviaties;

n1,n2

De kritische waarde van de Student-test voor een bepaald significantieniveau a en het aantal vrijheidsgraden f=n 1 +n 2-2 (studentencoëfficiënt).

Betrouwbaarheidsinterval voor aandelen :

.

Hier is d de monsterfractie;

– gemiddelde breukfout;

N– steekproefomvang (groepsgrootte);

Betrouwbaarheidsinterval voor verschil in aandelen :

Hier is het verschil in voorbeeldaandelen;

– gemiddelde fout van het verschil tussen rekenkundige gemiddelden;

n1,n2– monstervolumes (aantal groepen);

De kritische waarde van het z-criterium bij een bepaald significantieniveau a ( , , ).

Door betrouwbaarheidsintervallen te berekenen voor het verschil tussen indicatoren, zien we in de eerste plaats direct de mogelijke waarden van het effect, en niet alleen de puntschatting ervan. Ten tweede kunnen we een conclusie trekken over de aanvaarding of verwerping van de nulhypothese en ten derde kunnen we een conclusie trekken over de kracht van de test.

Bij het testen van hypothesen met behulp van betrouwbaarheidsintervallen moet u zich aan de volgende regel houden:

Als het 100(1-a) procent betrouwbaarheidsinterval van het verschil in gemiddelden geen nul bevat, zijn de verschillen statistisch significant op significantieniveau a; integendeel, als dit interval nul bevat, zijn de verschillen niet statistisch significant.

Als dit interval nul bevat, betekent dit dat de indicator die wordt vergeleken in de ene groep groter of kleiner kan zijn dan in de andere, d.w.z. de waargenomen verschillen berusten op toeval.

De kracht van de test kan worden beoordeeld aan de hand van de locatie van nul binnen het betrouwbaarheidsinterval. Als nul dicht bij de onder- of bovengrens van het interval ligt, is het mogelijk dat de verschillen statistische significantie bereiken als een groter aantal groepen wordt vergeleken. Als nul dichtbij het midden van het interval ligt, betekent dit dat zowel een stijging als een daling van de indicator in de experimentele groep even waarschijnlijk zijn, en waarschijnlijk zijn er in werkelijkheid geen verschillen.

Voorbeelden:

Om de chirurgische sterfte bij gebruik van twee verschillende soorten anesthesie te vergelijken: 61 mensen werden geopereerd met het eerste type anesthesie, 8 stierven, bij het tweede type stierven 67 mensen, 10.

d1 = 8/61 = 0,131; d2 = 10/67 = 0,149; d1-d2 = - 0,018.

Het verschil in dodelijkheid van de vergeleken methoden zal liggen in het bereik (-0,018 - 0,122; -0,018 + 0,122) of (-0,14; 0,104) met een waarschijnlijkheid van 100(1-a) = 95%. Het interval bevat nul, d.w.z. de hypothese van gelijke sterfte bij twee verschillende soorten anesthesie kan niet worden verworpen.

Het sterftecijfer kan en zal dus dalen tot 14% en stijgen tot 10,4% met een waarschijnlijkheid van 95%, d.w.z. nul ligt ongeveer in het midden van het interval, dus er kan worden gesteld dat deze twee methoden hoogstwaarschijnlijk niet verschillen in dodelijkheid.

In het eerder besproken voorbeeld werd de gemiddelde perstijd tijdens de tikproef vergeleken bij vier groepen studenten die verschilden in examenscores. Laten we de betrouwbaarheidsintervallen berekenen voor de gemiddelde perstijd voor leerlingen die geslaagd zijn voor het examen met graad 2 en 5 en het betrouwbaarheidsinterval voor het verschil tussen deze gemiddelden.

De Student-coëfficiënten worden gevonden met behulp van de Student-verdelingstabellen (zie bijlage): voor de eerste groep: = t(0,05;48) = 2,011; voor de tweede groep: = t(0,05;61) = 2,000. Dus betrouwbaarheidsintervallen voor de eerste groep: = (162,19-2,011*2,18; 162,19+2,011*2,18) = (157,8; 166,6), voor de tweede groep (156,55-2.000*1,88; 156,55+2.000*1,88) = (152,8 ; 160,3). Dus voor degenen die met 2 voor het examen zijn geslaagd, varieert de gemiddelde perstijd van 157,8 ms tot 166,6 ms met een waarschijnlijkheid van 95%, voor degenen die voor het examen met 5 zijn geslaagd – van 152,8 ms tot 160,3 ms met een waarschijnlijkheid van 95%. .

Je kunt de nulhypothese ook testen met behulp van betrouwbaarheidsintervallen voor gemiddelden, en niet alleen voor het verschil in gemiddelden. Als de betrouwbaarheidsintervallen voor de gemiddelden elkaar overlappen, kan de nulhypothese bijvoorbeeld niet worden verworpen, net als in ons geval. Om een ​​hypothese op een gekozen significantieniveau te verwerpen, mogen de overeenkomstige betrouwbaarheidsintervallen elkaar niet overlappen.

Laten we het betrouwbaarheidsinterval vinden voor het verschil in de gemiddelde perstijd in de groepen die het examen met cijfer 2 en 5 hebben gehaald. Verschil van gemiddelden: 162,19 – 156,55 = 5,64. Studentcoëfficiënt: = t(0,05;49+62-2) = t(0,05;109) = 1,982. De standaardafwijkingen van de groep zijn gelijk aan: ; . We berekenen de gemiddelde fout van het verschil tussen de gemiddelden: . Betrouwbaarheidsinterval: =(5,64-1,982*2,87; 5,64+1,982*2,87) = (-0,044; 11,33).

Het verschil in de gemiddelde perstijd in de groepen die met 2 en 5 voor het examen zijn geslaagd, zal dus in het bereik van -0,044 ms tot 11,33 ms liggen. Dit interval omvat nul, d.w.z. De gemiddelde perstijd voor degenen die het examen goed hebben afgelegd, kan zowel toenemen als afnemen in vergelijking met degenen die het examen onvoldoende hebben behaald, d.w.z. de nulhypothese kan niet worden verworpen. Maar nul ligt heel dicht bij de ondergrens, en het is veel waarschijnlijker dat de urgentietijd afneemt voor degenen die goed geslaagd zijn. We kunnen dus concluderen dat er nog steeds verschillen zijn in de gemiddelde perstijd tussen degenen die 2 en 5 hebben gehaald. We konden deze eenvoudigweg niet detecteren gezien de verandering in de gemiddelde tijd, de spreiding van de gemiddelde tijd en de steekproefomvang.



De kracht van een test is de waarschijnlijkheid dat een onjuiste nulhypothese wordt verworpen, d.w.z. verschillen zoeken waar ze daadwerkelijk bestaan.

De kracht van de test wordt bepaald op basis van het significantieniveau, de grootte van verschillen tussen groepen, de spreiding van waarden in groepen en de grootte van steekproeven.

Voor Student's t-test en variantieanalyse kunnen gevoeligheidsdiagrammen worden gebruikt.

De kracht van het criterium kan worden gebruikt om voorlopig het benodigde aantal groepen te bepalen.

Het betrouwbaarheidsinterval laat zien binnen welke grenzen de werkelijke waarde van de geschatte parameter ligt bij een gegeven waarschijnlijkheid.

Met behulp van betrouwbaarheidsintervallen kunt u statistische hypothesen testen en conclusies trekken over de gevoeligheid van criteria.

LITERATUUR.

Glanz S. – Hoofdstuk 6,7.

Rebrova O.Yu. – p.112-114, p.171-173, p.234-238.

Sidorenko EV – p.32-33.

Vragen voor zelftesten van studenten.

1. Wat is de kracht van het criterium?

2. In welke gevallen is het nodig om de kracht van criteria te evalueren?

3. Methoden voor het berekenen van vermogen.

6. Hoe test je een statistische hypothese met behulp van een betrouwbaarheidsinterval?

7. Wat kan er gezegd worden over de kracht van het criterium bij het berekenen van het betrouwbaarheidsinterval?

Taken.

"Katren-Style" vervolgt de publicatie van de serie van Konstantin Kravchik over medische statistieken. In twee eerdere artikelen ging de auteur in op de uitleg van begrippen als en.

Konstantin Kravtsjik

Wiskundige-analist. Specialist in statistisch onderzoek in de geneeskunde en geesteswetenschappen

Moskou stad

Heel vaak kun je in artikelen over klinische onderzoeken een mysterieuze zin vinden: “betrouwbaarheidsinterval” (95 % BI of 95 % BI - betrouwbaarheidsinterval). Een artikel zou bijvoorbeeld kunnen schrijven: “Om de significantie van verschillen te beoordelen, werd de Student’s t-test gebruikt om het betrouwbaarheidsinterval van 95 % te berekenen.”

Wat is de waarde van het “95 % betrouwbaarheidsinterval” en waarom wordt dit berekend?

Wat is een betrouwbaarheidsinterval? - Dit is het bereik waarbinnen de werkelijke populatiegemiddelden liggen. Zijn er “onware” gemiddelden? In zekere zin doen ze dat wel. In hebben we uitgelegd dat het onmogelijk is om een ​​parameter die van belang is in de hele populatie te meten, dus moeten onderzoekers het doen met een beperkte steekproef. In deze steekproef is er (bijvoorbeeld op basis van lichaamsgewicht) één gemiddelde waarde (een bepaald gewicht), waarmee we de gemiddelde waarde in de gehele populatie beoordelen. Het is echter onwaarschijnlijk dat het gemiddelde gewicht in een steekproef (vooral een kleine) zal samenvallen met het gemiddelde gewicht in de algemene bevolking. Daarom is het juister om het bereik van gemiddelde waarden van de populatie te berekenen en te gebruiken.

Stel je bijvoorbeeld voor dat het 95% betrouwbaarheidsinterval (95% BI) voor hemoglobine 110 tot 122 g/l is. Dit betekent dat er een kans van 95% is dat de werkelijke gemiddelde hemoglobinewaarde in de populatie tussen 110 en 122 g/l zal liggen. Met andere woorden: we kennen de gemiddelde hemoglobinewaarde in de populatie niet, maar we kunnen met een waarschijnlijkheid van 95 % een reeks waarden voor dit kenmerk aangeven.

Betrouwbaarheidsintervallen zijn vooral relevant voor verschillen in gemiddelden tussen groepen, of effectgroottes zoals ze worden genoemd.

Laten we zeggen dat we de effectiviteit van twee ijzerpreparaten hebben vergeleken: een die al lang op de markt is en een die net is geregistreerd. Na het verloop van de therapie beoordeelden we de hemoglobineconcentratie in de bestudeerde groepen patiënten, en het statistische programma berekende dat het verschil tussen de gemiddelde waarden van de twee groepen, met een waarschijnlijkheid van 95%, in het bereik van 1,72 tot 1,72 lag. 14,36 g/l (Tabel 1).

Tafel 1. Test op onafhankelijke monsters
(groepen worden vergeleken op basis van hemoglobineniveau)

Dit moet als volgt worden geïnterpreteerd: bij sommige patiënten in de algemene bevolking die een nieuw medicijn gebruiken, zal de hemoglobinewaarde gemiddeld 1,72–14,36 g/l hoger zijn dan bij degenen die een reeds bekend medicijn hebben gebruikt.

Met andere woorden: in de algemene bevolking ligt het verschil in gemiddelde hemoglobinewaarden tussen groepen binnen deze grenzen met een waarschijnlijkheid van 95%. Het is aan de onderzoeker om te beoordelen of dit veel of weinig is. Het punt van dit alles is dat we niet met één gemiddelde waarde werken, maar met een reeks waarden, waardoor we het verschil in een parameter tussen groepen betrouwbaarder kunnen schatten.

In statistische pakketten kunt u, naar goeddunken van de onderzoeker, zelfstandig de grenzen van het betrouwbaarheidsinterval verkleinen of uitbreiden. Door de waarschijnlijkheden van het betrouwbaarheidsinterval te verlagen, verkleinen we het bereik van gemiddelden. Bij een BI van 90 % zal het bereik van gemiddelden (of het verschil in gemiddelden) bijvoorbeeld kleiner zijn dan bij 95 %.

Omgekeerd vergroot het verhogen van de waarschijnlijkheid tot 99 % het bereik van waarden. Bij het vergelijken van groepen kan de ondergrens van de CI de nulgrens overschrijden. Als we bijvoorbeeld de grenzen van het betrouwbaarheidsinterval uitbreiden naar 99 %, dan liggen de grenzen van het interval tussen –1 en 16 g/l. Dit betekent dat er in de algemene bevolking groepen zijn waarvan het verschil in gemiddelden voor het onderzochte kenmerk gelijk is aan 0 (M = 0).

Met behulp van een betrouwbaarheidsinterval kunt u statistische hypothesen testen. Als het betrouwbaarheidsinterval de nulwaarde overschrijdt, is de nulhypothese, die ervan uitgaat dat de groepen niet verschillen op de parameter die wordt bestudeerd, waar. Het voorbeeld hierboven is beschreven, waarbij we de grenzen hebben uitgebreid naar 99 %. Ergens in de algemene bevolking vonden we groepen die op geen enkele manier van elkaar verschilden.

95% betrouwbaarheidsinterval van het verschil in hemoglobine, (g/l)


De figuur toont het 95% betrouwbaarheidsinterval voor het verschil in gemiddelde hemoglobinewaarden tussen de twee groepen. De lijn gaat door de nulmarkering, daarom is er een verschil tussen de gemiddelden van nul, wat de nulhypothese bevestigt dat de groepen niet verschillen. Het verschil tussen de groepen varieert van –2 tot 5 g/l. Dit betekent dat de hemoglobinewaarde met 2 g/l kan afnemen of met 5 g/l kan stijgen.

Het betrouwbaarheidsinterval is een zeer belangrijke indicator. Hierdoor kun je zien of de verschillen in de groepen werkelijk te wijten waren aan het verschil in gemiddelden of aan een grote steekproef, aangezien bij een grote steekproef de kans op het vinden van verschillen groter is dan bij een kleine.

In de praktijk zou het er zo uit kunnen zien. We namen een steekproef van 1000 mensen, maten het hemoglobinegehalte en ontdekten dat het betrouwbaarheidsinterval voor het verschil in gemiddelden varieerde van 1,2 tot 1,5 g/l. Het niveau van statistische significantie in dit geval p

We zien dat de hemoglobineconcentratie toenam, maar bijna onmerkbaar, en daarom verscheen de statistische significantie juist vanwege de steekproefomvang.

Betrouwbaarheidsintervallen kunnen niet alleen voor gemiddelden worden berekend, maar ook voor verhoudingen (en risicoverhoudingen). We zijn bijvoorbeeld geïnteresseerd in het betrouwbaarheidsinterval van het aantal patiënten dat remissie bereikte tijdens het gebruik van een ontwikkeld medicijn. Laten we aannemen dat het 95 % BI voor de verhoudingen, dat wil zeggen voor het aandeel van dergelijke patiënten, tussen 0,60 en 0,80 ligt. We kunnen dus zeggen dat ons medicijn in 60 tot 80 % van de gevallen een therapeutisch effect heeft.