Luottamusvälit. Luottamusväli

Ja muut. Ne kaikki ovat arvioita teoreettisista vastineistaan, jotka voitaisiin saada, jos ei olisi otosta, vaan yleinen populaatio. Mutta valitettavasti yleinen väestö on erittäin kallista ja usein poissa.

Intervalliarvioinnin käsite

Kaikissa näytearvioissa on hajontaa, koska on satunnaismuuttuja, joka riippuu tietyn näytteen arvoista. Siksi luotettavampia tilastollisia päätelmiä varten ei pitäisi tietää vain pisteestimaatti, vaan myös intervalli, joka suurella todennäköisyydellä γ (gamma) kattaa arvioidun indikaattorin θ (theta).

Muodollisesti nämä ovat kaksi tällaista arvoa (tilastot) T1(X) ja T2(X), mitä T1< T 2 , joille tietyllä todennäköisyystasolla γ ehto täyttyy:

Lyhyesti sanottuna se on todennäköistä γ tai enemmän todellinen arvo on pisteiden välissä T1(X) ja T2(X), joita kutsutaan ala- ja ylärajoiksi luottamusväli.

Yksi luottamusvälien muodostamisen edellytyksistä on sen maksimikapea, ts. sen tulee olla mahdollisimman lyhyt. Halu on melko luonnollista, koska. tutkija yrittää paikantaa halutun parametrin löydön tarkemmin.

Tästä seuraa, että luottamusvälin tulee kattaa jakauman suurimmat todennäköisyydet. ja itse pisteet ovat keskellä.

Toisin sanoen (todellisen indikaattorin estimaatista) ylöspäin poikkeamisen todennäköisyys on yhtä suuri kuin alaspäin poikkeaman todennäköisyys. On myös huomattava, että vinoille jakaumille oikeanpuoleinen intervalli ei ole sama kuin vasemmanpuoleinen intervalli.

Yllä oleva kuva osoittaa selvästi, että mitä suurempi luottamustaso, sitä laajempi väli - suora suhde.

Tämä oli pieni johdatus tuntemattomien parametrien intervalliestimoinnin teoriaan. Jatketaan matemaattisten odotusten luottamusrajojen löytämistä.

Matemaattisen odotuksen luottamusväli

Jos alkuperäiset tiedot jaetaan, keskiarvo on normaaliarvo. Tämä seuraa säännöstä, että normaaliarvojen lineaarisella yhdistelmällä on myös normaalijakauma. Siksi todennäköisyyksien laskemiseen voisimme käyttää normaalijakauman lain matemaattista laitteistoa.

Tämä edellyttää kuitenkin kahden parametrin - odotusarvon ja varianssin - tuntemista, joita ei yleensä tunneta. Voit tietysti käyttää arvioita parametrien sijasta (aritmeettinen keskiarvo ja ), mutta silloin keskiarvon jakauma ei ole aivan normaali, vaan se litistyy hieman. Irlannin kansalainen William Gosset pani taitavasti merkille tämän tosiasian, kun hän julkaisi löytönsä Biometrica-lehden maaliskuussa 1908. Salassapitosyistä Gosset allekirjoitti Studentin kanssa. Näin syntyi Studentin t-jakauma.

K. Gaussin käyttämä tietojen normaalijakauma tähtitieteellisten havaintojen virheiden analysoinnissa on kuitenkin äärimmäisen harvinainen maanpäällisessä elämässä ja sen toteaminen on melko vaikeaa (suureen tarkkuuteen tarvitaan noin 2 tuhatta havaintoa). Siksi on parasta luopua normaalisuusoletuksesta ja käyttää menetelmiä, jotka eivät riipu alkuperäisen datan jakautumisesta.

Herää kysymys: mikä on aritmeettisen keskiarvon jakauma, jos se lasketaan tuntemattoman jakauman tiedoista? Vastauksen antaa todennäköisyysteoriassa hyvin tunnettu Keskirajalause(CPT). Matematiikassa siitä on useita versioita (formulaatioita on jalostettu vuosien varrella), mutta ne kaikki karkeasti sanottuna päätyvät väitteeseen, että suuren määrän riippumattomien satunnaismuuttujien summa noudattaa normaalijakauman lakia.

Aritmeettista keskiarvoa laskettaessa käytetään satunnaismuuttujien summaa. Tästä käy ilmi, että aritmeettisella keskiarvolla on normaalijakauma, jossa odotusarvo on lähtötietojen odotusarvo ja varianssi on .

Älykkäät ihmiset osaavat todistaa CLT:n, mutta me varmistamme tämän Excelissä tehdyn kokeen avulla. Simuloitetaan 50 tasaisesti jakautuneen satunnaismuuttujan otos (Excelin RANDOMBETWEEN-funktiolla). Sitten tehdään 1000 tällaista näytettä ja lasketaan jokaiselle aritmeettinen keskiarvo. Katsotaanpa niiden jakautumista.

Voidaan nähdä, että keskiarvon jakauma on lähellä normaalia lakia. Jos näytteiden tilavuudesta ja niiden määrästä tehdään vielä suurempi, samankaltaisuus on vielä parempi.

Nyt kun olemme itse todenneet CLT:n pätevyyden, voimme käyttäen :tä laskea aritmeettisen keskiarvon luottamusvälit, jotka kattavat todellisen keskiarvon tai matemaattisen odotuksen tietyllä todennäköisyydellä.

Ylä- ja alarajan määrittäminen edellyttää normaalijakauman parametrien tuntemista. Yleensä niitä ei käytetä, joten arvioita käytetään: aritmeettinen keskiarvo ja näytteen varianssi. Tämä menetelmä antaa jälleen hyvän likiarvon vain suurille näytteille. Kun näytteet ovat pieniä, on usein suositeltavaa käyttää Studentin jakaumaa. Älä usko! Studentin jakauma keskiarvolle tapahtuu vain silloin, kun alkuperäisellä tiedolla on normaalijakauma, eli melkein ei koskaan. Siksi on parempi asettaa välittömästi vähimmäispalkki vaaditun tiedon määrälle ja käyttää asymptoottisesti oikeita menetelmiä. He sanovat, että 30 havaintoa riittää. Ota 50 - et voi mennä pieleen.

T 1.2 ovat luottamusvälin ala- ja ylärajat

– näyte aritmeettinen keskiarvo

s0– näytteen keskihajonta (harhaanjohtava)

n - otoskoko

γ – luottamustaso (yleensä 0,9, 0,95 tai 0,99)

c γ = Φ -1 ((1+γ)/2) on normaalin normaalijakaumafunktion käänteisluku. Yksinkertaisesti sanottuna tämä on standardivirheiden lukumäärä aritmeettisesta keskiarvosta ala- tai ylärajaan (ilmoitetut kolme todennäköisyyttä vastaavat arvoja 1,64, 1,96 ja 2,58).

Kaavan ydin on, että aritmeettinen keskiarvo otetaan ja siitä jätetään tietty määrä ( γ:n kanssa) vakiovirheet ( s 0 /√n). Kaikki tiedetään, ota ja laske.

Ennen PC-tietokoneiden massakäyttöä normaalijakaumafunktion ja sen käänteisfunktion arvojen saamiseksi he käyttivät . Niitä käytetään edelleen, mutta tehokkaampaa on kääntyä valmiiden Excel-kaavojen puoleen. Kaikki yllä olevan kaavan elementit ( , ja ) voidaan helposti laskea Excelissä. Mutta on myös valmis kaava luottamusvälin laskemiseen - LUOTTAMINEN NORMI. Sen syntaksi on seuraava.

CONFIDENCE NORM(alfa, standardi_dev, koko)

alfa– merkitsevyystaso tai luottamustaso, joka yllä olevassa merkinnässä on 1-γ, ts. todennäköisyys, että matemaattinenodotus on luottamusvälin ulkopuolella. Kun luottamustaso on 0,95, alfa on 0,05 ja niin edelleen.

standardi_pois on näytetietojen keskihajonta. Sinun ei tarvitse laskea keskivirhettä, Excel jakaa n:n juurella.

koko– näytteen koko (n).

CONFIDENCE.NORM-funktion tulos on toinen termi luottamusvälin laskentakaavasta, ts. puoliväli. Vastaavasti ala- ja yläpisteet ovat keskiarvo ± saatu arvo.

Näin ollen aritmeettisen keskiarvon luottamusvälien laskemiseen on mahdollista rakentaa universaali algoritmi, joka ei riipu lähtötietojen jakaumasta. Universaalisuuden hinta on sen asymptoottisuus, ts. tarve käyttää suhteellisen suuria näytteitä. Nykytekniikan aikakaudella oikean tiedon kerääminen ei kuitenkaan yleensä ole vaikeaa.

Tilastollisten hypoteesien testaus luottamusvälillä

(moduuli 111)

Yksi tärkeimmistä tilastoissa ratkaistavista ongelmista on. Lyhyesti sanottuna sen olemus on tämä. Oletetaan esimerkiksi, että yleisen väestön odotus on yhtä suuri kuin jokin arvo. Sitten muodostetaan näytekeskiarvojakauma, jota voidaan tarkkailla tietyllä odotuksella. Seuraavaksi tarkastellaan missä tässä ehdollisessa jakaumassa todellinen keskiarvo sijaitsee. Jos se ylittää sallitut rajat, tällaisen keskiarvon ilmestyminen on erittäin epätodennäköistä, ja yhdellä kokeen toistolla se on melkein mahdotonta, mikä on ristiriidassa esitetyn hypoteesin kanssa, joka hylätään onnistuneesti. Jos keskiarvo ei ylitä kriittistä tasoa, hypoteesia ei hylätä (mutta sitä ei myöskään todisteta!).

Joten luottamusvälien avulla, meidän tapauksessamme odotukselle, voit myös testata joitain hypoteeseja. Se on erittäin helppo tehdä. Oletetaan, että jonkin otoksen aritmeettinen keskiarvo on 100. Testataan hypoteesia, jonka mukaan odotusarvo on esimerkiksi 90. Eli jos esitämme kysymyksen primitiivisesti, se kuulostaa tältä: voiko olla, että otoksen todellisella arvolla. keskiarvo on 90, havaittu keskiarvo oli 100?

Tähän kysymykseen vastaamiseksi tarvitaan lisätietoja keskihajonnasta ja otoksen koosta. Oletetaan, että keskihajonta on 30 ja havaintojen määrä on 64 (juuren erottamiseksi helposti). Tällöin keskiarvon standardivirhe on 30/8 tai 3,75. 95 %:n luottamusvälin laskemiseksi sinun on jätettävä syrjään kaksi keskivirhettä molemmin puolin keskiarvoa (tarkemmin sanottuna 1,96). Luottamusväli on noin 100 ± 7,5 tai 92,5 - 107,5.

Lisäperustelut ovat seuraavat. Jos testattu arvo osuu luottamusväliin, se ei ole ristiriidassa hypoteesin kanssa, koska mahtuu satunnaisten vaihteluiden rajoihin (todennäköisyydellä 95 %). Jos testattava piste on luottamusvälin ulkopuolella, niin tällaisen tapahtuman todennäköisyys on hyvin pieni, joka tapauksessa alle hyväksyttävän tason. Tästä syystä hypoteesi hylätään, koska se on ristiriidassa havaitun tiedon kanssa. Meidän tapauksessamme odotushypoteesi on luottamusvälin ulkopuolella (testattu arvo 90 ei sisälly väliin 100±7,5), joten se tulee hylätä. Vastaamalla yllä olevaan primitiiviseen kysymykseen, pitäisi sanoa: ei, se ei voi, joka tapauksessa, tämä tapahtuu erittäin harvoin. Usein tämä viittaa tiettyyn hypoteesin virheellisen hylkäämisen todennäköisyyteen (p-taso), eikä tiettyä tasoa, jonka mukaan luottamusväli rakennettiin, vaan siitä lisää toisella kerralla.

Kuten näet, keskiarvon (tai matemaattisen odotuksen) luottamusvälin rakentaminen ei ole vaikeaa. Tärkeintä on saada kiinni olemuksesta, ja sitten asiat etenevät. Käytännössä useimmat käyttävät 95 %:n luottamusväliä, joka on noin kahden standardivirheen levyinen keskiarvon molemmin puolin.

Tässä kaikki tältä erää. Kaikki parhaat!

Luottamusvälien estimointi

Oppimistavoitteet

Tilastot huomioivat seuraavaa kaksi päätehtävää:

    Meillä on näytetietoihin perustuva arvio, ja haluamme tehdä jonkinlaisen todennäköisyyslausunnon siitä, missä arvioitavan parametrin todellinen arvo on.

    Meillä on erityinen hypoteesi, joka on testattava näytetietojen perusteella.

Tässä aiheessa tarkastelemme ensimmäistä ongelmaa. Esittelemme myös luottamusvälin määritelmän.

Luottamusväli on intervalli, joka on rakennettu parametrin estimoidun arvon ympärille ja osoittaa, missä arvioidun parametrin todellinen arvo on ennalta annetulla todennäköisyydellä.

Tutkittuasi tätä aihetta käsittelevän materiaalin:

    oppia mikä on estimaatin luottamusväli;

    oppia luokittelemaan tilastollisia ongelmia;

    hallitsee luottamusvälien muodostamistekniikan sekä tilastokaavojen että ohjelmistotyökalujen avulla;

    oppia määrittämään vaaditut otoskoot tiettyjen tilastollisten arvioiden tarkkuuden parametrien saavuttamiseksi.

Näytteen ominaisuuksien jakaumat

T-jakelu

Kuten edellä on todettu, satunnaismuuttujan jakauma on lähellä standardoitua normaalijakaumaa parametreilla 0 ja 1. Koska emme tiedä σ:n arvoa, korvaamme sen jollain estimaatilla s . Määrällä on jo erilainen jakautuminen, nimittäin tai Opiskelijoiden jakelu, joka määritetään parametrilla n -1 (vapausasteiden lukumäärä). Tämä jakauma on lähellä normaalijakaumaa (mitä suurempi n, sitä läheisempiä jakaumia).

Kuvassa 95
Esitetään opiskelijan jakauma 30 vapausasteella. Kuten näet, se on hyvin lähellä normaalijakaumaa.

Normaalijakauman NORMDIST ja NORMINV kanssa työskentelyyn tarkoitettujen toimintojen tapaan on olemassa toimintoja t-jakauman kanssa työskentelyyn - STUDIST (TDIST) ja STUDRASPBR (TINV). Esimerkki näiden toimintojen käytöstä löytyy STUDRIST.XLS-tiedostosta (malli ja ratkaisu) ja kuvasta 96
.

Muiden ominaisuuksien jakaumat

Kuten jo tiedämme, odotusestimaatin tarkkuuden määrittämiseksi tarvitsemme t-jakauman. Muiden parametrien, kuten varianssin, arvioimiseksi tarvitaan muita jakaumia. Kaksi niistä on F-jakauma ja x 2 -jakauma.

Keskiarvon luottamusväli

Luottamusväli on intervalli, joka on rakennettu parametrin arvioidun arvon ympärille ja osoittaa, missä arvioidun parametrin todellinen arvo on ennalta annetulla todennäköisyydellä.

Keskiarvolle muodostuu luottamusväli seuraavalla tavalla:

Esimerkki

Pikaruokaravintola aikoo laajentaa valikoimaansa uudella voileipätyypillä. Sen kysynnän arvioimiseksi johtaja aikoo valita satunnaisesti 40 vierailijaa sitä jo kokeilijoiden joukosta ja pyytää heitä arvioimaan suhtautumistaan ​​uuteen tuotteeseen asteikolla 1-10. Johtaja haluaa arvioida odotettu pistemäärä, jonka uusi tuote saa, ja muodosta 95 %:n luottamusväli tälle arviolle. Kuinka tehdä se? (katso tiedosto SANDWICH1.XLS (malli ja ratkaisu).

Ratkaisu

Voit ratkaista tämän ongelman käyttämällä . Tulokset on esitetty kuvassa. 97
.

Kokonaisarvon luottamusväli

Joskus näytetietojen mukaan joudutaan arvioimaan ei matemaattista odotusta, vaan arvojen kokonaissummaa. Esimerkiksi tilanteessa, jossa on tilintarkastaja, voi olla kiinnostavaa arvioida laskun keskiarvon sijasta kaikkien laskujen summa.

Olkoon N alkioiden kokonaismäärä, n otoksen koko, T 3 otoksen arvojen summa, T" summan estimaatti koko populaatiolle, , ja luottamusväli lasketaan kaavalla , jossa s on otoksen keskihajonnan estimaatti, on otoksen keskiarvon estimaatti.

Esimerkki

Oletetaan, että verovirasto haluaa arvioida 10 000 veronmaksajan kokonaisveronpalautuksen. Veronmaksaja joko saa palautuksen tai maksaa lisäveroa. Etsi 95 %:n luottamusväli hyvityssummalle olettaen, että otoskoko on 500 henkilöä (katso tiedosto REFUND AMOUNT.XLS (malli ja ratkaisu).

Ratkaisu

StatProssa ei ole erityistä menettelyä tähän tapaukseen, mutta voit nähdä, että rajat voidaan saada keskiarvon rajoista yllä olevilla kaavoilla (kuva 98
).

Suhteen luottamusväli

Olkoon p odotus asiakkaista ja pv tämän osuuden estimaatti, joka on saatu koon n otoksesta. Voidaan osoittaa, että riittävän suurille estimaattijakauma on lähellä normaalia keskiarvolla p ja keskihajonnan kanssa . Arvioinnin keskivirhe tässä tapauksessa ilmaistaan ​​muodossa , ja luottamusväli as .

Esimerkki

Pikaruokaravintola aikoo laajentaa valikoimaansa uudella voileipätyypillä. Sen kysynnän arvioimiseksi johtaja valitsi satunnaisesti 40 vierailijaa sitä jo kokeilleiden joukosta ja pyysi heitä arvioimaan suhtautumisensa uuteen tuotteeseen asteikolla 1-10. Johtaja haluaa arvioida odotetun osuuden. asiakkaista, jotka arvioivat uutta tuotetta vähintään 6 pistettä (hän ​​odottaa näiden asiakkaiden olevan uuden tuotteen kuluttajia).

Ratkaisu

Aluksi luomme uuden sarakkeen 1:n perusteella, jos asiakkaan pisteet olivat yli 6 pistettä ja muuten 0 (katso SANDWICH2.XLS-tiedosto (malli ja ratkaisu).

Menetelmä 1

Laskemalla luvun 1, arvioimme osuuden ja käytämme sitten kaavoja.

Z cr:n arvo on otettu erityisistä normaalijakaumataulukoista (esimerkiksi 1,96 95 %:n luottamusvälille).

Käyttämällä tätä lähestymistapaa ja erityisiä tietoja 95 %:n intervallin muodostamiseksi saamme seuraavat tulokset (kuva 99
). Parametrin z cr kriittinen arvo on 1,96. Arvion keskivirhe on 0,077. Luottamusvälin alaraja on 0,475. Luottamusvälin yläraja on 0,775. Johtaja voi siis olettaa 95 %:n varmuudella, että niiden asiakkaiden prosenttiosuus, jotka arvioivat uudelle tuotteelle vähintään 6 pistettä, on 47,5–77,5.

Menetelmä 2

Tämä ongelma voidaan ratkaista käyttämällä tavallisia StatPro-työkaluja. Tätä varten riittää, kun huomataan, että osuus on tässä tapauksessa sama kuin Tyyppi-sarakkeen keskiarvo. Hae seuraavaksi StatPro / Tilastollinen päätelmä / Yhden näytteen analyysi luodaksesi luottamusvälin Tyyppi-sarakkeen keskiarvolle (odotusarvio). Tässä tapauksessa saadut tulokset ovat hyvin lähellä 1. menetelmän tulosta (kuva 99).

Keskihajonnan luottamusväli

s käytetään keskihajonnan estimaattina (kaava on luvussa 1). Arvion s tiheysfunktio on khin neliöfunktio, jolla, kuten t-jakaumalla, on n-1 vapausastetta. Tämän jakelun kanssa työskentelemiseen on erikoistoimintoja CHI2DIST (CHIDIST) ja CHI2OBR (CHIINV) .

Luottamusväli tässä tapauksessa ei ole enää symmetrinen. Rajojen ehdollinen kaavio on esitetty kuvassa. 100 .

Esimerkki

Koneella tulee valmistaa osia, joiden halkaisija on 10 cm, mutta eri olosuhteista johtuen tapahtuu virheitä. Laadunvalvoja on huolissaan kahdesta asiasta: ensinnäkin keskiarvon tulee olla 10 cm; toiseksi, jopa tässä tapauksessa, jos poikkeamat ovat suuria, monet yksityiskohdat hylätään. Hän tekee joka päivä 50 osan näytteen (katso tiedosto QUALITY CONTROL.XLS (malli ja ratkaisu). Mitä johtopäätöksiä tällainen näyte voi tehdä?

Ratkaisu

Rakennamme 95 %:n luottamusvälit keskiarvolle ja keskihajonnan avulla StatPro / Tilastollinen päätelmä / Yhden näytteen analyysi(Kuva 101
).

Lisäksi käyttämällä oletusta läpimittojen normaalijakaumasta laskemme viallisten tuotteiden osuuden asettamalla maksimipoikkeamaksi 0,065. Hakutaulukon (kahden parametrin tapaus) avulla rakennetaan hylättyjen prosenttiosuuden riippuvuus keskiarvosta ja keskihajonnasta (kuva 102).
).

Kahden keskiarvon eron luottamusväli

Tämä on yksi tilastollisten menetelmien tärkeimmistä sovelluksista. Esimerkkejä tilanteesta.

    Vaatekaupan johtaja haluaisi tietää, kuinka paljon enemmän tai vähemmän keskimääräinen naisasiakas viettää kaupassa kuin mies.

    Molemmat lentoyhtiöt lentävät samanlaisilla reiteillä. Kuluttajajärjestö haluaisi vertailla molempien lentoyhtiöiden keskimääräisten odotettujen lentojen viivästymisaikojen välistä eroa.

    Yritys lähettää kuponkeja tietyntyyppisille tavaroille yhdessä kaupungissa, mutta ei lähetä toiseen. Johtajat haluavat verrata näiden tuotteiden keskimääräisiä ostoja kahden seuraavan kuukauden aikana.

    Autokauppias on usein tekemisissä avioparien kanssa. Ymmärtääkseen heidän henkilökohtaisia ​​reaktioitaan esitykseen pariskunnat haastatellaan usein erikseen. Johtaja haluaa arvioida eroa miesten ja naisten antamissa arvioissa.

Riippumattomien näytteiden tapaus

Keskimääräisellä erolla on t-jakauma n 1 + n 2 - 2 vapausasteen kanssa. Luottamusväli μ 1 - μ 2 ilmaistaan ​​suhteella:

Tämä ongelma voidaan ratkaista ei vain yllä olevilla kaavoilla, vaan myös tavallisilla StatPro-työkaluilla. Tätä varten riittää hakeminen

Suhteiden välisen eron luottamusväli

Antaa olla osakkeiden matemaattinen odotus. Olkoon niiden otosestimaatit rakennettu n 1 ja n 2 kokoisille näytteille. Sitten on arvio erolle. Siksi tämän eron luottamusväli ilmaistaan ​​seuraavasti:

Tässä z cr on erikoistaulukoiden normaalijakaumasta saatu arvo (esimerkiksi 1,96 95 %:n luottamusvälille).

Arvioinnin keskivirhe ilmaistaan ​​tässä tapauksessa suhteella:

.

Esimerkki

Suurmyyntiä valmistautuessaan myymälä teki seuraavan markkinointitutkimuksen. 300 parasta ostajaa valittiin ja jaettiin satunnaisesti kahteen 150 jäsenen ryhmään. Kaikille valituille ostajille lähetettiin kutsut osallistua myyntiin, mutta vain ensimmäisen ryhmän jäsenille liitettiin kuponki, joka oikeuttaa 5 % alennukseen. Myynnin aikana kirjattiin kaikkien 300 valitun ostajan ostot. Miten johtaja voi tulkita tuloksia ja tehdä arvion kuponkien tehokkuudesta? (Katso COUPONS.XLS-tiedosto (malli ja ratkaisu)).

Ratkaisu

Meidän tapauksessamme 150 alennuskupongin saaneesta asiakkaasta 55 teki ostoksen alennusmyynnissä ja 150:stä, jotka eivät saaneet kuponkia, vain 35 teki ostoksen (kuva 103).
). Tällöin näyteosuuksien arvot ovat 0,3667 ja 0,2333. Ja näyteero niiden välillä on vastaavasti 0,1333. Olettaen, että luottamusväli on 95 %, saadaan normaalijakaumataulukosta z cr = 1,96. Näyteeron keskivirheen laskenta on 0,0524. Lopuksi saamme, että 95 %:n luottamusvälin alaraja on 0,0307 ja yläraja on 0,2359. Saadut tulokset voidaan tulkita siten, että jokaista 100 alennuskupongin saanutta asiakasta kohti voimme odottaa 3-23 uutta asiakasta. On kuitenkin syytä muistaa, että tämä johtopäätös ei sinänsä tarkoita kuponkien käytön tehokkuutta (koska alennuksella menetämme voittoa!). Osoitetaan tämä konkreettisilla tiedoilla. Oletetaan, että keskimääräinen ostosumma on 400 ruplaa, josta 50 ruplaa. on kaupasta voittoa. Sitten odotettu voitto 100:ta asiakasta, jotka eivät saaneet kuponkia, on yhtä suuri:

50 0,2333 100 \u003d 1166,50 ruplaa.

Samanlaiset laskelmat 100 kupongin saaneelle ostajalle antavat:

30 0,3667 100 \u003d 1100,10 ruplaa.

Keskimääräisen voiton lasku 30:een selittyy sillä, että alennusta käyttämällä kupongin saaneet ostajat tekevät ostoksen keskimäärin 380 ruplalla.

Siten lopullinen johtopäätös osoittaa tällaisten kuponkien käytön tehottomuuden tässä erityistilanteessa.

Kommentti. Tämä ongelma voidaan ratkaista käyttämällä tavallisia StatPro-työkaluja. Tätä varten riittää pelkistää tämä ongelma kahden keskiarvon eron estimoimiseen menetelmällä ja sitten soveltaa StatPro/Tilastollinen päätelmä/Kahden otoksen analyysi luoda luottamusväli kahden keskiarvon väliselle erolle.

Luottamusvälin hallinta

Luottamusvälin pituus riippuu seuraavat ehdot:

    suoraan data (keskihajonta);

    merkitsevyystaso;

    otoskoko.

Otoskoko keskiarvon arvioimiseksi

Tarkastellaanpa ensin ongelmaa yleisessä tapauksessa. Merkitään meille annetun luottamusvälin puolen pituuden arvo B:ksi (kuva 104).
). Tiedämme, että jonkin satunnaismuuttujan X keskiarvon luottamusväli ilmaistaan ​​muodossa , missä . Olettaen:

ja ilmaisemalla n , saamme .

Valitettavasti emme tiedä satunnaismuuttujan X varianssin tarkkaa arvoa. Lisäksi emme tiedä t cr:n arvoa, koska se riippuu n:stä vapausasteiden lukumäärän kautta. Tässä tilanteessa voimme tehdä seuraavaa. Varianssin s sijasta käytämme jotain estimaattia varianssista joillekin tutkittavan satunnaismuuttujan käytettävissä oleville realisoinneille. Normaalijakaumaan käytetään t cr -arvon sijasta z cr -arvoa. Tämä on täysin hyväksyttävää, koska normaali- ja t-jakauman tiheysfunktiot ovat hyvin lähellä (paitsi pienten n:n tapauksessa). Siten haluttu kaava saa muodon:

.

Koska kaava antaa yleisesti ottaen ei-kokonaislukuja, pyöristys tuloksen ylijäämällä otetaan halutuksi otoskooksi.

Esimerkki

Pikaruokaravintola aikoo laajentaa valikoimaansa uudella voileipätyypillä. Arvioidakseen sen kysyntää johtaja suunnittelee satunnaisesti valitsevansa kävijöitä jo kokeilleiden joukosta ja pyytää heitä arvioimaan suhtautumisensa uuteen tuotteeseen asteikolla 1-10. Johtaja haluaa arvioida uusi tuote saamien pisteiden odotettu määrä. tuote ja piirrä tämän arvion 95 %:n luottamusväli. Hän haluaa kuitenkin, että puolet luottamusvälin leveydestä ei ylitä 0,3:a. Kuinka monta kävijää hän tarvitsee kyselyyn?

seuraavasti:

Tässä r ots on arvio murto-osasta p ja B on annettu puolet luottamusvälin pituudesta. Paisutettu arvo n:lle voidaan saada käyttämällä arvoa r ots= 0,5. Tässä tapauksessa luottamusvälin pituus ei ylitä annettua arvoa B millekään p:n todelliselle arvolle.

Esimerkki

Anna edellisen esimerkin johtajan suunnitella arvioimaan niiden asiakkaiden osuuden, jotka suosivat uudentyyppistä tuotetta. Hän haluaa rakentaa 90 %:n luottamusvälin, jonka puolipituus on pienempi tai yhtä suuri kuin 0,05. Kuinka monta asiakasta pitäisi ottaa satunnaisesti?

Ratkaisu

Meidän tapauksessamme z cr:n arvo = 1,645. Siksi tarvittava määrä lasketaan seuraavasti .

Jos esimiehellä olisi syytä uskoa, että haluttu p:n arvo on esimerkiksi noin 0,3, niin korvaamalla tämä arvo yllä olevassa kaavassa, saisimme pienemmän satunnaisotoksen arvon, nimittäin 228.

Määritettävä kaava satunnaisotoskoot, jos kahden keskiarvon välillä on ero kirjoitettuna:

.

Esimerkki

Joillakin tietokoneyhtiöillä on asiakaspalvelukeskus. Viime aikoina asiakkaiden valitukset huonosta palvelun laadusta ovat lisääntyneet. Palvelukeskuksessa työskentelee pääosin kahdenlaisia ​​työntekijöitä: vähän kokemusta omaavia, mutta erikoiskoulutuksen suorittaneita ja laajan käytännön kokemuksen omaavia, jotka eivät ole suorittaneet erityiskursseja. Yhtiö haluaa analysoida asiakkaiden valituksia viimeisen puolen vuoden ajalta ja verrata niiden keskimääräisiä lukuja molempia työntekijöitä kohden. Oletetaan, että molempien ryhmien näytteiden numerot ovat samat. Kuinka monta työntekijää on otettava otokseen, jotta saadaan 95 %:n väli, jonka puolikaspituus on enintään 2?

Ratkaisu

Tässä σ ots on arvio molempien satunnaismuuttujien keskihajonnasta olettaen, että ne ovat lähellä. Joten tehtävässämme meidän on jotenkin saatava tämä arvio. Tämä voidaan tehdä esimerkiksi seuraavasti. Kun tarkastellaan asiakasvalitustietoja viimeisen kuuden kuukauden ajalta, johtaja saattaa huomata, että työntekijää kohden on yleensä 6–36 valitusta. Tietäen, että normaalijakaumassa käytännössä kaikki arvot ovat enintään kolme standardipoikkeamaa keskiarvosta, hän voi kohtuudella uskoa, että:

, josta σ ots = 5.

Korvaamalla tämän arvon kaavaan, saamme .

Määritettävä kaava satunnaisotoksen koko, kun estimoidaan osuuksien välistä eroa näyttää:

Esimerkki

Joillakin yrityksillä on kaksi tehdasta vastaavien tuotteiden tuotantoa varten. Yrityksen johtaja haluaa vertailla molempien tehtaiden vikoja. Saatavilla olevien tietojen mukaan hylkäysaste molemmilla tehtailla on 3-5 %. Sen oletetaan rakentavan 99 %:n luottamusväli, jonka puolikkaan pituus on enintään 0,005 (tai 0,5 %). Kuinka monta tuotetta jokaiselta tehtaalta tulisi valita?

Ratkaisu

Tässä p 1ot ja p 2ot ovat arvioita kahdesta tuntemattomasta hylkyjen fraktiosta 1. ja 2. tehtaalla. Jos laitamme p 1ots \u003d p 2ots \u003d 0,5, saamme n:lle yliarvioidun arvon. Mutta koska meidän tapauksessamme on jonkin verran ennakkotietoa näistä osakkeista, otamme näiden osakkeiden yläarvion, nimittäin 0,05. Saamme

Kun estimoidaan joitain populaatioparametreja otostiedoista, on hyödyllistä antaa parametrin pisteestimaattien lisäksi myös luottamusväli, joka osoittaa, missä arvioitavan parametrin tarkka arvo voi olla.

Tässä luvussa tutustuimme myös kvantitatiivisiin suhteisiin, joiden avulla voimme rakentaa tällaisia ​​intervalleja eri parametreille; oppinut tapoja hallita luottamusvälin pituutta.

Huomaa myös, että otoskoon estimointiongelma (kokeilusuunnitteluongelma) voidaan ratkaista käyttämällä StatPron vakiotyökaluja, nimittäin StatPro/tilastollinen päätelmä/näytteen koon valinta.

TAAJUUSTEN JA OSIEN LUOTTOVÄLISET

© 2008

Kansallinen kansanterveyslaitos, Oslo, Norja

Artikkelissa kuvataan ja käsitellään taajuuksien ja suhteiden luottamusvälien laskemista Wald-, Wilson-, Klopper-Pearson-menetelmillä, käyttäen kulmamuunnosta ja Wald-menetelmää Agresti-Cowll-korjauksella. Esitetty aineisto antaa yleistietoa frekvenssien ja suhteiden luottamusvälien laskentamenetelmistä ja on tarkoitettu herättämään lehden lukijoissa kiinnostus paitsi luottamusvälien käyttöön esitellessään oman tutkimuksensa tuloksia, myös lukea erikoiskirjallisuutta ennen tulevien julkaisujen parissa.

Avainsanat: luottamusväli, taajuus, osuus

Yhdessä aikaisemmissa julkaisuissa mainittiin lyhyesti kvalitatiivisten tietojen kuvaus ja kerrottiin, että niiden intervalliestimaatti on parempi kuin pisteestimaatti kuvaamaan tutkitun ominaisuuden esiintymistiheyttä yleisväestössä. Itse asiassa, koska tutkimukset tehdään otosdatalla, tulosten projisoinnin yleisen populaation on sisällettävä otosestimaatin epätarkkuutta. Luottamusväli on estimoidun parametrin tarkkuuden mitta. On mielenkiintoista, että joissakin lääkäreiden tilaston perusteita käsittelevissä kirjoissa taajuuksien luottamusvälit jätetään täysin huomiotta. Tässä artikkelissa tarkastellaan useita tapoja laskea taajuuksien luottamusvälit olettaen, että otosominaisuudet, kuten toistumattomuus ja edustavuus, sekä havaintojen riippumattomuus toisistaan. Tässä artikkelissa esiintymistiheyttä ei ymmärretä absoluuttisena lukuna, joka osoittaa, kuinka monta kertaa tämä tai tuo arvo esiintyy aggregaatissa, vaan suhteellinen arvo, joka määrittää niiden tutkimukseen osallistuneiden osuuden, joilla on tutkittava piirre.

Biolääketieteellisessä tutkimuksessa käytetään yleisimmin 95 %:n luottamusväliä. Tämä luottamusväli on alue, jolla todellinen osuus osuu 95 % ajasta. Toisin sanoen 95 %:n varmuudella voidaan sanoa, että piirteen esiintymistiheyden todellinen arvo yleisessä populaatiossa on 95 %:n luottamusvälillä.

Useimmat lääketieteen tutkijoiden tilastolliset oppikirjat raportoivat, että taajuusvirhe lasketaan kaavalla

jossa p on piirteen esiintymistiheys otoksessa (arvo 0 - 1). Useimmissa kotimaisissa tieteellisissä artikkeleissa on osoitettu ominaisuuden esiintymistiheyden arvo otoksessa (p) sekä sen virhe (s) muodossa p ± s. On kuitenkin tarkoituksenmukaisempaa esittää 95 %:n luottamusväli piirteen esiintymistiheydelle yleisessä populaatiossa, joka sisältää arvot alkaen

ennen.

Joissakin oppikirjoissa pienille näytteille suositellaan arvon 1,96 korvaamista t:n arvolla N - 1 vapausasteessa, missä N on havaintojen lukumäärä otoksessa. T:n arvo löytyy t-jakauman taulukoista, jotka löytyvät lähes kaikista tilastoalan oppikirjoista. t:n jakauman käyttö Wald-menetelmässä ei tarjoa näkyviä etuja muihin alla käsiteltyihin menetelmiin verrattuna, ja siksi jotkut kirjoittajat eivät pidä sitä tervetulleena.

Yllä oleva menetelmä taajuuksien tai murtolukujen luottamusvälien laskemiseksi on nimetty Abraham Waldin mukaan (Abraham Wald, 1902–1950), koska sitä alettiin käyttää laajalti Waldin ja Wolfowitzin julkaisun jälkeen vuonna 1939. Itse menetelmää ehdotti kuitenkin Pierre Simon Laplace (1749–1827) jo vuonna 1812.

Wald-menetelmä on erittäin suosittu, mutta sen soveltamiseen liittyy merkittäviä ongelmia. Menetelmää ei suositella pienille otoskokoille eikä tapauksissa, joissa ominaisuuden esiintymistiheys on yleensä 0 tai 1 (0 % tai 100 %), eikä se yksinkertaisesti ole mahdollista 0 ja 1 taajuuksilla. normaalijakauman approksimaatio, jota käytetään laskettaessa virhettä, "ei toimi" tapauksissa, joissa n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Koska uusi muuttuja jakautuu normaalisti, muuttujan φ 95 %:n luottamusvälin ala- ja ylärajat ovat φ-1,96 ja φ+1,96 vasen">

Pienten näytteiden arvon 1,96 sijaan on suositeltavaa korvata N - 1 vapausasteet arvolla t. Tämä menetelmä ei anna negatiivisia arvoja ja antaa sinun arvioida taajuuksien luottamusvälit tarkemmin kuin Wald-menetelmä. Lisäksi sitä on kuvattu monissa kotimaisissa lääketieteellisten tilastojen hakuteoksissa, mikä ei kuitenkaan johtanut sen laajaan käyttöön lääketieteellisessä tutkimuksessa. Luottamusvälien laskemista kulmamuunnoksen avulla ei suositella taajuuksille, jotka lähestyvät 0:ta tai 1:tä.

Tähän päättyy useimmissa lääketieteen tutkijoiden tilaston perusteita käsittelevissä kirjoissa luotettavuusvälien arviointimenetelmien kuvaus, ja tämä ongelma on tyypillinen paitsi kotimaiselle myös ulkomaiselle kirjallisuudelle. Molemmat menetelmät perustuvat keskirajalauseeseen, mikä merkitsee suurta otosta.

Ottaen huomioon epäkohdat luottamusvälien arvioinnissa yllä olevilla menetelmillä, Clopper (Clopper) ja Pearson (Pearson) ehdottivat vuonna 1934 menetelmää ns. tarkan luottamusvälin laskemiseksi ottaen huomioon tutkitun piirteen binomiaalinen jakauma. Tämä menetelmä on saatavilla monissa online-laskimissa, mutta tällä tavalla saadut luottamusvälit ovat useimmiten liian leveitä. Samanaikaisesti tätä menetelmää suositellaan käytettäväksi tapauksissa, joissa tarvitaan konservatiivinen arvio. Menetelmän konservatiivisuusaste kasvaa otoskoon pienentyessä, erityisesti N:lle< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Monien tilastotieteilijöiden mukaan optimaalisin estimaatti frekvenssien luottamusvälistä tehdään Wilsonin menetelmällä, jota ehdotettiin jo vuonna 1927, mutta jota ei käytännössä käytetty kotimaisessa biolääketieteellisessä tutkimuksessa. Tällä menetelmällä ei vain ole mahdollista arvioida luottamusväliä sekä erittäin pienille että erittäin korkeille taajuuksille, vaan se on sovellettavissa myös pieneen määrään havaintoja. Yleensä Wilsonin kaavan mukainen luottamusväli on muotoa alkaen



jossa se saa arvon 1,96 laskettaessa 95 %:n luottamusväliä, N on havaintojen määrä ja p on ominaisuuden esiintymistiheys otoksessa. Tämä menetelmä on saatavilla online-laskimissa, joten sen soveltaminen ei ole ongelmallista. äläkä suosittele tämän menetelmän käyttöä n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Wilsonin menetelmän lisäksi Agresti-Caull-korjatun Wald-menetelmän uskotaan antavan optimaalisen arvion frekvenssien luottamusvälistä. Agresti-Coullen korjaus korvaa Wald-kaavan piirteen esiintymistiheyden otoksessa (p) p`:llä, kun lasketaan mikä 2 lisätään osoittajaan ja 4 lisätään nimittäjään, eli , p` = (X + 2) / (N + 4), missä X on niiden tutkimukseen osallistuneiden lukumäärä, joilla on tutkittava ominaisuus, ja N on otoksen koko. Tämä muutos tuottaa hyvin samankaltaisia ​​tuloksia kuin Wilsonin kaavalla, paitsi jos tapahtumatiheys lähestyy 0 % tai 100 % ja näyte on pieni. Yllä olevien taajuuksien luottamusvälien laskentamenetelmien lisäksi on ehdotettu jatkuvuuden korjauksia sekä Wald-menetelmälle että Wilsonin menetelmälle pienille näytteille, mutta tutkimukset ovat osoittaneet, että niiden käyttö ei ole tarkoituksenmukaista.

Harkitse yllä olevien menetelmien soveltamista luottamusvälien laskemiseen kahden esimerkin avulla. Ensimmäisessä tapauksessa tutkimme suuren 1 000 satunnaisesti valitun tutkimukseen osallistujan otoksen, joista 450:llä on tutkittava ominaisuus (se voi olla riskitekijä, tulos tai mikä tahansa muu ominaisuus), jonka esiintymistiheys on 0,45, tai 45 %. Toisessa tapauksessa tutkimus tehdään pienellä otoksella, esimerkiksi vain 20 henkilöä, ja vain yhdellä tutkimukseen osallistuneella (5 %) on tutkittava piirre. Luottamusvälit Wald-menetelmälle, Wald-menetelmälle Agresti-Coll-korjauksella, Wilsonin menetelmälle laskettiin Jeff Sauron (http://www./wald.htm) kehittämällä online-laskimella. Jatkuvuuskorjatut Wilsonin luottamusvälit laskettiin käyttämällä laskinta, jonka tarjoaa Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Fisher-kulmamuunnoksia käyttävät laskelmat suoritettiin "manuaalisesti" käyttämällä kriittistä t:n arvoa 19 ja 999 vapausasteelle, vastaavasti. Laskentatulokset on esitetty taulukossa molemmille esimerkeille.

Luottamusvälit laskettu kuudella eri tavalla kahdelle tekstissä kuvatulle esimerkille

Luottamusvälin laskentamenetelmä

P = 0,0500 eli 5 %

95 % CI X = 450, N = 1000, P = 0,4500 tai 45 %

–0,0455–0,2541

Walda Agresti-Coll-korjauksella

<,0001–0,2541

Wilson jatkuvuuskorjauksella

Klopper-Pearsonin "tarkka menetelmä"

Kulman muunnos

<0,0001–0,1967

Kuten taulukosta voidaan nähdä, ensimmäisessä esimerkissä "yleisesti hyväksytyllä" Wald-menetelmällä laskettu luottamusväli menee negatiiviselle alueelle, mikä ei voi olla taajuuksien tapauksessa. Valitettavasti tällaiset tapaukset eivät ole harvinaisia ​​venäläisessä kirjallisuudessa. Perinteinen tapa esittää dataa taajuutena ja sen virheenä peittää osittain tämän ongelman. Jos esimerkiksi piirteen esiintymistiheys (prosentteina) esitetään arvona 2,1 ± 1,4, tämä ei ole niin "ärsyttävää" kuin 2,1 % (95 % CI: –0,7; 4,9), vaikka ja tarkoittaa samaa. Wald-menetelmä Agresti-Coullen korjauksella ja kulmamuunnoksen laskenta antavat nollaan pyrkivän alarajan. Wilsonin menetelmä jatkuvuuskorjauksella ja "tarkka menetelmä" antavat laajemmat luottamusvälit kuin Wilsonin menetelmä. Toisessa esimerkissä kaikki menetelmät antavat suunnilleen samat luottamusvälit (erot näkyvät vain tuhannesosissa), mikä ei ole yllättävää, koska tapahtuman esiintymistiheys tässä esimerkissä ei poikkea paljoa 50 prosentista ja otoskoko on melko suuri .

Tästä ongelmasta kiinnostuneille lukijoille voimme suositella R. G. Newcomben ja Brownin, Cain ja Dasguptan teoksia, jotka antavat edut ja haitat 7 ja 10 erilaisen menetelmän käyttämisestä luottamusvälien laskemiseen. Kotimaisista käsikirjoista suositellaan kirjaa ja, jossa yksityiskohtaisen teoriakuvauksen lisäksi esitellään Waldin ja Wilsonin menetelmät sekä menetelmä luottamusvälien laskentaan binomiaalinen taajuusjakauma huomioon ottaen. Ilmaisten online-laskimien (http://www./wald.htm ja http://faculty.vassar.edu/lowry/prop1.html) lisäksi taajuuksien (eikä vain!) luottamusvälit voidaan laskea käyttämällä CIA-ohjelma (Confidence Intervals Analysis), jonka voi ladata osoitteesta http://www. lääketieteellinen koulu. soton. ac. uk/cia/ .

Seuraavassa artikkelissa tarkastellaan yksimuuttujaisia ​​tapoja vertailla laadullisia tietoja.

Bibliografia

Banerjee A. Lääketieteellinen tilasto selkeällä kielellä: johdantokurssi / A. Banerzhi. - M. : Käytännön lääketiede, 2007. - 287 s. Lääketieteellinen tilasto / . - M. : Medical Information Agency, 2007. - 475 s. Glanz S. Lääketieteellis-biologiset tilastot / S. Glants. - M.: Harjoittelu, 1998. Tietotyypit, levinneisyyden todentaminen ja kuvaavat tilastot / // Human Ecology - 2008. - Nro 1. - S. 52–58. Zhizhin K.S.. Lääketieteellinen tilasto: oppikirja / . - Rostov n/D: Phoenix, 2007. - 160 s. Sovellettavat lääketieteelliset tilastot / , . - Pietari. : Folio, 2003. - 428 s. Lakin G.F. Biometriset tiedot / . - M. : Korkeakoulu, 1990. - 350 s. Lääkäri V. A. Lääketieteen matemaattiset tilastot / , . - M. : Talous ja tilastot, 2007. - 798 s. Kliinisen tutkimuksen matemaattiset tilastot / , . - M.: GEOTAR-MED, 2001. - 256 s. Junkerov V. Ja. Lääketieteellisten tutkimustietojen lääketieteellis-tilastollinen käsittely /,. - Pietari. : VmedA, 2002. - 266 s. Agresti A. Likimääräinen on parempi kuin tarkka binomiaalisten suhteiden intervalliestimointiin / A. Agresti, B. Coull // Amerikkalainen tilastotieteilijä. - 1998. - N 52. - S. 119-126. Altman D. Tilastot luottavaisin mielin // D. Altman, D. Machin, T. Bryant, M. J. Gardner. - Lontoo: BMJ Books, 2000. - 240 s. Ruskea L.D. Interval estimation for a binomial ratio / L. D. Brown, T. T. Cai, A. Dasgupta // Tilastotiede. - 2001. - N 2. - P. 101-133. Clopper C.J. Luottamus- tai vertailurajojen käyttö binomiaalin tapauksessa / C. J. Clopper, E. S. Pearson // Biometrika. - 1934. - N 26. - P. 404-413. Garcia-Perez M. A. Binomiaalisen parametrin luottamusvälistä / M. A. Garcia-Perez // Laatu ja määrä. - 2005. - N 39. - P. 467-481. Motulsky H. Intuitiivinen biostatistiikka // H. Motulsky. - Oxford: Oxford University Press, 1995. - 386 s. Newcombe R.G. Kaksipuoliset luottamusvälit yhden osuuden osalta: Seitsemän menetelmän vertailu / R. G. Newcombe // Lääketieteen tilastot. - 1998. - N. 17. - P. 857–872. Sauro J. Valmistumisasteiden arviointi pienistä otoksista binomiaalisten luottamusvälien avulla: vertailuja ja suosituksia / J. Sauro, J. R. Lewis // Proceedings of the Human factor and ergonomics Society vuosittainen kokous. – Orlando, Florida, 2005. Wald A. Jatkuvien jakelufunktioiden luottamusrajat // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - P. 105–118. Wilson E.B. Todennäköinen päättely, perintölaki ja tilastollinen päättely / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - P. 209-212.

SUHTEIDEN LUOTTOVÄLISET

A. M. Grjibovski

Kansallinen kansanterveyslaitos, Oslo, Norja

Artikkelissa esitetään useita menetelmiä binomiaalisten suhteiden luottamusvälien laskemiseen, nimittäin Wald-, Wilson-, arcsin-, Agresti-Coull- ja tarkka Clopper-Pearson-menetelmät. Artikkeli esittelee vain yleisluontoisesti binomiosuuden luottamusväliestimoinnin ongelmaa, ja sen tavoitteena ei ole pelkästään kannustaa lukijoita käyttämään luottamusväliä esitellessään omien empiiristen tutkimusintervallien tuloksia, vaan myös rohkaista heitä tutustumaan tilastokirjoihin etukäteen. oman tiedon analysointiin ja käsikirjoitusten valmisteluun.

avainsanoja: luottamusväli, osuus

Yhteystiedot:

Senior Advisor, National Institute of Public Health, Oslo, Norja

Mikä tahansa näyte antaa vain likimääräisen käsityksen yleisestä perusjoukosta, ja kaikki otoksen tilastolliset ominaisuudet (keskiarvo, tila, varianssi ...) ovat yleisten parametrien likiarvoja tai vaikkapa arvioita, joita ei useimmissa tapauksissa voida laskea johtuen väestön saavutettavuus (kuva 20) .

Kuva 20. Näytteenottovirhe

Mutta voit määrittää välin, jossa tietyllä todennäköisyydellä tilastollisen ominaisuuden todellinen (yleinen) arvo on. Tätä väliä kutsutaan d luottamusväli (CI).

Joten yleinen keskiarvo 95 prosentin todennäköisyydellä on sisällä

alkaen - (20)

missä t - opiskelijan kriteerin taulukkoarvo α =0,05 ja f= n-1

Löytyy ja 99% CI, tässä tapauksessa t valittu α =0,01.

Mikä on luottamusvälin käytännön merkitys?

    Leveä luottamusväli osoittaa, että otoksen keskiarvo ei heijasta tarkasti populaation keskiarvoa. Tämä johtuu yleensä riittämättömästä otoskoosta tai sen heterogeenisuudesta, ts. suuri dispersio. Molemmat antavat suuren virheen keskiarvossa ja vastaavasti laajemman CI:n. Ja tämä on syy palata tutkimuksen suunnitteluvaiheeseen.

    CI:n ylä- ja alarajat arvioivat, ovatko tulokset kliinisesti merkittäviä

Tarkastellaanpa tarkemmin kysymystä ryhmäominaisuuksien tutkimuksen tulosten tilastollisesta ja kliinisestä merkityksestä. Muista, että tilaston tehtävänä on havaita otostietojen perusteella ainakin joitain eroja yleisissä populaatioissa. Kliinikon tehtävä on löytää sellaiset (ei mitään) erot, jotka auttavat diagnoosissa tai hoidossa. Eikä aina tilastolliset johtopäätökset ole kliinisten johtopäätösten perusta. Näin ollen tilastollisesti merkitsevä hemoglobiinin lasku 3 g/l ei ole huolenaihe. Ja päinvastoin, jos jollakin ihmiskehon ongelmalla ei ole massaluonnetta koko väestön tasolla, tämä ei ole syy olla käsittelemättä tätä ongelmaa.

Harkitsemme tätä asemaa esimerkki.

Tutkijat ihmettelivät, jäivätkö pojat, joilla oli jonkinlainen tartuntatauti, kasvussa jälkeen ikäisensä. Tätä tarkoitusta varten suoritettiin valikoiva tutkimus, johon osallistui 10 poikaa, joilla oli tämä sairaus. Tulokset on esitetty taulukossa 23.

Taulukko 23. Tilastolliset tulokset

alaraja

yläraja

Tekniset tiedot (cm)

keskellä

Näistä laskelmista seuraa, että 10-vuotiaiden jonkin tartuntataudin saaneiden poikien selektiivinen keskipituus on lähellä normaalia (132,5 cm). Luottamusvälin alaraja (126,6 cm) kuitenkin osoittaa, että on 95 %:n todennäköisyydellä, että näiden lasten todellinen keskipituus vastaa käsitettä "lyhytkasvu", ts. nämä lapset ovat kitukasvuisia.

Tässä esimerkissä luottamusvälin laskelmien tulokset ovat kliinisesti merkittäviä.

Kohde– opettaa opiskelijoille algoritmeja tilastollisten parametrien luottamusvälien laskemiseen.

Tietojen tilastollisen käsittelyn aikana lasketun aritmeettisen keskiarvon, variaatiokertoimen, korrelaatiokertoimen, erokriteerien ja muiden pistetilastojen tulee saada kvantitatiiviset luottamusrajat, jotka osoittavat indikaattorin mahdollisia vaihteluja ylös ja alas luottamusvälin sisällä.

Esimerkki 3.1 . Kalsiumin jakautuminen apinoiden veren seerumissa, kuten aiemmin on todettu, on tunnusomaista seuraavilla selektiivisillä indikaattoreilla: = 11,94 mg%; = 0,127 mg %; n= 100. On määritettävä yleisen keskiarvon luottamusväli ( ) todennäköisyydellä P = 0,95.

Yleinen keskiarvo on tietyllä todennäköisyydellä välissä:

, missä – otoksen aritmeettinen keskiarvo; t- Opiskelijan kriteeri; on aritmeettisen keskiarvon virhe.

Taulukon "Opiskelijan kriteerin arvot" mukaan löydämme arvon luotettavuustasolla 0,95 ja vapausasteiden lukumäärällä k\u003d 100-1 \u003d 99. Se on 1,982. Yhdessä aritmeettisen keskiarvon ja tilastovirheen arvojen kanssa korvaamme sen kaavaan:

tai 11.69
12,19

Siten 95 %:n todennäköisyydellä voidaan väittää, että tämän normaalijakauman yleinen keskiarvo on välillä 11,69-12,19 mg %.

Esimerkki 3.2 . Määritä yleisen varianssin 95 %:n luottamusvälin rajat ( ) kalsiumin jakautuminen apinoiden veressä, jos sen tiedetään
= 1,60, kanssa n = 100.

Voit ratkaista ongelman käyttämällä seuraavaa kaavaa:

Missä on varianssin tilastollinen virhe.

Etsi näytteen varianssivirhe kaavalla:
. Se on yhtä suuri kuin 0,11. Merkitys t- kriteeri, jonka luottamustodennäköisyys on 0,95 ja vapausasteiden lukumäärä k= 100–1 = 99 tunnetaan edellisestä esimerkistä.

Käytetään kaavaa ja saadaan:

tai 1.38
1,82

Tarkempi luottamusväli yleiselle varianssille voidaan muodostaa käyttämällä (chi-neliö) - Pearsonin testi. Tämän kriteerin kriittiset pisteet on annettu erityisessä taulukossa. Käytettäessä kriteeriä kaksipuolista merkitsevyystasoa käytetään luottamusvälin muodostamiseen. Alarajalle merkitsevyystaso lasketaan kaavalla
, ylemmälle
. Esimerkiksi luottamustasolle = 0,99= 0,010,= 0,990. Näin ollen kriittisten arvojen jakautumistaulukon mukaan , jossa on lasketut luottamustasot ja vapausasteiden lukumäärä k= 100 – 1= 99, etsi arvot
ja
. Saamme
on 135,80 ja
on 70,06.

Voit löytää yleisen varianssin luottamusrajat käyttämällä käytämme kaavoja: alarajalle
, ylärajalle
. Korvaa löydetyt arvot tehtävätiedoilla kaavoihin:
= 1,17;
= 2,26. Näin ollen luottamustasolla P= 0,99 tai 99 %, yleinen varianssi on alueella 1,17 - 2,26 mg% mukaan lukien.

Esimerkki 3.3 . Hissiin saapuneen erän 1000 vehnän siemenestä löytyi 120 torajyvätartuntaa. On tarpeen määrittää tartunnan saaneiden siementen kokonaisosuuden todennäköiset rajat tietyssä vehnäerässä.

Yleisosakkeen luottamusrajat kaikille sen mahdollisille arvoille tulisi määrittää kaavalla:

,

Missä n on havaintojen määrä; m on yhden ryhmän absoluuttinen luku; t on normalisoitu poikkeama.

Tartunnan saaneiden siementen näyteosuus on yhtä suuri kuin
tai 12 %. Luottamustasolla R= 95 % normalisoitu poikkeama ( t-Opiskelijan kriteeri k =
)t = 1,960.

Korvaamme saatavilla olevat tiedot kaavaan:

Näin ollen luottamusvälin rajat ovat = 0,122–0,041 = 0,081 eli 8,1 %; = 0,122 + 0,041 = 0,163 eli 16,3 %.

Näin ollen 95 %:n luottamustasolla voidaan todeta, että saastuneiden siementen kokonaisosuus on 8,1-16,3 %.

Esimerkki 3.4 . Variaatiokerroin, joka kuvaa kalsiumin vaihtelua (mg%) apinoiden veren seerumissa, oli 10,6 %. Otoskoko n= 100. On tarpeen määrittää yleisen parametrin 95 %:n luottamusvälin rajat CV.

Yleisen variaatiokertoimen luottamusrajat CV määritetään seuraavilla kaavoilla:

ja
, missä K kaavan mukaan laskettu väliarvo
.

Tietäen sen luottavaisella tasolla R= 95 % normalisoitu poikkeama (opiskelijan t-testi for k =
)t = 1,960, laske arvo etukäteen TO:

.

tai 9,3 %

tai 12,3 %

Siten yleinen variaatiokerroin 95 %:n luottamustodennäköisyydellä on välillä 9,3-12,3 %. Toistettaessa variaatiokerroin ei ylitä 12,3 % eikä laske alle 9,3 % 95 tapauksessa 100:sta.

Itsehillintäkysymyksiä:

Tehtävät itsenäiseen ratkaisuun.

1. Kholmogory-risteytysten lehmien maidon keskimääräinen rasvaprosentti oli seuraava: 3,4; 3,6; 3,2; 3,1; 2,9; 3,7; 3,2; 3,6; 4,0; 3,4; 4,1; 3,8; 3,4; 4,0; 3,3; 3,7; 3,5; 3,6; 3,4; 3.8. Aseta yleisen keskiarvon luottamusvälit 95 %:n luottamustasolle (20 pistettä).

2. 400 hybridirukikasvin ensimmäiset kukat ilmestyivät keskimäärin 70,5 päivää kylvöstä. Keskipoikkeama oli 6,9 päivää. Määritä perusjoukon keskiarvon ja varianssin keskiarvon ja luottamusvälin virhe merkitsevyystasolla W= 0,05 ja W= 0,01 (25 pistettä).

3. Puutarhamansikoiden 502 yksilön lehtien pituutta tutkittaessa saatiin seuraavat tiedot: = 7,86 cm; σ = 1,32 cm, \u003d ± 0,06 cm. Määritä populaation aritmeettisen keskiarvon luottamusvälit merkitsevyystasoilla 0,01; 0,02; 0,05. (25 pistettä).

4. Tutkittaessa 150 aikuista miestä keskipituus oli 167 cm, ja σ \u003d 6 cm Mitkä ovat yleisen keskiarvon ja yleisen varianssin rajat luottamustodennäköisyyksillä 0,99 ja 0,95? (25 pistettä).

5. Kalsiumin jakautumista apinoiden veren seerumissa kuvaavat seuraavat selektiiviset indikaattorit: = 11,94 mg %, σ = 1,27, n = 100. Piirrä 95 %:n luottamusväli tämän jakauman perusjoukon keskiarvolle. Laske variaatiokerroin (25 pistettä).

6. Tutkittiin albiinorottien veriplasman kokonaistyppipitoisuutta 37 ja 180 päivän iässä. Tulokset ilmaistaan ​​grammoina 100 cm3 plasmaa kohti. 37 päivän iässä 9 rotalla oli: 0,98; 0,83; 0,99; 0,86; 0,90; 0,81; 0,94; 0,92; 0,87. 180 päivän iässä 8 rotalla oli: 1,20; 1,18; 1,33; 1,21; 1,20; 1,07; 1,13; 1.12. Aseta eron luottamusvälit luotettavuustasolla 0,95 (50 pistettä).

7. Määritä 95 %:n luottamusvälin rajat kalsiumin jakautumisen yleiselle varianssille (mg %) apinoiden veren seerumissa, jos tälle jakaumalle näytekoko n = 100, näytevarianssin tilastollinen virhe s σ 2 = 1,60 (40 pistettä).

8. Määritä 95 %:n luottamusvälin rajat vehnän 40 piikkien jakauman yleiselle varianssille pituussuunnassa (σ 2 = 40,87 mm 2). (25 pistettä).

9. Tupakointia pidetään pääasiallisena obstruktiiviselle keuhkosairaudelle altistavana tekijänä. Passiivista tupakointia ei pidetä tällaisena tekijänä. Tutkijat kyseenalaistivat passiivisen tupakoinnin turvallisuuden ja tutkivat tupakoimattomien, passiivisten ja aktiivisten tupakoijien hengitysteitä. Hengitysteiden tilan karakterisoimiseksi otimme yhden ulkoisen hengityksen toiminnan indikaattoreista - uloshengityksen keskikohdan suurimman tilavuusnopeuden. Tämän indikaattorin lasku on merkki hengitysteiden heikentyneestä läpikulkusta. Kyselyn tiedot näkyvät taulukossa.

Tutkittujen lukumäärä

Maksimi keskivirtausnopeus, l/s

Standardipoikkeama

Tupakoimattomat

työskennellä savuttomalla alueella

työskennellä savuisessa huoneessa

tupakoitsijat

polttaa pienen määrän savukkeita

tupakoitsijoiden keskimääräinen määrä

polttaa paljon savukkeita

Etsi taulukosta kunkin ryhmän yleisen keskiarvon ja yleisen varianssin 95 %:n luottamusvälit. Mitä eroja ryhmien välillä on? Esitä tulokset graafisesti (25 pistettä).

10. Määritä porsaiden lukumäärän yleisen varianssin 95 % ja 99 % luottamusvälien rajat 64 porsituksessa, jos otosvarianssin tilastollinen virhe s σ 2 = 8,25 (30 pistettä).

11. Kanien keskimääräisen painon tiedetään olevan 2,1 kg. Määritä yleisen keskiarvon ja varianssin 95 % ja 99 % luottamusvälien rajat, kun n= 30, σ = 0,56 kg (25 pistettä).

12. 100 tähkästä mitattiin tähkän jyväpitoisuus ( X), piikin pituus ( Y) ja jyvän massa korvassa ( Z). Etsi luottamusvälit yleiselle keskiarvolle ja varianssille P 1 = 0,95, P 2 = 0,99, P 3 = 0,999 jos = 19 = 6,766 cm = 0,554 g; σ x 2 = 29,153, σ y 2 = 2,111, σ z 2 = 0,064 (25 pistettä).

13. Satunnaisesti valitussa 100 tähkävehnässä laskettiin piikin määrä. Otosjoukkoa luonnehtivat seuraavat indikaattorit: = 15 piikkiä ja σ = 2,28 kpl. Määritä tarkkuus, jolla keskimääräinen tulos saadaan ( ) ja piirrä yleisen keskiarvon ja varianssin luottamusväli 95 % ja 99 % merkitsevyystasoilla (30 pistettä).

14. Fossiilisen nilviäisen kuorien kylkiluiden lukumäärä Orthamboniitit kalligrammi:

On tiedossa, että n = 19, σ = 4,25. Määritä yleisen keskiarvon ja yleisen varianssin luottamusvälin rajat merkitsevyystasolla W = 0,01 (25 pistettä).

15. Maitotuotosten määrittämiseksi kaupallisella maitotilalla määritettiin päivittäin 15 lehmän tuottavuus. Vuoden tietojen mukaan kukin lehmä antoi keskimäärin seuraavan maitomäärän päivässä (l): 22; 19; 25; kaksikymmentä; 27; 17; kolmekymmentä; 21; kahdeksantoista; 24; 26; 23; 25; kaksikymmentä; 24. Piirrä yleisen varianssin ja aritmeettisen keskiarvon luottamusvälit. Voidaanko olettaa, että vuotuinen keskimääräinen maitotuotos lehmää kohden on 10 000 litraa? (50 pistettä).

16. Tilan keskimääräisen vehnäsadon määrittämiseksi niitto tehtiin 1, 3, 2, 5, 2, 6, 1, 3, 2, 11 ja 2 ha näytepaloilla. Sato (c/ha) lohkoista oli 39,4; 38; 35,8; 40; 35; 42,7; 39,3; 41,6; 33; 42; 29 vastaavasti. Piirrä yleisen varianssin ja aritmeettisen keskiarvon luottamusvälit. Onko mahdollista odottaa, että maataloussektorin keskisato on 42 senttiä hehtaarilta? (50 pistettä).