Opiskelijakriteerilaskenta. Studentin t-testijakauma keskiarvoa koskevan hypoteesin testaamiseen ja luottamusvälin laskemiseen MS Excelissä

Tilastollisen hypoteesin testauksen avulla voimme tehdä vahvoja johtopäätöksiä populaation ominaisuuksista otantatietojen perusteella. On erilaisia ​​hypoteeseja. Yksi niistä on hypoteesi keskiarvosta (matemaattinen odotus). Sen ydin on tehdä oikea johtopäätös, joka perustuu vain saatavilla olevaan otokseen, siitä, missä yleinen keskiarvo voi olla tai ei (emme koskaan tiedä tarkkaa totuutta, mutta voimme kaventaa hakua).

Yleinen lähestymistapa hypoteesien testaamiseen on kuvattu, joten mennään suoraan asiaan. Oletetaan ensin, että otos on otettu normaalista satunnaismuuttujien populaatiosta X yleisellä keskiarvolla μ ja varianssi σ 2(Tiedän, tiedän, että näin ei tapahdu, mutta älä keskeytä minua!). Tämän otoksen aritmeettinen keskiarvo on ilmeisesti itsessään satunnaismuuttuja. Jos otat useita tällaisia ​​näytteitä ja lasket niiden keskiarvot, niillä on myös matemaattinen odotus μ Ja

Sitten satunnaismuuttuja

Herää kysymys: onko yleinen keskiarvo 95 %:n todennäköisyydellä ±1,96:n sisällä? s x̅. Toisin sanoen ovat satunnaismuuttujien jakaumat

vastaava.

Tämän kysymyksen esitti (ja ratkaisi) ensimmäisenä kemisti, joka työskenteli Guinnessin olutehtaalla Dublinissa (Irlanti). Kemistin nimi oli William Seely Gossett ja hän otti näytteitä oluesta kemiallista analyysiä varten. Ilmeisesti jossain vaiheessa Williamia alkoivat kiusata epämääräiset epäilykset keskiarvojen jakautumisesta. Se osoittautui hieman tahraisemmaksi kuin normaalijakauman pitäisi olla.

Kerättyään matemaattisen perustan ja laskettuaan löytämänsä jakautumisfunktion arvot Dublinin kemisti William Gosset kirjoitti muistiinpanon, joka julkaistiin Biometrics-lehden maaliskuussa 1908 (päätoimittaja - Karl Pearson). Koska Guinness kielsi ankarasti panimosalaisuuksien luovuttamisen; Gossett allekirjoitti salanimellä Student.

Huolimatta siitä, että K. Pearson oli jo keksinyt jakelun, yleinen ajatus normaalista hallitsi silti. Kukaan ei aikonut ajatella, että otospisteiden jakautuminen ei olisi normaalia. Siksi W. Gossetin artikkeli jäi käytännössä huomaamatta ja unohdettua. Ja vain Ronald Fisher arvosti Gossetin löytöä. Fischer käytti uutta jakelua työssään ja antoi sille nimen Opiskelijan t-jakauma. Hypoteesien testaamisen kriteeriksi tuli vastaavasti Opiskelijan t-testi. Näin tapahtui tilastoissa "vallankumous", joka astui näytetietojen analysoinnin aikakauteen. Tämä oli lyhyt retki historiaan.

Katsotaan mitä W. Gosset näki. Luodaan 20 tuhatta normaalia näytettä 6 havainnosta keskiarvolla ( ) 50 ja keskihajonta ( σ ) 10. Normalisoimme sitten otoskeinot käyttämällä yleinen varianssi:

Ryhmittelemme saadut 20 tuhatta keskiarvoa pituuksiksi 0,1 ja laskemme taajuudet. Kuvataan kaaviossa näytekeskiarvojen todellinen (Norm) ja teoreettinen (ENorm) taajuusjakauma.

Pisteet (havaitut taajuudet) ovat käytännössä samat kuin suora (teoreettiset taajuudet). Tämä on ymmärrettävää, koska tiedot on otettu samasta perusjoukosta ja erot ovat vain otantavirheitä.

Tehdään uusi kokeilu. Normalisoimme keskiarvot käyttämällä näytteen varianssi.

Lasketaan taajuudet uudelleen ja piirretään ne kaavioon pisteiden muodossa, jättäen vertailua varten standardi normaalijakaumaviivan. Merkitään keskiarvojen empiiristä taajuutta vaikkapa kirjaimella t.

Voidaan nähdä, että jakaumat eivät tällä kertaa täsmää kovinkaan paljon. Sulje, kyllä, mutta ei sama. Hännät ovat tulleet "raskavammiksi".

Gosset-Studentilla ei ollut MS Excelin uusinta versiota, mutta juuri tämän vaikutuksen hän huomasi. Miksi näin tapahtuu? Selitys on, että satunnaismuuttuja

ei riipu vain näytteenottovirheestä (osoittaja), vaan myös keskiarvon (nimittäjä) keskivirheestä, joka on myös satunnaismuuttuja.

Katsotaanpa hieman, mikä jakauma tällaisella satunnaismuuttujalla tulisi olla. Ensin sinun on muistettava (tai opittava) jotain matemaattisista tilastoista. On olemassa Fisherin lause, joka sanoo, että näytteessä normaalijakaumasta:

1. keskikokoinen ja näytteen varianssi s 2 ovat itsenäisiä määriä;

2. otoksen ja populaation varianssin suhteella kerrottuna vapausasteiden lukumäärällä on jakauma χ 2(khi-neliö), jolla on sama määrä vapausasteita, ts.

Missä k– vapausasteiden lukumäärä (englanniksi vapausaste (d.f.))

Monet muut tulokset normaalimallien tilastoissa perustuvat tähän lakiin.

Palataan keskiarvon jakaumaan. Jaa lausekkeen osoittaja ja nimittäjä

päällä σ X̅. Saamme

Osoittaja on tavallinen normaali satunnaismuuttuja (merkitsimme ξ (xi)). Ilmaistakaamme nimittäjä Fisherin lauseesta.

Sitten alkuperäinen lauseke saa muodon

Tämä on mitä se on yleisessä muodossa (Student relation). Voit johtaa sen jakelufunktion suoraan, koska molempien satunnaismuuttujien jakaumat tässä lausekkeessa tunnetaan. Jätetään tämä ilo matemaatikoille.

Studentin t-jakaumafunktiolla on melko vaikeasti ymmärrettävä kaava, joten sitä on turha analysoida. Kukaan ei kuitenkaan käytä sitä, koska... todennäköisyydet annetaan erityisissä Student-jakaumien taulukoissa (jota joskus kutsutaan Studentin kertoimien taulukoiksi) tai ne sisältyvät PC-kaavoihin.

Joten tällä uudella tiedolla varustettuna voit ymmärtää Student-jakelun virallisen määritelmän.
Satunnaismuuttuja, joka koskee Student-jakaumaa k Vapausasteet on riippumattomien satunnaismuuttujien suhde

Missä ξ jaetaan normaalin normaalilain mukaisesti, ja χ 2 k noudattaa jakelua χ 2 c k vapauden asteet.

Siten Studentin t-testin kaava aritmeettiselle keskiarvolle

Opiskelijasuhteessa on erityinen tapaus

Kaavasta ja määritelmästä seuraa, että Studentin t-testin jakauma riippuu vain vapausasteiden lukumäärästä.

klo k> 30 t-testi ei käytännössä eroa normaalista normaalijakaumasta.

Toisin kuin khin neliö, t-testi voi olla yksi tai kaksisuuntainen. Yleensä ne käyttävät kaksipuolista, olettaen, että poikkeama voi tapahtua molempiin suuntiin keskiarvosta. Mutta jos ongelman tila sallii poikkeaman vain yhteen suuntaan, on järkevää käyttää yksipuolista kriteeriä. Tämä lisää tehoa hieman, koska... kiinteällä merkitsevyystasolla kriittinen arvo lähestyy hieman nollaa.

Studentin t-testin käyttöehdot

Huolimatta siitä, että Studentin löytö mullistai aikoinaan tilastot, t-testin käyttömahdollisuudet ovat edelleen melko rajalliset, koska itse tulee olettamuksesta alkuperäisen datan normaalijakaumasta. Jos data ei ole normaalia (mikä yleensä on niin), t-testillä ei ole enää Studentin jakaumaa. Keskirajalauseen vaikutuksesta johtuen epänormaalin datankin keskiarvo saa kuitenkin nopeasti kellomaisen jakauman.

Tarkastellaan esimerkiksi tietoja, jotka ovat selvästi vinossa oikealle, kuten khin neliöjakauma, jossa on 5 vapausastetta.

Luodaan nyt 20 tuhatta näytettä ja tarkkaillaan kuinka keskiarvojen jakautuminen muuttuu niiden tilavuudesta riippuen.

Ero on melko havaittavissa pienissä, jopa 15-20 havainnon otoksissa. Mutta sitten se katoaa nopeasti. Siten jakauman epänormaalius ei tietenkään ole hyvä, mutta ei kriittinen.

Ennen kaikkea t-testi "pelkää" poikkeavuuksia, ts. epänormaalit poikkeamat. Otetaan 20 tuhatta normaalia näytettä, joissa kussakin on 15 havaintoa ja lisätään joihinkin niistä yksi satunnainen poikkeava.

Kuvasta tulee synkkä. Keskiarvojen todelliset taajuudet ovat hyvin erilaisia ​​kuin teoreettiset. T-jakauman käyttäminen tällaisessa tilanteessa on erittäin riskialtista yritystä.

Joten ei kovin pienissä näytteissä (15 havainnosta) t-testi on suhteellisen kestävä alkuperäisen datan epänormaalille jakautumiselle. Mutta poikkeamat tiedoissa vääristävät suuresti t-testin jakaumaa, mikä puolestaan ​​voi johtaa virheisiin tilastollisessa päättelyssä, joten poikkeavia havaintoja tulisi eliminoida. Usein kaikki arvot, jotka ovat ±2 standardipoikkeaman sisällä keskiarvosta, poistetaan näytteestä.

Esimerkki matemaattista odotusta koskevan hypoteesin testaamisesta Studentin t-testillä MS Excelissä

Excelissä on useita t-jakaumaan liittyviä toimintoja. Katsotaanpa niitä.

STUDENT.DIST – "klassinen" vasemmanpuoleinen opiskelijan t-jakauma. Syöte on t-kriteerin arvo, vapausasteiden lukumäärä ja vaihtoehto (0 tai 1), joka määrittää, mitä on laskettava: tiheys tai funktion arvo. Lähdössä saadaan vastaavasti tiheys tai todennäköisyys, että satunnaismuuttuja on pienempi kuin argumentissa määritetty t-kriteeri.

STUDENT.DIST.2X – kaksisuuntainen jakelu. Argumentti on t-testin itseisarvo (modulo) ja vapausasteiden lukumäärä. Tuloksena saadaan todennäköisyys saada sama tai jopa suurempi t-kriteerin arvo, ts. todellinen merkitsevyystaso (p-taso).

STUDENT.DIST.PH – oikeanpuoleinen t-jakauma. Joten 1-OPPILAS.JAKAUMA(2;5;1) = OPPILAS.JAKAUMA.PH(2;5) = 0,05097. Jos t-testi on positiivinen, tuloksena oleva todennäköisyys on p-taso.

STUDENT.INR – käytetään t-jakauman vasemmanpuoleisen käänteisen laskemiseen. Argumentti on todennäköisyys ja vapausasteiden lukumäärä. Tuloksena saamme tätä todennäköisyyttä vastaavan t-kriteerin arvon. Todennäköisyyslaskenta on vasemmalla. Siksi vasen häntä vaatii itse merkitsevyystason α , ja oikealle 1 - α .

STUDENT.OBR.2X – kaksipuolisen Student-jakauman käänteisarvo, ts. t-testin arvo (modulo). Merkitystaso syötetään myös tuloon α . Vain tällä kertaa laskenta suoritetaan molemmilta puolilta samanaikaisesti, joten todennäköisyys jakautuu kahteen häntään. Joten OPPILAS.ARV(1-0,025;5) = OPPILAS.ARV.2X(0,05;5) = 2,57058

STUDENT.TESTI on funktio, jolla testataan hypoteesia matemaattisten odotusten yhtäläisyydestä kahdessa otoksessa. Korvaa joukon laskelmia, koska Riittää, kun määrität vain kaksi data-aluetta ja pari muuta parametria. Lähtö on p-taso.

CONFIDENCE.STUDENT – keskiarvon luottamusvälin laskenta ottaen huomioon t-jakauman.

Tarkastellaanpa tätä koulutusesimerkkiä. Yrityksessä sementti pakataan 50 kg:n säkkeihin. Satunnaisuuden vuoksi yhdessä pussissa sallitaan jonkin verran poikkeamaa odotetusta massasta, mutta yleisen keskiarvon tulisi pysyä 50 kg. Laadunvalvontaosasto punnitsi satunnaisesti 9 pussia ja sai seuraavat tulokset: keskipaino ( ) oli 50,3 kg, keskihajonta ( s) – 0,5 kg.

Onko tämä tulos yhdenmukainen nollahypoteesin kanssa, että yleinen keskiarvo on 50 kg? Toisin sanoen, onko mahdollista saada tällainen tulos puhtaasti sattumalta, jos laite toimii kunnolla ja tuottaa keskimäärin 50 kg täyttöä? Jos hypoteesia ei hylätä, tuloksena oleva ero sopii satunnaisten vaihteluiden alueelle, mutta jos hypoteesi hylätään, niin todennäköisesti pussit täyttävän koneen asetuksissa oli vika. Se on tarkistettava ja konfiguroitava.

Lyhyt ehto yleisesti hyväksytyssä merkinnässä näyttää tältä.

H0: μ = 50 kg

H1: μ ≠ 50 kg

On syytä olettaa, että pussien täyttöjen jakautuminen noudattaa normaalijakaumaa (tai ei juurikaan poikkea siitä). Tämä tarkoittaa, että matemaattista odotusta koskevan hypoteesin testaamiseen voidaan käyttää Studentin t-testiä. Satunnaisia ​​poikkeamia voi esiintyä mihin tahansa suuntaan, mikä tarkoittaa, että tarvitaan kaksipuolinen t-testi.

Ensin käytämme vedenlaskua edeltäviä keinoja: lasketaan manuaalisesti t-kriteeri ja verrataan sitä kriittisen taulukon arvoon. Laskettu t-testi:

Määritetään nyt, ylittääkö tuloksena oleva luku merkitsevyystason kriittisen tason α = 0,05. Käytetään Studentin t-jakaumataulukkoa (saatavilla mistä tahansa tilastooppikirjasta).

Sarakkeet osoittavat jakauman oikean puolen todennäköisyyden ja rivit vapausasteiden lukumäärän. Meitä kiinnostaa kaksisuuntainen t-testi, jonka merkitsevyystaso on 0,05, mikä vastaa t-arvoa puolelle oikealla olevasta merkitsevyystasosta: 1 - 0,05/2 = 0,975. Vapausasteiden lukumäärä on otoskoko miinus 1, ts. 9 - 1 = 8. Leikkauksesta löytyy t-testin taulukkoarvo - 2,306. Jos käyttäisimme normaalia normaalijakaumaa, niin kriittinen piste olisi 1,96, mutta tässä se on suurempi, koska Pienten näytteiden t-jakauma näyttää litteämmältä.

Verrataan todellista (1.8) ja taulukon arvoa (2.306). Laskettu kriteeri osoittautui pienemmäksi kuin taulukoitu. Näin ollen saatavilla olevat tiedot eivät ole ristiriidassa hypoteesin H 0 kanssa, että yleinen keskipaino on 50 kg (mutta ei myöskään todista sitä). Siinä kaikki, mitä voimme oppia taulukoiden avulla. Voit tietysti myös yrittää löytää p-tason, mutta se on likimääräinen. Ja pääsääntöisesti p-tasoa käytetään hypoteesien testaamiseen. Siksi siirrymme seuraavaksi Exceliin.

Excelissä ei ole valmiita funktioita t-testin laskemiseen. Mutta tämä ei ole pelottavaa, koska Studentin t-testin kaava on melko yksinkertainen ja se voidaan helposti rakentaa suoraan Excelin soluun.

Meillä sama 1.8. Etsitään ensin kriittinen arvo. Otetaan alfa 0,05, kriteeri on kaksisuuntainen. Tarvitsemme käänteisen t-jakaumafunktion kaksipuoliselle hypoteesille STUDENT.OBR.2X.

Tuloksena oleva arvo katkaisee kriittisen alueen. Havaittu t-testi ei kuulu siihen, joten hypoteesia ei hylätä.

Tämä on kuitenkin sama tapa testata hypoteesia taulukon arvolla. Informatiivisempaa olisi laskea p-taso, ts. todennäköisyys saada havaittu tai jopa suurempi poikkeama 50 kg:n keskiarvosta, jos tämä hypoteesi pitää paikkansa. Tarvitset Student-jakaumafunktion kaksipuoliseen hypoteesiin STUDENT.JAKAUMA.2X.

P-taso on 0,1096, mikä on suurempi kuin hyväksyttävä merkitsevyystaso 0,05 – emme hylkää hypoteesia. Mutta nyt voimme arvioida todisteiden asteen. P-taso osoittautui melko lähellä tasoa, kun hypoteesi hylätään, ja tämä johtaa erilaisiin ajatuksiin. Esimerkiksi näyte oli liian pieni merkittävän poikkeaman havaitsemiseksi.

Jonkin ajan kuluttua valvontaosasto päätti jälleen tarkistaa, kuinka pussien täyttöstandardia noudatettiin. Tällä kertaa suuremman luotettavuuden vuoksi ei valittu 9 vaan 25 pussia. On intuitiivisesti selvää, että keskiarvon hajoaminen pienenee ja näin ollen mahdollisuudet löytää vika järjestelmässä kasvavat.

Oletetaan, että näytteelle saatiin samat keskiarvon ja keskihajonnan arvot kuin ensimmäisellä kerralla (50,3 ja 0,5). Lasketaan t-testi.


Kriittinen arvo 24 vapausasteelle ja α = 0,05 on 2,064. Alla olevasta kuvasta näkyy, että t-testi kuuluu hypoteesin hylkäämisen alueelle.

Voimme päätellä, että yli 95 %:n luottamustodennäköisyydellä yleinen keskiarvo eroaa 50 kg:sta. Katsotaanpa p-tasoa (taulukon viimeinen rivi), jotta se olisi vakuuttavampi. Todennäköisyys saada keskiarvo samalla tai jopa suuremmalla poikkeamalla arvosta 50, jos hypoteesi pitää paikkansa, on 0,0062 eli 0,62 %, mikä on käytännössä mahdotonta yhdellä mittauksella. Yleisesti ottaen hylkäämme hypoteesin epätodennäköisenä.

Luottamusvälin laskeminen opiskelijan t-jakauman avulla

Toinen tilastollinen menetelmä liittyy läheisesti hypoteesien testaamiseen - luottamusvälien laskeminen. Jos tuloksena oleva intervalli sisältää nollahypoteesia vastaavan arvon, tämä vastaa sitä tosiasiaa, että nollahypoteesia ei hylätä. Muussa tapauksessa hypoteesi hylätään vastaavalla luottamustasolla. Joissakin tapauksissa analyytikot eivät testaa hypoteeseja klassisessa muodossa ollenkaan, vaan laskevat vain luottamusvälit. Tämän lähestymistavan avulla voit poimia entistä hyödyllisempää tietoa.

Lasketaan luottamusvälit 9 ja 25 havainnon keskiarvolle. Tätä varten käytämme Excelin funktiota CONFIDENT.STUDENT. Täällä, kummallista kyllä, kaikki on melko yksinkertaista. Funktioargumenttien tarvitsee vain osoittaa merkitsevyystaso α , näytteen keskihajonta ja näytteen koko. Tuloksena saamme luottamusvälin puolileveyden, eli arvon, joka on asetettava keskiarvon molemmille puolille. Tehtyään laskelmat ja piirrettyään visuaalisen kaavion saamme seuraavan.

Kuten näet, 9 havainnon otoksella arvo 50 osuu luottamusväliin (hypoteesia ei hylätä), ja 25 havainnon kohdalla se ei ole luottamusvälillä (hypoteesi hylätään). Lisäksi 25 pussin kokeessa voidaan todeta, että 97,5 %:n todennäköisyydellä yleinen keskiarvo ylittää 50,1 kg (luottamusvälin alaraja on 50,094 kg). Ja tämä on varsin arvokasta tietoa.

Näin ollen ratkaisimme saman ongelman kolmella tavalla:

1. Muinaista lähestymistapaa käyttäen vertaamalla t-testin laskettuja ja taulukoituja arvoja
2. Nykyaikaisempi, laskemalla p-taso, lisäämällä luotettavuusaste hypoteesin hylkäämiseen.
3. Vielä informatiivisempi laskemalla luottamusväli ja saamalla yleisen keskiarvon vähimmäisarvon.

On tärkeää muistaa, että t-testi viittaa parametrisiin menetelmiin, koska perustuu normaalijakaumaan (sillä on kaksi parametria: keskiarvo ja varianssi). Siksi sen onnistuneen soveltamisen kannalta on tärkeää, että alkutietojen vähintään likimääräinen normaaliolo ja poikkeamien puuttuminen ovat tärkeitä.

Lopuksi suosittelen katsomaan videon Studentin t-testiin liittyvien laskelmien suorittamisesta Excelissä.

Koko esimerkin ajan käytämme fiktiivistä tietoa, jotta lukija voi tehdä tarvittavat muunnokset itse.

Eli oletetaan, että tutkimuksen aikana tutkimme lääke A:n vaikutusta aineen B pitoisuuteen (mmol/g) kudoksessa C ja aineen D pitoisuuteen veressä (mmol/l) potilailla. jaettu jonkin kriteerin E mukaan 3 tilavuudeltaan yhtä suureen ryhmään (n = 10). Tällaisen fiktiivisen tutkimuksen tulokset on esitetty taulukossa:

Aineen B pitoisuus, mmol/g

Aine D, mmol/l

keskittymisen lisääntyminen


Huomioimme, että otoskoko on 10 tiedon esittämisen ja laskennan helpottamiseksi; käytännössä tällainen otoskoko ei yleensä riitä tilastollisen johtopäätöksen tekemiseen.

Tarkastellaan esimerkkinä taulukon 1. sarakkeen tietoja.

Kuvailevia tilastoja

Esimerkki keskiarvo

Aritmeettinen keskiarvo, jota usein kutsutaan yksinkertaisesti "keskiarvoksi", saadaan laskemalla yhteen kaikki arvot ja jakamalla tämä summa joukon arvojen lukumäärällä. Tämä voidaan osoittaa käyttämällä algebrallista kaavaa. Muuttujan x n havainnon joukko voidaan esittää x 1 , x 2 , x 3 , ..., x n

Kaava havaintojen aritmeettisen keskiarvon määrittämiseksi (lausutaan "X viivalla"):

= (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Otosvarianssi

Yksi tapa mitata tietojen hajonta on määrittää, missä määrin kukin havainto poikkeaa aritmeettisesta keskiarvosta. Ilmeisesti mitä suurempi poikkeama, sitä suurempi on havaintojen vaihtelevuus, vaihtelevuus. Emme kuitenkaan voi käyttää näiden poikkeamien keskiarvoa dispersion mittana, koska positiiviset poikkeamat kompensoivat negatiiviset poikkeamat (niiden summa on nolla). Tämän ongelman ratkaisemiseksi neliöimme jokaisen poikkeaman ja löydämme neliöityjen poikkeamien keskiarvon; tätä määrää kutsutaan variaatioksi tai dispersioksi. Otetaan n havaintoa x 1, x 2, x 3, ..., x n, keskiarvo joka on yhtä suuri kuin. Varianssin laskeminen tämä, jota yleensä kutsutaans2,nämä havainnot:

Tämän indikaattorin otosvarianssi on s 2 = 3,2.

Standardipoikkeama

Vakio (keskineliö) poikkeama on varianssin positiivinen neliöjuuri. Käyttämällä n havaintoa esimerkkinä se näyttää tältä:

Voimme ajatella keskihajontaa eräänlaisena havaintojen keskimääräisenä poikkeamana keskiarvosta. Se lasketaan samoissa yksiköissä (mitoissa) kuin alkuperäiset tiedot.

s = sqrt (s 2) = sqrt (3,2) = 1,79.

Variaatiokerroin

Jos jaat keskihajonnan aritmeettisella keskiarvolla ja ilmaiset tuloksen prosentteina, saat variaatiokertoimen.

CV = (1,79 / 13,1) * 100 % = 13,7

Esimerkki keskivirhe

1,79/neliö(10) = 0,57;

Studentin t-kerroin (yhden otoksen t-testi)

Käytetään hypoteesin testaamiseen keskiarvon ja jonkin tunnetun arvon m välisestä erosta

Vapausasteiden lukumäärä lasketaan f=n-1.

Tässä tapauksessa keskiarvon luottamusväli on rajojen 11,87 ja 14,39 välillä.

95 %:n luottamustasolla m=11,87 tai m=14,39, eli = |13,1-11,82| = |13,1-14,38| = 1,28

Vastaavasti tässä tapauksessa vapausasteiden lukumäärälle f = 10 - 1 = 9 ja 95 %:n luottamustasolle t = 2,26.

Dialogin perustilastot ja taulukot

Moduulissa Perustilastot ja taulukot valitaan Kuvailevia tilastoja.

Valintaikkuna avautuu Kuvailevia tilastoja.

Kentällä Muuttujat valitaan Ryhmä 1.

Painamalla OK, saamme tulostaulukot, joissa on kuvaavat tilastot valituista muuttujista.

Valintaikkuna avautuu Yhden näytteen t-testi.

Oletetaan, että tiedämme, että aineen B keskimääräinen pitoisuus kudoksessa C on 11.

Tulostaulukko kuvaavilla tilastoilla ja Studentin t-testillä on seuraava:

Oli hylättävä hypoteesi, jonka mukaan aineen B keskimääräinen pitoisuus kudoksessa C on 11.

Koska kriteerin laskettu arvo on suurempi kuin taulukkoarvo (2.26), nollahypoteesi hylätään valitulla merkitsevyystasolla ja eroja otoksen ja tunnetun arvon välillä pidetään tilastollisesti merkitsevinä. Siten Studentin testillä tehty johtopäätös erojen olemassaolosta vahvistetaan tällä menetelmällä.

​ Studentin t-testi on Studentin jakaumaan perustuvien hypoteesien tilastollisen testauksen (tilastotestien) yleisnimitys. Yleisimmät t-testin käyttötavat ovat keskiarvojen yhtäläisyyden testaus kahdessa otoksessa.

1. T-testin kehityshistoria

Tämä kriteeri on kehitetty William Gossett arvioida oluen laatua Guinness-yhtiössä. Yritystä kohtaan liikesalaisuuksien paljastamatta jättämistä koskevien velvoitteiden vuoksi Gossetin artikkeli julkaistiin vuonna 1908 Biometrics-lehdessä salanimellä "Student".

2. Mihin Studentin t-testiä käytetään?

Studentin t-testillä määritetään keskiarvoerojen tilastollinen merkitsevyys. Voidaan käyttää sekä riippumattomien näytteiden vertailussa ( esimerkiksi diabeetikkoryhmät ja terveet ryhmät) ja kun verrataan toisiinsa liittyviä populaatioita ( esimerkiksi keskimääräinen syke samoilla potilailla ennen rytmihäiriölääkkeen ottamista ja sen jälkeen).

3. Missä tapauksissa Studentin t-testiä voidaan käyttää?

Studentin t-testin soveltaminen edellyttää, että alkuperäisillä tiedoilla on normaalijakauma. Jos riippumattomiin näytteisiin sovelletaan kahden otoksen kriteeriä, edellytyksen on myös täytettävä varianssien yhtäläisyys (homoskedastisuus)..

Jos nämä ehdot eivät täyty, samanlaisia ​​menetelmiä tulisi käyttää näytteen keskiarvojen vertailussa. ei-parametriset tilastot, joista tunnetuimmat ovat Mann-Whitneyn U-testi(kahden näytteen testinä riippumattomille näytteille) ja merkki kriteeri Ja Wilcoxonin testi(käytetään riippuvaisten näytteiden tapauksessa).

4. Miten Studentin t-testi lasketaan?

Keskiarvojen vertailua varten Studentin t-testi lasketaan seuraavalla kaavalla:

Missä M 1- ensimmäisen verratun populaation (ryhmän) aritmeettinen keskiarvo, M 2- toisen verratun populaation (ryhmän) aritmeettinen keskiarvo, m 1- ensimmäisen aritmeettisen keskiarvon keskivirhe, m 2- toisen aritmeettisen keskiarvon keskivirhe.

5. Kuinka tulkita Studentin t-testin arvo?

Tuloksena oleva Studentin t-testin arvo on tulkittava oikein. Tätä varten meidän on tiedettävä kunkin ryhmän aiheiden lukumäärä (n 1 ja n 2). Vapausasteiden lukumäärän löytäminen f seuraavan kaavan mukaan:

f = (n 1 + n 2) - 2

Tämän jälkeen määritetään Studentin t-testin kriittinen arvo vaaditulle merkitsevyystasolle (esim. p = 0,05) ja tietylle määrälle vapausasteita f taulukon mukaan ( Katso alempaa).

Vertailemme kriteerin kriittisiä ja laskettuja arvoja:

  • Jos Studentin t-testin laskettu arvo yhtä suuri tai suurempi kriittistä, havaitaan taulukosta, päättelemme, että vertailuarvojen väliset erot ovat tilastollisesti merkittäviä.
  • Jos lasketun Studentin t-testin arvo Vähemmän taulukkona, mikä tarkoittaa, että vertailuarvojen väliset erot eivät ole tilastollisesti merkittäviä.

6. Esimerkki Studentin t-testin laskemisesta

Uuden rautavalmisteen tehokkuuden tutkimiseksi valittiin kaksi anemiapotilasryhmää. Ensimmäisessä ryhmässä potilaat saivat uutta lääkettä kahden viikon ajan ja toisessa ryhmässä lumelääkettä. Tämän jälkeen mitattiin hemoglobiinitasot ääreisverestä. Ensimmäisessä ryhmässä keskimääräinen hemoglobiinitaso oli 115,4±1,2 g/l ja toisessa ryhmässä - 103,7±2,3 g/l (tiedot esitetään muodossa M±m), vertailtavilla populaatioilla on normaalijakauma. Ensimmäisen ryhmän lukumäärä oli 34 ja toisen 40 potilasta. On tarpeen tehdä johtopäätös saatujen erojen tilastollisesta merkitsevyydestä ja uuden rautavalmisteen tehokkuudesta.

Ratkaisu: Erojen merkittävyyden arvioimiseksi käytämme Studentin t-testiä, joka lasketaan keskiarvojen erona jaettuna virheiden neliösummalla:

Laskelmien suorittamisen jälkeen t-testin arvoksi tuli 4,51. Vapausasteiden lukumääräksi saadaan (34 + 40) - 2 = 72. Vertaamme tuloksena saatua Studentin t-testin arvoa 4,51 kriittiseen arvoon p = 0,05, joka on esitetty taulukossa: 1,993. Koska kriteerin laskettu arvo on suurempi kuin kriittinen arvo, päätämme, että havaitut erot ovat tilastollisesti merkittäviä (merkittävyystaso p<0,05).

Missä tapauksissa Studentin t-testiä voidaan käyttää?

Studentin t-testin soveltaminen edellyttää, että alkuperäisillä tiedoilla on normaalijakauma. Jos riippumattomiin näytteisiin sovelletaan kahden otoksen kriteeriä, edellytyksen on myös täytettävä varianssien yhtäläisyys (homoskedastisuus)..

Jos nämä ehdot eivät täyty, samanlaisia ​​menetelmiä tulisi käyttää näytteen keskiarvojen vertailussa. ei-parametriset tilastot, joista tunnetuimmat ovat Mann-Whitneyn U-testi(kahden näytteen testinä riippumattomille näytteille) ja merkki kriteeri Ja Wilcoxonin testi(käytetään riippuvaisten näytteiden tapauksessa).

Keskiarvojen vertailua varten Studentin t-testi lasketaan seuraavalla kaavalla:

Missä M 1- ensimmäisen verratun populaation (ryhmän) aritmeettinen keskiarvo, M 2- toisen verratun populaation (ryhmän) aritmeettinen keskiarvo, m 1- ensimmäisen aritmeettisen keskiarvon keskivirhe, m 2- toisen aritmeettisen keskiarvon keskivirhe.

Kuinka tulkita Studentin t-testin arvo?

Tuloksena oleva Studentin t-testin arvo on tulkittava oikein. Tätä varten meidän on tiedettävä kunkin ryhmän aiheiden lukumäärä (n 1 ja n 2). Vapausasteiden lukumäärän löytäminen f seuraavan kaavan mukaan:

f = (n 1 + n 2) - 2

Tämän jälkeen määritetään Studentin t-testin kriittinen arvo vaaditulle merkitsevyystasolle (esim. p = 0,05) ja tietylle määrälle vapausasteita f taulukon mukaan ( Katso alempaa).

Vertailemme kriteerin kriittisiä ja laskettuja arvoja:

· Jos Studentin t-testin laskettu arvo yhtä suuri tai suurempi kriittistä, havaitaan taulukosta, päättelemme, että vertailuarvojen väliset erot ovat tilastollisesti merkittäviä.

· Jos lasketun Studentin t-testin arvo Vähemmän taulukkona, mikä tarkoittaa, että vertailuarvojen väliset erot eivät ole tilastollisesti merkittäviä.

Esimerkki Studentin t-testin laskemisesta

Uuden rautavalmisteen tehokkuuden tutkimiseksi valittiin kaksi anemiapotilasryhmää. Ensimmäisessä ryhmässä potilaat saivat uutta lääkettä kahden viikon ajan ja toisessa ryhmässä lumelääkettä. Tämän jälkeen mitattiin hemoglobiinitasot ääreisverestä. Ensimmäisessä ryhmässä keskimääräinen hemoglobiinitaso oli 115,4±1,2 g/l ja toisessa ryhmässä - 103,7±2,3 g/l (tiedot esitetään muodossa M±m), vertailtavilla populaatioilla on normaalijakauma. Ensimmäisen ryhmän lukumäärä oli 34 ja toisen 40 potilasta. On tarpeen tehdä johtopäätös saatujen erojen tilastollisesta merkitsevyydestä ja uuden rautavalmisteen tehokkuudesta.

Ratkaisu: Erojen merkittävyyden arvioimiseksi käytämme Studentin t-testiä, joka lasketaan keskiarvojen erona jaettuna virheiden neliösummalla:

Laskelmien suorittamisen jälkeen t-testin arvoksi tuli 4,51. Vapausasteiden lukumääräksi saadaan (34 + 40) - 2 = 72. Vertaamme tuloksena saatua Studentin t-testin arvoa 4,51 kriittiseen arvoon p = 0,05, joka on esitetty taulukossa: 1,993. Koska kriteerin laskettu arvo on suurempi kuin kriittinen arvo, päätämme, että havaitut erot ovat tilastollisesti merkittäviä (merkittävyystaso p<0,05).

Fisher-jakauma on satunnaismuuttujan jakauma

missä ovat satunnaismuuttujat X 1 Ja X 2 ovat riippumattomia ja niillä on khin neliöjakaumat vapausasteiden lukumäärällä k 1 Ja k 2 vastaavasti. Samaan aikaan pariskunta (k 1, k 2)– Fisher-jakauman "vapausasteiden" pari, nimittäin k 1 on osoittajan vapausasteiden lukumäärä ja k 2– nimittäjän vapausasteiden lukumäärä. Satunnaismuuttujan jakauma F nimetty suuren englantilaisen tilastotieteilijän R. Fisherin (1890-1962) mukaan, joka käytti sitä aktiivisesti töissään.

Fisher-jakaumaa käytetään testattaessa hypoteeseja mallin riittävyydestä regressioanalyysissä, varianssien yhtäläisyydessä ja muissa sovelletun tilaston ongelmissa.

Taulukko opiskelijan kriittisistä arvoista.

Lomakkeen alku

Vapausasteiden lukumäärä, f Studentin t-testin arvo p = 0,05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

Opiskelijoiden jakotaulukko

Todennäköisyysintegraalitaulukoita käytetään suurille näytteille äärettömän suuresta populaatiosta. Mutta jo (n)< 100 получается Несоответствие между

taulukkotiedot ja rajatodennäköisyys; kohdassa (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

yleisellä populaatiolla ei ole väliä, koska otosindikaattorin poikkeamien jakauma yleispiirteestä suurella otoksella osoittautuu aina normaaliksi.

nom. Pienissä näytteissä (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

normaalijakauman omaava väestö. Pienten näytteiden teorian kehitti englantilainen tilastotieteilijä W. Gosset (joka kirjoitti salanimellä Student) 1900-luvun alussa. SISÄÄN

Vuonna 1908 hän rakensi erityisen jakauman, joka mahdollistaa jopa pienillä näytteillä korreloinnin (t):n ja luottamustodennäköisyyden F(t). Jos (n) > 100, Student-jakaumataulukot antavat samat tulokset kuin Laplacen todennäköisyysintegraalitaulukot 30:lle< (n ) <

100 erot ovat mitättömiä. Siksi käytännössä pienet näytteet sisältävät näytteet, joiden tilavuus on alle 30 yksikköä (tietenkin näytettä, jonka tilavuus on yli 100 yksikköä, pidetään suurena).

Pienten otosten käyttö joissain tapauksissa johtuu tutkittavan perusjoukon luonteesta. Siten jalostustyössä ”puhdas” kokemus on helpompi saavuttaa pienellä määrällä

juonet. Taloudellisiin kustannuksiin liittyvä tuotanto- ja taloudellinen kokeilu tehdään myös pienellä määrällä kokeita. Kuten jo todettiin, pienen otoksen tapauksessa sekä yleisen keskiarvon luottamustodennäköisyydet että luottamusrajat voidaan laskea vain normaalijakautuneelle populaatiolle.

Studentin jakauman todennäköisyystiheys kuvataan funktiolla.

1 + t2

f(t,n):= Bn

n - 1

t - nykyinen muuttuja n - näytteen koko;

B on suure, joka riippuu vain arvosta (n).

Studentin jakaumassa on vain yksi parametri: (d.f.) - vapausasteiden lukumäärä (joskus merkitty (k)). Tämä jakauma, kuten normaali, on symmetrinen pisteen (t) = 0 suhteen, mutta on tasaisempi. Otoskoon kasvaessa ja sitä kautta vapausasteiden lukumäärän kasvaessa Studentin jakauma lähestyy nopeasti normaalia. Vapausasteiden lukumäärä on yhtä suuri kuin niiden yksittäisten piirrearvojen lukumäärä, jotka on jaettava

oletetaan määrittävän halutun ominaisuuden. Siten varianssin laskemiseksi keskiarvo on tiedettävä. Siksi varianssia laskettaessa käytä (d.f.) = n - 1.

Opiskelijoiden jakelutaulukot julkaistaan ​​kahdessa versiossa:

1. samoin kuin todennäköisyysintegraalitaulukoissa, arvot ( t ) ja vastaava

nykyiset todennäköisyydet F(t) eri vapausasteiden lukumäärälle;

2. arvot (t) on annettu yleisimmin käytetyille luottamustodennäköisyyksille

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 ja 0,99 tai 1 - 0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. eri vapausasteilla. Tämäntyyppinen taulukko on esitetty liitteessä

(Taulukko 1 - 20), sekä arvo (t) - Studentin testi merkitsevyystasolla 0,7