Elevens T-test automatisk beregning. Grunnleggende statistikk og Elevens t-test

Testing av en statistisk hypotese lar deg gjøre en streng konklusjon om egenskapene til den generelle befolkningen basert på prøvedata. Hypoteser er forskjellige. En av dem er hypotesen om gjennomsnittet (matematisk forventning). Essensen er å foreta en korrekt konklusjon om hvor det generelle gjennomsnittet kan være basert på bare den tilgjengelige prøven (vi vil aldri vite den nøyaktige sannheten, men vi kan begrense søkesirkelen).

Den generelle tilnærmingen til å teste hypoteser er beskrevet, så rett på sak. Anta først at utvalget er trukket fra et normalt sett med tilfeldige variabler X med generelt gjennomsnitt μ og spredning σ2(Jeg vet, jeg vet at dette ikke skjer, men du trenger ikke å avbryte meg!). Det aritmetiske gjennomsnittet av dette utvalget er åpenbart i seg selv en tilfeldig variabel. Hvis vi trekker ut mange slike prøver og beregner gjennomsnittene for dem, så vil de også ha med den matematiske forventningen μ Og

Deretter den tilfeldige variabelen

Spørsmålet oppstår: vil det generelle gjennomsnittet med en sannsynlighet på 95 % være innenfor ±1,96 s x̅. Med andre ord er fordelingene av tilfeldige variabler

tilsvarende.

For første gang ble dette spørsmålet reist (og løst) av en kjemiker som jobbet ved Guinness ølfabrikk i Dublin (Irland). Kjemikeren het William Seeley Gosset, og tok ølprøver for kjemisk analyse. På et tidspunkt begynte William tilsynelatende å ha vage tvil om fordelingen av gjennomsnittene. Det viste seg å være litt mer spredt enn en normalfordeling burde være.

Etter å ha samlet en matematisk begrunnelse og beregnet verdiene for distribusjonsfunksjonen han oppdaget, skrev Dublin-kjemikeren William Gosset et notat som ble publisert i mars 1908-utgaven av tidsskriftet Biometrics (sjefredaktør - Karl Pearson) . Fordi Guinness forbød strengt å gi ut bryggingens hemmeligheter, signerte Gosset under pseudonymet Student.

Til tross for at K. Pearson allerede hadde oppfunnet distribusjonen, dominerte likevel den generelle ideen om normalitet. Ingen skulle tro at fordelingen av prøveestimater kanskje ikke var normal. Derfor forble W. Gossets artikkel praktisk talt ubemerket og glemt. Og bare Ronald Fisher satte pris på Gossets oppdagelse. Fischer brukte den nye distribusjonen i sitt arbeid og ga den navnet Elevens t-fordeling. Kriteriet for å teste hypoteser ble henholdsvis Elevens t-test. Så det var en "revolusjon" innen statistikk, som gikk inn i æraen med analyse av prøvedata. Det var en kort digresjon inn i historien.

La oss se hva W. Gosset kunne se. La oss generere 20 tusen normale prøver fra 6 observasjoner med gjennomsnitt ( ) 50 og standardavvik ( σ ) 10. Så normaliserer vi prøvemidlene ved hjelp av generell variasjon:

Vi grupperer de resulterende 20 tusen gjennomsnittene i intervaller på 0,1 lengde og beregner frekvensene. La oss plotte de faktiske (Norm) og teoretiske (ENorm) frekvensfordelingene til prøvemidlene på et diagram.

Punktene (observerte frekvenser) faller nesten sammen med linjen (teoretiske frekvenser). Dette er forståelig, fordi dataene er hentet fra den samme generelle populasjonen, og forskjellene er bare utvalgsfeil.

La oss gjøre et nytt eksperiment. Vi normaliserer gjennomsnittene ved hjelp av prøveavvik.

La oss telle frekvensene igjen og plotte dem på diagrammet som prikker, og la linjen til standard normalfordeling stå igjen for sammenligning. La oss betegne den empiriske frekvensen til gjennomsnittene, for eksempel gjennom bokstaven t.

Man ser at fordelingene denne gangen ikke er veldig like. Nærme, ja, men ikke det samme. Haler har blitt mer "tunge".

Gosset-Student hadde ikke den nyeste versjonen av MS Excel, men det var akkurat den effekten han la merke til. Hvorfor er det slik? Forklaringen er at den tilfeldige variabelen

avhenger ikke bare av prøvetakingsfeilen (teller), men også av standardfeilen til gjennomsnittet (nevneren), som også er en tilfeldig variabel.

La oss finne ut litt hvilken fordeling en slik tilfeldig variabel skal ha. Først må du huske (eller lære) noe fra matematisk statistikk. Det er et slikt Fisher-teorem, som sier at i et utvalg fra en normalfordeling:

1. medium og prøvevarians s2 er uavhengige mengder;

2. Forholdet mellom utvalget og generell varians, multiplisert med antall frihetsgrader, har en fordeling χ 2(chi-kvadrat) med samme antall frihetsgrader, dvs.

hvor k- antall frihetsgrader (på engelsk grader av frihet (d.f.))

Mange andre resultater i statistikken til normale modeller er basert på denne loven.

La oss gå tilbake til fordelingen av gjennomsnittet. Del telleren og nevneren til uttrykket

σX̅. Få

Telleren er en standard normal tilfeldig variabel (vi angir ξ (xi)). Nevneren kan uttrykkes fra Fisher-teoremet.

Da vil det opprinnelige uttrykket ta formen

Dette er i generelle termer (Student's ratio). Det er allerede mulig å utlede distribusjonsfunksjonen direkte, fordi fordelingene av begge tilfeldige variabler i dette uttrykket er kjent. La oss overlate denne gleden til matematikere.

Studentens t-fordelingsfunksjon har en formel som er ganske vanskelig å forstå, så det gir ingen mening å analysere den. Uansett er det ingen som bruker det, fordi. sannsynlighetene er gitt i spesielle tabeller over Students fordeling (noen ganger kalt tabeller over Students koeffisienter), eller de er hamret inn i PC-formler.

Så, bevæpnet med ny kunnskap, vil du kunne forstå den offisielle definisjonen av Students distribusjon.
En tilfeldig variabel som følger studentens fordeling med k frihetsgrader er forholdet mellom uavhengige tilfeldige variabler

hvor ξ fordelt etter standard normallov, og χ 2 k gjenstand for distribusjon χ 2 c k grader av frihet.

Altså formelen for Elevens kriterium for det aritmetiske gjennomsnittet

Det er et spesielt tilfelle av studentrelasjonen

Det følger av formelen og definisjonen at fordelingen av Students t-test kun avhenger av antall frihetsgrader.

k> 30 t-test skiller seg praktisk talt ikke fra standard normalfordeling.

I motsetning til kjikvadrat, kan t-testen være en- eller tohalet. Vanligvis brukes tosidig, forutsatt at avviket kan forekomme i begge retninger fra gjennomsnittet. Men hvis tilstanden til problemet tillater avvik bare i én retning, er det rimelig å bruke et ensidig kriterium. Dette øker kraften litt, tk. ved et fast signifikansnivå nærmer den kritiske verdien seg litt null.

Vilkår for å søke Students t-test

Til tross for at Students oppdagelse på en gang gjorde en revolusjon innen statistikk, er t-testen fortsatt ganske begrenset i sin anvendelighet, fordi i seg selv kommer fra antagelsen om en normalfordeling av de opprinnelige dataene. Hvis dataene ikke er normale (som vanligvis er tilfellet), vil ikke t-testen lenger ha en Students fordeling. På grunn av virkemåten til sentralgrensesetningen, får gjennomsnittet, selv for ikke-normale data, raskt en klokkeformet fordeling.

Tenk for eksempel på data som har en uttalt skjevhet til høyre, som en kjikvadratfordeling med 5 frihetsgrader.

La oss nå lage 20 tusen prøver og observere hvordan fordelingen av midler endres avhengig av størrelsen.

Forskjellen er ganske merkbar i små prøver opptil 15–20 observasjoner. Men så forsvinner det fort. Dermed er unormaliteten i fordelingen selvfølgelig ikke god, men ikke kritisk.

Mest av alt er t-kriteriet "redd" for uteliggere, dvs. unormale avvik. La oss ta 20 tusen normale prøver av 15 observasjoner og legge til en tilfeldig uteligger til noen av dem.

Bildet er ulykkelig. De faktiske frekvensene til gjennomsnittene er svært forskjellige fra de teoretiske. Å bruke t-fordelingen i en slik situasjon blir en svært risikabel foretak.

Så, i ikke veldig små prøver (fra 15 observasjoner), er t-testen relativt motstandsdyktig mot den ikke-normale fordelingen av de første dataene. Men uteliggere i dataene forvrenger fordelingen av t-testen sterkt, noe som igjen kan føre til statistiske slutningsfeil, så unormale observasjoner bør elimineres. Ofte fjernes alle verdier som faller utenfor ±2 standardavvik fra gjennomsnittet fra prøven.

Et eksempel på testing av hypotesen om matematisk forventning ved hjelp av Students t-test i MS Excel

Excel har flere funksjoner knyttet til t-distribusjonen. La oss vurdere dem.

STUDENT.DIST - "klassisk" venstresidig Students t-fordeling. Inndata er verdien av t-kriteriet, antall frihetsgrader og alternativet (0 eller 1) som bestemmer hva som skal beregnes: tettheten eller verdien av funksjonen. Ved utgangen får vi henholdsvis tettheten eller sannsynligheten for at den tilfeldige variabelen vil være mindre enn t-kriteriet spesifisert i argumentet.

STUDENT.DIST.2X - toveis distribusjon. Absoluttverdien (modulo) til t-kriteriet og antall frihetsgrader er gitt som argument. Ved utgangen får vi sannsynligheten for å få denne eller enda mer verdi av t-kriteriet, dvs. faktisk signifikansnivå (p-nivå).

STUDENT.DIST.RH - høyrehendt t-fordeling. Så, 1-ELEV.FORDELING(2;5;1) = STUDENT.FORDELING.PX(2;5) = 0,05097. Hvis t-testen er positiv, er den resulterende sannsynligheten p-nivå.

STUDENT.INV - brukes til å beregne den venstre resiproke av t-fordelingen. Argumentet er sannsynligheten og antall frihetsgrader. Ved utgangen får vi verdien av t-kriteriet som tilsvarer denne sannsynligheten. Sannsynlighet telles til venstre. Derfor er selve signifikansnivået nødvendig for venstre hale α , og for høyre 1 - α .

STUDENT.ORD.2X er den gjensidige av den to-halede Students fordeling, dvs. t-testverdi (modulo). Signifikansnivået er også gitt som innspill. α . Bare denne gangen er nedtellingen fra begge sider samtidig, så sannsynligheten er fordelt over to haler. Så STUDENT.OBR (1-0.025; 5) \u003d STUDENT. OBR. 2X (0.05; 5) \u003d 2.57058

STUDENT.TEST er en funksjon for å teste hypotesen om likheten mellom matematiske forventninger i to utvalg. Erstatter en haug med beregninger, fordi. det er nok å spesifisere bare to områder med data og et par parametere til. Utgangen er p-nivå.

STUDENTCONFIDENS - beregning av konfidensintervallet til gjennomsnittet, tatt i betraktning t-fordelingen.

La oss vurdere et slikt treningseksempel. Bedriften pakker sement i sekker à 50 kg. På grunn av tilfeldigheter, i en enkelt pose, er noe avvik fra forventet masse tillatt, men det generelle gjennomsnittet bør forbli 50 kg. Kvalitetskontrollavdelingen veide tilfeldig 9 poser og oppnådde følgende resultater: gjennomsnittlig vekt ( ) utgjorde 50,3 kg, standardavviket ( s) - 0,5 kg.

Stemmer resultatet med nullhypotesen om at det generelle gjennomsnittet er 50 kg? Med andre ord, er det mulig å få et slikt resultat ved en ren tilfeldighet, hvis utstyret fungerer som det skal og gir en gjennomsnittlig fylling på 50 kg? Hvis hypotesen ikke avvises, passer den oppnådde forskjellen inn i utvalget av tilfeldige svingninger, men hvis hypotesen avvises, har det mest sannsynlig oppstått en feil i innstillingene til apparatet som fyller posene. Det må sjekkes og justeres.

En kort tilstand i den allment aksepterte notasjonen ser slik ut.

H0: μ = 50 kg

H1: μ ≠ 50 kg

Det er grunner til å anta at fordelingen av bagbelegg følger en normalfordeling (eller ikke skiller seg mye fra den). Så, for å teste hypotesen om matematisk forventning, kan du bruke Students t-test. Tilfeldige avvik kan forekomme i begge retninger, så en to-halet t-test er nødvendig.

Først bruker vi antediluvianske midler: manuelt beregne t-testen og sammenligne den med en kritisk tabellverdi. Estimert t-test:

La oss nå finne ut om det resulterende tallet går utover det kritiske nivået på signifikansnivået α = 0,05. La oss bruke Elevens t-fordelingstabell (tilgjengelig i enhver lærebok om statistikk).

Kolonnene viser sannsynligheten for høyre side av fordelingen, radene viser antall frihetsgrader. Vi er interessert i en tosidig t-test med et signifikansnivå på 0,05, som tilsvarer t-verdien for halvparten av signifikansnivået til høyre: 1 - 0,05 / 2 = 0,975. Antall frihetsgrader er prøvestørrelsen minus 1, dvs. 9 - 1 = 8. I skjæringspunktet finner vi tabellverdien til t-testen - 2,306. Hvis vi brukte standard normalfordeling, ville det kritiske punktet være 1,96, men her er det mer, fordi t-fordeling på små prøver har en mer utflatet form.

Vi sammenligner faktisk (1,8) og tabellverdi (2,306). Det beregnede kriteriet viste seg å være mindre enn det tabellformede. Derfor motsier ikke tilgjengelige data H 0-hypotesen om at det generelle gjennomsnittet er 50 kg (men beviser det heller ikke). Det er alt vi kan finne ut ved å bruke tabellene. Du kan selvfølgelig fortsatt prøve å finne p-nivå, men det vil være omtrentlig. Og som regel brukes p-nivå for å teste hypoteser. Så la oss gå videre til Excel.

Det finnes ingen ferdig funksjon for å beregne t-testen i Excel. Men dette er ikke skummelt, for studentens t-testformel er ganske enkel og kan enkelt bygges rett i en Excel-celle.

Fikk samme 1.8. La oss først finne den kritiske verdien. Vi tar alfa 0,05, kriteriet er tosidig. Vi trenger en funksjon av den inverse verdien av t-fordelingen for den to-halede hypotesen STUDENT.OBR.2X.

Den resulterende verdien avskjærer det kritiske området. Den observerte t-testen faller ikke inn i den, så hypotesen blir ikke avvist.

Dette er imidlertid samme måte å teste en hypotese med en tabellverdi. Det vil være mer informativt å beregne p-nivået, dvs. sannsynligheten for å få det observerte eller enda større avviket fra gjennomsnittet på 50 kg hvis denne hypotesen er riktig. Du trenger en Students distribusjonsfunksjon for den tosidede hypotesen STUDENT.DIST.2X.

P-nivå er lik 0,1096, som er mer enn det tillatte signifikansnivået på 0,05 – vi avviser ikke hypotesen. Men nå kan vi bedømme bevisgraden. P-nivå viste seg å være ganske nær nivået når hypotesen forkastes, og dette fører til ulike tanker. For eksempel at utvalget var for lite til å oppdage et signifikant avvik.

Anta at kontrollavdelingen etter en stund igjen bestemte seg for å sjekke hvordan posefyllingsstandarden ble opprettholdt. Denne gangen, for større pålitelighet, ble ikke 9, men 25 poser valgt. Det er intuitivt klart at spredningen av gjennomsnittet vil avta, og derfor blir sjansene for å finne en feil i systemet større.

La oss si at de samme verdiene for gjennomsnittet og standardavviket for prøven ble oppnådd som første gang (henholdsvis 50,3 og 0,5). La oss beregne t-testen.


Den kritiske verdien for 24 frihetsgrader og α = 0,05 er 2,064. Bildet nedenfor viser at t-testen faller inn i området for hypoteseavvisningen.

Det kan konkluderes med at med en konfidenssannsynlighet på mer enn 95 %, skiller det generelle gjennomsnittet seg fra 50 kg. For å være mer overbevisende, la oss se på p-nivå (den siste linjen i tabellen). Sannsynligheten for å få et gjennomsnitt med dette eller enda større avvik fra 50, hvis hypotesen stemmer, er 0,0062, eller 0,62 %, noe som er praktisk talt umulig med en enkelt måling. Generelt avviser vi hypotesen som usannsynlig.

Beregne et konfidensintervall ved å bruke studentens t-distribusjon

En annen statistisk metode som er nært knyttet til hypotesetesting er beregning av konfidensintervaller. Hvis verdien som tilsvarer nullhypotesen faller innenfor det oppnådde intervallet, tilsvarer dette at nullhypotesen ikke er forkastet. Ellers forkastes hypotesen med passende konfidensnivå. I noen tilfeller tester ikke analytikere hypoteser i klassisk form i det hele tatt, men beregner kun konfidensintervaller. Denne tilnærmingen lar deg trekke ut enda mer nyttig informasjon.

La oss beregne konfidensintervallene for gjennomsnittet ved 9 og 25 observasjoner. For å gjøre dette vil vi bruke Excel-funksjonen TRUST.STUDENT. Her er alt merkelig nok ganske enkelt. I funksjonsargumentene må du bare spesifisere signifikansnivået α , prøvestandardavvik og prøvestørrelse. Ved utgangen får vi halvbredden av konfidensintervallet, det vil si verdien som må settes til side på begge sider av gjennomsnittet. Etter å ha gjort beregningene og tegnet et visuelt diagram, får vi følgende.

Som du kan se, med et utvalg på 9 observasjoner, faller verdien på 50 innenfor konfidensintervallet (hypotesen er ikke forkastet), og med 25 observasjoner faller den ikke (hypotesen forkastes). Samtidig kan det i forsøket med 25 poser hevdes at med en sannsynlighet på 97,5 % overstiger det generelle gjennomsnittet 50,1 kg (den nedre grensen for konfidensintervallet er 50,094 kg). Og det er ganske verdifull informasjon.

Dermed løste vi det samme problemet på tre måter:

1. En gammel tilnærming, som sammenligner den beregnede verdien og den tabellformede verdien av t-kriteriet
2. Mer moderne, ved å beregne p-nivået, legge til en viss grad av tillit til å forkaste hypotesen.
3. Enda mer informativ ved å beregne konfidensintervallet og få minimumsverdien til det generelle gjennomsnittet.

Det er viktig å huske at t-testen refererer til parametriske metoder, fordi basert på en normalfordeling (den har to parametere: gjennomsnitt og varians). Derfor, for dens vellykkede anvendelse, er i det minste den omtrentlige normaliteten til de første dataene og fraværet av uteliggere viktig.

Til slutt foreslår jeg å se en video om hvordan man utfører beregninger knyttet til Students t-test i Excel.

Elevfordelingstabell

Sannsynlighetsintegraltabeller brukes for store utvalg fra en uendelig stor populasjon. Men allerede ved (n)< 100 получается Несоответствие между

tabelldata og grense sannsynlighet; ved (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

den generelle befolkningen spiller ingen rolle, siden fordelingen av avvik fra prøveindikatoren fra den generelle karakteristikken med et stort utvalg alltid viser seg å være normal

nym. I prøver av liten størrelse (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

en populasjon som har normalfordeling. Teorien om små utvalg ble utviklet av den engelske statistikeren W. Gosset (som skrev under pseudonymet Student) på begynnelsen av 1900-tallet. I

I 1908 konstruerte han en spesiell fordeling som tillater, selv med små utvalg, å korrelere (t) og konfidenssannsynligheten F(t). For (n) > 100 gir elevfordelingstabeller de samme resultatene som Laplace sannsynlighetsintegraltabeller for 30< (n ) <

100 forskjeller er små. Derfor inkluderer små prøver i praksis prøver med et volum på mindre enn 30 enheter (selvfølgelig regnes en prøve med et volum på mer enn 100 enheter som stor).

Bruken av små utvalg skyldes i noen tilfeller arten av den undersøkte populasjonen. I avlsarbeid er således "ren" erfaring lettere å oppnå på et lite antall

tomter. Produksjonen og det økonomiske eksperimentet, forbundet med økonomiske kostnader, utføres også på et lite antall forsøk. Som allerede nevnt, i tilfelle av et lite utvalg, kan både konfidenssannsynlighetene og konfidensgrensene for det generelle gjennomsnittet kun beregnes for en normalfordelt populasjon.

Sannsynlighetstettheten for Students fordeling er beskrevet av en funksjon.

1 + t2

f (t ,n) := Bn

n − 1

t - gjeldende variabel, n - prøvestørrelse;

B er en verdi som kun avhenger av (n).

Elevens fordeling har bare én parameter: (d.f. ) - antall frihetsgrader (noen ganger betegnet med (k)). Denne fordelingen er, som den normale, symmetrisk med hensyn til punktet (t) = 0, men den er flatere. Med en økning i utvalgsstørrelsen, og følgelig antallet frihetsgrader, nærmer studentens fordeling seg raskt det normale. Antall frihetsgrader er lik antallet av de individuelle verdiene av funksjoner som må være

anta å bestemme ønsket karakteristikk. Så for å beregne variansen, må gjennomsnittsverdien være kjent. Derfor, ved beregning av dispersjonen, brukes (d.f.) = n - 1.

Elevfordelingstabeller publiseres i to versjoner:

1. på samme måte som tabellene for sannsynlighetsintegralet, verdiene ( t) og

kumulative sannsynligheter F(t) for forskjellige antall frihetsgrader;

2. verdier (t) er gitt for de mest brukte konfidenssannsynlighetene

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 og 0,99 eller for 1 - 0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. med ulikt antall frihetsgrader. En slik tabell er gitt i vedlegget.

(Tabell 1 - 20), samt verdien (t) - Elevprøve på signifikansnivå 0,7

Når kan studentens t-test brukes?

For å anvende Studentens t-test er det nødvendig at originaldata har normal distribusjon. Ved bruk av en toprøvetest for uavhengige prøver, er det også nødvendig å tilfredsstille betingelsen likhet (homoskedastisitet) av varianser.

Hvis disse betingelsene ikke er oppfylt, bør lignende metoder brukes ved sammenligning av prøvegjennomsnitt. ikke-parametrisk statistikk, blant hvilke de mest kjente er Mann-Whitney U-test(som en to-utvalgstest for uavhengige prøver), og tegn kriterium Og Wilcoxon test(brukes i tilfeller med avhengige prøver).

For å sammenligne midler beregnes studentens t-test ved å bruke følgende formel:

hvor M 1- aritmetisk gjennomsnitt av den første sammenlignede populasjonen (gruppe), M 2- aritmetisk gjennomsnitt av den andre sammenlignede populasjonen (gruppen), m 1- gjennomsnittsfeilen til det første aritmetiske gjennomsnittet, m2- gjennomsnittsfeilen til det andre aritmetiske gjennomsnittet.

Hvordan tolke verdien av Students t-test?

Den resulterende verdien av Students t-test må tolkes riktig. For å gjøre dette må vi vite antall emner i hver gruppe (n 1 og n 2). Finne antall frihetsgrader f i henhold til følgende formel:

f \u003d (n 1 + n 2) - 2

Etter det bestemmer vi den kritiske verdien av Students t-test for det nødvendige signifikansnivået (for eksempel p=0,05) og for et gitt antall frihetsgrader f i henhold til tabellen ( se nedenfor).

Vi sammenligner de kritiske og beregnede verdiene for kriteriet:

Hvis den beregnede verdien av Studentens t-test lik eller større kritisk, funnet i tabellen, konkluderer vi med at forskjellene mellom de sammenlignede verdiene er statistisk signifikante.

Hvis verdien av den beregnede Studentens t-test mindre tabell, som betyr at forskjellene mellom de sammenlignede verdiene ikke er statistisk signifikante.

Elevens t-test eksempel

For å studere effektiviteten til et nytt jernpreparat ble to grupper pasienter med anemi valgt. I den første gruppen fikk pasientene et nytt medikament i to uker, og i den andre gruppen fikk de placebo. Etter det ble nivået av hemoglobin i perifert blod målt. I den første gruppen var gjennomsnittlig hemoglobinnivå 115,4±1,2 g/l, og i den andre - 103,7±2,3 g/l (data presenteres i formatet M±m), har de sammenlignede populasjonene en normalfordeling. Antallet av den første gruppen var 34, og den andre - 40 pasienter. Det er nødvendig å trekke en konklusjon om den statistiske signifikansen av de oppnådde forskjellene og effektiviteten til det nye jernpreparatet.

Løsning: For å vurdere betydningen av forskjeller bruker vi Students t-test, beregnet som differansen mellom middelverdiene delt på summen av kvadrerte feil:

Etter å ha utført beregningene var verdien av t-testen lik 4,51. Vi finner antall frihetsgrader som (34 + 40) - 2 = 72. Vi sammenligner den oppnådde verdien av Students t-test 4,51 med den kritiske verdien ved p=0,05 angitt i tabellen: 1,993. Siden den beregnede verdien av kriteriet er større enn den kritiske verdien, konkluderer vi med at de observerte forskjellene er statistisk signifikante (signifikansnivå p<0,05).

Fisher-fordelingen er fordelingen av en tilfeldig variabel

hvor tilfeldige variabler X 1 Og X 2 er uavhengige og har chi-fordelinger - kvadratet med antall frihetsgrader k 1 Og k2 hhv. Samtidig et par (k 1, k 2) er et par "antall av frihetsgrader" av Fisher-distribusjonen, nemlig, k 1 er antall frihetsgrader for telleren, og k2 er antall frihetsgrader for nevneren. Fordeling av en tilfeldig variabel F oppkalt etter den store engelske statistikeren R. Fisher (1890-1962), som aktivt brukte det i sitt arbeid.

Fisher-fordelingen brukes til å teste hypoteser om modellens tilstrekkelighet i regresjonsanalyse, om varianslikhet og i andre problemer med anvendt statistikk.

Elevens tabell over kritiske verdier.

Skjemastart

Antall frihetsgrader, f Elevens t-testverdi ved p=0,05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

Et av de mest kjente statistiske verktøyene er Students t-test. Den brukes til å måle den statistiske signifikansen av forskjellige parvise mengder. Microsoft Excel har en spesiell funksjon for å beregne denne indikatoren. La oss lære hvordan du beregner Students t-test i Excel.

Men for det første, la oss fortsatt finne ut hva studentens kriterium er generelt. Denne indikatoren brukes til å kontrollere likheten mellom gjennomsnittsverdiene til to prøver. Det vil si at det bestemmer gyldigheten av forskjellene mellom to grupper av data. Samtidig brukes et helt sett med metoder for å bestemme dette kriteriet. Indikatoren kan beregnes med en en- eller to-halet fordeling.

Beregning av indikatoren i Excel

La oss nå gå videre til spørsmålet om hvordan du beregner denne indikatoren i Excel. Det kan gjøres gjennom funksjonen STUDENTTEST. I versjoner av Excel 2007 og tidligere ble det kalt TEST. Imidlertid ble den liggende i senere versjoner for kompatibilitetsformål, men det anbefales fortsatt å bruke en mer moderne i dem - STUDENTTEST. Denne funksjonen kan brukes på tre måter, som vil bli diskutert i detalj nedenfor.

Metode 1: Funksjonsveiviser

Den enkleste måten å beregne denne indikatoren på er gjennom funksjonsveiviseren.


Beregningen utføres, og resultatet vises på skjermen i en forhåndsvalgt celle.

Metode 2: Arbeide med Formler-fanen

Funksjon STUDENTTEST kan også ringes ved å gå til fanen "Formler" ved hjelp av en spesiell knapp på båndet.


Metode 3: manuell inntasting

Formel STUDENTTEST den kan også legges inn manuelt i en hvilken som helst celle på regnearket eller i funksjonslinjen. Syntaksen ser slik ut:

STUDENT.TEST(Array1,Array2,Tails,Type)

Hva hvert av argumentene betyr, ble vurdert ved analyse av den første metoden. Disse verdiene bør erstattes med denne funksjonen.

Etter at dataene er lagt inn, trykk på knappen Tast inn for å vise resultatet på skjermen.

Som du kan se, beregnes Studentens kriterium i Excel veldig enkelt og raskt. Hovedsaken er at brukeren som utfører beregningene må forstå hva han er og hvilke inndata som er ansvarlige for hva. Programmet utfører selv den direkte beregningen.