Kritiske Spearman rangerer korrelasjonsverdier. Anvendelse av Spearman og Pearson korrelasjon

37. Spearmans rangkorrelasjonskoeffisient.

S. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Spearmans rangkorrelasjonskoeffisient brukes i tilfeller der:
- variabler har rangeringsskala målinger;
- datafordelingen er for forskjellig fra normal eller ikke kjent i det hele tatt;
- prøver har et lite volum (N< 30).

Tolkningen av Spearman-rangkorrelasjonskoeffisienten er ikke forskjellig fra Pearson-koeffisienten, men betydningen er noe annerledes. For å forstå forskjellen mellom disse metodene og logisk rettferdiggjøre bruksområdene deres, la oss sammenligne formlene deres.

Pearson korrelasjonskoeffisient:

Spearman korrelasjonskoeffisient:

Som du kan se, varierer formlene betydelig. La oss sammenligne formlene

Pearson-korrelasjonsformelen bruker det aritmetiske gjennomsnittet og standardavviket til den korrelerte serien, men Spearman-formelen gjør det ikke. For å oppnå et adekvat resultat ved å bruke Pearson-formelen, er det derfor nødvendig at den korrelerte serien er nær normalfordelingen (gjennomsnittet og standardavviket er normale distribusjonsparametere). Dette er ikke relevant for Spearman-formelen.

Et element i Pearson-formelen er standardiseringen av hver serie i z-skala.

Som du kan se, er konverteringen av variabler til Z-skalaen tilstede i formelen for Pearson-korrelasjonskoeffisienten. Følgelig, for Pearson-koeffisienten, spiller skalaen til dataene ingen rolle i det hele tatt: for eksempel kan vi korrelere to variabler, hvorav den ene har min. = 0 og maks. = 1, og det andre min. = 100 og maks. = 1000. Uansett hvor forskjellig verdiområdet er, vil de alle bli konvertert til standard z-verdier som er like i skala.

Slik normalisering forekommer derfor ikke i Spearman-koeffisienten

EN OBLIGATORISK BETINGELSE FOR BRUK AV SPEARMAN-KOEFFIKSIENTEN ER LIKHETEN I REKKEN AV DE TO VARIABENE.

Før du bruker Spearman-koeffisienten for dataserier med forskjellige områder, er det nødvendig å rang. Rangering resulterer i at verdiene til disse seriene får samme minimum = 1 (minimumsrangering) og maksimum lik antall verdier (maksimum, siste rangering = N, dvs. maksimalt antall tilfeller i utvalget) .

I hvilke tilfeller kan du klare deg uten rangering?

Dette er tilfeller når dataene er opprinnelig rangeringsskala. For eksempel Rokeachs test av verdiorienteringer.

Dette er også tilfeller der antallet verdialternativer er lite og prøven inneholder et fast minimum og maksimum. For eksempel, i en semantisk differensial, minimum = 1, maksimum = 7.

Eksempel på beregning av Spearmans rangkorrelasjonskoeffisient

Rokeachs test av verdiorientering ble utført på to prøver X og Y. Mål: å finne ut hvor nære verdihierarkiene til disse prøvene er (bokstavelig talt, hvor like de er).

Den resulterende verdien r=0,747 kontrolleres av tabell over kritiske verdier. I følge tabellen, med N=18, er den oppnådde verdien signifikant på p-nivået<=0,005

Spearman og Kendal rangerer korrelasjonskoeffisienter

For variabler som tilhører en ordinalskala eller for variabler som ikke er underlagt en normalfordeling, samt for variabler som tilhører en intervallskala, beregnes Spearmans rangkorrelasjon i stedet for Pearson-koeffisienten. For å gjøre dette tildeles individuelle variabelverdier rangeringer, som deretter behandles ved hjelp av passende formler. For å oppdage rangekorrelasjon fjerner du avmerkingsboksen for standard Pearson-korrelasjon i dialogboksen Bivariate Correlations.... Aktiver i stedet Spearman-korrelasjonsberegningen. Denne beregningen vil gi følgende resultater. Rangekorrelasjonskoeffisientene er svært nær de tilsvarende verdiene til Pearson-koeffisientene (de opprinnelige variablene har en normalfordeling).

titkova-matmetody.pdf s. 45

Spearmans rangkorrelasjonsmetode lar deg bestemme tetthet (styrke) og retning

korrelasjon mellom to tegn eller to profiler (hierarkier) tegn.

For å beregne rangekorrelasjon er det nødvendig å ha to rader med verdier,

som kan rangeres. Slike serier med verdier kan være:

1) to tegn målt i samme gruppe fag;

2) to individuelle hierarkier av egenskaper, identifisert i to fag som bruker det samme

sett med funksjoner;

3) to gruppehierarkier av egenskaper,

4) individ og gruppe hierarki av funksjoner.

Først er indikatorene rangert separat for hver av egenskapene.

Som regel tildeles en lavere rangering til en lavere attributtverdi.

I det første tilfellet (to kjennetegn) er individuelle verdier rangert i henhold til den første

karakteristikk oppnådd av forskjellige fag, og deretter individuelle verdier for den andre

skilt.

Hvis to kjennetegn er positivt relatert, så emner med lave rangeringer

en av dem vil ha lave rangeringer i den andre, og fag som har høye rangeringer i

en av egenskapene vil også ha høye rangeringer for den andre egenskapen. For å beregne rs

forskjeller må bestemmes (d) mellom rekkene oppnådd av et gitt fag i begge

tegn. Deretter transformeres disse indikatorene d på en bestemt måte og trekkes fra 1. Enn

Jo mindre forskjellen er mellom rekkene, jo større r vil være, jo nærmere +1 vil den være.

Hvis det ikke er noen korrelasjon, vil alle rangeringer blandes og det vil være nei

ingen korrespondanse. Formelen er utformet slik at i dette tilfellet vil rs være nær 0.

Ved negativ korrelasjon lav rangering av fag på ett grunnlag

høye rangeringer på annet grunnlag vil korrespondere, og omvendt. Jo større avvik

mellom rekkene av fag på to variabler, jo nærmere rs er -1.

I det andre tilfellet (to individuelle profiler), er individuelle rangert

verdier oppnådd av hvert av de 2 fagene i henhold til en viss (det samme for dem

begge) sett med funksjoner. Den første rangeringen vil bli gitt til funksjonen med den laveste verdien; andre rangering -

et skilt med høyere verdi osv. Det er klart at alle egenskaper skal måles inn

de samme enhetene, ellers er rangering umulig. For eksempel er det umulig

ranger indikatorene på Cattell Personality Inventory (16PF), hvis de er uttrykt i

"rå" poeng, siden verdiområdene er forskjellige for forskjellige faktorer: fra 0 til 13, fra 0 til

20 og fra 0 til 26. Vi kan ikke si hvilken faktor som tar førsteplassen i

uttrykk til vi bringer alle verdiene til en enkelt skala (oftest er dette veggskalaen).

Hvis de individuelle hierarkiene til to fag er positivt relatert, så tegnene

å ha lave rangeringer i en av dem vil ha lave rangeringer i den andre, og omvendt.

For eksempel, hvis ett fags faktor E (dominans) har den laveste rangeringen, da

en annen testperson, bør den ha lav rangering hvis en testperson har faktor C

(emosjonell stabilitet) har høyest rangering, da må det andre faget også ha

denne faktoren har høy rangering osv.

I det tredje tilfellet (to gruppeprofiler) er gruppegjennomsnittsverdiene rangert,

oppnådd i 2 grupper av fag i henhold til et spesifikt sett, identisk for begge grupper

tegn. I det følgende er resonnementet det samme som i de to foregående sakene.

I tilfelle 4 (individuelle og gruppeprofiler) rangeres de separat

individuelle verdier for emnet og gruppegjennomsnittsverdier for samme sett

tegn som oppnås, som regel, ved å ekskludere dette individuelle emnet - han

deltar ikke i den gjennomsnittlige gruppeprofilen hans individuelle profil skal sammenlignes med

profil. Rank korrelasjon vil tillate deg å sjekke hvor konsekvent den enkelte og

gruppeprofiler.

I alle fire tilfellene bestemmes betydningen av den resulterende korrelasjonskoeffisienten

etter antall rangerte verdier N. I det første tilfellet vil denne mengden falle sammen med

prøvestørrelse n. I det andre tilfellet vil antall observasjoner være antall funksjoner,

utgjør hierarkiet. I tredje og fjerde tilfelle er N også antall sammenlignede

egenskaper, og ikke antall fag i grupper. Detaljerte forklaringer er gitt i eksemplene. Hvis

den absolutte verdien av rs når eller overskrider en kritisk verdi, korrelasjon

pålitelig.

Hypoteser.

Det er to mulige hypoteser. Det første gjelder sak 1, det andre gjelder de tre andre

Første versjon av hypoteser

H0: Korrelasjonen mellom variablene A og B er ikke forskjellig fra null.

H2: Korrelasjonen mellom variablene A og B er signifikant forskjellig fra null.

Andre versjon av hypoteser

H0: Korrelasjonen mellom hierarki A og B er ikke forskjellig fra null.

H2: Korrelasjonen mellom hierarki A og B er signifikant forskjellig fra null.

Begrensninger av rangkorrelasjonskoeffisienten

1. For hver variabel skal det presenteres minst 5 observasjoner. Øverste

prøvetakingsgrensen bestemmes av de tilgjengelige tabellene med kritiske verdier .

2. Spearmans rangkorrelasjonskoeffisient rs for et stort antall identiske

rangeringer for en eller begge sammenlignede variabler gir grove verdier. Ideelt sett

begge korrelerte serier må representere to sekvenser av divergerende

verdier. Dersom dette vilkåret ikke er oppfylt, må det gjøres en endring i

samme rekker.

Spearmans rangkorrelasjonskoeffisient beregnes ved å bruke formelen:

Hvis begge sammenlignede rangeringsserier inneholder grupper med samme rangering,

før du beregner rangkorrelasjonskoeffisienten, er det nødvendig å foreta korreksjoner for den samme

Ta og TV-ranger:

Ta = Σ (a3 – a)/12,

Тв = Σ (в3 – в)/12,

Hvor A - volumet til hver gruppe med identiske rangeringer i rangeringsrad A, in volum av hver

grupper med identiske rangeringer i rangeringsserien B.

For å beregne den empiriske verdien av rs, bruk formelen:

38. Punkt-biseriell korrelasjonskoeffisient.

Om korrelasjon generelt, se spørsmål nr. 36 Med. 56 (64) 063.JPG

harchenko-korranaliz.pdf

La variabel X måles på en sterk skala, og variabel Y på en dikotom skala. Punktbrpb beregnes ved å bruke formelen:

Her er x 1 gjennomsnittsverdien over X objekter med verdien "én" over Y;

x 0 - gjennomsnittsverdi over X objekter med en verdi på "null" over Y;

s x - standardavvik for alle verdier langs X;

n 1 - antall objekter "en" i Y, n 0 - antall objekter "null" i Y;

n = n 1 + n 0 – prøvestørrelse.

Punktbkan også beregnes ved å bruke andre ekvivalente uttrykk:

Her x– samlet gjennomsnittsverdi for variabelen X.

Punkt biserial korrelasjonskoeffisient rpb varierer fra –1 til +1. Verdien er null hvis variabler med en Y har et gjennomsnitt Y, lik gjennomsnittet av variabler med null over Y.

Undersøkelse signifikanshypoteser punkt biserial korrelasjonskoeffisient er å sjekke nullhypotesenh 0 om likheten mellom den generelle korrelasjonskoeffisienten til null: ρ = 0, som utføres ved hjelp av studentens t-test. Empirisk betydning

sammenlignet med kritiske verdier t en (df) for antall frihetsgrader df = n– 2

Hvis tilstanden | t| ≤ (df), er nullhypotesen ρ = 0 ikke forkastet. Punktbskiller seg betydelig fra null hvis den empiriske verdien | t| faller inn i det kritiske området, det vil si hvis tilstanden | t| > (n– 2). Relasjonens pålitelighet beregnet ved hjelp av punktbrpb, kan også bestemmes ved hjelp av kriteriet χ 2 for antall frihetsgrader df= 2.

Punkt biserial korrelasjon

Den påfølgende modifikasjonen av korrelasjonskoeffisienten til produktet av momenter ble reflektert i punktbiserialet r. Denne statistikken. viser forholdet mellom to variabler, hvorav den ene antas å være kontinuerlig og normalfordelt, og den andre er diskret i ordets strenge betydning. Punktber angitt med r pbis Siden i r pbis dikotomi gjenspeiler den sanne naturen til den diskrete variabelen, og er ikke kunstig, som i tilfellet r bis, dens fortegn bestemmes vilkårlig. Derfor for alle praktiske formål. mål r pbis vurderes i området fra 0,00 til +1,00.

Det er også tilfelle der to variabler antas å være kontinuerlige og normalfordelte, men begge er kunstig dikotomisert, som i tilfellet med biserial korrelasjon. For å vurdere sammenhengen mellom slike variabler brukes den tetrakoriske korrelasjonskoeffisienten r tet, som også ble oppdrettet av Pearson. Grunnleggende (eksakte) formler og prosedyrer for beregning r tet ganske komplisert. Derfor med praktisk Denne metoden bruker tilnærminger r tet,innhentet på grunnlag av forkortede prosedyrer og tabeller.

/on-line/dictionary/dictionary.php?term=511

PUNKT BISERIAL KOEFFISIENT er korrelasjonskoeffisienten mellom to variabler, den ene målt på en dikotom skala og den andre på en intervallskala. Den brukes i klassisk og moderne testing som en indikator på kvaliteten på en testoppgave - pålitelighet og konsistens med den samlede testresultatet.

For å korrelere variabler målt i dikotom og intervallskala bruk punkt-biseriell korrelasjonskoeffisient.
Den punkt-biserielle korrelasjonskoeffisienten er en metode for korrelasjonsanalyse av forholdet mellom variabler, hvorav den ene måles på en navneskala og tar bare 2 verdier (for eksempel menn/kvinner, riktig svar/falskt svar, funksjon tilstede/ikke tilstede), og den andre på en skalaforhold eller intervallskala. Formel for beregning av punkt-biseriell korrelasjonskoeffisient:

Hvor:
m1 og m0 er gjennomsnittsverdiene av X med en verdi på 1 eller 0 i Y.
σx – standardavvik for alle verdier med X
n1,n0 – antall X-verdier fra 1 eller 0 til Y.
n – totalt antall verdipar

Oftest brukes denne typen korrelasjonskoeffisient for å beregne forholdet mellom testelementer og totalskalaen. Dette er en type gyldighetssjekk.

39. Rang-biseriell korrelasjonskoeffisient.

Om korrelasjon generelt, se spørsmål nr. 36 Med. 56 (64) 063.JPG

harchenko-korranaliz.pdf s. 28

Ranger biserial korrelasjonskoeffisient, brukt i tilfeller der en av variablene ( X) presenteres i en ordensskala, og den andre ( Y) – dikotom, beregnet ved formelen

.

Her er den gjennomsnittlige rangeringen av objekter som har en inn Y; – gjennomsnittlig rangering av objekter med null til Y, n– prøvestørrelse.

Undersøkelse signifikanshypoteser Rang-butføres på samme måte som punktbved å bruke studentens test med erstatning i formlene rpbrrb.

I tilfeller der en variabel måles på en dikotom skala (variabel X), og den andre i rangskalaen (variabel Y), brukes rang-biseriell korrelasjonskoeffisient. Vi husker at variabelen X, målt på en dikotom skala, tar bare to verdier (koder) 0 og 1. Vi understreker spesielt: til tross for at denne koeffisienten varierer i området fra –1 til +1, spiller fortegnet ingen rolle for tolkningen av resultater. Dette er nok et unntak fra hovedregelen.

Denne koeffisienten beregnes ved hjelp av formelen:

hvor ` X 1 gjennomsnittlig rangering for disse elementene i variabelen Y, som tilsvarer kode (tegn) 1 i variabelen X;

`X 0 – gjennomsnittlig rangering for disse elementene i variabelen Y, som tilsvarer koden (tegnet) 0 i variabelen X\

N – totalt antall elementer i variabelen X.

For å bruke den rang-biserielle korrelasjonskoeffisienten, må følgende betingelser være oppfylt:

1. Variablene som sammenlignes må måles på forskjellige skalaer: en X – på en dikotom skala; annen Y– på en rangeringsskala.

2. Antall varierende egenskaper i de sammenlignede variablene X Og Y skal være det samme.

3. For å vurdere pålitelighetsnivået til den rang-biserielle korrelasjonskoeffisienten, bør du bruke formel (11.9) og tabellen over kritiske verdier for Student-kriteriet k = n – 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Tilfeller hvor en av variablene er representert i dikotom skala, og den andre inn rang (ordinær), krever søknad rang-biseriell korrelasjonskoeffisient:

rpb=2 / n * (m1 - m0)

Hvor:
n – antall måleobjekter
m1 og m0 - gjennomsnittlig rangering av objekter med 1 eller 0 på den andre variabelen.
Denne koeffisienten brukes også ved kontroll av testers gyldighet.

40. Lineær korrelasjonskoeffisient.

For korrelasjon generelt (og lineær korrelasjon spesielt), se spørsmål nr. 36 Med. 56 (64) 063.JPG

Mr. PEARSONS KOEFFICIENT

r-Pearson (Pearson r) brukes til å studere forholdet mellom to metriskeforskjellige variabler målt på samme utvalg. Det er mange situasjoner der bruken er hensiktsmessig. Påvirker intelligens akademiske prestasjoner i senior universitetsår? Er størrelsen på en ansatts lønn knyttet til hans vennlighet overfor kolleger? Påvirker en elevs humør suksessen til å løse et komplekst regneproblem? For å svare på slike spørsmål må forskeren måle to indikatorer av interesse for hvert medlem av utvalget. Dataene for å studere forholdet blir deretter tabellert, som i eksemplet nedenfor.

EKSEMPEL 6.1

Tabellen viser et eksempel på startdata for måling av to indikatorer på intelligens (verbal og nonverbal) for 20 8. klasseelever.

Forholdet mellom disse variablene kan avbildes ved hjelp av et spredningsplott (se figur 6.3). Diagrammet viser at det er en viss sammenheng mellom de målte indikatorene: Jo større verdi av verbal intelligens, jo (for det meste) jo større verdi av ikke-verbal intelligens.

Før du gir formelen for korrelasjonskoeffisienten, la oss prøve å spore logikken for dens forekomst ved å bruke dataene fra eksempel 6.1. Plasseringen av hvert /-punkt (emne med nummer /) på spredningsdiagrammet i forhold til de andre punktene (fig. 6.3) kan spesifiseres ved verdiene og tegn på avvik for de tilsvarende variabelverdiene fra deres gjennomsnittsverdier : (xj - MJ Og (hun ). Hvis tegnene på disse avvikene sammenfaller, indikerer dette en positiv sammenheng (større verdier for X store verdier tilsvarer eller lavere verdier X mindre verdier tilsvarer y).

For emne nr. 1, avvik fra gjennomsnittet X og av positiv, og for emne nr. 3 er begge avvikene negative. Følgelig indikerer dataene fra begge en positiv sammenheng mellom de studerte egenskapene. Tvert imot, hvis tegn på avvik fra gjennomsnittet X og av forskjellig, vil dette indikere et negativt forhold mellom egenskapene. For emne nr. 4 er altså avviket fra gjennomsnittet X er negativ, av y - positiv, og for emne nr. 9 - omvendt.

Således, hvis produktet av avvik (x,- M X ) X (hun ) positiv, så indikerer dataene til /-subjektet en direkte (positiv) sammenheng, og hvis negativ, så en omvendt (negativ) sammenheng. Følgelig, hvis Xwy y er generelt relatert i direkte proporsjon, så vil de fleste produktene av avvik være positive, og hvis de er relatert til en omvendt sammenheng, vil de fleste produktene være negative. Derfor kan en generell indikator for styrken og retningen til forholdet være summen av alle produkter av avvik for en gitt prøve:

Med et direkte proporsjonalt forhold mellom variabler er denne verdien stor og positiv - for de fleste fag faller avvikene sammen i fortegn (store verdier av en variabel tilsvarer store verdier av en annen variabel og omvendt). Hvis X Og ha tilbakemelding, så for de fleste fag vil større verdier av en variabel tilsvare mindre verdier av en annen variabel, dvs. at produktenes tegn vil være negative, og summen av produktene som helhet vil også være stor i absolutt verdi, men negativ i fortegn. Hvis det ikke er noen systematisk sammenheng mellom variablene, vil de positive leddene (produkter av avvik) balanseres med negative ledd, og summen av alle produkter av avvik vil være nær null.

For å sikre at summen av produktene ikke avhenger av prøvestørrelsen, er det nok å snitte den. Men vi er interessert i mål på sammenkobling ikke som en generell parameter, men som et beregnet estimat av det - statistikk. Derfor, når det gjelder dispersjonsformelen, vil vi i dette tilfellet gjøre det samme, dele summen av produktene av avvik ikke med N, og på TV - 1. Dette resulterer i et mål på sammenheng, mye brukt i fysikk og tekniske vitenskaper, som kalles kovarians (Covahance):


I I psykologi, i motsetning til fysikk, måles de fleste variabler på vilkårlige skalaer, siden psykologer ikke er interessert i den absolutte verdien av et tegn, men i den relative plasseringen av subjekter i en gruppe. I tillegg er kovarians veldig følsom for skalaen til skalaen (variansen) som egenskapene måles på. For å gjøre tilkoblingsmålet uavhengig av måleenhetene for begge egenskapene, er det nok å dele kovariansen inn i de tilsvarende standardavvikene. Dermed ble det oppnådd til-Muldyr av K. Pearson-korrelasjonskoeffisienten:

eller, etter å ha erstattet uttrykkene for o x og


Hvis verdiene til begge variablene ble konvertert til r-verdier ved å bruke formelen


da ser formelen for r-Pearson-korrelasjonskoeffisienten enklere ut (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

KORELLASJON LINEÆR- statistisk lineær sammenheng av ikke-årsaksmessig karakter mellom to kvantitative variabler X Og . Målt med "K.L koeffisient." Pearson, som er resultatet av å dele kovariansen med standardavvikene til begge variablene:

,

Hvor s xy- kovarians mellom variabler X Og ;

s x , s y- standardavvik for variabler X Og ;

x Jeg , y Jeg- variable verdier X Og for objekt med nummer Jeg;

x, y- aritmetiske gjennomsnitt for variabler X Og .

Pearson koeffisient r kan ta verdier fra intervallet [-1; +1]. Betydning r = 0 betyr at det ikke er noen lineær sammenheng mellom variabler X Og (men utelukker ikke en ikke-lineær statistisk sammenheng). Positive koeffisientverdier ( r> 0) indikerer en direkte lineær forbindelse; jo nærmere verdien er +1, jo sterkere er forholdet den statistiske linjen. Negative koeffisientverdier ( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r= ±1 betyr tilstedeværelsen av en fullstendig lineær forbindelse, direkte eller omvendt. Ved fullstendig tilkobling vil alle punkter med koordinater ( x Jeg , y Jeg) ligge på en rett linje y = en + bx.

"Koeffisienten K.L." Pearson brukes også til å måle koblingsstyrken i en lineær parvis regresjonsmodell.

41. Korrelasjonsmatrise og korrelasjonsgraf.

Om korrelasjon generelt, se spørsmål nr. 36 Med. 56 (64) 063.JPG

Korrelasjonsmatrise. Ofte inkluderer korrelasjonsanalyse studiet av sammenhenger mellom ikke to, men mange variabler målt på en kvantitativ skala i ett utvalg. I dette tilfellet beregnes korrelasjoner for hvert par av dette settet med variabler. Beregningene utføres vanligvis på en datamaskin, og resultatet er en korrelasjonsmatrise.

Korrelasjonsmatrise(Sammenheng Matrise) er resultatet av å beregne korrelasjoner av én type for hvert par fra settet R variabler målt på en kvantitativ skala i ett utvalg.

EKSEMPEL

Anta at vi studerer sammenhenger mellom 5 variabler (vl, v2,..., v5; P= 5), målt på en prøve av N=30 Menneskelig. Nedenfor er en tabell over kildedata og en korrelasjonsmatrise.

OG
lignende data:

Korrelasjonsmatrise:

Det er lett å legge merke til at korrelasjonsmatrisen er kvadratisk, symmetrisk i forhold til hoveddiagonalen (takkak,y = /) y), med enheter på hoveddiagonalen (siden G Og = Gu = 1).

Korrelasjonsmatrisen er torget: antall rader og kolonner er lik antall variabler. Hun symmetrisk i forhold til hoveddiagonalen, siden korrelasjonen X Med lik korrelasjon Med X. Enhetene er plassert på hoveddiagonalen, siden korrelasjonen av funksjonen med seg selv er lik én. Følgelig er ikke alle elementene i korrelasjonsmatrisen gjenstand for analyse, men de som er plassert over eller under hoveddiagonalen.

Antall korrelasjonskoeffisienter, Funksjoner som skal analyseres når man studerer sammenhenger bestemmes av formelen: P(P- 1)/2. I eksemplet ovenfor er antallet slike korrelasjonskoeffisienter 5(5 - 1)/2 = 10.

Hovedoppgaven med å analysere korrelasjonsmatrisen er identifisere strukturen av relasjoner mellom mange funksjoner. I dette tilfellet er visuell analyse mulig korrelasjonsgalakser- grafisk bilde strukturer statistiskmeningsfulle forbindelser, hvis det ikke er veldig mange slike forbindelser (opptil 10-15). En annen måte er å bruke multivariate metoder: multiple regresjons-, faktor- eller klyngeanalyse (se avsnittet "Multivariate metoder..."). Ved hjelp av faktor- eller klyngeanalyse er det mulig å identifisere grupperinger av variabler som er nærmere relatert til hverandre enn til andre variabler. En kombinasjon av disse metodene er også svært effektiv, for eksempel hvis det er mange tegn og de ikke er homogene.

Sammenligning av korrelasjoner - en tilleggsoppgave med å analysere korrelasjonsmatrisen, som har to alternativer. Dersom det er nødvendig å sammenligne korrelasjoner i en av radene i korrelasjonsmatrisen (for en av variablene), brukes sammenligningsmetoden for avhengige utvalg (s. 148-149). Ved sammenligning av korrelasjoner med samme navn beregnet for ulike utvalg, brukes sammenligningsmetoden for uavhengige utvalg (s. 147-148).

Sammenligningsmetoder korrelasjoner i diagonaler korrelasjonsmatrise (for å vurdere stasjonariteten til en tilfeldig prosess) og sammenligning flere korrelasjonsmatriser oppnådd for forskjellige prøver (for deres homogenitet) er arbeidskrevende og utenfor rammen av denne boken. Du kan bli kjent med disse metodene fra boken av G.V. Sukhodolsky 1.

Problemet med statistisk signifikans av korrelasjoner. Problemet er at prosedyren for statistisk hypotesetesting forutsetter en-flere test utført på én prøve. Hvis samme metode brukes gjentatte ganger, selv om i forhold til forskjellige variabler, øker sannsynligheten for å oppnå et resultat rent tilfeldig. Generelt, hvis vi gjentar den samme hypotesetestmetoden en gang i forhold til ulike variabler eller utvalg, så vil vi med den etablerte verdien a garantert få bekreftelse av hypotesen i ahk antall saker.

Anta at en korrelasjonsmatrise analyseres for 15 variabler, det vil si at 15(15-1)/2 = 105 korrelasjonskoeffisienter beregnes. For å teste hypoteser settes nivået a = 0,05. Ved å sjekke hypotesen 105 ganger vil vi få bekreftet den fem ganger (!), uavhengig av om sammenhengen faktisk eksisterer. Når vi vet dette og har for eksempel 15 "statistisk signifikante" korrelasjonskoeffisienter, kan vi fortelle hvilke som ble oppnådd ved en tilfeldighet og hvilke som reflekterer en reell sammenheng?

For å ta en statistisk avgjørelse er det strengt tatt nødvendig å redusere nivået a med like mange ganger som antall hypoteser som testes. Men dette er neppe tilrådelig, siden sannsynligheten for å ignorere en virkelig eksisterende forbindelse (gjøre en Type II-feil) øker på en uforutsigbar måte.

Korrelasjonsmatrisen alene er ikke et tilstrekkelig grunnlagfor statistiske konklusjoner angående de individuelle koeffisientene som er inkludert i denkorrelasjoner!

Det er bare én virkelig overbevisende måte å løse dette problemet på: del utvalget tilfeldig i to deler og ta kun hensyn til de korrelasjonene som er statistisk signifikante i begge deler av utvalget. Et alternativ kan være bruk av multivariate metoder (faktor-, klynge- eller multippel regresjonsanalyse) for å identifisere og deretter tolke grupper av statistisk signifikant relaterte variabler.

Problem med manglende verdier. Hvis det mangler verdier i dataene, er to alternativer mulige for å beregne korrelasjonsmatrisen: a) rad-for-rad fjerning av verdier (Utelukkesakerlistevis); b) parvis sletting av verdier (Utelukkesakerparvis). linje for linje sletting observasjoner med manglende verdier, slettes hele raden for et objekt (emne) som har minst én manglende verdi for en av variablene. Denne metoden fører til en "riktig" korrelasjonsmatrise i den forstand at alle koeffisienter beregnes fra samme sett med objekter. Imidlertid, hvis de manglende verdiene er fordelt tilfeldig i variablene, kan denne metoden føre til at det ikke er et eneste objekt igjen i datasettet som vurderes (det vil være minst en manglende verdi i hver rad) . For å unngå denne situasjonen, bruk en annen metode kalt parvis fjerning. Denne metoden tar kun hensyn til gap i hvert valgt kolonnevariabelpar og ignorerer gap i andre variabler. Korrelasjonen for et par av variabler beregnes for de objektene der det ikke er hull. I mange situasjoner, spesielt når antallet gap er relativt lite, for eksempel 10 %, og gapene er fordelt ganske tilfeldig, fører ikke denne metoden til alvorlige feil. Noen ganger er dette imidlertid ikke tilfelle. For eksempel kan en systematisk skjevhet (forskyvning) i vurderingen "gjemme" et systematisk arrangement av utelatelser, som er årsaken til forskjellen i korrelasjonskoeffisienter konstruert for forskjellige delmengder (for eksempel for forskjellige undergrupper av objekter). Et annet problem knyttet til korrelasjonsmatrisen beregnet med parvis fjerning av hull skjer ved bruk av denne matrisen i andre typer analyser (for eksempel i multippel regresjon eller faktoranalyse). De antar at den "riktige" korrelasjonsmatrisen brukes med et visst nivå av konsistens og "overholdelse" av forskjellige koeffisienter. Bruk av en matrise med "dårlige" (biased) estimater fører til at programmet enten ikke er i stand til å analysere en slik matrise, eller at resultatene vil være feilaktige. Derfor, hvis den parvise metoden for å ekskludere manglende data brukes, er det nødvendig å sjekke om det er systematiske mønstre i distribusjonen av manglende data.

Hvis parvis sletting av manglende data ikke fører til noe systematisk skift i gjennomsnitt og varians (standardavvik), vil denne statistikken være lik den som beregnes ved bruk av rad-for-rad-metoden for å slette manglende data. Dersom det observeres en betydelig forskjell, er det grunn til å anta at det er en forskyvning i estimatene. For eksempel hvis gjennomsnittet (eller standardavviket) av verdiene til en variabel EN, som ble brukt til å beregne korrelasjonen med variabelen I, mye mindre enn gjennomsnittet (eller standardavviket) for de samme verdiene til variabelen EN, som ble brukt til å beregne dens korrelasjon med variabelen C, så er det all grunn til å forvente at disse to korrelasjonene (A-Boss) basert på ulike delmengder av data. Det vil være en skjevhet i korrelasjonene forårsaket av ikke-tilfeldig plassering av gap i variabelverdiene.

Analyse av korrelasjonsgalakser. Etter å ha løst problemet med statistisk signifikans av elementene i korrelasjonsmatrisen, kan statistisk signifikante korrelasjoner representeres grafisk i form av en korrelasjonsgalakse eller galakse. Korrelasjonsgalakse - Dette er en figur som består av hjørner og linjer som forbinder dem. Toppene tilsvarer egenskapene og er vanligvis betegnet med tall - variable tall. Linjene tilsvarer statistisk signifikante sammenhenger og uttrykker grafisk tegnet og noen ganger j-signifikansnivået til forbindelsen.

Korrelasjonsgalaksen kan reflektere Alle statistisk signifikante forbindelser av korrelasjonsmatrisen (noen ganger kalt korrelasjonsgraf ) eller bare deres meningsfullt utvalgte del (for eksempel tilsvarende én faktor i henhold til resultatene av faktoranalyse).

EKSEMPEL PÅ Å KONSTRUERE EN KORELLASJONSPLEIADE


Forberedelse til den statlige (endelige) sertifiseringen av nyutdannede: dannelse av Unified State Exam-databasen (generell liste over Unified State Exam-deltakere i alle kategorier, som indikerer fag) - tar hensyn til reservedager i tilfelle de samme fagene;

  • Arbeidsplan (27)

    Løsning

    2. Utdanningsinstitusjonens aktiviteter for å forbedre innholdet og vurdere kvaliteten i fagene naturfag og matematikkutdanning Kommunal utdanningsinstitusjon ungdomsskole nr. 4, Litvinovskaya, Chapaevskaya,

  • I tilfeller hvor målingene av egenskapene som studeres utføres på en ordensskala, eller formen på sammenhengen er forskjellig fra lineær, utføres studien av sammenhengen mellom to stokastiske variabler ved bruk av rangkorrelasjonskoeffisienter. Vurder Spearman rangkorrelasjonskoeffisienten. Når du beregner det, er det nødvendig å rangere (bestille) prøvealternativene. Rangering er grupperingen av eksperimentelle data i en bestemt rekkefølge, enten stigende eller synkende.

    Rangeringsoperasjonen utføres i henhold til følgende algoritme:

    1. En lavere verdi tildeles en lavere rangering. Den høyeste verdien tildeles en rangering som tilsvarer antall rangerte verdier. Den minste verdien tildeles rangeringen 1. For eksempel, hvis n=7, vil den største verdien få rangeringen 7, bortsett fra i tilfeller gitt i den andre regelen.

    2. Hvis flere verdier er like, blir de tildelt en rangering som er gjennomsnittet av rangeringene de ville fått hvis de ikke var like. Som et eksempel kan du vurdere en stigende rekkefølge som består av 7 elementer: 22, 23, 25, 25, 25, 28, 30. Verdiene ​​22 og 23 vises én gang hver, så deres rangeringer er henholdsvis R22=1, og R23=2. Verdien 25 vises 3 ganger. Hvis disse verdiene ikke ble gjentatt, ville deres rangeringer være 3, 4, 5. Derfor er deres R25-rangering lik det aritmetiske gjennomsnittet av 3, 4 og 5: . Verdiene 28 og 30 gjentas ikke, så deres rangeringer er henholdsvis R28=6 og R30=7. Til slutt har vi følgende korrespondanse:

    3. Den totale summen av rangeringer må falle sammen med den beregnede, som bestemmes av formelen:

    hvor n er det totale antallet rangerte verdier.

    Et avvik mellom de faktiske og beregnede rangeringssummene vil indikere en feil ved beregning av rangeringer eller oppsummering. I dette tilfellet må du finne og fikse feilen.

    Spearmans rangkorrelasjonskoeffisient er en metode som lar en bestemme styrken og retningen til forholdet mellom to egenskaper eller to hierarkier av egenskaper. Bruken av rangkorrelasjonskoeffisienten har en rekke begrensninger:

    • a) Den antatte korrelasjonsavhengigheten må være monoton.
    • b) Volumet av hver prøve må være større enn eller lik 5. For å bestemme prøvens øvre grense, bruk tabeller med kritiske verdier (Tabell 3 i vedlegget). Den maksimale verdien av n i tabellen er 40.
    • c) Under analysen er det sannsynlig at det kan oppstå et stort antall identiske rangeringer. I dette tilfellet må det gjøres en endring. Det mest gunstige tilfellet er når begge prøvene som studeres representerer to sekvenser av divergerende verdier.

    For å gjennomføre en korrelasjonsanalyse må forskeren ha to utvalg som kan rangeres, for eksempel:

    • - to egenskaper målt i samme gruppe av fag;
    • - to individuelle hierarkier av egenskaper identifisert i to fag som bruker samme sett med egenskaper;
    • - to gruppehierarkier av egenskaper;
    • - individuelle og gruppe hierarkier av egenskaper.

    Vi begynner beregningen ved å rangere de studerte indikatorene separat for hver av egenskapene.

    La oss analysere et tilfelle med to tegn målt i samme gruppe forsøkspersoner. Først blir de individuelle verdiene oppnådd av forskjellige fag rangert i henhold til den første egenskapen, og deretter blir de individuelle verdiene rangert i henhold til den andre egenskapen. Hvis lavere rangeringer av en indikator tilsvarer lavere rangeringer av en annen indikator, og høyere rangeringer av en indikator tilsvarer høyere rangeringer av en annen indikator, er de to karakteristikkene positivt relatert. Hvis høyere rangeringer av en indikator tilsvarer lavere rangeringer av en annen indikator, er de to egenskapene negativt relatert. For å finne rs bestemmer vi forskjellene mellom rangeringene (d) for hvert fag. Jo mindre forskjellen er mellom rekkene, desto nærmere vil korrelasjonskoeffisienten rs være “+1”. Hvis det ikke er noen sammenheng, vil det ikke være samsvar mellom dem, derfor vil rs være nær null. Jo større forskjellen er mellom rekkene av forsøkspersoner på to variabler, jo nærmere "-1" vil verdien av rs-koeffisienten være. Dermed er Spearman-rangkorrelasjonskoeffisienten et mål på ethvert monotont forhold mellom de to egenskapene som studeres.

    La oss vurdere tilfellet med to individuelle hierarkier av egenskaper identifisert i to fag som bruker samme sett med egenskaper. I denne situasjonen blir de individuelle verdiene oppnådd av hvert av de to fagene rangert i henhold til et visst sett med egenskaper. Funksjonen med den laveste verdien må tildeles første rangering; karakteristikken med en høyere verdi er den andre rangeringen osv. Spesiell forsiktighet bør utvises for å sikre at alle attributter måles i de samme enhetene. For eksempel er det umulig å rangere indikatorer hvis de er uttrykt i forskjellige "pris" poeng, siden det er umulig å bestemme hvilken av faktorene som vil ta førsteplassen når det gjelder alvorlighetsgrad før alle verdier er brakt til en enkelt skala. Hvis funksjoner som har lav rangering i et av fagene også har lav rangering i et annet, og omvendt, så henger de enkelte hierarkiene positivt sammen.

    Når det gjelder to gruppehierarkier av egenskaper, er de gjennomsnittlige gruppeverdiene oppnådd i to grupper av fag rangert i henhold til samme sett med egenskaper for de studerte gruppene. Deretter følger vi algoritmen gitt i tidligere tilfeller.

    La oss analysere en sak med et individuelt og gruppehierarki av egenskaper. De begynner med å rangere individuelle verdier for faget og de gjennomsnittlige gruppeverdiene i henhold til det samme settet med egenskaper som ble oppnådd, unntatt subjektet som ikke deltar i det gjennomsnittlige gruppehierarkiet, siden hans individuelle hierarki vil være sammenlignet med det. Rangekorrelasjon lar oss vurdere graden av konsistens av individuelle og gruppehierarkiet av egenskaper.

    La oss vurdere hvordan betydningen av korrelasjonskoeffisienten bestemmes i tilfellene som er oppført ovenfor. Ved to kjennetegn vil det bli bestemt av prøvestørrelsen. Når det gjelder to individuelle funksjonshierarkier, avhenger betydningen av antall funksjoner som er inkludert i hierarkiet. I de to siste tilfellene bestemmes signifikans av antall egenskaper som studeres, og ikke av antall grupper. Dermed bestemmes betydningen av rs i alle tilfeller av antall rangerte verdier n.

    Når du sjekker den statistiske signifikansen til rs, brukes tabeller med kritiske verdier for rangkorrelasjonskoeffisienten, kompilert for forskjellige antall rangerte verdier og forskjellige signifikansnivåer. Hvis den absolutte verdien av rs når eller overskrider en kritisk verdi, er korrelasjonen pålitelig.

    Når man vurderer det første alternativet (et tilfelle med to tegn målt i samme gruppe forsøkspersoner), er følgende hypoteser mulige.

    H0: Korrelasjonen mellom variablene x og y er ikke forskjellig fra null.

    H1: Korrelasjonen mellom variablene x og y er signifikant forskjellig fra null.

    Hvis vi jobber med noen av de tre gjenværende tilfellene, er det nødvendig å legge frem et annet par hypoteser:

    H0: Korrelasjonen mellom hierarkier x og y er ikke forskjellig fra null.

    H1: Korrelasjonen mellom hierarkiene x og y er signifikant forskjellig fra null.

    Handlingssekvensen ved beregning av Spearman-rangkorrelasjonskoeffisienten rs er som følger.

    • - Bestem hvilke to funksjoner eller to hierarkier av funksjoner som vil delta i sammenligningen som variabler x og y.
    • - Ranger verdiene til variabelen x, og tilordne rang 1 til den minste verdien, i samsvar med rangeringsreglene. Plasser rangeringene i den første kolonnen i tabellen i rekkefølge etter testpersoner eller egenskaper.
    • - Ranger verdiene til variabelen y. Plasser rangeringene i den andre kolonnen i tabellen i rekkefølge etter testpersoner eller egenskaper.
    • - Regn ut forskjellene d mellom rekkene x og y for hver rad i tabellen. Plasser resultatene i neste kolonne i tabellen.
    • - Regn ut kvadratforskjellene (d2). Plasser de resulterende verdiene i den fjerde kolonnen i tabellen.
    • - Regn ut summen av kvadratforskjeller? d2.
    • - Hvis identiske rangeringer forekommer, beregn korreksjonene:

    hvor tx er volumet til hver gruppe med identiske rangeringer i prøve x;

    ty er volumet til hver gruppe med identiske rangeringer i prøve y.

    Beregn rangkorrelasjonskoeffisienten avhengig av tilstedeværelse eller fravær av identiske rangeringer. Hvis det ikke er identiske rangeringer, beregner rangekorrelasjonskoeffisienten rs ved å bruke formelen:

    Hvis det er identiske rangeringer, beregner rangekorrelasjonskoeffisienten rs ved å bruke formelen:

    hvor?d2 er summen av kvadrerte forskjeller mellom ranger;

    Tx og Ty - korreksjoner for like ranger;

    n er antall emner eller funksjoner som deltar i rangeringen.

    Bestem de kritiske verdiene for rs fra vedleggstabell 3 for et gitt antall emner n. En signifikant forskjell fra null av korrelasjonskoeffisienten vil bli observert forutsatt at rs ikke er mindre enn den kritiske verdien.

    er en kvantitativ vurdering av den statistiske studien av sammenhengen mellom fenomener, brukt i ikke-parametriske metoder.

    Indikatoren viser hvordan summen av kvadrerte forskjeller mellom rangeringer oppnådd under observasjon skiller seg fra tilfellet med ingen sammenheng.

    Formålet med tjenesten. Ved å bruke denne online kalkulatoren kan du:

    • beregning av Spearmans rangkorrelasjonskoeffisient;
    • å beregne konfidensintervallet for koeffisienten og vurdere dens betydning;

    Spearmans rangkorrelasjonskoeffisient viser til indikatorer for vurdering av kommunikasjonsnærhet. Den kvalitative karakteristikken for koblingens nærhet til rangkorrelasjonskoeffisienten, så vel som andre korrelasjonskoeffisienter, kan vurderes ved hjelp av Chaddock-skalaen.

    Beregning av koeffisient består av følgende trinn:

    Egenskaper til Spearmans rangkorrelasjonskoeffisient

    Bruksområde. Ranger korrelasjonskoeffisient brukes til å vurdere kvaliteten på kommunikasjonen mellom to populasjoner. I tillegg brukes dens statistiske signifikans ved analyse av data for heteroskedastisitet.

    Eksempel. Basert på et utvalg av observerte variabler X og Y:

    1. lage en rangeringstabell;
    2. finn Spearmans rangkorrelasjonskoeffisient og kontroller dens betydning på nivå 2a
    3. vurdere arten av avhengigheten
    Løsning. La oss tilordne rangeringer til funksjon Y og faktor X.
    XYranger X, d xrangering Y, d y
    28 21 1 1
    30 25 2 2
    36 29 4 3
    40 31 5 4
    30 32 3 5
    46 34 6 6
    56 35 8 7
    54 38 7 8
    60 39 10 9
    56 41 9 10
    60 42 11 11
    68 44 12 12
    70 46 13 13
    76 50 14 14

    Rangeringsmatrise.
    ranger X, d xrangering Y, d y(d x - d y) 2
    1 1 0
    2 2 0
    4 3 1
    5 4 1
    3 5 4
    6 6 0
    8 7 1
    7 8 1
    10 9 1
    9 10 1
    11 11 0
    12 12 0
    13 13 0
    14 14 0
    105 105 10

    Kontrollere riktigheten av matrisen basert på kontrollsumberegningen:

    Summen av kolonnene i matrisen er lik hverandre og kontrollsummen, noe som betyr at matrisen er riktig komponert.
    Ved å bruke formelen beregner vi Spearman rangkorrelasjonskoeffisienten.


    Forholdet mellom egenskap Y og faktor X er sterk og direkte
    Betydningen av Spearmans rangkorrelasjonskoeffisient
    For å teste nullhypotesen på signifikansnivået α at den generelle Spearman rangkorrelasjonskoeffisienten er lik null under den konkurrerende hypotesen Hi. p ≠ 0, vi må beregne det kritiske punktet:

    hvor n er prøvestørrelsen; ρ er prøven Spearman rangkorrelasjonskoeffisient: t(α, k) er det kritiske punktet for det tosidige kritiske området, som finnes fra tabellen over kritiske punkter i Studentfordelingen, i henhold til signifikansnivået α og tallet av frihetsgrader k = n-2.
    Hvis |p|< Т kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если |p| >T kp - nullhypotesen forkastes. Det er en signifikant rangkorrelasjon mellom kvalitative egenskaper.
    Ved å bruke elevens tabell finner vi t(α/2, k) = (0,1/2;12) = 1,782

    Siden T kp< ρ , то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.

    Denne kalkulatoren nedenfor beregner Spearmans rangkorrelasjonskoeffisient mellom to tilfeldige variabler Den teoretiske delen er tradisjonell under kalkulatoren.

    Legg til import Eksport mode_edit slette

    Endringer av tilfeldige variabler

    arrow_upwardarrow_downward arrow_upwardarrow_downward
    Artikler per side: 5 10 20 50 100 chevron_venstre chevron_right

    Endringer av tilfeldige variabler

    Importer data Importfeil

    "Et av følgende tegn brukes til å skille datafelt: tabulator, semikolon (;) eller komma(,)" Eksempel: -50.5;-50.5

    Importer Tilbake Avbryt

    Sifre etter desimaltegn: 4

    Regne ut

    Spearmans korrelasjonskoeffisient

    Lagre dele Utvidelse

    Metoden for Spearmans ranger faktisk ganske enkel. Den er som utformet Pearson-korrelasjonskoeffisienten, men ikke bare for målinger av tilfeldige variabler, men for dem rangeringsverdier.

    Vi trenger bare å forstå hva som er rangeringsverdien og hvorfor alt dette er nødvendig.

    Hvis elementene i en variasjonsserie arrangert i stigende eller synkende rekkefølge, at rang av elementet vil være nummeret hans i ordnede serier.

    For eksempel har vi en varierende serie (17,26,5,14,21). La oss sortere elementene i synkende rekkefølge (26,21,17,14,5). 26 har en rangering på 1, 21 - rangering av 2 og så videre, Variasjonsserier med rangeringsverdier vil se slik ut (3,1,5,4,2).

    Dvs. ved beregning av Spearmans koeffisient konverteres innledende variasjonsserier til variasjonsserier av rangeringsverdier og deretter brukes Pearsons formel på dem.
    .
    Det er en subtilitet - rangeringen av de gjentatte verdiene tas som gjennomsnittet av rekkene. Det vil si at for en serie (17, 15, 14, 15) vil rangeringsserien se ut som (1, 2.5, 4, 2.5), ettersom det første elementet er 15 har en rangering på 2, og det andre - rangering av 3, og.

    Hvis du ikke har de gjentatte verdiene, det vil si alle verdiene i rangeringsserier - tallene mellom 1 og n, kan Pearsons formel forenkles til

    Forresten, denne formelen er ofte gitt som formelen for å beregne Spearmans koeffisient.

    Hva er essensen av overgangen fra verdiene selv til deres rangeringsverdi?
    Når du undersøker korrelasjonen mellom rangeringsverdier, kan du finne hvor godt avhengigheten av de to variablene er beskrevet av en monoton funksjon.

    Tegnet til koeffisienten indikerer retningen til forholdet mellom variabler. Hvis fortegnet er positivt, har verdiene til Y en tendens til å øke med økningen av X. Hvis fortegnet er negativt, har verdiene til Y en tendens til å avta med økningen av X. Hvis koeffisienten er 0 er ingen tendens da. Hvis koeffisienten er lik 1 eller -1, har forholdet mellom X og Y et utseende av monoton funksjon, dvs. med økningen av X, øker Y også og omvendt.

    Det vil si at i motsetning til Pearsons korrelasjonskoeffisient, som bare kan detektere det lineære forholdet til en variabel fra en annen, kan Spearmans korrelasjonskoeffisient oppdage monoton avhengighet, der den direkte lineære sammenhengen ikke kan avsløres.

    Her er et eksempel.
    La meg forklare med et eksempel. La oss anta at vi undersøker funksjonen y=10/x.
    Vi har følgende målinger av X og Y
    {{1,10}, {5,2}, {10,1}, {20,0.5}, {100,0.1}}
    For disse dataene er Pearson korrelasjonskoeffisient lik -0,4686, dvs. forholdet er svakt eller fraværende. Og Spearmans korrelasjonskoeffisient er strengt tatt lik -1, som om det er hint til forskeren om at Y har en sterkt negativ monoton avhengighet av X.

    Rangekorrelasjonskoeffisienten, foreslått av K. Spearman, refererer til et ikke-parametrisk mål på forholdet mellom variabler målt på en rangeringsskala. Ved beregning av denne koeffisienten kreves det ingen forutsetninger om karakteren av egenskapsfordelingene i populasjonen. Denne koeffisienten bestemmer graden av nærhet av forbindelse mellom ordinære egenskaper, som i dette tilfellet representerer rekkene til de sammenlignede mengdene.

    Spearman-korrelasjonskoeffisienten ligger også i området +1 og -1. Den, som Pearson-koeffisienten, kan være positiv og negativ, og karakteriserer retningen av forholdet mellom to egenskaper målt på en rangeringsskala.

    I prinsippet kan antallet rangerte funksjoner (kvaliteter, egenskaper osv.) være hvilket som helst, men prosessen med å rangere mer enn 20 funksjoner er vanskelig. Det er mulig at dette er grunnen til at tabellen over kritiske verdier for rangkorrelasjonskoeffisienten bare ble beregnet for førti rangerte funksjoner (n)< 40, табл. 20 приложения 6).

    Spearmans rangkorrelasjonskoeffisient beregnes ved å bruke formelen:

    hvor n er antall rangerte funksjoner (indikatorer, emner);

    D er forskjellen mellom rangeringene for to variabler for hvert fag;

    Summen av kvadrerte rangeringsforskjeller.

    Ved å bruke rang-korrelasjonskoeffisienten kan du vurdere følgende eksempel.

    Eksempel: En psykolog finner ut hvordan individuelle indikatorer for skoleberedskap, innhentet før skolestart blant 11 førsteklassinger, er relatert til hverandre og deres gjennomsnittlige prestasjoner ved slutten av skoleåret.

    For å løse dette problemet rangerte vi for det første verdiene av indikatorer for skoleberedskap oppnådd ved opptak til skolen, og for det andre de endelige indikatorene for akademiske prestasjoner på slutten av året for de samme elevene i gjennomsnitt. Vi presenterer resultatene i tabellen. 1. 3.

    Tabell 13

    Studentnr.

    Rangering av skoleberedskapsindikatorer

    Gjennomsnittlig årlig prestasjonsrangering

    Vi erstatter de oppnådde dataene i formelen og utfører beregningen. Vi får:

    For å finne signifikansnivået, se tabellen. 20 i vedlegg 6, som viser de kritiske verdiene for rangkorrelasjonskoeffisientene.

    Vi understreker det i tabellen. 20 i vedlegg 6, som i tabellen for lineær Pearson-korrelasjon, er alle verdier av korrelasjonskoeffisienter gitt i absolutt verdi. Derfor blir tegnet på korrelasjonskoeffisienten bare tatt i betraktning når det tolkes.

    Å finne signifikansnivåene i denne tabellen utføres med tallet n, dvs. ved antall fag. I vårt tilfelle er n = 11. For dette tallet finner vi:

    0,61 for P 0,05

    0,76 for P 0,01

    Vi konstruerer den tilsvarende ``signifikansaksen'':

    Den resulterende korrelasjonskoeffisienten falt sammen med den kritiske verdien for signifikansnivået på 1 %. Følgelig kan det argumenteres for at indikatorene for skoleberedskap og sluttkarakterene til førsteklassingene henger sammen med en positiv korrelasjon – med andre ord, jo høyere indikatoren på skoleberedskap er, desto bedre blir førsteklassingene. Når det gjelder statistiske hypoteser, må psykologen forkaste nullhypotesen om likhet og akseptere den alternative hypotesen om forskjeller, som antyder at forholdet mellom indikatorer på skoleberedskap og gjennomsnittlig akademisk ytelse er forskjellig fra null.

    Tilfellet med identiske (like) rangeringer

    Hvis det er identiske rangeringer, vil formelen for beregning av Spearman lineære korrelasjonskoeffisient være litt annerledes. I dette tilfellet legges to nye termer til formelen for beregning av korrelasjonskoeffisienter, under hensyntagen til de samme rangeringene. De kalles like rang-korreksjoner og legges til telleren til beregningsformelen.

    hvor n er antall identiske rangeringer i den første kolonnen,

    k er antall identiske rangeringer i den andre kolonnen.

    Hvis det er to grupper med identiske rangeringer i en kolonne, blir korreksjonsformelen noe mer komplisert:

    hvor n er antall identiske rangeringer i den første gruppen i den rangerte kolonnen,

    k er antallet identiske rangeringer i den andre gruppen i den rangerte kolonnen. Modifikasjonen av formelen i det generelle tilfellet er som følger:

    Eksempel: En psykolog, ved hjelp av en mental utviklingstest (MDT), gjennomfører en studie av intelligens hos 12 elever i 9. klasse. Samtidig ber han lærere i litteratur og matematikk om å rangere de samme elevene etter indikatorer på mental utvikling. Oppgaven er å finne ut hvordan objektive indikatorer på mental utvikling (SHTUR-data) og ekspertvurderinger av lærere er relatert til hverandre.

    Vi presenterer de eksperimentelle dataene for dette problemet og de ekstra kolonnene som er nødvendige for å beregne Spearman-korrelasjonskoeffisienten i form av en tabell. 14.

    Tabell 14

    Studentnr.

    Rangering av testing med SHTURA

    Ekspertvurderinger av lærere i matematikk

    Ekspertvurderinger av lærere på litteratur

    D (andre og tredje kolonne)

    D (andre og fjerde kolonne)

    (andre og tredje kolonne)

    (andre og fjerde kolonne)

    Siden de samme rangeringene ble brukt i rangeringen, er det nødvendig å kontrollere riktigheten av rangeringen i den andre, tredje og fjerde kolonnen i tabellen. Å summere hver av disse kolonnene gir den samme summen - 78.

    Vi sjekker ved hjelp av beregningsformelen. Sjekken gir:

    Den femte og sjette kolonnen i tabellen viser verdiene av forskjellen i rangering mellom psykologens ekspertvurderinger på SHTUR-testen for hver elev og verdiene av lærernes ekspertvurderinger, henholdsvis i matematikk og litteratur. Summen av rangdifferanseverdiene må være lik null. Å summere D-verdiene i den femte og sjette kolonnen ga ønsket resultat. Derfor ble subtraksjonen av rangeringer utført riktig. En lignende sjekk må gjøres hver gang når man gjennomfører komplekse typer rangering.

    Før du starter beregningen ved hjelp av formelen, er det nødvendig å beregne korreksjoner for de samme rangeringene for den andre, tredje og fjerde kolonnen i tabellen.

    I vårt tilfelle, i den andre kolonnen i tabellen er det to identiske rangeringer, derfor, i henhold til formelen, vil verdien av korreksjonen D1 være:

    Den tredje kolonnen inneholder tre identiske rangeringer, derfor, i henhold til formelen, vil verdien av korreksjonen D2 være:

    I den fjerde kolonnen i tabellen er det to grupper med tre identiske rangeringer, derfor, i henhold til formelen, vil verdien av korreksjonen D3 være:

    Før vi fortsetter med å løse problemet, la oss huske at psykologen avklarer to spørsmål - hvordan verdiene til rangeringer på SHTUR-testen er relatert til ekspertvurderinger i matematikk og litteratur. Derfor utføres beregningen to ganger.

    Vi beregner den første rangeringskoeffisienten under hensyntagen til tilsetningsstoffer i henhold til formelen. Vi får:

    La oss beregne uten å ta hensyn til tilsetningsstoffet:

    Som vi kan se, viste forskjellen i verdiene til korrelasjonskoeffisientene seg å være svært ubetydelig.

    Vi beregner den andre rangeringskoeffisienten under hensyntagen til tilsetningsstoffer i henhold til formelen. Vi får:

    La oss beregne uten å ta hensyn til tilsetningsstoffet:

    Igjen var forskjellene svært små. Siden antall elever i begge tilfeller er det samme, ifølge Tabell. 20 i vedlegg 6 finner vi de kritiske verdiene ved n = 12 for begge korrelasjonskoeffisientene samtidig.

    0,58 for P 0,05

    0,73 for P 0,01

    Vi plotter den første verdien på ``signifikansaksen'':

    I det første tilfellet er den oppnådde rangkorrelasjonskoeffisienten i sonen for signifikans. Derfor må psykologen forkaste nullhypotesen om at korrelasjonskoeffisienten er lik null og akseptere den alternative hypotesen om at korrelasjonskoeffisienten er signifikant forskjellig fra null. Med andre ord, det oppnådde resultatet tyder på at jo høyere studentenes ekspertvurderinger på SHTUR-testen, desto høyere ekspertvurderinger i matematikk.

    Vi plotter den andre verdien på ``signifikansaksen'':

    I det andre tilfellet er rangkorrelasjonskoeffisienten i usikkerhetssonen. Derfor kan en psykolog akseptere nullhypotesen om at korrelasjonskoeffisienten er lik null og forkaste den alternative hypotesen om at korrelasjonskoeffisienten er signifikant forskjellig fra null. I dette tilfellet tyder det oppnådde resultatet på at studentenes ekspertvurderinger på SHTUR-testen ikke er relatert til ekspertvurderinger på litteratur.

    For å bruke Spearman-korrelasjonskoeffisienten må følgende betingelser være oppfylt:

    1. Variablene som sammenlignes må innhentes på en ordinær (rang)skala, men kan også måles på en intervall- og forholdsskala.

    2. Arten av fordelingen av korrelerte mengder spiller ingen rolle.

    3. Antallet varierende egenskaper i de sammenlignede variablene X og Y må være det samme.

    Tabeller for å bestemme de kritiske verdiene til Spearman-korrelasjonskoeffisienten (tabell 20, vedlegg 6) beregnes fra antall egenskaper lik n = 5 til n = 40, og med et større antall sammenlignede variabler, er tabellen for Pearson korrelasjonskoeffisient bør benyttes (tabell 19, vedlegg 6). Å finne kritiske verdier utføres ved k = n.