Spearman correlation analysis, praktikal na pangangalakal na may mga halimbawa. Isang halimbawa ng paghahanap ng koepisyent ng ugnayan ng ranggo ng Spearman

ay isang quantitative assessment ng istatistikal na pag-aaral ng ugnayan sa pagitan ng phenomena, na ginagamit sa mga nonparametric na pamamaraan.

Ipinapakita ng indicator kung paano naiiba ang kabuuan ng mga squared na pagkakaiba sa pagitan ng mga ranggo na nakuha sa panahon ng pagmamasid sa kaso ng walang koneksyon.

Layunin ng serbisyo. Gamit ang online na calculator na ito maaari mong:

pagkalkula ng koepisyent ng ugnayan ng ranggo ng Spearman;
pagkalkula ng agwat ng kumpiyansa para sa koepisyent at pagtatasa ng kahalagahan nito;

Koepisyent ng ugnayan ng ranggo ng Spearman ay tumutukoy sa mga tagapagpahiwatig para sa pagtatasa ng lapit ng komunikasyon. Ang katangian ng husay ng pagiging malapit ng koneksyon ng koepisyent ng ugnayan ng ranggo, pati na rin ang iba pang mga coefficient ng ugnayan, ay maaaring masuri gamit ang sukat ng Chaddock.

Pagkalkula ng koepisyent ay binubuo ng mga sumusunod na hakbang:

Mga katangian ng koepisyent ng ugnayan ng ranggo ng Spearman

Lugar ng aplikasyon. Koepisyent ng ugnayan ng ranggo ginamit upang masuri ang kalidad ng komunikasyon sa pagitan ng dalawang populasyon. Bilang karagdagan, ang istatistikal na kahalagahan nito ay ginagamit kapag sinusuri ang data para sa heteroskedasticity.

Halimbawa. Batay sa isang sample ng mga naobserbahang variable X at Y:

lumikha ng isang talahanayan ng pagraranggo;
hanapin ang rank correlation coefficient ng Spearman at suriin ang kahalagahan nito sa antas 2a
tasahin ang katangian ng pagtitiwala

Solusyon. Magtalaga tayo ng mga ranggo sa tampok na Y at factor X.

X	Y	ranggo X, d x	ranggo Y, d y
28	21	1	1
30	25	2	2
36	29	4	3
40	31	5	4
30	32	3	5
46	34	6	6
56	35	8	7
54	38	7	8
60	39	10	9
56	41	9	10
60	42	11	11
68	44	12	12
70	46	13	13
76	50	14	14

Rank matrix.

ranggo X, d x	ranggo Y, d y	(d x - d y) 2
1	1	0
2	2	0
4	3	1
5	4	1
3	5	4
6	6	0
8	7	1
7	8	1
10	9	1
9	10	1
11	11	0
12	12	0
13	13	0
14	14	0
105	105	10

Sinusuri ang kawastuhan ng matrix batay sa pagkalkula ng checksum:

Ang kabuuan ng mga haligi ng matrix ay katumbas ng bawat isa at ang checksum, na nangangahulugan na ang matrix ay binubuo ng tama.
Gamit ang formula, kinakalkula namin ang koepisyent ng ugnayan ng ranggo ng Spearman.

Ang relasyon sa pagitan ng katangian Y at kadahilanan X ay malakas at direkta
Kahalagahan ng koepisyent ng ugnayan ng ranggo ng Spearman
Upang masubukan ang null hypothesis sa antas ng kahalagahan α na ang pangkalahatang koepisyent ng ugnayan ng ranggo ng Spearman ay katumbas ng zero sa ilalim ng nakikipagkumpitensyang hypothesis na Hi. p ≠ 0, kailangan nating kalkulahin ang kritikal na punto:

kung saan ang n ay ang sample size; Ang ρ ay ang sample na Spearman rank correlation coefficient: ang t(α, k) ay ang kritikal na punto ng dalawang panig na kritikal na rehiyon, na makikita mula sa talahanayan ng mga kritikal na punto ng distribusyon ng Mag-aaral, ayon sa antas ng kahalagahan α at ang bilang ng mga antas ng kalayaan k = n-2.
Kung |p|< Т kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если |p| >T kp - ang null hypothesis ay tinanggihan. Mayroong makabuluhang ugnayan sa ranggo sa pagitan ng mga katangian ng husay.
Gamit ang talahanayan ng Estudyante, makikita natin ang t(α/2, k) = (0.1/2;12) = 1.782

Since T kp< ρ , то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.

37. Koepisyent ng ugnayan ng ranggo ng Spearman.

S. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Ginagamit ang rank correlation coefficient ng Spearman sa mga kaso kung saan:
- may mga variable iskala ng pagraranggo mga sukat;
- masyadong naiiba ang pamamahagi ng data sa normal o hindi kilala sa lahat;
- ang mga sample ay may maliit na dami (N< 30).

Ang interpretasyon ng koepisyent ng ugnayan ng ranggo ng Spearman ay hindi naiiba sa koepisyent ng Pearson, ngunit ang kahulugan nito ay medyo naiiba. Upang maunawaan ang pagkakaiba sa pagitan ng mga pamamaraang ito at lohikal na bigyang-katwiran ang kanilang mga lugar ng aplikasyon, ihambing natin ang kanilang mga formula.

Pearson correlation coefficient:

Koepisyent ng ugnayan ng Spearman:

Tulad ng nakikita mo, ang mga formula ay naiiba nang malaki. Ihambing natin ang mga formula

Ang pormula ng ugnayan ng Pearson ay gumagamit ng arithmetic mean at standard deviation ng magkakaugnay na serye, ngunit ang Spearman formula ay hindi. Kaya, upang makakuha ng sapat na resulta gamit ang Pearson formula, kinakailangan na ang magkakaugnay na serye ay malapit sa normal na distribusyon (ang mean at standard deviation ay normal na mga parameter ng pamamahagi). Hindi ito nauugnay sa formula ng Spearman.

Ang isang elemento ng Pearson formula ay ang standardisasyon ng bawat serye sa z-scale.

Tulad ng nakikita mo, ang conversion ng mga variable sa Z-scale ay naroroon sa formula para sa koepisyent ng ugnayan ng Pearson. Alinsunod dito, para sa koepisyent ng Pearson, ang sukat ng data ay hindi mahalaga: halimbawa, maaari nating iugnay ang dalawang variable, ang isa ay may min. = 0 at max. = 1, at ang pangalawang min. = 100 at max. = 1000. Gaano man kaiba ang hanay ng mga halaga, lahat sila ay mako-convert sa karaniwang z-values na pareho sa sukat.

Ang ganitong normalisasyon ay hindi nangyayari sa koepisyent ng Spearman, samakatuwid

ISANG MANDATORYONG KUNDISYON PARA SA PAGGAMIT NG SPEARMAN COEFFICIENT AY ANG PANTAY NG RANGE NG DALAWANG VARIABLE.

Bago gamitin ang koepisyent ng Spearman para sa serye ng data na may iba't ibang saklaw, kinakailangan na ranggo. Ang pagraranggo ay nagreresulta sa mga halaga ng mga seryeng ito na nakakakuha ng parehong minimum = 1 (minimum na ranggo) at isang maximum na katumbas ng bilang ng mga halaga (maximum, huling ranggo = N, ibig sabihin, ang maximum na bilang ng mga kaso sa sample) .

Sa anong mga kaso maaari mong gawin nang walang pagraranggo?

Ang mga ito ay mga kaso kapag ang data ay sa una iskala ng pagraranggo. Halimbawa, ang pagsubok ni Rokeach sa mga oryentasyon ng halaga.

Gayundin, ito ay mga kaso kapag ang bilang ng mga pagpipilian sa halaga ay maliit at ang sample ay naglalaman ng isang nakapirming minimum at maximum. Halimbawa, sa isang semantic differential, minimum = 1, maximum = 7.

Halimbawa ng pagkalkula ng koepisyent ng ugnayan ng ranggo ng Spearman

Ang pagsubok ng mga oryentasyon ng halaga ni Rokeach ay isinagawa sa dalawang sample na X at Y. Layunin: upang malaman kung gaano kalapit ang mga hierarchies ng mga halaga ng mga sample na ito (sa literal, kung gaano sila magkatulad).

Ang resultang halaga r=0.747 ay sinuri ng talahanayan ng mga kritikal na halaga. Ayon sa talahanayan, na may N=18, ang nakuhang halaga ay makabuluhan sa antas ng p<=0,005

Mga koepisyent ng ugnayan sa ranggo ng Spearman at Kendal

Para sa mga variable na kabilang sa isang ordinal scale o para sa mga variable na hindi napapailalim sa isang normal na distribusyon, gayundin para sa mga variable na kabilang sa isang interval scale, ang Spearman rank correlation ay kinakalkula sa halip na ang Pearson coefficient. Upang gawin ito, ang mga indibidwal na variable na halaga ay itinalaga ng mga ranggo, na kasunod na pinoproseso gamit ang naaangkop na mga formula. Upang makita ang ugnayan ng ranggo, i-clear ang default na Pearson correlation check box sa Bivariate Correlations... dialog box. Sa halip, i-activate ang pagkalkula ng ugnayan ng Spearman. Ang pagkalkulang ito ay magbibigay ng mga sumusunod na resulta. Ang mga koepisyent ng ugnayan ng ranggo ay napakalapit sa kaukulang mga halaga ng mga coefficient ng Pearson (ang mga orihinal na variable ay may normal na pamamahagi).

titkova-matmetody.pdf p. 45

Ang paraan ng ugnayan ng ranggo ng Spearman ay nagpapahintulot sa iyo na matukoy ang higpit (lakas) at direksyon

ugnayan sa pagitan ng dalawang palatandaan o dalawang profile (hierarchies) palatandaan.

Upang makalkula ang ugnayan ng ranggo, kinakailangan na magkaroon ng dalawang hanay ng mga halaga,

na maaaring i-rank. Ang nasabing serye ng mga halaga ay maaaring:

1) dalawang palatandaan sinusukat sa pareho pangkat mga paksa;

2) dalawang indibidwal na hierarchy ng mga katangian, nakilala sa dalawang paksa gamit ang pareho

hanay ng mga tampok;

3) dalawa pangkat hierarchies ng mga katangian,

4) indibidwal at pangkat hierarchy ng mga tampok.

Una, ang mga tagapagpahiwatig ay niraranggo nang hiwalay para sa bawat isa sa mga katangian.

Bilang isang panuntunan, ang isang mas mababang ranggo ay itinalaga sa isang mas mababang halaga ng katangian.

Sa unang kaso (dalawang katangian), ang mga indibidwal na halaga ay niraranggo ayon sa una

katangian na nakuha ng iba't ibang mga paksa, at pagkatapos ay mga indibidwal na halaga para sa pangalawa

tanda.

Kung ang dalawang katangian ay positibong nauugnay, ang mga paksang may mababang ranggo

ang isa sa kanila ay magkakaroon ng mababang ranggo sa isa, at ang mga paksang may mataas na ranggo sa

ang isa sa mga katangian ay magkakaroon din ng mataas na ranggo para sa iba pang katangian. Upang makalkula ang rs

kailangang matukoy ang mga pagkakaiba (d) sa pagitan ng mga ranggo na nakuha ng isang ibinigay na paksa sa pareho

palatandaan. Pagkatapos ang mga tagapagpahiwatig na ito ay binabago sa isang tiyak na paraan at ibinabawas sa 1. Kaysa

Kung mas maliit ang pagkakaiba sa pagitan ng mga ranggo, mas malaki ang magiging rs, mas malapit ito sa +1.

Kung walang ugnayan, lahat ng ranggo ay magkakahalo at walang

walang sulat. Ang formula ay idinisenyo upang sa kasong ito ang rs ay magiging malapit sa 0.

Sa kaso ng negatibong ugnayan mababang ranggo ng mga paksa sa isang batayan

mataas na ranggo sa ibang batayan ay tumutugma, at vice versa. Mas malaki ang pagkakaiba

sa pagitan ng mga ranggo ng mga paksa sa dalawang variable, ang mas malapit na rs ay sa -1.

Sa pangalawang kaso (dalawang indibidwal na profile), ang mga indibidwal ay niraranggo

mga halaga na nakuha ng bawat isa sa 2 paksa ayon sa isang tiyak (pareho para sa kanila

pareho) hanay ng mga tampok. Ang unang ranggo ay ibibigay sa tampok na may pinakamababang halaga; pangalawang ranggo -

isang tanda na may mas mataas na halaga, atbp. Malinaw, ang lahat ng mga katangian ay dapat masukat sa

ang parehong mga yunit, kung hindi, ang pagraranggo ay imposible. Halimbawa, imposible

ranggo ang mga indicator sa Cattell Personality Inventory (16PF), kung ang mga ito ay ipinahayag sa

"raw" na mga puntos, dahil ang mga saklaw ng mga halaga ay naiiba para sa iba't ibang mga kadahilanan: mula 0 hanggang 13, mula 0 hanggang

20 at mula 0 hanggang 26. Hindi natin masasabi kung aling salik ang mauuna

expression hanggang dalhin namin ang lahat ng mga halaga sa isang solong sukat (kadalasan ito ang sukat ng dingding).

Kung ang mga indibidwal na hierarchies ng dalawang paksa ay positibong nauugnay, kung gayon ang mga palatandaan

ang pagkakaroon ng mababang ranggo sa isa sa kanila ay magkakaroon ng mababang ranggo sa isa pa, at kabaliktaran.

Halimbawa, kung ang factor E (dominance) ng isang paksa ay may pinakamababang ranggo, kung gayon

isa pang test subject, mababa ang rank kung may factor C ang isang test subject

(katatagan ng emosyon) ang may pinakamataas na ranggo, kung gayon ang ibang paksa ay dapat na mayroon din

ang salik na ito ay may mataas na ranggo, atbp.

Sa pangatlong kaso (dalawang profile ng grupo), niraranggo ang average na halaga ng grupo,

nakuha sa 2 grupo ng mga paksa ayon sa isang tiyak na hanay, magkapareho para sa parehong grupo

palatandaan. Sa mga sumusunod, ang linya ng pangangatwiran ay kapareho ng sa nakaraang dalawang kaso.

Sa kaso 4 (indibidwal at pangkat na mga profile), sila ay niraranggo nang hiwalay

indibidwal na mga halaga ng paksa at pangkat ng mga average na halaga para sa parehong hanay

mga palatandaan na nakuha, bilang panuntunan, sa pamamagitan ng pagbubukod ng indibidwal na paksang ito - siya

ay hindi lumalahok sa karaniwang profile ng grupo kung saan ihahambing ang kanyang indibidwal na profile

profile. Ang ugnayan ng ranggo ay magbibigay-daan sa iyo upang suriin kung gaano pare-pareho ang indibidwal at

mga profile ng grupo.

Sa lahat ng apat na kaso, ang kahalagahan ng resultang koepisyent ng ugnayan ay tinutukoy

sa pamamagitan ng bilang ng mga niraranggo na halaga N. Sa unang kaso, ang dami na ito ay magkakasabay sa

laki ng sample n. Sa pangalawang kaso, ang bilang ng mga obserbasyon ay ang bilang ng mga tampok,

bumubuo sa hierarchy. Sa ikatlo at pang-apat na kaso, ang N ay ang bilang din ng kumpara

katangian, at hindi ang bilang ng mga paksa sa mga pangkat. Ang mga detalyadong paliwanag ay ibinigay sa mga halimbawa. Kung

ang ganap na halaga ng rs ay umabot o lumampas sa isang kritikal na halaga, ugnayan

maaasahan.

Hypotheses.

Mayroong dalawang posibleng hypotheses. Nalalapat ang una sa case 1, ang pangalawa sa tatlo pa

Unang bersyon ng hypotheses

H0: Ang ugnayan sa pagitan ng mga variable A at B ay hindi naiiba sa zero.

H2: Ang ugnayan sa pagitan ng mga variable A at B ay makabuluhang naiiba mula sa zero.

Pangalawang bersyon ng hypotheses

H0: Ang ugnayan sa pagitan ng hierarchies A at B ay hindi naiiba sa zero.

H2: Ang ugnayan sa pagitan ng hierarchies A at B ay makabuluhang naiiba mula sa zero.

Mga limitasyon ng koepisyent ng ugnayan ng ranggo

1. Para sa bawat variable, hindi bababa sa 5 obserbasyon ang dapat ipakita. Itaas

ang hangganan ng sampling ay tinutukoy ng mga magagamit na talahanayan ng mga kritikal na halaga .

2. Ang koepisyent ng ugnayan ng ranggo ng Spearman ay rs para sa isang malaking bilang ng magkapareho

Ang mga ranggo para sa isa o pareho na pinaghahambing na mga variable ay nagbibigay ng mga magaspang na halaga. Sa isip

parehong magkakaugnay na serye ay dapat na kumakatawan sa dalawang sequence ng divergent

mga halaga. Kung hindi matugunan ang kundisyong ito, kailangang gumawa ng pagbabago sa

parehong ranggo.

Ang koepisyent ng ugnayan ng ranggo ng Spearman ay kinakalkula gamit ang formula:

Kung ang parehong pinaghahambing na serye ng ranggo ay naglalaman ng mga pangkat ng parehong ranggo,

bago kalkulahin ang koepisyent ng ugnayan ng ranggo, kinakailangan na gumawa ng mga pagwawasto para sa pareho

Mga ranggo ng Ta at TV:

Ta = Σ (a3 – a)/12,

Тв = Σ (в3 – в)/12,

saan A- ang dami ng bawat pangkat ng magkatulad na ranggo sa ranggo serye A, sa – dami ng bawat isa

mga pangkat ng magkatulad na ranggo sa serye ng ranggo B.

Upang kalkulahin ang empirical na halaga ng rs, gamitin ang formula:

38. Point-biserial correlation coefficient.

Tungkol sa ugnayan sa pangkalahatan, tingnan ang tanong Blg. 36 Sa. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Hayaang sukatin ang variable X sa isang malakas na sukat, at variable Y sa isang dichotomous scale. Ang point biserial correlation coefficient rpb ay kinakalkula gamit ang formula:

Dito ang x 1 ay ang average na halaga sa mga X na bagay na may halaga na "isa" sa Y;

x 0 – average na halaga sa mga X na bagay na may halagang “zero” sa Y;

s x - karaniwang paglihis ng lahat ng mga halaga kasama ang X;

n 1 - bilang ng mga bagay na "isa" sa Y, n 0 - bilang ng mga bagay na "zero" sa Y;

n = n 1 + n 0 – laki ng sample.

Ang point biserial correlation coefficient ay maaari ding kalkulahin gamit ang iba pang katumbas na expression:

Dito x– pangkalahatang average na halaga para sa variable X.

Point biserial correlation coefficient rpb nag-iiba mula -1 hanggang +1. Ang halaga nito ay zero kung ang mga variable ay may isa Y magkaroon ng average Y, katumbas ng average ng mga variable na may zero over Y.

Pagsusulit mga hypotheses ng kahalagahan point biserial correlation coefficient ay upang suriin null hypothesish 0 tungkol sa pagkakapantay-pantay ng pangkalahatang koepisyent ng ugnayan sa zero: ρ = 0, na isinasagawa gamit ang t-test ng Estudyante. Empirical na kahalagahan

kumpara sa mga kritikal na halaga t a (df) para sa bilang ng mga antas ng kalayaan df = n– 2

Kung ang kondisyon | t| ≤ tα(df), ang null hypothesis ρ = 0 ay hindi tinatanggihan. Ang point biserial correlation coefficient ay malaki ang pagkakaiba sa zero kung ang empirical value | t| nahuhulog sa kritikal na rehiyon, iyon ay, kung ang kondisyon | t| > tα(n– 2). Ang pagiging maaasahan ng relasyon na kinakalkula gamit ang point biserial correlation coefficient rpb, maaari ding matukoy gamit ang criterion χ 2 para sa bilang ng mga antas ng kalayaan df= 2.

Point biserial correlation

Ang kasunod na pagbabago ng koepisyent ng ugnayan ng produkto ng mga sandali ay makikita sa puntong biserial r. Itong stat. ay nagpapakita ng ugnayan sa pagitan ng dalawang baryabol, ang isa ay diumano'y tuloy-tuloy at normal na ipinamamahagi, at ang isa ay discrete sa mahigpit na kahulugan ng salita. Ang punto biserial correlation coefficient ay tinutukoy ng r pbis Since in r pbis Ang dichotomy ay sumasalamin sa tunay na katangian ng discrete variable, at hindi pagiging artipisyal, tulad ng sa kaso r bis, ang tanda nito ay tinutukoy nang arbitraryo. Samakatuwid, para sa lahat ng praktikal na layunin. mga layunin r pbis isinasaalang-alang sa hanay mula 0.00 hanggang +1.00.

Mayroon ding kaso kung saan ang dalawang variable ay ipinapalagay na tuluy-tuloy at normal na ipinamamahagi, ngunit pareho ay artipisyal na dichotomized, tulad ng sa kaso ng biserial correlation. Upang masuri ang kaugnayan sa pagitan ng mga naturang variable, ginagamit ang tetrachoric correlation coefficient r tet, na pinalaki rin ni Pearson. Basic (eksaktong) mga formula at pamamaraan para sa pagkalkula r tet medyo kumplikado. Samakatuwid, may praktikal Ang pamamaraang ito ay gumagamit ng mga pagtatantya r tet,nakuha batay sa mga pinaikling pamamaraan at talahanayan.

/on-line/dictionary/dictionary.php?term=511

POINT BISERIAL COEFFICIENT ay ang koepisyent ng ugnayan sa pagitan ng dalawang variable, ang isa ay sinusukat sa isang dichotomous scale at ang isa sa isang interval scale. Ginagamit ito sa klasikal at modernong pagsubok bilang isang tagapagpahiwatig ng kalidad ng isang gawain sa pagsubok - pagiging maaasahan at pagkakapare-pareho sa pangkalahatang marka ng pagsusulit.

Upang iugnay ang mga variable na sinusukat sa dichotomous at interval scale gamitin point-biserial correlation coefficient.
Ang point-biserial correlation coefficient ay isang paraan ng pagsusuri ng ugnayan ng mga variable, ang isa ay sinusukat sa isang sukat ng mga pangalan at tumatagal lamang ng 2 halaga (halimbawa, lalaki/babae, tamang sagot/maling sagot, tampok kasalukuyan/hindi kasalukuyan), at ang pangalawa sa isang scale ratios o interval scale. Formula para sa pagkalkula ng point-biserial correlation coefficient:

saan:
Ang m1 at m0 ay ang average na halaga ng X na may halaga na 1 o 0 sa Y.
σx – karaniwang paglihis ng lahat ng halaga ng X
n1,n0 – bilang ng mga halaga ng X mula 1 o 0 hanggang Y.
n – kabuuang bilang ng mga pares ng mga halaga

Kadalasan, ang ganitong uri ng koepisyent ng ugnayan ay ginagamit upang kalkulahin ang kaugnayan sa pagitan ng mga item sa pagsubok at ng kabuuang sukat. Ito ay isang uri ng validity check.

39. Rank-biserial correlation coefficient.

Tungkol sa ugnayan sa pangkalahatan, tingnan ang tanong Blg. 36 Sa. 56 (64) 063.JPG

harchenko-korranaliz.pdf p. 28

Rank biserial correlation coefficient, ginagamit sa mga kaso kung saan ang isa sa mga variable ( X) ay ipinakita sa isang ordinal na sukat, at ang iba pa ( Y) – dichotomous, kinakalkula ng formula

Narito ang average na ranggo ng mga bagay na mayroong isa Y; – average na ranggo ng mga bagay na may zero hanggang Y, n– laki ng sample.

Pagsusulit mga hypotheses ng kahalagahan Ang rank-biserial correlation coefficient ay isinasagawa katulad ng point biserial correlation coefficient gamit ang Student's test na may kapalit sa mga formula rpb sa rrb.

Sa mga kaso kung saan ang isang variable ay sinusukat sa isang dichotomous scale (variable X), at ang isa pa sa rank scale (variable Y), ang rank-biserial correlation coefficient ay ginagamit. Naaalala namin na ang variable X, sinusukat sa isang dichotomous scale, tumatagal lamang ng dalawang halaga (mga code) 0 at 1. Lalo naming binibigyang-diin: sa kabila ng katotohanan na ang koepisyent na ito ay nag-iiba sa saklaw mula -1 hanggang +1, ang tanda nito ay hindi mahalaga para sa interpretasyon ng resulta. Ito ay isa pang pagbubukod sa pangkalahatang tuntunin.

Ang koepisyent na ito ay kinakalkula gamit ang formula:

saan ` X 1– average na ranggo para sa mga elemento ng variable Y, na tumutugma sa code (sign) 1 sa variable X;

`X 0 – average na ranggo para sa mga elemento ng variable Y, na tumutugma sa code (sign) 0 sa variable X\

N – kabuuang bilang ng mga elemento sa variable X.

Upang mailapat ang rank-biserial correlation coefficient, ang mga sumusunod na kondisyon ay dapat matugunan:

1. Ang mga variable na inihahambing ay dapat masukat sa iba't ibang sukat: isa X – sa isang dichotomous scale; iba pa Y– sa iskala ng ranggo.

2. Bilang ng iba't ibang katangian sa inihambing na mga variable X At Y dapat pareho.

3. Upang masuri ang antas ng pagiging maaasahan ng rank-biserial correlation coefficient, dapat mong gamitin ang formula (11.9) at ang talahanayan ng mga kritikal na halaga para sa pagsusulit ng Mag-aaral k = n – 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Mga kaso kung saan kinakatawan ang isa sa mga variable dichotomous scale, at ang iba pa sa ranggo (ordinal), nangangailangan ng aplikasyon rank-biserial correlation coefficient:

rbb=2 / n * (m1 - m0)

saan:
n – bilang ng mga bagay sa pagsukat
m1 at m0 - ang average na ranggo ng mga bagay na may 1 o 0 sa pangalawang variable.
Ginagamit din ang koepisyent na ito kapag sinusuri ang bisa ng mga pagsusulit.

40. Linear correlation coefficient.

Para sa correlation sa pangkalahatan (at linear correlation sa partikular), tingnan ang tanong Blg. 36 Sa. 56 (64) 063.JPG

G. PEARSON'S COEFFICIENT

r-Pearson (Pearson r) ay ginagamit upang pag-aralan ang relasyon sa pagitan ng dalawang sukataniba't ibang mga variable na sinusukat sa parehong sample. Mayroong maraming mga sitwasyon kung saan ang paggamit nito ay angkop. Nakakaapekto ba ang katalinuhan sa akademikong pagganap sa mga taon ng senior unibersidad? May kaugnayan ba ang laki ng suweldo ng isang empleyado sa kanyang pagiging palakaibigan sa mga kasamahan? Nakakaapekto ba ang mood ng isang mag-aaral sa tagumpay ng paglutas ng isang kumplikadong problema sa aritmetika? Upang masagot ang mga naturang katanungan, dapat sukatin ng mananaliksik ang dalawang tagapagpahiwatig ng interes para sa bawat miyembro ng sample. Ang data upang pag-aralan ang relasyon ay pagkatapos ay i-tabulated, tulad ng sa halimbawa sa ibaba.

HALIMBAWA 6.1

Ang talahanayan ay nagpapakita ng isang halimbawa ng paunang data para sa pagsukat ng dalawang tagapagpahiwatig ng katalinuhan (berbal at nonverbal) para sa 20 mga mag-aaral sa ika-8 baitang.

Ang ugnayan sa pagitan ng mga variable na ito ay maaaring ilarawan gamit ang isang scatterplot (tingnan ang Figure 6.3). Ipinapakita ng diagram na mayroong ilang ugnayan sa pagitan ng mga nasusukat na tagapagpahiwatig: mas malaki ang halaga ng verbal intelligence, ang (karamihan) mas malaki ang halaga ng non-verbal intelligence.

Bago ibigay ang formula para sa koepisyent ng ugnayan, subukan nating subaybayan ang lohika ng paglitaw nito gamit ang data mula sa halimbawa 6.1. Ang posisyon ng bawat /-point (paksa na may numero /) sa scatter diagram na nauugnay sa iba pang mga punto (Larawan 6.3) ay maaaring tukuyin ng mga halaga at palatandaan ng mga paglihis ng kaukulang mga variable na halaga mula sa kanilang mga average na halaga : (xj - MJ At (isip sa ). Kung ang mga palatandaan ng mga paglihis na ito ay nag-tutugma, kung gayon ito ay nagpapahiwatig ng isang positibong relasyon (mas malaking halaga para sa X malaking halaga ang tumutugma sa sa o mas mababang halaga X mas maliliit na halaga ang tumutugma sa y).

Para sa paksa No. 1, paglihis mula sa average X at sa pamamagitan ng sa positibo, at para sa paksa Blg. 3 parehong mga paglihis ay negatibo. Dahil dito, ang data mula sa pareho ay nagpapahiwatig ng isang positibong relasyon sa pagitan ng mga pinag-aralan na katangian. Sa laban, kung ang mga palatandaan ng deviations mula sa average X at sa pamamagitan ng sa magkaiba, ito ay magsasaad ng negatibong relasyon sa pagitan ng mga katangian. Kaya, para sa paksa Blg. 4, ang paglihis mula sa average X ay negatibo, sa pamamagitan ng y - positibo, at para sa paksa No. 9 - vice versa.

Kaya, kung ang produkto ng mga paglihis (x,- M X ) X (isip sa ) positibo, pagkatapos ay ang data ng /-subject ay nagpapahiwatig ng isang direktang (positibong) relasyon, at kung negatibo, pagkatapos ay isang baligtad (negatibong) relasyon. Alinsunod dito, kung Xwy y ay karaniwang nauugnay sa direktang proporsyon, kung gayon ang karamihan sa mga produkto ng mga deviation ay magiging positibo, at kung ang mga ito ay nauugnay sa isang kabaligtaran na relasyon, kung gayon ang karamihan sa mga produkto ay magiging negatibo. Samakatuwid, ang isang pangkalahatang tagapagpahiwatig para sa lakas at direksyon ng relasyon ay maaaring ang kabuuan ng lahat ng mga produkto ng mga paglihis para sa isang naibigay na sample:

Sa isang direktang proporsyonal na ugnayan sa pagitan ng mga variable, ang halaga na ito ay malaki at positibo - para sa karamihan ng mga paksa, ang mga paglihis ay nag-tutugma sa sign (malalaking halaga ng isang variable ay tumutugma sa malalaking halaga ng isa pang variable at vice versa). Kung X At sa magkaroon ng feedback, kung gayon para sa karamihan ng mga paksa, ang mas malalaking halaga ng isang variable ay tumutugma sa mas maliit na halaga ng isa pang variable, ibig sabihin, ang mga palatandaan ng mga produkto ay magiging negatibo, at ang kabuuan ng mga produkto sa kabuuan ay magiging malaki din sa ganap na halaga, ngunit negatibo sa sign. Kung walang sistematikong koneksyon sa pagitan ng mga variable, ang mga positibong termino (mga produkto ng deviations) ay magiging balanse ng mga negatibong termino, at ang kabuuan ng lahat ng mga produkto ng deviations ay magiging malapit sa zero.

Upang matiyak na ang kabuuan ng mga produkto ay hindi nakadepende sa laki ng sample, sapat na ang pag-average nito. Ngunit kami ay interesado sa sukatan ng pagkakabit hindi bilang isang pangkalahatang parameter, ngunit bilang isang kinakalkula na pagtatantya nito - mga istatistika. Samakatuwid, para sa formula ng pagpapakalat, sa kasong ito ay gagawin natin ang pareho, hatiin ang kabuuan ng mga produkto ng mga paglihis hindi sa pamamagitan ng N, at sa TV - 1. Nagreresulta ito sa isang sukatan ng koneksyon, malawakang ginagamit sa pisika at teknikal na agham, na tinatawag na covariance (Covahance):

Sa sikolohiya, hindi katulad ng pisika, ang karamihan sa mga variable ay sinusukat sa mga di-makatwirang sukat, dahil ang mga psychologist ay hindi interesado sa ganap na halaga ng isang tanda, ngunit sa kamag-anak na posisyon ng mga paksa sa isang grupo. Bilang karagdagan, ang covariance ay napakasensitibo sa sukat ng sukat (variance) kung saan sinusukat ang mga katangian. Upang gawing independyente ang sukat ng koneksyon sa mga yunit ng pagsukat ng parehong mga katangian, sapat na upang hatiin ang covariance sa mga kaukulang standard deviations. Kaya ito ay nakuha para sa-Mule ng K. Pearson correlation coefficient:

o, pagkatapos palitan ang mga expression para sa o x at

Kung ang mga halaga ng parehong mga variable ay na-convert sa mga r-halaga gamit ang formula

pagkatapos ay ang formula para sa r-Pearson correlation coefficient ay mukhang mas simple (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

CORRELATION LINEAR- istatistikal na linear na relasyon na hindi sanhi ng kalikasan sa pagitan ng dalawang quantitative variable X At sa. Sinusukat gamit ang "K.L coefficient." Pearson, na resulta ng paghahati ng covariance sa mga standard deviations ng parehong variable:

saan s xy- covariance sa pagitan ng mga variable X At sa;

s x , s y- standard deviations para sa mga variable X At sa;

x i , y i- mga variable na halaga X At sa para sa bagay na may numero i;

x, y- mga average ng arithmetic para sa mga variable X At sa.

Koepisyent ng Pearson r maaaring kumuha ng mga halaga mula sa pagitan [-1; +1]. Ibig sabihin r = 0 nangangahulugan na walang linear na relasyon sa pagitan ng mga variable X At sa(ngunit hindi nagbubukod ng isang nonlinear na istatistikal na relasyon). Mga positibong halaga ng koepisyent ( r> 0) ipahiwatig ang isang direktang linear na koneksyon; mas malapit ang value nito sa +1, mas malakas ang ugnayan ng statistical line. Mga negatibong halaga ng koepisyent ( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r= ±1 ay nangangahulugan ng pagkakaroon ng isang kumpletong linear na koneksyon, direkta o baligtad. Sa kaso ng kumpletong koneksyon, lahat ng mga punto na may mga coordinate ( x i , y i) humiga sa isang tuwid na linya y = a + bx.

"Coefficient K.L." Ginagamit din ang Pearson upang sukatin ang lakas ng koneksyon sa isang linear pairwise regression model.

41. Correlation matrix at correlation graph.

Tungkol sa ugnayan sa pangkalahatan, tingnan ang tanong Blg. 36 Sa. 56 (64) 063.JPG

Correlation matrix. Kadalasan, kasama sa pagsusuri ng ugnayan ang pag-aaral ng mga relasyon sa pagitan ng hindi dalawa, ngunit maraming mga variable na sinusukat sa isang quantitative scale sa isang sample. Sa kasong ito, kinakalkula ang mga ugnayan para sa bawat pares ng hanay ng mga variable na ito. Ang mga kalkulasyon ay karaniwang isinasagawa sa isang computer, at ang resulta ay isang correlation matrix.

Correlation matrix(Kaugnayan Matrix) ay ang resulta ng pagkalkula ng mga ugnayan ng isang uri para sa bawat pares mula sa set R mga variable na sinusukat sa isang quantitative scale sa isang sample.

HALIMBAWA

Ipagpalagay na pinag-aaralan natin ang mga relasyon sa pagitan ng 5 variable (vl, v2,..., v5; P= 5), sinusukat sa isang sample ng N=30 Tao. Nasa ibaba ang isang talahanayan ng source data at isang correlation matrix.

AT
katulad na data:

Correlation matrix:

Madaling mapansin na ang correlation matrix ay parisukat, simetriko na may paggalang sa pangunahing dayagonal (takkak,y = /) y), na may mga yunit sa pangunahing dayagonal (dahil G At = Gu = 1).

Ang correlation matrix ay parisukat: ang bilang ng mga row at column ay katumbas ng bilang ng mga variable. Siya simetriko kamag-anak sa pangunahing dayagonal, dahil ang ugnayan X Sa sa katumbas ng ugnayan sa Sa X. Ang mga yunit ay matatagpuan sa pangunahing dayagonal nito, dahil ang ugnayan ng tampok sa sarili nito ay katumbas ng isa. Dahil dito, hindi lahat ng elemento ng correlation matrix ay napapailalim sa pagsusuri, ngunit ang mga nasa itaas o ibaba ng pangunahing dayagonal.

Bilang ng mga coefficient ng ugnayan, Ang mga tampok na susuriin kapag pinag-aaralan ang mga relasyon ay tinutukoy ng formula: P(P- 1)/2. Sa halimbawa sa itaas, ang bilang ng naturang mga coefficient ng ugnayan ay 5(5 - 1)/2 = 10.

Ang pangunahing gawain ng pag-aaral ng correlation matrix ay pagtukoy sa istruktura ng mga relasyon sa pagitan ng maraming mga tampok. Sa kasong ito, posible ang visual analysis correlation galaxy- graphic na imahe mga istruktura ayon sa istatistikamakabuluhang koneksyon, kung hindi masyadong maraming ganoong koneksyon (hanggang 10-15). Ang isa pang paraan ay ang paggamit ng mga multivariate na pamamaraan: multiple regression, factor o cluster analysis (tingnan ang seksyong “Multivariate method...”). Gamit ang factor o cluster analysis, posibleng matukoy ang mga pagpapangkat ng mga variable na mas malapit na nauugnay sa isa't isa kaysa sa iba pang mga variable. Ang isang kumbinasyon ng mga pamamaraan na ito ay napaka-epektibo, halimbawa, kung mayroong maraming mga palatandaan at hindi sila homogenous.

Paghahambing ng mga ugnayan - isang karagdagang gawain ng pagsusuri sa correlation matrix, na mayroong dalawang pagpipilian. Kung kinakailangan upang ihambing ang mga ugnayan sa isa sa mga hilera ng correlation matrix (para sa isa sa mga variable), ang paraan ng paghahambing para sa mga umaasang sample ay ginagamit (p. 148-149). Kapag naghahambing ng mga ugnayan ng parehong pangalan na kinakalkula para sa iba't ibang mga sample, ang paraan ng paghahambing para sa mga independiyenteng sample ay ginagamit (p. 147-148).

Mga pamamaraan ng paghahambing mga ugnayan sa mga dayagonal correlation matrix (upang masuri ang stationarity ng isang random na proseso) at paghahambing ilang Ang mga correlation matrice na nakuha para sa iba't ibang sample (para sa kanilang homogeneity) ay labor-intensive at lampas sa saklaw ng aklat na ito. Maaari kang maging pamilyar sa mga pamamaraang ito mula sa aklat ni G.V. Sukhodolsky 1.

Ang problema ng istatistikal na kahalagahan ng mga ugnayan. Ang problema ay ang pamamaraan para sa statistical hypothesis testing ay ipinapalagay isa-maramihan isinagawa ang pagsubok sa isang sample. Kung ang parehong paraan ay inilapat paulit-ulit, kahit na may kaugnayan sa iba't ibang mga variable, ang posibilidad na makakuha ng isang resulta na puro sa pamamagitan ng pagkakataon ay tumataas. Sa pangkalahatan, kung uulitin natin ang parehong paraan ng pagsubok sa hypothesis minsan na may kaugnayan sa iba't ibang mga variable o sample, pagkatapos ay may itinatag na halaga a kami ay ginagarantiyahan na makatanggap ng kumpirmasyon ng hypothesis sa ahk bilang ng mga kaso.

Ipagpalagay na ang isang correlation matrix ay nasuri para sa 15 variable, iyon ay, 15(15-1)/2 = 105 correlation coefficients ang kinakalkula. Upang subukan ang mga hypothesis, itinakda ang antas a = 0.05. Sa pamamagitan ng pagsuri sa hypothesis ng 105 beses, makakatanggap kami ng kumpirmasyon nito ng limang beses (!), hindi alintana kung ang koneksyon ay aktwal na umiiral. Ang pag-alam nito at pagkakaroon, sabihin nating, 15 na "makabuluhang istatistika" na koepisyent ng ugnayan, masasabi ba natin kung alin ang nakuha ng pagkakataon at alin ang nagpapakita ng tunay na relasyon?

Sa mahigpit na pagsasalita, upang makagawa ng isang istatistikal na desisyon, kinakailangan na bawasan ang antas a nang kasing dami ng bilang ng mga hypotheses na sinusuri. Ngunit hindi ito maipapayo, dahil ang posibilidad na balewalain ang isang talagang umiiral na koneksyon (paggawa ng Type II error) ay tumataas sa isang hindi mahuhulaan na paraan.

Ang correlation matrix lamang ay hindi sapat na batayanpara sa mga istatistikal na konklusyon tungkol sa mga indibidwal na coefficient na kasama ditomga ugnayan!

Mayroon lamang isang tunay na nakakumbinsi na paraan upang malutas ang problemang ito: hatiin ang sample nang sapalaran sa dalawang bahagi at isaalang-alang lamang ang mga ugnayang iyon na makabuluhan ayon sa istatistika sa parehong bahagi ng sample. Ang isang alternatibo ay maaaring ang paggamit ng mga multivariate na pamamaraan (factor, cluster o multiple regression analysis) upang matukoy at pagkatapos ay bigyang-kahulugan ang mga grupo ng mga variable na makabuluhang nauugnay sa istatistika.

Problema sa mga nawawalang halaga. Kung may mga nawawalang halaga sa data, dalawang pagpipilian ang posible para sa pagkalkula ng correlation matrix: a) row-by-row na pag-alis ng mga halaga (Ibukodkasolistwise); b) magkapares na pagtanggal ng mga halaga (Ibukodkasomagkapares). Sa linya sa linyang pagtanggal mga obserbasyon na may mga nawawalang halaga, ang buong row para sa isang bagay (paksa) na may hindi bababa sa isang nawawalang halaga para sa isa sa mga variable ay tatanggalin. Ang pamamaraang ito ay humahantong sa isang "tamang" correlation matrix sa kahulugan na ang lahat ng mga coefficient ay kinakalkula mula sa parehong hanay ng mga bagay. Gayunpaman, kung ang mga nawawalang halaga ay ibinahagi nang sapalaran sa mga variable, kung gayon ang pamamaraang ito ay maaaring humantong sa katotohanan na walang isang bagay na natitira sa set ng data na isinasaalang-alang (magkakaroon ng hindi bababa sa isang nawawalang halaga sa bawat hilera) . Upang maiwasan ang sitwasyong ito, gumamit ng ibang paraan na tinatawag pares na pagtanggal. Isinasaalang-alang lamang ng paraang ito ang mga gaps sa bawat napiling column-variable pair at binabalewala ang mga gaps sa iba pang variable. Ang ugnayan para sa isang pares ng mga variable ay kinakalkula para sa mga bagay na iyon kung saan walang mga puwang. Sa maraming mga sitwasyon, lalo na kapag ang bilang ng mga puwang ay medyo maliit, sabihin nating 10%, at ang mga puwang ay ibinahagi nang random, ang pamamaraang ito ay hindi humahantong sa mga malubhang pagkakamali. Gayunpaman, kung minsan hindi ito ang kaso. Halimbawa, ang isang sistematikong bias (shift) sa pagtatasa ay maaaring "itago" ang isang sistematikong pag-aayos ng mga pagtanggal, na siyang dahilan ng pagkakaiba sa mga koepisyent ng ugnayan na binuo para sa iba't ibang mga subset (halimbawa, para sa iba't ibang mga subgroup ng mga bagay). Isa pang problemang nauugnay sa correlation matrix na kinakalkula sa magkapares ang pag-alis ng mga gaps ay nangyayari kapag ginagamit ang matrix na ito sa iba pang mga uri ng pagsusuri (halimbawa, sa maramihang regression o factor analysis). Ipinapalagay nila na ang "tamang" correlation matrix ay ginagamit na may isang tiyak na antas ng pagkakapare-pareho at "pagsunod" ng iba't ibang mga coefficient. Ang paggamit ng isang matrix na may "masamang" (biased) na mga pagtatantya ay humahantong sa katotohanan na ang programa ay maaaring hindi masuri ang naturang matrix, o ang mga resulta ay magiging mali. Samakatuwid, kung gagamitin ang pairwise na paraan ng pagbubukod ng nawawalang data, kinakailangang suriin kung may mga sistematikong pattern sa pamamahagi ng nawawalang data.

Kung ang pairwise na pagtanggal ng nawawalang data ay hindi humahantong sa anumang sistematikong pagbabago sa mga paraan at pagkakaiba-iba (standard deviations), ang mga istatistikang ito ay magiging katulad sa mga nakalkula gamit ang row-by-row na paraan ng pagtanggal ng nawawalang data. Kung ang isang makabuluhang pagkakaiba ay naobserbahan, pagkatapos ay may dahilan upang ipagpalagay na mayroong pagbabago sa mga pagtatantya. Halimbawa, kung ang average (o standard deviation) ng mga halaga ng isang variable A, na ginamit sa pagkalkula ng ugnayan nito sa variable SA, mas mababa kaysa sa mean (o standard deviation) ng parehong mga halaga ng variable A, na ginamit sa pagkalkula ng ugnayan nito sa variable C, kung gayon mayroong lahat ng dahilan upang asahan na ang dalawang ugnayang ito (A-Bkami) batay sa iba't ibang subset ng data. Magkakaroon ng bias sa mga ugnayang dulot ng hindi random na paglalagay ng mga puwang sa mga variable na halaga.

Pagsusuri ng correlation galaxies. Matapos malutas ang problema ng istatistikal na kahalagahan ng mga elemento ng correlation matrix, ang mga makabuluhang ugnayan sa istatistika ay maaaring katawanin nang grapiko sa anyo ng correlation galaxy o galaxy. Correlation galaxy - Ito ay isang figure na binubuo ng mga vertex at linya na nag-uugnay sa kanila. Ang mga vertice ay tumutugma sa mga katangian at karaniwang itinalaga ng mga numero - mga variable na numero. Ang mga linya ay tumutugma sa istatistikal na makabuluhang mga koneksyon at graphical na nagpapahayag ng sign at kung minsan ang j-level ng kahalagahan ng koneksyon.

Maaaring sumasalamin ang correlation galaxy Lahat istatistikal na makabuluhang mga koneksyon ng correlation matrix (minsan ay tinatawag na graph ng ugnayan ) o lamang ang kanilang makabuluhang napiling bahagi (halimbawa, naaayon sa isang salik ayon sa mga resulta ng pagsusuri sa salik).

HALIMBAWA NG PAGBUO NG CORRELATION PLEIADE

Paghahanda para sa estado (panghuling) sertipikasyon ng mga nagtapos: pagbuo ng database ng Unified State Exam (pangkalahatang listahan ng mga kalahok ng Unified State Exam ng lahat ng kategorya, na nagpapahiwatig ng mga paksa) - isinasaalang-alang ang mga araw ng reserba sa kaso ng parehong mga paksa;

Plano ng trabaho (27)

Solusyon

2. Mga aktibidad ng institusyong pang-edukasyon upang mapabuti ang nilalaman at masuri ang kalidad sa mga paksa ng edukasyon sa agham at matematika.

Sa mga kaso kung saan ang mga pagsukat ng mga katangian sa ilalim ng pag-aaral ay isinasagawa sa isang sukat ng pagkakasunud-sunod, o ang anyo ng relasyon ay naiiba sa linear, ang pag-aaral ng relasyon sa pagitan ng dalawang random na variable ay isinasagawa gamit ang ranggo ng mga koepisyent ng ugnayan. Isaalang-alang ang koepisyent ng ugnayan ng ranggo ng Spearman. Kapag kinakalkula ito, kinakailangan na ranggo (pagkasunud-sunod) ang mga pagpipilian sa sample. Ang ranggo ay ang pagpapangkat ng pang-eksperimentong data sa isang tiyak na pagkakasunud-sunod, pataas man o pababa.

Ang operasyon ng pagraranggo ay isinasagawa ayon sa sumusunod na algorithm:

1. Ang isang mas mababang halaga ay itinalaga ng isang mas mababang ranggo. Ang pinakamataas na halaga ay itinalaga ng isang ranggo na naaayon sa bilang ng mga nararanggo na halaga. Ang pinakamaliit na halaga ay itinalaga ng ranggo na 1. Halimbawa, kung n=7, ang pinakamalaking halaga ay makakatanggap ng ranggo na 7, maliban sa mga kaso na ibinigay para sa pangalawang panuntunan.

2. Kung ang ilang mga halaga ay magkapantay, pagkatapos ay itatalaga sa kanila ang isang ranggo na ang average ng mga ranggo na kanilang matatanggap kung sila ay hindi pantay. Bilang halimbawa, isaalang-alang ang pataas na pagkakasunod-sunod na sample na binubuo ng 7 elemento: 22, 23, 25, 25, 25, 28, 30. Ang mga halagang 22 at 23 ay lilitaw nang isang beses bawat isa, kaya ang kanilang mga ranggo ay ayon sa pagkakabanggit R22=1, at R23=2 . Lumilitaw ang halagang 25 nang 3 beses. Kung ang mga halagang ito ay hindi naulit, ang kanilang mga ranggo ay magiging 3, 4, 5. Samakatuwid, ang kanilang R25 na ranggo ay katumbas ng arithmetic mean ng 3, 4 at 5: . Ang mga halaga 28 at 30 ay hindi paulit-ulit, kaya ang kanilang mga ranggo ay ayon sa pagkakabanggit R28=6 at R30=7. Sa wakas mayroon kaming sumusunod na sulat:

3. Ang kabuuang kabuuan ng mga ranggo ay dapat na tumutugma sa kinakalkula, na tinutukoy ng formula:

kung saan ang n ay ang kabuuang bilang ng mga niraranggo na halaga.

Ang pagkakaiba sa pagitan ng aktwal at nakalkulang mga kabuuan ng ranggo ay magsasaad ng error na ginawa kapag nagkalkula ng mga ranggo o nagbubuod sa mga ito. Sa kasong ito, kailangan mong hanapin at ayusin ang error.

Ang koepisyent ng ugnayan ng ranggo ng Spearman ay isang paraan na nagpapahintulot sa isa na matukoy ang lakas at direksyon ng ugnayan sa pagitan ng dalawang katangian o dalawang hierarchy ng mga katangian. Ang paggamit ng rank correlation coefficient ay may bilang ng mga limitasyon:

a) Ang ipinapalagay na pag-asa sa ugnayan ay dapat na monotoniko.
b) Ang dami ng bawat sample ay dapat na mas malaki sa o katumbas ng 5. Upang matukoy ang pinakamataas na limitasyon ng sample, gumamit ng mga talahanayan ng mga kritikal na halaga (Talahanayan 3 ng Appendix). Ang maximum na halaga ng n sa talahanayan ay 40.
c) Sa panahon ng pagsusuri, malamang na ang isang malaking bilang ng magkatulad na ranggo ay maaaring lumitaw. Sa kasong ito, ang isang susog ay dapat gawin. Ang pinaka-kanais-nais na kaso ay kapag ang parehong mga sample sa ilalim ng pag-aaral ay kumakatawan sa dalawang pagkakasunud-sunod ng magkakaibang mga halaga.

Upang magsagawa ng pagsusuri ng ugnayan, ang mananaliksik ay dapat magkaroon ng dalawang sample na maaaring mai-rank, halimbawa:

- dalawang katangian na sinusukat sa parehong pangkat ng mga paksa;
- dalawang indibidwal na hierarchy ng mga katangian na natukoy sa dalawang paksa gamit ang parehong hanay ng mga katangian;
- dalawang pangkat na hierarchy ng mga katangian;
- indibidwal at pangkat na mga hierarchy ng mga katangian.

Sinisimulan namin ang pagkalkula sa pamamagitan ng pagraranggo ng mga pinag-aralan na tagapagpahiwatig nang hiwalay para sa bawat isa sa mga katangian.

Suriin natin ang isang kaso na may dalawang palatandaan na sinusukat sa parehong grupo ng mga paksa. Una, ang mga indibidwal na halaga na nakuha ng iba't ibang mga paksa ay niraranggo ayon sa unang katangian, at pagkatapos ay ang mga indibidwal na halaga ay niraranggo ayon sa pangalawang katangian. Kung ang mas mababang mga ranggo ng isang tagapagpahiwatig ay tumutugma sa mas mababang mga ranggo ng isa pang tagapagpahiwatig, at ang mas mataas na mga ranggo ng isang tagapagpahiwatig ay tumutugma sa mas mataas na mga ranggo ng isa pang tagapagpahiwatig, kung gayon ang dalawang katangian ay positibong nauugnay. Kung ang mas mataas na ranggo ng isang tagapagpahiwatig ay tumutugma sa mas mababang ranggo ng isa pang tagapagpahiwatig, kung gayon ang dalawang katangian ay negatibong nauugnay. Upang mahanap ang rs, tinutukoy namin ang mga pagkakaiba sa pagitan ng mga ranggo (d) para sa bawat paksa. Kung mas maliit ang pagkakaiba sa pagitan ng mga ranggo, mas malapit ang koepisyent ng ugnayan ng ranggo rs sa "+1". Kung walang relasyon, kung gayon walang magiging sulat sa pagitan nila, kaya ang rs ay magiging malapit sa zero. Kung mas malaki ang pagkakaiba sa pagitan ng mga ranggo ng mga paksa sa dalawang variable, mas malapit sa "-1" ang halaga ng rs coefficient. Kaya, ang koepisyent ng ugnayan ng ranggo ng Spearman ay isang sukatan ng anumang monotonikong relasyon sa pagitan ng dalawang katangiang pinag-aaralan.

Isaalang-alang natin ang kaso na may dalawang indibidwal na hierarchy ng mga katangiang natukoy sa dalawang paksa gamit ang parehong hanay ng mga katangian. Sa sitwasyong ito, ang mga indibidwal na halaga na nakuha ng bawat isa sa dalawang paksa ay niraranggo ayon sa isang tiyak na hanay ng mga katangian. Ang tampok na may pinakamababang halaga ay dapat italaga sa unang ranggo; ang katangian na may mas mataas na halaga ay ang pangalawang ranggo, atbp. Ang partikular na pangangalaga ay dapat gawin upang matiyak na ang lahat ng mga katangian ay sinusukat sa parehong mga yunit. Halimbawa, imposibleng mag-ranggo ng mga tagapagpahiwatig kung ang mga ito ay ipinahayag sa iba't ibang mga punto ng "presyo", dahil imposibleng matukoy kung alin sa mga kadahilanan ang mauuna sa mga tuntunin ng kalubhaan hanggang ang lahat ng mga halaga ay dinadala sa isang solong sukat. Kung ang mga feature na may mababang rank sa isa sa mga subject ay may mababang rank din sa isa pa, at vice versa, ang mga indibidwal na hierarchy ay positibong nauugnay.

Sa kaso ng dalawang pangkat na hierarchies ng mga katangian, ang average na halaga ng pangkat na nakuha sa dalawang grupo ng mga paksa ay niraranggo ayon sa parehong hanay ng mga katangian para sa mga pinag-aralan na grupo. Susunod, sinusunod namin ang algorithm na ibinigay sa mga nakaraang kaso.

Suriin natin ang isang kaso na may indibidwal at pangkat na hierarchy ng mga katangian. Nagsisimula sila sa hiwalay na pagraranggo ng mga indibidwal na halaga ng paksa at ang average na mga halaga ng grupo ayon sa parehong hanay ng mga katangian na nakuha, hindi kasama ang paksa na hindi lumahok sa average na hierarchy ng grupo, dahil ang kanyang indibidwal na hierarchy ay magiging kumpara dito. Ang ugnayan ng ranggo ay nagpapahintulot sa amin na masuri ang antas ng pagkakapare-pareho ng indibidwal at pangkat na hierarchy ng mga katangian.

Isaalang-alang natin kung paano natutukoy ang kahalagahan ng koepisyent ng ugnayan sa mga kasong nakalista sa itaas. Sa kaso ng dalawang katangian, ito ay matutukoy sa pamamagitan ng laki ng sample. Sa kaso ng dalawang indibidwal na hierarchy ng tampok, ang kahalagahan ay depende sa bilang ng mga tampok na kasama sa hierarchy. Sa huling dalawang kaso, ang kahalagahan ay tinutukoy ng bilang ng mga katangiang pinag-aaralan, at hindi ng bilang ng mga grupo. Kaya, ang kahalagahan ng rs sa lahat ng mga kaso ay tinutukoy ng bilang ng mga ranggo na halaga n.

Kapag sinusuri ang istatistikal na kahalagahan ng rs, ang mga talahanayan ng mga kritikal na halaga ng koepisyent ng ugnayan ng ranggo ay ginagamit, na pinagsama-sama para sa iba't ibang bilang ng mga ranggo na halaga at iba't ibang antas ng kahalagahan. Kung ang ganap na halaga ng rs ay umabot o lumampas sa isang kritikal na halaga, kung gayon ang ugnayan ay maaasahan.

Kapag isinasaalang-alang ang unang opsyon (isang kaso na may dalawang palatandaan na sinusukat sa parehong grupo ng mga paksa), ang mga sumusunod na hypotheses ay posible.

H0: Ang ugnayan sa pagitan ng mga variable na x at y ay hindi naiiba sa zero.

H1: Ang ugnayan sa pagitan ng mga variable na x at y ay makabuluhang naiiba mula sa zero.

Kung makikipagtulungan tayo sa alinman sa tatlong natitirang mga kaso, kinakailangan na maglagay ng isa pang pares ng mga hypotheses:

H0: Ang ugnayan sa pagitan ng mga hierarchies x at y ay hindi naiiba sa zero.

H1: Ang ugnayan sa pagitan ng mga hierarchies x at y ay makabuluhang naiiba mula sa zero.

Ang pagkakasunud-sunod ng mga aksyon kapag kinakalkula ang Spearman rank correlation coefficient rs ay ang mga sumusunod.

- Tukuyin kung aling dalawang feature o dalawang hierarchy ng mga feature ang lalahok sa paghahambing bilang mga variable na x at y.
- I-ranggo ang mga halaga ng variable na x, na nagtatalaga ng ranggo 1 sa pinakamaliit na halaga, alinsunod sa mga panuntunan sa pagraranggo. Ilagay ang mga ranggo sa unang hanay ng talahanayan sa pagkakasunud-sunod ng mga paksa o katangian ng pagsusulit.
- Ranggo ang mga halaga ng variable y. Ilagay ang mga ranggo sa ikalawang hanay ng talahanayan sa pagkakasunud-sunod ng mga paksa o katangian ng pagsusulit.
- Kalkulahin ang mga pagkakaiba d sa pagitan ng mga ranggo x at y para sa bawat hilera ng talahanayan. Ilagay ang mga resulta sa susunod na hanay ng talahanayan.
- Kalkulahin ang mga parisukat na pagkakaiba (d2). Ilagay ang mga resultang halaga sa ikaapat na hanay ng talahanayan.
- Kalkulahin ang kabuuan ng mga parisukat na pagkakaiba? d2.
- Kung magkakaroon ng magkatulad na ranggo, kalkulahin ang mga pagwawasto:

kung saan ang tx ay ang dami ng bawat pangkat ng magkatulad na ranggo sa sample x;

Ang ty ay ang dami ng bawat pangkat ng magkatulad na ranggo sa sample y.

Kalkulahin ang rank correlation coefficient depende sa presensya o kawalan ng magkatulad na ranggo. Kung walang magkaparehong mga ranggo, kalkulahin ang koepisyent ng ugnayan ng ranggo rs gamit ang formula:

Kung may magkaparehong ranggo, kalkulahin ang rank correlation coefficient rs gamit ang formula:

saan?d2 ay ang kabuuan ng mga parisukat na pagkakaiba sa pagitan ng mga ranggo;

Tx at Ty - mga pagwawasto para sa pantay na ranggo;

n ay ang bilang ng mga paksa o tampok na kalahok sa pagraranggo.

Tukuyin ang mga kritikal na halaga ng rs mula sa Appendix Table 3 para sa isang naibigay na bilang ng mga paksa n. Ang isang makabuluhang pagkakaiba mula sa zero ng koepisyent ng ugnayan ay mapapansin kung ang rs ay hindi bababa sa kritikal na halaga.

Ang isang mag-aaral sa sikolohiya (sociologist, manager, manager, atbp.) ay madalas na interesado sa kung paano nauugnay ang dalawa o higit pang mga variable sa isa't isa sa isa o higit pang mga grupong pinag-aaralan.

Sa matematika, upang ilarawan ang mga ugnayan sa pagitan ng mga variable na dami, ang konsepto ng isang function F ay ginagamit, na nag-uugnay sa bawat partikular na halaga ng independent variable X sa isang tiyak na halaga ng dependent variable na Y. Ang resultang dependence ay tinutukoy bilang Y=F( X).

Kasabay nito, ang mga uri ng mga ugnayan sa pagitan ng mga sinusukat na katangian ay maaaring magkakaiba: halimbawa, ang ugnayan ay maaaring linear at nonlinear, positibo at negatibo. Ito ay linear - kung may pagtaas o pagbaba sa isang variable X, ang pangalawang variable Y, sa karaniwan, ay tumataas o bumababa din. Ito ay nonlinear kung, na may pagtaas sa isang dami, ang likas na katangian ng pagbabago sa pangalawa ay hindi linear, ngunit inilalarawan ng ibang mga batas.

Magiging positibo ang ugnayan kung, sa pagtaas ng variable X, ang variable Y sa karaniwan ay tumataas din, at kung, sa pagtaas ng X, ang variable Y ay may posibilidad na bumaba sa average, pagkatapos ay pinag-uusapan natin ang pagkakaroon ng negatibo. ugnayan. Posible na imposibleng magtatag ng anumang relasyon sa pagitan ng mga variable. Sa kasong ito, sinasabi nila na walang ugnayan.

Ang gawain ng pagsusuri ng ugnayan ay bumababa sa pagtatatag ng direksyon (positibo o negatibo) at anyo (linear, nonlinear) ng ugnayan sa pagitan ng iba't ibang mga katangian, pagsukat ng lapit nito, at, sa wakas, pagsuri sa antas ng kahalagahan ng nakuha na mga koepisyent ng ugnayan.

Ang rank correlation coefficient, na iminungkahi ni K. Spearman, ay tumutukoy sa isang nonparametric na sukat ng ugnayan sa pagitan ng mga variable na sinusukat sa isang rank scale. Kapag kinakalkula ang koepisyent na ito, walang mga pagpapalagay na kinakailangan tungkol sa likas na katangian ng mga distribusyon ng mga katangian sa populasyon. Tinutukoy ng koepisyent na ito ang antas ng pagiging malapit ng koneksyon sa pagitan ng mga ordinal na katangian, na sa kasong ito ay kumakatawan sa mga ranggo ng inihambing na dami.

Kinakalkula ang rank linear correlation coefficient ng Spearman gamit ang formula:

kung saan ang n ay ang bilang ng mga ranggo na tampok (mga tagapagpahiwatig, paksa);
Ang D ay ang pagkakaiba sa pagitan ng mga ranggo para sa dalawang variable para sa bawat paksa;
Ang D2 ay ang kabuuan ng mga parisukat na pagkakaiba ng mga ranggo.

Ang mga kritikal na halaga ng koepisyent ng ugnayan ng ranggo ng Spearman ay ipinakita sa ibaba:

Ang halaga ng linear correlation coefficient ng Spearman ay nasa hanay ng +1 at -1. Ang linear correlation coefficient ng Spearman ay maaaring maging positibo o negatibo, na nagpapakilala sa direksyon ng ugnayan sa pagitan ng dalawang katangian na sinusukat sa isang rank scale.

Kung ang correlation coefficient sa absolute value ay malapit sa 1, ito ay tumutugma sa isang mataas na antas ng koneksyon sa pagitan ng mga variable. Kaya, sa partikular, kapag ang isang variable ay nauugnay sa sarili nito, ang halaga ng koepisyent ng ugnayan ay magiging katumbas ng +1. Ang ganitong relasyon ay nagpapakilala sa isang direktang proporsyonal na pag-asa. Kung ang mga halaga ng X variable ay nakaayos sa pataas na pagkakasunud-sunod, at ang parehong mga halaga (ngayon ay itinalaga bilang Y variable) ay nakaayos sa pababang pagkakasunud-sunod, kung gayon sa kasong ito ang ugnayan sa pagitan ng X at Y na mga variable ay magiging eksakto. -1. Ang halagang ito ng koepisyent ng ugnayan ay nagpapakita ng isang inversely proportional na relasyon.

Ang tanda ng koepisyent ng ugnayan ay napakahalaga para sa pagbibigay-kahulugan sa resultang relasyon. Kung plus ang tanda ng linear correlation coefficient, kung gayon ang relasyon sa pagitan ng mga correlated na tampok ay tulad na ang isang mas malaking halaga ng isang tampok (variable) ay tumutugma sa isang mas malaking halaga ng isa pang tampok (isa pang variable). Sa madaling salita, kung tumaas ang isang indicator (variable), ang isa pang indicator (variable) ay tataas nang naaayon. Ang pag-asa na ito ay tinatawag na direktang proporsyonal na pag-asa.

Kung ang isang minus sign ay natanggap, kung gayon ang isang mas malaking halaga ng isang katangian ay tumutugma sa isang mas maliit na halaga ng isa pa. Sa madaling salita, kung mayroong minus sign, ang pagtaas sa isang variable (sign, value) ay tumutugma sa pagbaba sa isa pang variable. Ang pag-asa na ito ay tinatawag na inversely proportional dependence. Sa kasong ito, ang pagpili ng variable kung saan itinalaga ang karakter (tendency) ng pagtaas ay arbitrary. Maaari itong maging variable X o variable Y. Gayunpaman, kung isasaalang-alang na tumaas ang variable X, bababa ang variable Y, at kabaliktaran.

Tingnan natin ang halimbawa ng ugnayan ng Spearman.

Nalaman ng psychologist kung paano ang mga indibidwal na tagapagpahiwatig ng kahandaan para sa paaralan, na nakuha bago ang simula ng paaralan sa 11 first-graders, ay nauugnay sa bawat isa at ang kanilang average na pagganap sa pagtatapos ng taon ng pag-aaral.

Upang malutas ang problemang ito, niraranggo namin, una, ang mga halaga ng mga tagapagpahiwatig ng kahandaan sa paaralan na nakuha sa pagpasok sa paaralan, at, pangalawa, ang pangwakas na mga tagapagpahiwatig ng pagganap sa akademiko sa katapusan ng taon para sa parehong mga mag-aaral sa karaniwan. Ipinakita namin ang mga resulta sa talahanayan:

Pinapalitan namin ang nakuhang data sa formula sa itaas at ginagawa ang pagkalkula. Nakukuha namin:

Upang mahanap ang antas ng kahalagahan, tinutukoy namin ang talahanayan na "Mga kritikal na halaga ng koepisyent ng ugnayan ng ranggo ng Spearman," na nagpapakita ng mga kritikal na halaga para sa mga koepisyent ng ugnayan ng ranggo.

Binubuo namin ang kaukulang "axis of significance":

Ang resultang koepisyent ng ugnayan ay kasabay ng kritikal na halaga para sa antas ng kabuluhan na 1%. Dahil dito, maaaring pagtalunan na ang mga tagapagpahiwatig ng kahandaan sa paaralan at ang mga huling baitang ng mga unang baitang ay konektado sa pamamagitan ng isang positibong ugnayan - sa madaling salita, mas mataas ang tagapagpahiwatig ng kahandaan sa paaralan, mas mahusay ang pag-aaral sa unang baitang. Sa mga tuntunin ng statistical hypotheses, dapat tanggihan ng psychologist ang null (H0) na hypothesis ng pagkakatulad at tanggapin ang alternatibong (H1) ng mga pagkakaiba, na nagmumungkahi na ang ugnayan sa pagitan ng mga indicator ng kahandaan sa paaralan at average na akademikong pagganap ay iba sa zero.

Kaugnayan ng Spearman. Pagsusuri ng ugnayan gamit ang pamamaraang Spearman. Nagra-rank si Spearman. Koepisyent ng ugnayan ng Spearman. Kaugnayan sa ranggo ng Spearman

Ang calculator sa ibaba ay kinakalkula ang Spearman rank correlation coefficient sa pagitan ng dalawang random na variable. Ang teoretikal na bahagi, upang hindi magambala mula sa calculator, ay tradisyonal na inilalagay sa ilalim nito.

idagdag import_export mode_edit tanggalin

Mga pagbabago sa mga random na variable

	arrow_pataasarrow_pababa X	arrow_pataasarrow_pababa Y
			mode_edit

Laki ng pahina: 5 10 20 50 100 chevron_left chevron_right

Mga pagbabago sa mga random na variable

Mag-import ng data Error sa pag-import

Maaari mong gamitin ang isa sa mga simbolo na ito upang paghiwalayin ang mga field: Tab, ";" o "," Halimbawa: -50.5;-50.5

I-import Bumalik Kanselahin

Ang paraan para sa pagkalkula ng Spearman rank correlation coefficient ay talagang inilarawan nang napakasimple. Ito ang parehong koepisyent ng ugnayan ng Pearson, hindi lamang kinakalkula para sa mga resulta ng mga sukat ng mga random na variable mismo, ngunit para sa kanilang mga halaga ng ranggo.

Yan ay,

Ang natitira lamang ay upang malaman kung ano ang mga halaga ng ranggo at kung bakit kailangan ang lahat ng ito.

Kung ang mga elemento ng isang serye ng variation ay nakaayos sa pataas o pababang pagkakasunud-sunod, kung gayon ranggo element ang magiging numero nito sa order na seryeng ito.

Halimbawa, magkaroon tayo ng serye ng variation (17,26,5,14,21). Pagbukud-bukurin natin ang mga elemento nito sa pababang pagkakasunud-sunod (26,21,17,14,5). Ang 26 ay may ranggo 1, ang 21 ay may ranggo 2, atbp. Ang serye ng pagkakaiba-iba ng mga halaga ng ranggo ay magiging ganito (3,1,5,4,2).

Iyon ay, kapag kinakalkula ang koepisyent ng Spearman, ang orihinal na serye ng variation ay binago sa mga serye ng pagkakaiba-iba ng mga halaga ng ranggo, pagkatapos nito ay inilapat ang formula ng Pearson sa kanila.

Mayroong isang subtlety - ang ranggo ng mga paulit-ulit na halaga ay kinuha bilang average ng mga ranggo. Iyon ay, para sa serye (17, 15, 14, 15) ang serye ng mga halaga ng ranggo ay magmumukhang (1, 2.5, 4, 2.5), dahil ang unang elemento na katumbas ng 15 ay may ranggo 2, at ang pangalawa. ay may ranggong 3, at .

Kung walang paulit-ulit na mga halaga, iyon ay, ang lahat ng mga halaga ng serye ng ranggo ay mga numero mula sa hanay mula 1 hanggang n, ang formula ng Pearson ay maaaring gawing simple sa

Well, sa pamamagitan ng paraan, ang formula na ito ay madalas na ibinibigay bilang isang formula para sa pagkalkula ng koepisyent ng Spearman.

Ano ang kakanyahan ng paglipat mula sa mga halaga mismo sa kanilang mga halaga ng ranggo?
Ang punto ay sa pamamagitan ng pag-aaral ng ugnayan ng mga halaga ng ranggo, matutukoy mo kung gaano kahusay ang pag-asa ng dalawang variable ay inilarawan ng isang monotonikong function.

Ang tanda ng koepisyent ay nagpapahiwatig ng direksyon ng relasyon sa pagitan ng mga variable. Kung ang tanda ay positibo, kung gayon ang mga halaga ng Y ay may posibilidad na tumaas habang tumataas ang mga halaga ng X; kung negatibo ang sign, malamang na bumaba ang mga halaga ng Y habang tumataas ang mga halaga ng X. Kung ang koepisyent ay 0, walang trend. Kung ang koepisyent ay 1 o -1, kung gayon ang relasyon sa pagitan ng X at Y ay may anyo ng isang monotonic na function - iyon ay, habang ang X ay tumataas, Y din ay tumataas, o vice versa, habang ang X ay tumataas, Y ay bumababa.

Iyon ay, hindi tulad ng Pearson correlation coefficient, na maaari lamang magbunyag ng linear dependence ng isang variable sa isa pa, ang Spearman correlation coefficient ay maaaring magbunyag ng monotonic dependence kung saan ang direktang linear na relasyon ay hindi nakita.

Hayaan akong ipaliwanag sa isang halimbawa. Ipagpalagay natin na sinusuri natin ang function na y=10/x.
Mayroon kaming mga sumusunod na sukat ng X at Y
{{1,10}, {5,2}, {10,1}, {20,0.5}, {100,0.1}}
Para sa mga datos na ito, ang koepisyent ng ugnayan ng Pearson ay -0.4686, iyon ay, mahina o wala ang relasyon. Ngunit ang koepisyent ng ugnayan ng Spearman ay mahigpit na katumbas ng -1, na tila nagpapahiwatig sa mananaliksik na ang Y ay may mahigpit na negatibong monotonikong pagdepende sa X.