Krytyczne wartości korelacji rang Spearmana. Zastosowanie korelacji Spearmana i Pearsona

37. Współczynnik korelacji rang Spearmana.

S. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Współczynnik korelacji rang Spearmana stosuje się w przypadkach, gdy:
- zmienne mają skala rankingowa pomiary;
- dystrybucja danych jest zbyt różna od normalna lub w ogóle nieznany;
- próbki mają małą objętość (N< 30).

Interpretacja współczynnika korelacji rang Spearmana nie różni się od współczynnika Pearsona, ale jego znaczenie jest nieco inne. Aby zrozumieć różnicę między tymi metodami i logicznie uzasadnić obszary ich zastosowania, porównajmy ich formuły.

Współczynnik korelacji Pearsona:

Współczynnik korelacji Spearmana:

Jak widać, formuły znacznie się od siebie różnią. Porównajmy formuły

Wzór korelacji Pearsona wykorzystuje średnią arytmetyczną i odchylenie standardowe szeregu skorelowanego, ale wzór Spearmana tego nie robi. Zatem, aby uzyskać adekwatny wynik korzystając ze wzoru Pearsona, konieczne jest, aby szereg skorelowany był zbliżony do rozkładu normalnego (średnia i odchylenie standardowe to parametry rozkładu normalnego). Nie dotyczy to wzoru Spearmana.

Elementem wzoru Pearsona jest standaryzacja każdej serii w skala z.

Jak widać, konwersja zmiennych na skalę Z występuje we wzorze na współczynnik korelacji Pearsona. Zatem dla współczynnika Pearsona skala danych w ogóle nie ma znaczenia: możemy np. skorelować dwie zmienne, z których jedna ma min. = 0 i maks. = 1, a druga min. = 100 i maks. = 1000. Niezależnie od tego, jak różny jest zakres wartości, wszystkie zostaną przekonwertowane na standardowe wartości Z o tej samej skali.

Taka normalizacja nie występuje zatem we współczynniku Spearmana

WARUNKIEM OBOWIĄZKOWYM STOSOWANIA WSPÓŁCZYNNIKA SPEARMANA JEST RÓWNOŚĆ ZAKRESU DWÓCH ZMIENNYCH.

Przed użyciem współczynnika Spearmana dla szeregów danych o różnych zakresach należy to zrobić ranga. Ranking powoduje, że wartości tych szeregów uzyskują to samo minimum = 1 (ranga minimalna) i maksimum równe liczbie wartości (maksymalna, ostatnia ranga = N, czyli maksymalna liczba przypadków w próbie) .

W jakich przypadkach można obejść się bez rankingu?

Są to przypadki, gdy dane są początkowo skala rankingowa. Na przykład test orientacji wartości Rokeacha.

Są to również przypadki, gdy liczba opcji wartościowych jest niewielka, a próbka zawiera ustalone minimum i maksimum. Na przykład w różniczku semantycznym minimum = 1, maksimum = 7.

Przykład obliczenia współczynnika korelacji rang Spearmana

Test Rokeacha orientacji wartościowych przeprowadzono na dwóch próbach X i Y. Cel: sprawdzenie, jak bliskie są hierarchie wartości tych próbek (dosłownie, jak bardzo są podobne).

Otrzymaną wartość r=0,747 sprawdza się za pomocą: tabela wartości krytycznych. Jak wynika z tabeli, przy N=18 uzyskana wartość jest istotna na poziomie p<=0,005

Współczynniki korelacji rang Spearmana i Kendala

Dla zmiennych należących do skali porządkowej lub zmiennych niepodlegających rozkładowi normalnemu, a także dla zmiennych należących do skali przedziałowej zamiast współczynnika Pearsona obliczana jest korelacja rang Spearmana. W tym celu poszczególnym wartościom zmiennych przypisywane są rangi, które następnie są przetwarzane przy użyciu odpowiednich formuł. Aby wykryć korelację rang, usuń zaznaczenie domyślnego pola wyboru Korelacja Pearsona w oknie dialogowym Korelacje dwuwymiarowe.... Zamiast tego aktywuj obliczenia korelacji Spearmana. Obliczenie to da następujące wyniki. Współczynniki korelacji rang są bardzo zbliżone do odpowiednich wartości współczynników Pearsona (oryginalne zmienne mają rozkład normalny).

titkova-matmetody.pdf s. 23 45

Metoda korelacji rang Spearmana pozwala określić szczelność (siłę) i kierunek

korelacja pomiędzy dwa znaki Lub dwa profile (hierarchie) oznaki.

Aby obliczyć korelację rang, konieczne są dwa wiersze wartości,

które można sklasyfikować. Takim ciągiem wartości mogłoby być:

1) dwa znaki mierzone w tym samym Grupa przedmioty;

2) dwie indywidualne hierarchie cech, zidentyfikowane u dwóch osób używających tego samego

zestaw funkcji;

3) dwa grupowe hierarchie cech,

4) indywidualne i grupowe hierarchia cech.

Po pierwsze, wskaźniki są szeregowane oddzielnie dla każdej z cech.

Z reguły niższa ranga jest przypisana niższej wartości atrybutu.

W pierwszym przypadku (dwie cechy) poszczególne wartości są uszeregowane według pierwszego

charakterystyka uzyskana przez różne przedmioty, a następnie indywidualne wartości dla drugiego

podpisać.

Jeśli dwie cechy są ze sobą dodatnio powiązane, wówczas podmioty o niskich pozycjach

jeden z nich będzie miał niskie pozycje w drugim, a przedmioty, które będą miały wysokie pozycje w

jedna z cech będzie miała również wysokie rangi dla drugiej cechy. Aby obliczyć rs

należy określić różnice (D) pomiędzy rangami uzyskanymi przez dany przedmiot w obu przypadkach

oznaki. Następnie te wskaźniki d są w określony sposób przekształcane i odejmowane od 1. Niż

Im mniejsza różnica między rangami, tym większe będzie rs, tym bliżej będzie +1.

Jeżeli nie ma korelacji, wówczas wszystkie rangi będą mieszane i nie będzie żadnej

żadnej korespondencji. Formuła została zaprojektowana tak, aby w tym przypadku rs było bliskie 0.

W przypadku korelacji ujemnej niskie rangi przedmiotów na jednej podstawie

wysokie stopnie na innej podstawie będą odpowiadać i odwrotnie. Im większa rozbieżność

pomiędzy szeregami podmiotów w dwóch zmiennych, im rs jest bliższe -1.

W drugim przypadku (dwa indywidualne profile), poszczególne są rankingowane

wartości uzyskane przez każdego z 2 przedmiotów według pewnego (tego samego dla nich

oba) zestaw funkcji. Pierwszą rangę otrzyma cecha o najniższej wartości; druga ranga –

znak o wyższej wartości itp. Oczywiście wszystkie cechy należy zmierzyć

te same jednostki, w przeciwnym razie ranking nie będzie możliwy. Na przykład jest to niemożliwe

uszereguj wskaźniki w Inwentarzu Osobowości Cattella (16PF), jeśli są one wyrażone w

„surowe” punkty, ponieważ zakresy wartości są różne dla różnych czynników: od 0 do 13, od 0 do

20 i od 0 do 26. Nie jesteśmy w stanie powiedzieć, który czynnik zajmie pierwsze miejsce

wyrażenie, dopóki nie sprowadzimy wszystkich wartości do jednej skali (najczęściej jest to skala ścienna).

Jeśli poszczególne hierarchie dwóch podmiotów są ze sobą dodatnio powiązane, wówczas znaki

posiadanie niskich rang w jednym z nich będzie miało niskie rangi w drugim i odwrotnie.

Na przykład, jeśli czynnik E (dominacja) jednego podmiotu ma najniższą rangę, to wtedy

innego obiektu testowego, powinien on mieć niską rangę, jeśli jeden z obiektów testowych ma współczynnik C

(stabilność emocjonalna) ma najwyższą rangę, wtedy drugi podmiot również musi ją mieć

czynnik ten ma wysoką rangę itp.

W trzecim przypadku (dwa profile grupowe) uszeregowane są średnie wartości grupowe,

uzyskane w 2 grupach pacjentów według określonego zestawu, identycznego dla obu grup

oznaki. W dalszym ciągu tok rozumowania jest taki sam, jak w dwóch poprzednich przypadkach.

W przypadku 4 (profile indywidualne i grupowe) są one uszeregowane oddzielnie

indywidualne wartości podmiotu i grupowe wartości średnie dla tego samego zestawu

znaki, które uzyskuje się z reguły poprzez wykluczenie tego indywidualnego podmiotu - on

nie uczestniczy w przeciętnym profilu grupowym, z którym porównywany będzie jego indywidualny profil

profil. Korelacja rang pozwoli Ci sprawdzić, jak konsekwentna jest dana osoba i

profile grupowe.

We wszystkich czterech przypadkach określa się istotność otrzymanego współczynnika korelacji

według liczby uszeregowanych wartości N. W pierwszym przypadku liczba ta będzie się pokrywać

wielkość próbki nr. W drugim przypadku liczbą obserwacji będzie liczba cech,

tworząc hierarchię. W trzecim i czwartym przypadku N jest także liczbą dopasowań

znaków, a nie liczby badanych w grupach. Szczegółowe wyjaśnienia podano w przykładach. Jeśli

wartość bezwzględna r osiąga lub przekracza wartość krytyczną, korelację

niezawodny.

Hipotezy.

Istnieją dwie możliwe hipotezy. Pierwsza odnosi się do przypadku 1, druga do pozostałych trzech

Pierwsza wersja hipotez

H0: Korelacja pomiędzy zmiennymi A i B nie jest różna od zera.

H2: Korelacja pomiędzy zmiennymi A i B jest istotnie różna od zera.

Druga wersja hipotez

H0: Korelacja pomiędzy hierarchiami A i B nie jest różna od zera.

H2: Korelacja pomiędzy hierarchiami A i B jest istotnie różna od zera.

Ograniczenia współczynnika korelacji rang

1. Dla każdej zmiennej należy przedstawić co najmniej 5 obserwacji. Górny

granicę próbkowania wyznaczają dostępne tablice wartości krytycznych .

2. Współczynnik korelacji rang Spearmana rs dla dużej liczby identycznych

rangi dla jednej lub obu porównywanych zmiennych dają przybliżone wartości. Idealnie

oba skorelowane szeregi muszą reprezentować dwa ciągi rozbieżne

wartości. Jeżeli warunek ten nie jest spełniony, należy dokonać zmiany

same szeregi.

Współczynnik korelacji rang Spearmana oblicza się ze wzoru:

Jeżeli w obu porównywanych szeregach rang znajdują się grupy o tych samych rangach,

przed obliczeniem współczynnika korelacji rang należy dokonać dla niego poprawek

Rankingi Ta i TV:

Ta = Σ (a3 – a)/12,

Тв = Σ (в3 – в)/12,

Gdzie A - objętość każdej grupy identycznych rang w serii rang A, w objętość każdego

grupy o jednakowych rangach w szeregu rang B.

Aby obliczyć wartość empiryczną rs, skorzystaj ze wzoru:

38. Współczynnik korelacji punktowo-biseryjnej.

O korelacji ogólnie mowa w pytaniu nr 36 Z. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Niech zmienna X będzie mierzona na mocnej skali, a zmienna Y na skali dychotomicznej. Współczynnik korelacji punktowej dwuseryjnej rpb oblicza się ze wzoru:

Tutaj x 1 jest średnią wartością dla X obiektów z wartością „jeden” dla Y;

x 0 – wartość średnia na X obiektach o wartości „zero” na Y;

s x – odchylenie standardowe wszystkich wartości wzdłuż X;

n 1 – liczba obiektów „jeden” w Y, n 0 – liczba obiektów „zero” w Y;

n = n 1 + n 0 – wielkość próby.

Współczynnik korelacji punktowej dwuseryjnej można również obliczyć za pomocą innych równoważnych wyrażeń:

Tutaj x– ogólna średnia wartość zmiennej X.

Współczynnik korelacji punktowej dwuseryjnej rpb waha się od –1 do +1. Jego wartość jest równa zeru w przypadku, gdy zmienna ma jednostkę dla Y mieć średnią Y, równa średniej zmiennych z zerem powyżej Y.

Badanie hipotezy istotności należy sprawdzić współczynnik korelacji dwuseryjnej Hipoteza zerowaH 0 o równości ogólnego współczynnika korelacji do zera: ρ = 0, co przeprowadza się za pomocą testu t-Studenta. Znaczenie empiryczne

w porównaniu z wartościami krytycznymi T A (zm) dla liczby stopni swobody zm = N– 2

Jeśli warunek | T| ≤ (zm), hipoteza zerowa ρ = 0 nie jest odrzucana. Punktowy współczynnik korelacji dwuseryjnej różni się istotnie od zera, jeśli wartość empiryczna | T| mieści się w obszarze krytycznym, to znaczy, jeśli warunek | T| > (N– 2). Wiarygodność zależności obliczona przy użyciu punktowego współczynnika korelacji dwuseryjnej rpb, można również określić za pomocą kryterium χ 2 dla liczby stopni swobody zm= 2.

Punktowa korelacja dwuseryjna

Późniejsza modyfikacja współczynnika korelacji iloczynu momentów znalazła odzwierciedlenie w punkcie dwuseryjnym R. Ta statystyka. pokazuje związek między dwiema zmiennymi, z których jedna jest rzekomo ciągła i ma rozkład normalny, a druga dyskretna w ścisłym tego słowa znaczeniu. Punktowy współczynnik korelacji dwuseryjnej jest oznaczony przez R pbis Od w R pbis dychotomia odzwierciedla prawdziwą naturę zmiennej dyskretnej, a nie jest sztuczna, jak w tym przypadku R bis, jego znak jest ustalany arbitralnie. Dlatego ze względów praktycznych. cele R pbis rozpatrywana w przedziale od 0,00 do +1,00.

Ma to miejsce również w przypadku, gdy zakłada się, że dwie zmienne są ciągłe i mają rozkład normalny, ale obie zmienne są sztucznie dychotomizowane, jak w przypadku korelacji dwuseryjnej. Do oceny zależności pomiędzy tymi zmiennymi wykorzystuje się współczynnik korelacji tetrachorycznej R tet, który również został wyhodowany przez Pearson. Podstawowy (dokładne) wzory i procedury obliczeń R tet dość skomplikowane. Dlatego z praktycznym Metoda ta wykorzystuje przybliżenia R tet, otrzymane na podstawie skróconych procedur i tabel.

/on-line/dictionary/dictionary.php?term=511

PUNKTOWY WSPÓŁCZYNNIK BISERIALNY jest współczynnikiem korelacji między dwiema zmiennymi, jedną mierzoną w skali dychotomicznej, a drugą w skali przedziałowej. Stosowany jest w testowaniu klasycznym i współczesnym jako wskaźnik jakości zadania testowego – rzetelności i zgodności z ogólnym wynikiem testu.

Aby skorelować zmienne mierzone w skala dychotomiczna i interwałowa używać współczynnik korelacji punktowo-biseryjnej.
Współczynnik korelacji punktowo-biserialnej to metoda analizy korelacji związku zmiennych, z których jedna jest mierzona na skali imion i przyjmuje tylko 2 wartości (np. mężczyźni/kobiety, poprawna odpowiedź/fałszywa odpowiedź, cecha występuje/nie występuje), a drugi na skali współczynników lub skali interwałowej. Wzór na obliczenie współczynnika korelacji punktowo-biseryjnej:

Gdzie:
m1 i m0 to średnie wartości X o wartości 1 lub 0 w Y.
σx – odchylenie standardowe wszystkich wartości przez X
n1,n0 – liczba wartości X od 1 lub 0 do Y.
n – całkowita liczba par wartości

Najczęściej tego typu współczynnik korelacji wykorzystuje się do obliczenia związku pozycji testowych ze skalą całkowitą. Jest to jeden z rodzajów kontroli ważności.

39. Współczynnik korelacji rangowo-dwuseryjnej.

O korelacji ogólnie mowa w pytaniu nr 36 Z. 56 (64) 063.JPG

harchenko-korranaliz.pdf s. 23 28

Współczynnik korelacji dwuseryjnej rangi, stosowany w przypadkach, gdy jedna ze zmiennych ( X) jest prezentowany w skali porządkowej, a drugi ( Y) – dychotomiczny, obliczany ze wzoru

.

Oto średnia ranga obiektów mających jeden Y; – średnia ranga obiektów od zera do Y, N- wielkość próbki.

Badanie hipotezy istotności Współczynnik korelacji rangowo-biseryjnej przeprowadza się analogicznie do współczynnika korelacji punktowej dwuseryjnej za pomocą testu Studenta ze podstawieniem we wzorach Rpb NA Rrb.

W przypadkach, gdy jedna zmienna mierzona jest na skali dychotomicznej (zmienna X), a drugą w skali rang (zmienna Y) stosuje się współczynnik korelacji rangowo-dwuseryjnej. Pamiętamy, że zmienna X, mierzony na skali dychotomicznej, przyjmuje tylko dwie wartości (kody) 0 i 1. Szczególnie podkreślamy: mimo że współczynnik ten waha się w przedziale od –1 do +1, jego znak nie ma znaczenia dla interpretacji wyniki. Jest to kolejny wyjątek od ogólnej zasady.

Współczynnik ten oblicza się ze wzoru:

gdzie ` X 1średnia ranga tych elementów zmiennej Y, co odpowiada kodowi (znakowi) 1 w zmiennej X;

`X 0 – średnia ranga dla tych elementów zmiennej Y, co odpowiada kodowi (znakowi) 0 w zmiennej X\

N - całkowita liczba elementów zmiennej X.

Aby zastosować współczynnik korelacji rangowo-biseryjnej, muszą zostać spełnione następujące warunki:

1. Porównywane zmienne należy mierzyć w różnych skalach: jednej X - w skali dychotomicznej; Inny T- w skali rankingowej.

2. Liczba zmiennych cech w porównywanych zmiennych X I Y powinno być takie samo.

3. Aby ocenić poziom rzetelności współczynnika korelacji rangowo-biseryjnej, należy skorzystać ze wzoru (11.9) i tabeli wartości krytycznych dla testu Studenta k = n – 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Przypadki, w których jedna ze zmiennych jest reprezentowana w skala dychotomiczna, a drugi w ranga (porządkowa), wymagają aplikacji współczynnik korelacji rangowo-biseryjnej:

rpb=2 / n * (m1 - m0)

Gdzie:
n – liczba obiektów pomiarowych
m1 i m0 - średnia ranga obiektów z 1 lub 0 na drugiej zmiennej.
Współczynnik ten wykorzystywany jest także przy sprawdzaniu ważności testów.

40. Współczynnik korelacji liniowej.

Informacje na temat korelacji w ogóle (a w szczególności korelacji liniowej) można znaleźć w pytaniu nr 36 Z. 56 (64) 063.JPG

WSPÓŁCZYNNIK Pana Pearsona

R-Osoba (osoba R) służy do badania związku między dwiema metrykamiróżne zmienne mierzone na tej samej próbce. Jest wiele sytuacji, w których jego użycie jest właściwe. Czy inteligencja wpływa na wyniki w nauce na ostatnim roku studiów? Czy wysokość wynagrodzenia pracownika ma związek z jego życzliwością wobec współpracowników? Czy nastrój ucznia wpływa na powodzenie rozwiązania złożonego zadania arytmetycznego? Aby odpowiedzieć na takie pytania, badacz musi zmierzyć dwa interesujące wskaźniki dla każdego członka próby. Dane potrzebne do zbadania zależności zestawiono następnie w tabeli, jak w przykładzie poniżej.

PRZYKŁAD 6.1

W tabeli przedstawiono przykładowe dane wyjściowe do pomiaru dwóch wskaźników inteligencji (werbalnej i niewerbalnej) dla 20 uczniów klas ósmych.

Zależność między tymi zmiennymi można przedstawić za pomocą wykresu rozrzutu (patrz rysunek 6.3). Z wykresu wynika, że ​​pomiędzy mierzonymi wskaźnikami istnieje pewna zależność: im większa wartość inteligencji werbalnej, tym (przeważnie) większa wartość inteligencji niewerbalnej.

Zanim podamy wzór na współczynnik korelacji, spróbujmy prześledzić logikę jego występowania, korzystając z danych z przykładu 6.1. Położenie każdego /-punktu (obiektu z numerem /) na wykresie punktowym w stosunku do pozostałych punktów (ryc. 6.3) można określić za pomocą wartości i znaków odchyleń odpowiednich wartości zmiennych od ich wartości średnich : (xj - M.J I (umysł Na ). Jeśli oznaki tych odchyleń pokrywają się, oznacza to dodatnią zależność (większe wartości dla X odpowiadają duże wartości Na lub niższe wartości X mniejsze wartości odpowiadają y).

Dla przedmiotu nr 1 odchylenie od średniej X i przez Na dodatni, natomiast dla podmiotu nr 3 oba odchylenia są ujemne. Dane z obu badań wskazują zatem na pozytywną zależność pomiędzy badanymi cechami. Wręcz przeciwnie, jeśli występują oznaki odchyleń od średniej X i przez Na różnią się, będzie to wskazywać na ujemną zależność między cechami. Zatem dla przedmiotu nr 4 odchylenie od średniej X jest ujemny, wg y- pozytywny, a dla przedmiotu nr 9 - odwrotnie.

Zatem, jeśli iloczyn odchyleń (x,- M X ) X (umysł Na ) dodatnie, wówczas dane podmiotu / wskazują na bezpośrednią (dodatnią) zależność, a jeśli ujemną, to na odwrotną (ujemną) zależność. Odpowiednio, jeśli Xwtak, tak są na ogół powiązane wprost proporcjonalnie, to większość iloczynów odchyleń będzie dodatnia, a jeśli są powiązane odwrotną zależnością, to większość iloczynów będzie ujemna. Zatem ogólnym wskaźnikiem siły i kierunku zależności może być suma wszystkich iloczynów odchyleń dla danej próbki:

Przy wprost proporcjonalnej zależności między zmiennymi wartość ta jest duża i dodatnia - dla większości przedmiotów odchylenia są zgodne w znaku (duże wartości jednej zmiennej odpowiadają dużym wartościom drugiej zmiennej i odwrotnie). Jeśli X I Na mieć informację zwrotną, wówczas dla większości badanych większe wartości jednej zmiennej będą odpowiadać mniejszym wartościom innej zmiennej, tj. znaki produktów będą ujemne, a suma produktów jako całości również będzie duża w wartości bezwzględnej, ale znak ujemny. Jeżeli pomiędzy zmiennymi nie ma systematycznego powiązania, wówczas składniki dodatnie (iloczyny odchyleń) zostaną zrównoważone wyrazami ujemnymi, a suma wszystkich iloczynów odchyleń będzie bliska zeru.

Aby mieć pewność, że suma produktów nie będzie zależała od wielkości próby, wystarczy ją uśrednić. Ale nas interesuje miara wzajemnych powiązań nie jako parametr ogólny, ale jako jego obliczone oszacowanie - statystyka. Zatem co do wzoru na dyspersję, w tym przypadku zrobimy to samo, dzieląc sumę iloczynów odchyleń nie przez N, oraz w telewizji - 1. W rezultacie powstaje szeroko stosowana w fizyce i naukach technicznych miara powiązania, która nazywa się kowariancja (Covahance):


W W psychologii, w przeciwieństwie do fizyki, większość zmiennych mierzy się na dowolnych skalach, ponieważ psychologów nie interesuje bezwzględna wartość znaku, ale względna pozycja podmiotów w grupie. Ponadto kowariancja jest bardzo wrażliwa na skalę skali (wariancji), na której mierzone są cechy. Aby miara związku była niezależna od jednostek miary obu cech, wystarczy podzielić kowariancję na odpowiednie odchylenia standardowe. W ten sposób uzyskano Do-Muł współczynnika korelacji K. Pearsona:

lub po podstawieniu wyrażeń o x i


Jeśli wartości obu zmiennych zostały przeliczone na wartości r za pomocą wzoru


wówczas wzór na współczynnik korelacji r-Pearsona wygląda prościej (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

KORELACJA LINIOWA- statystyczna zależność liniowa o charakterze nieprzyczynowym pomiędzy dwiema zmiennymi ilościowymi X I Na. Mierzone za pomocą „współczynnika K.L.” Pearsona, co jest wynikiem podzielenia kowariancji przez odchylenia standardowe obu zmiennych:

,

Gdzie S xy- kowariancja pomiędzy zmiennymi X I Na;

S X , S y- odchylenia standardowe dla zmiennych X I Na;

X I , y I- wartości zmienne X I Na dla obiektu z numerem I;

X, y- średnie arytmetyczne dla zmiennych X I Na.

Współczynnik Pearsona R może przyjmować wartości z przedziału [-1; +1]. Oznaczający r = 0 oznacza, że ​​pomiędzy zmiennymi nie istnieje liniowa zależność X I Na(ale nie wyklucza nieliniowej zależności statystycznej). Dodatnie wartości współczynników ( R> 0) wskazują bezpośrednie połączenie liniowe; im wartość jest bliższa +1, tym silniejsza jest zależność statystyczna. Ujemne wartości współczynników ( R < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения R= ±1 oznacza obecność pełnego połączenia liniowego, bezpośredniego lub odwrotnego. W przypadku pełnego połączenia wszystkie punkty o współrzędnych ( X I , y I) leżą na linii prostej y = A + bx.

„Współczynnik K.L.” Pearson służy również do pomiaru siły połączenia w modelu liniowej regresji parami.

41. Macierz korelacji i wykres korelacji.

O korelacji ogólnie mowa w pytaniu nr 36 Z. 56 (64) 063.JPG

Macierz korelacji. Często analiza korelacji obejmuje badanie zależności pomiędzy nie dwoma, a wieloma zmiennymi mierzonymi w skali ilościowej w jednej próbie. W tym przypadku dla każdej pary tego zbioru zmiennych obliczane są korelacje. Obliczenia przeprowadza się zwykle na komputerze, a wynikiem jest macierz korelacji.

Macierz korelacji(Korelacja matryca) jest wynikiem obliczenia korelacji jednego typu dla każdej pary ze zbioru R zmiennych mierzonych w skali ilościowej w jednej próbie.

PRZYKŁAD

Załóżmy, że badamy relacje między 5 zmiennymi (vl, v2,..., v5; P= 5), mierzone na próbce N=30 Człowiek. Poniżej znajduje się tabela danych źródłowych oraz macierz korelacji.

I
podobne dane:

Macierz korelacji:

Łatwo zauważyć, że macierz korelacji jest kwadratowa, symetryczna względem głównej przekątnej (takkak,y = /) y), z jednostkami na głównej przekątnej (ponieważ G I = Gu = 1).

Macierz korelacji to kwadrat: liczba wierszy i kolumn jest równa liczbie zmiennych. Ona symetryczny względem głównej przekątnej, ponieważ korelacja X Z Na równa korelacji Na Z X. Jednostki znajdują się na jego głównej przekątnej, ponieważ korelacja cechy z nią samą jest równa jeden. W związku z tym analizie nie podlegają wszystkie elementy macierzy korelacji, ale te, które znajdują się powyżej lub poniżej głównej przekątnej.

Liczba współczynników korelacji, Cechy, które należy analizować przy badaniu relacji, określa wzór: P(P- 1)/2. W powyższym przykładzie liczba takich współczynników korelacji wynosi 5(5 - 1)/2 = 10.

Głównym zadaniem analizy macierzy korelacji jest identyfikowanie struktury relacji pomiędzy wieloma cechami. W takim przypadku możliwa jest analiza wizualna galaktyki korelacyjne- obraz graficzny struktury statystycznieznaczące powiązania, jeśli nie ma zbyt wielu takich połączeń (do 10-15). Innym sposobem jest zastosowanie metod wielowymiarowych: regresji wielokrotnej, analizy czynnikowej lub skupień (patrz rozdział „Metody wielowymiarowe…”). Za pomocą analizy czynnikowej lub skupień można zidentyfikować grupy zmiennych, które są ze sobą ściślej powiązane niż z innymi zmiennymi. Połączenie tych metod jest również bardzo skuteczne, jeśli np. Znaków jest dużo i nie są one jednorodne.

Porównanie korelacji - dodatkowe zadanie analizy macierzy korelacji, które ma dwie możliwości. W przypadku konieczności porównania korelacji w jednym z wierszy macierzy korelacji (dla jednej ze zmiennych) stosuje się metodę porównawczą dla prób zależnych (s. 148-149). Przy porównywaniu korelacji o tej samej nazwie obliczonych dla różnych prób stosuje się metodę porównawczą dla prób niezależnych (s. 147-148).

Metody porównawcze korelacje w przekątnych macierz korelacji (do oceny stacjonarności procesu losowego) i porównanie kilka macierze korelacji uzyskane dla różnych próbek (ze względu na ich jednorodność) są pracochłonne i wykraczają poza zakres tej książki. Możesz zapoznać się z tymi metodami z książki G.V. Sukhodolsky'ego 1.

Problem istotności statystycznej korelacji. Problem w tym, że zakłada to procedura testowania hipotez statystycznych jeden-wiele badanie przeprowadzone na jednej próbce. Jeśli zastosuje się tę samą metodę wielokrotnie, nawet jeśli w odniesieniu do różnych zmiennych wzrasta prawdopodobieństwo otrzymania wyniku wyłącznie przez przypadek. Ogólnie rzecz biorąc, jeśli powtórzymy tę samą metodę testowania hipotezy raz w odniesieniu do różnych zmiennych lub próbek, to przy ustalonej wartości a mamy gwarancję otrzymania potwierdzenia hipotezy aha Liczba przypadków.

Załóżmy, że macierz korelacji jest analizowana dla 15 zmiennych, czyli obliczanych jest 15(15-1)/2 = 105 współczynników korelacji. Do testowania hipotez przyjmuje się poziom a = 0,05. Sprawdzając hipotezę 105 razy, otrzymamy jej potwierdzenie pięciokrotnie (!), niezależnie od tego, czy związek rzeczywiście istnieje. Czy znając to i dysponując powiedzmy 15 „istotnymi statystycznie” współczynnikami korelacji, jesteśmy w stanie stwierdzić, które z nich otrzymano przez przypadek, a które odzwierciedlają rzeczywistą zależność?

Ściśle rzecz biorąc, aby podjąć decyzję statystyczną, należy obniżyć poziom a tyle razy, ile jest testowanych hipotez. Nie jest to jednak wskazane, ponieważ prawdopodobieństwo zignorowania naprawdę istniejącego połączenia (popełnienia błędu II rodzaju) wzrasta w nieprzewidywalny sposób.

Sama macierz korelacji nie jest wystarczającą podstawądo wniosków statystycznych dotyczących poszczególnych współczynników w nim zawartychkorelacje!

Istnieje tylko jeden naprawdę przekonujący sposób rozwiązania tego problemu: losowo podzielić próbę na dwie części i uwzględnić tylko te korelacje, które są istotne statystycznie w obu częściach próby. Alternatywą może być zastosowanie metod wielowymiarowych (analiza czynnikowa, skupieniowa lub regresja wielokrotna) w celu identyfikacji, a następnie interpretacji grup zmiennych istotnych statystycznie.

Problem braku wartości. Jeżeli w danych brakuje wartości, możliwe są dwie opcje obliczenia macierzy korelacji: a) usuwanie wartości wiersz po wierszu (wykluczaćsprawylistownie); b) parami usuwanie wartości (wykluczaćsprawyparami). Na usuwanie linia po linii obserwacji z brakującymi wartościami, usuwany jest cały wiersz dla obiektu (obiektu), który ma przynajmniej jeden brakujący element dla jednej ze zmiennych. Metoda ta prowadzi do „poprawnej” macierzy korelacji w tym sensie, że wszystkie współczynniki są obliczane na podstawie tego samego zestawu obiektów. Jeśli jednak brakujące wartości zostaną losowo rozmieszczone w zmiennych, wówczas metoda ta może prowadzić do tego, że w rozpatrywanym zbiorze danych nie pozostanie ani jeden obiekt (w każdym wierszu będzie co najmniej jedna brakująca wartość) . Aby uniknąć tej sytuacji, użyj innej metody zwanej usuwanie parami. Ta metoda uwzględnia jedynie luki w każdej wybranej parze kolumna-zmienna i ignoruje luki w innych zmiennych. Korelację dla pary zmiennych oblicza się dla tych obiektów, w których nie ma luk. W wielu sytuacjach, szczególnie gdy liczba luk jest stosunkowo niewielka, powiedzmy 10%, a luki są rozmieszczone dość losowo, metoda ta nie prowadzi do poważnych błędów. Czasami jednak tak nie jest. Przykładowo, systematyczny błąd (przesunięcie) w ocenie może „ukryć” systematyczne uporządkowanie pominięć, co jest przyczyną różnicy we współczynnikach korelacji konstruowanych dla różnych podzbiorów (na przykład dla różnych podgrup obiektów). Kolejny problem związany z obliczaną macierzą korelacji W parach usunięcie luk następuje w przypadku wykorzystania tej macierzy w innych rodzajach analiz (na przykład w regresji wielokrotnej lub analizie czynnikowej). Zakładają, że stosowana jest „poprawna” macierz korelacji z pewnym poziomem spójności i „zgodności” różnych współczynników. Stosowanie macierzy z „złymi” (stronniczymi) szacunkami powoduje, że program albo nie jest w stanie przeanalizować takiej macierzy, albo wyniki będą błędne. Dlatego też, jeżeli stosowana jest metoda wykluczania brakujących danych parami, należy sprawdzić, czy występują systematyczne prawidłowości w rozkładzie brakujących danych.

Jeśli usuwanie brakujących danych parami nie prowadzi do systematycznego przesunięcia średnich i wariancji (odchyłek standardowych), to statystyki te będą podobne do tych obliczonych metodą usuwania brakujących danych wiersz po wierszu. Jeżeli zaobserwowano znaczącą różnicę, można założyć, że nastąpiła zmiana szacunków. Na przykład, jeśli średnia (lub odchylenie standardowe) wartości zmiennej A, która została wykorzystana do obliczenia jej korelacji ze zmienną W, znacznie mniej niż średnia (lub odchylenie standardowe) tych samych wartości zmiennej A, które zostały użyte do obliczenia jej korelacji ze zmienną C, to istnieją podstawy, aby oczekiwać, że te dwie korelacje (A-Bnas) w oparciu o różne podzbiory danych. W korelacjach wystąpi odchylenie spowodowane nielosowym rozmieszczeniem luk w wartościach zmiennych.

Analiza galaktyk korelacyjnych. Po rozwiązaniu problemu istotności statystycznej elementów macierzy korelacji, korelacje istotne statystycznie można przedstawić graficznie w postaci galaktyki lub galaktyki korelacji. Galaktyka korelacyjna - Jest to figura składająca się z wierzchołków i łączących je linii. Wierzchołki odpowiadają cechom i są zwykle oznaczone liczbami - liczbami zmiennymi. Linie odpowiadają statystycznie istotnym połączeniom i graficznie wyrażają znak, a czasem także poziom istotności j połączenia.

Galaktyka korelacyjna może odzwierciedlać Wszystko statystycznie istotne powiązania macierzy korelacji (czasami nazywane wykres korelacji ) lub tylko ich sensownie wybraną część (np. odpowiadającą jednemu czynnikowi zgodnie z wynikami analizy czynnikowej).

PRZYKŁAD KONSTRUKCJI PLEJADY KORELACYJNEJ


Przygotowanie do państwowej (ostatecznej) certyfikacji absolwentów: utworzenie bazy danych Unified State Exam (ogólna lista uczestników Unified State Exam wszystkich kategorii, ze wskazaniem przedmiotów) – z uwzględnieniem dni rezerwowych dla tych samych przedmiotów;

  • Plan pracy (27)

    Rozwiązanie

    2. Działalność placówki oświatowej na rzecz doskonalenia treści i oceny jakości przedmiotów nauczania przedmiotów ścisłych i matematycznych Miejska placówka oświatowa szkoła średnia nr 4, Litwinowska, Czapajewska,

  • W przypadkach, gdy pomiary badanych cech przeprowadzane są w skali porządkowej lub postać zależności różni się od liniowej, badanie związku pomiędzy dwiema zmiennymi losowymi przeprowadza się za pomocą współczynników korelacji rangowej. Rozważ współczynnik korelacji rang Spearmana. Obliczając to, należy uszeregować (uporządkować) opcje próbki. Ranking to grupowanie danych eksperymentalnych w określonej kolejności, rosnącej lub malejącej.

    Operację rankingową przeprowadza się według następującego algorytmu:

    1. Niższa wartość otrzymuje niższą rangę. Najwyższa wartość ma przypisaną rangę odpowiadającą liczbie uszeregowanych wartości. Najmniejsza wartość otrzymuje rangę 1. Przykładowo, jeśli n=7, to największa wartość otrzyma rangę 7, za wyjątkiem przypadków przewidzianych w drugiej regule.

    2. Jeśli kilka wartości jest równych, wówczas przypisuje się im rangę będącą średnią rang, jakie otrzymaliby, gdyby nie były równe. Jako przykład rozważmy próbkę uporządkowaną rosnąco składającą się z 7 elementów: 22, 23, 25, 25, 25, 28, 30. Wartości 22 i 23 pojawiają się raz każda, więc ich rangi wynoszą odpowiednio R22=1 i R23=2. Wartość 25 pojawia się 3 razy. Gdyby te wartości nie zostały powtórzone, ich rangi wynosiłyby 3, 4, 5. Dlatego ich ranga R25 jest równa średniej arytmetycznej z 3, 4 i 5: . Wartości 28 i 30 nie powtarzają się, zatem ich rangi wynoszą odpowiednio R28=6 i R30=7. Wreszcie mamy następującą korespondencję:

    3. Całkowita suma rang musi pokrywać się z obliczoną, którą określa wzór:

    gdzie n jest całkowitą liczbą uszeregowanych wartości.

    Rozbieżność pomiędzy rzeczywistą a obliczoną sumą rang będzie oznaczać błąd popełniony przy obliczaniu rang lub ich sumowaniu. W takim przypadku musisz znaleźć i naprawić błąd.

    Współczynnik korelacji rang Spearmana jest metodą pozwalającą określić siłę i kierunek związku pomiędzy dwiema cechami lub dwiema hierarchiami cech. Stosowanie współczynnika korelacji rang ma szereg ograniczeń:

    • a) Założona zależność korelacyjna musi być monotoniczna.
    • b) Objętość każdej próbki musi być większa lub równa 5. Aby określić górną granicę próbki, skorzystaj z tabel wartości krytycznych (Tabela 3 w Załączniku). Maksymalna wartość n w tabeli wynosi 40.
    • c) Podczas analizy może pojawić się duża liczba identycznych rang. W takim przypadku należy dokonać poprawki. Najbardziej korzystny jest przypadek, gdy obie badane próbki reprezentują dwa ciągi o rozbieżnych wartościach.

    Aby przeprowadzić analizę korelacji, badacz musi dysponować dwiema próbami, które można uszeregować, np.:

    • - dwie cechy mierzone w tej samej grupie osób;
    • - dwie indywidualne hierarchie cech zidentyfikowane u dwóch osób wykorzystujących ten sam zestaw cech;
    • - dwie grupowe hierarchie cech;
    • - indywidualne i grupowe hierarchie atrybutów.

    Obliczenia rozpoczynamy od uszeregowania badanych wskaźników oddzielnie dla każdej z cech.

    Przeanalizujmy przypadek z dwoma znakami mierzonymi w tej samej grupie badanych. Najpierw indywidualne wartości uzyskane przez różne podmioty są uszeregowane według pierwszej cechy, a następnie poszczególne wartości są uszeregowane według drugiej cechy. Jeżeli niższe pozycje jednego wskaźnika odpowiadają niższym rangom innego wskaźnika, a wyższe pozycje jednego wskaźnika odpowiadają wyższym rangom innego wskaźnika, to te dwie cechy są ze sobą dodatnio powiązane. Jeśli wyższe rangi jednego wskaźnika odpowiadają niższym rangom innego wskaźnika, wówczas te dwie cechy są ze sobą ujemnie powiązane. Aby znaleźć rs, określamy różnice między rangami (d) dla każdego przedmiotu. Im mniejsza różnica między rangami, tym współczynnik korelacji rang rs będzie bliższy „+1”. Jeśli nie ma związku, to nie będzie między nimi korespondencji, stąd rs będzie bliskie zeru. Im większa jest różnica pomiędzy rangami badanych w dwóch zmiennych, tym bliższa „-1” będzie wartość współczynnika rs. Zatem współczynnik korelacji rang Spearmana jest miarą dowolnego monotonicznego związku między dwiema badanymi cechami.

    Rozważmy przypadek dwóch indywidualnych hierarchii cech zidentyfikowanych u dwóch osób stosujących ten sam zestaw cech. W tej sytuacji indywidualne wartości uzyskane przez każdy z dwóch podmiotów są uszeregowane według pewnego zestawu cech. Cecha o najniższej wartości musi mieć przypisaną pierwszą rangę; cechą o wyższej wartości jest drugi stopień itd. Należy zachować szczególną ostrożność, aby wszystkie atrybuty były mierzone w tych samych jednostkach. Na przykład niemożliwe jest uszeregowanie wskaźników, jeśli są one wyrażone w różnych punktach „cenowych”, ponieważ nie można określić, który z czynników zajmie pierwsze miejsce pod względem dotkliwości, dopóki wszystkie wartości nie zostaną sprowadzone do jednej skali. Jeśli cechy zajmujące niskie pozycje w jednym z przedmiotów mają także niskie pozycje w innym i odwrotnie, wówczas poszczególne hierarchie są ze sobą dodatnio powiązane.

    W przypadku dwóch grupowych hierarchii cech, średnie wartości grupowe uzyskane w dwóch grupach podmiotów są uszeregowane według tego samego zestawu cech dla badanych grup. Następnie postępujemy zgodnie z algorytmem podanym w poprzednich przypadkach.

    Przeanalizujmy przypadek z indywidualną i grupową hierarchią cech. Rozpoczynają od osobnego uszeregowania indywidualnych wartości podmiotu i średnich wartości grupowych według tego samego zestawu cech, które uzyskano, z wyłączeniem podmiotu, który nie uczestniczy w przeciętnej hierarchii grupowej, gdyż jego indywidualna hierarchia będzie w porównaniu z tym. Korelacja rang pozwala ocenić stopień spójności indywidualnej i grupowej hierarchii cech.

    Zastanówmy się, jak wyznacza się istotność współczynnika korelacji w wymienionych powyżej przypadkach. W przypadku dwóch cech będzie o tym decydować liczebność próby. W przypadku dwóch indywidualnych hierarchii cech znaczenie zależy od liczby cech zawartych w hierarchii. W dwóch ostatnich przypadkach o istotności decyduje liczba badanych cech, a nie liczba grup. Zatem znaczenie rs we wszystkich przypadkach zależy od liczby uszeregowanych wartości n.

    Przy sprawdzaniu istotności statystycznej rs stosuje się tablice wartości krytycznych współczynnika korelacji rang, zestawione dla różnej liczby wartości rankingowych i różnych poziomów istotności. Jeżeli wartość bezwzględna r osiąga lub przekracza wartość krytyczną, wówczas korelacja jest wiarygodna.

    Rozważając opcję pierwszą (przypadek z dwoma znakami mierzonymi w tej samej grupie osób) możliwe są następujące hipotezy.

    H0: Korelacja pomiędzy zmiennymi x i y nie jest różna od zera.

    H1: Korelacja pomiędzy zmiennymi x i y jest istotnie różna od zera.

    Jeżeli pracujemy nad którymś z trzech pozostałych przypadków, to konieczne jest postawienie kolejnej pary hipotez:

    H0: Korelacja pomiędzy hierarchiami x i y nie jest różna od zera.

    H1: Korelacja pomiędzy hierarchiami x i y jest istotnie różna od zera.

    Kolejność działań przy obliczaniu współczynnika korelacji rang Spearmana rs jest następująca.

    • - Określ, które dwie cechy lub dwie hierarchie cech będą brać udział w porównaniu jako zmienne x i y.
    • - Uszereguj wartości zmiennej x, przypisując rangę 1 najmniejszej wartości, zgodnie z zasadami rankingu. Umieść rangi w pierwszej kolumnie tabeli w kolejności obiektów testowych lub cech.
    • - Uszereguj wartości zmiennej y. Umieść rangi w drugiej kolumnie tabeli w kolejności obiektów testowych lub cech.
    • - Oblicz różnicę d pomiędzy rangami x i y dla każdego wiersza tabeli. Wyniki umieść w kolejnej kolumnie tabeli.
    • - Oblicz kwadraty różnic (d2). Uzyskane wartości umieść w czwartej kolumnie tabeli.
    • - Oblicz sumę kwadratów różnic? d2.
    • - Jeżeli wystąpią identyczne rangi, należy obliczyć poprawki:

    gdzie tx jest objętością każdej grupy identycznych rang w próbie x;

    ty to objętość każdej grupy identycznych rang w próbie y.

    Oblicz współczynnik korelacji rang w zależności od obecności lub braku identycznych rang. Jeżeli nie ma identycznych rang, oblicz współczynnik korelacji rang rs korzystając ze wzoru:

    Jeżeli rangi są identyczne, należy obliczyć współczynnik korelacji rang rs korzystając ze wzoru:

    gdzie?d2 jest sumą kwadratów różnic pomiędzy rangami;

    Tx i Ty - poprawki dla równych rang;

    n to liczba przedmiotów lub cech biorących udział w rankingu.

    Określ wartości krytyczne rs z tabeli dodatku 3 dla danej liczby osób n. Znacząca różnica od zera współczynnika korelacji zostanie zaobserwowana pod warunkiem, że rs będzie nie mniejsze niż wartość krytyczna.

    jest ilościową oceną statystycznego badania zależności między zjawiskami, stosowaną w metodach nieparametrycznych.

    Wskaźnik pokazuje, jak obserwowana suma kwadratów różnic pomiędzy rangami różni się od przypadku braku połączenia.

    Cel usługi. Za pomocą tego kalkulatora online możesz:

    • obliczenie współczynnika korelacji rang Spearmana;
    • obliczenie przedziału ufności dla współczynnika i ocena jego istotności;

    Współczynnik korelacji rang Spearmana odnosi się do wskaźników oceny bliskości komunikacji. Jakościową charakterystykę bliskości powiązania współczynnika korelacji rang, a także innych współczynników korelacji można ocenić za pomocą skali Chaddocka.

    Obliczanie współczynnika składa się z następujących kroków:

    Własności współczynnika korelacji rang Spearmana

    Obszar zastosowań. Współczynnik korelacji rang służy do oceny jakości komunikacji między dwoma zestawami. Ponadto jego istotność statystyczna jest wykorzystywana przy analizie danych pod kątem heteroskedastyczności.

    Przykład. Na podstawie próbki zaobserwowanych zmiennych X i Y:

    1. utwórz tabelę rankingową;
    2. znajdź współczynnik korelacji rang Spearmana i sprawdź jego istotność na poziomie 2a
    3. ocenić charakter zależności
    Rozwiązanie. Przypiszmy rangi cechie Y i czynnikowi X.
    XYranga X, dxranga Y, d y
    28 21 1 1
    30 25 2 2
    36 29 4 3
    40 31 5 4
    30 32 3 5
    46 34 6 6
    56 35 8 7
    54 38 7 8
    60 39 10 9
    56 41 9 10
    60 42 11 11
    68 44 12 12
    70 46 13 13
    76 50 14 14

    Macierz rang.
    ranga X, dxranga Y, d y(d x - d y) 2
    1 1 0
    2 2 0
    4 3 1
    5 4 1
    3 5 4
    6 6 0
    8 7 1
    7 8 1
    10 9 1
    9 10 1
    11 11 0
    12 12 0
    13 13 0
    14 14 0
    105 105 10

    Sprawdzenie poprawności macierzy na podstawie obliczenia sumy kontrolnej:

    Suma kolumn macierzy jest równa sobie i sumie kontrolnej, co oznacza, że ​​macierz jest złożona poprawnie.
    Korzystając ze wzoru obliczamy współczynnik korelacji rang Spearmana.


    Związek między cechą Y a czynnikiem X jest silny i bezpośredni
    Znaczenie współczynnika korelacji rang Spearmana
    W celu sprawdzenia hipotezy zerowej na poziomie istotności α, przy hipotezie konkurencyjnej Hi, ogólny współczynnik korelacji rang Spearmana jest równy zero. p ≠ 0, należy obliczyć punkt krytyczny:

    gdzie n jest wielkością próby; ρ to przykładowy współczynnik korelacji rang Spearmana: t(α, k) to punkt krytyczny dwustronnego obszaru krytycznego, który znajduje się w tabeli punktów krytycznych rozkładu Studenta, zgodnie z poziomem istotności α i liczbą stopni swobody k = n-2.
    Jeśli |p|< Т kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если |p| >T kp – hipoteza zerowa zostaje odrzucona. Istnieje istotna korelacja rangowa pomiędzy cechami jakościowymi.
    Według tabeli Studenta znajdujemy t(α/2, k) = (0,1/2;12) = 1,782

    Ponieważ T kp< ρ , то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.

    Poniższy kalkulator oblicza współczynnik korelacji rang Spearmana pomiędzy dwiema zmiennymi losowymi.Część teoretyczna jest tradycyjna poniżej kalkulatora.

    dodać import Eksport tryb_edycja usuwać

    Zmiany zmiennych losowych

    strzałka_w góręstrzałka_w dół strzałka_w góręstrzałka_w dół
    Liczba elementów na stronie: 5 10 20 50 100 szewron_lewy chevron_right

    Zmiany zmiennych losowych

    Importuj dane Błąd importu

    „Do oddzielenia pól danych używany jest jeden z następujących znaków: tabulator, średnik (;) lub przecinek (,)” Przykład: -50,5;-50,5

    Importuj Wstecz Anuluj

    Cyfry po przecinku: 4

    Oblicz

    Współczynnik korelacji Spearmana

    Ratować udział rozszerzenie

    Metoda obliczania współczynnika korelacji rang Spearmana jest w rzeczywistości dość prosta.To tak, jak zaprojektowano współczynnik korelacji Pearsona, ale nie tylko do pomiarów zmiennych losowych, ale dla nich wartości rankingowe.

    Musimy tylko zrozumieć, jaka jest wartość rangi i dlaczego to wszystko jest konieczne.

    Jeśli elementy szeregu wariacyjnego są ułożone w porządku rosnącym lub malejącym, to ranga elementu będzie jego numerem w uporządkowanym szeregu.

    Na przykład mamy zmienny szereg (17,26,5,14,21). Posortujmy elementy w porządku malejącym (26,21,17,14,5). 26 ma rangę 1, 21 - rangę 2 i tak dalej, Szereg wariacyjny wartości rankingowych będzie wyglądał następująco (3,1,5,4,2).

    Tj. przy obliczaniu współczynnika Spearmana początkowe serie wariacyjne są przekształcane na wariacyjne serie wartości rankingowych, a następnie stosowany jest do nich wzór Pearsona.
    .
    Jest jedna subtelność - rangę powtarzających się wartości przyjmuje się jako średnią rang. Czyli dla szeregu (17, 15, 14, 15) szereg rankingowy będzie wyglądał następująco (1, 2,5, 4, 2,5), gdyż pierwszy element to 15 ma rangę 2, a drugi - rangę 3, I.

    Jeśli nie masz wartości powtarzających się, czyli wszystkich wartości szeregów rankingowych - liczb od 1 do n, wzór Pearsona można uprościć do

    Nawiasem mówiąc, wzór ten jest często podawany jako wzór do obliczenia współczynnika Spearmana.

    Jaka jest istota przejścia od samych wartości do ich wartości rangowej?
    Badając korelację wartości rankingu, można dowiedzieć się, jak dobrze zależność obu zmiennych opisuje funkcja monotoniczna.

    Znak współczynnika wskazuje kierunek zależności między zmiennymi. Jeśli znak jest dodatni, wartości Y mają tendencję do zwiększania się wraz ze wzrostem X. Jeśli znak jest ujemny, wartości Y mają tendencję do zmniejszania się wraz ze wzrostem X. Jeśli współczynnik wynosi 0, to nie ma zatem tendencji. Jeżeli współczynnik jest równy 1 lub -1, to związek pomiędzy X i Y ma charakter funkcji monotonicznej, tj. wraz ze wzrostem X, Y również wzrasta i odwrotnie.

    Oznacza to, że w przeciwieństwie do współczynnika korelacji Pearsona, który może wykryć jedynie liniową zależność jednej zmiennej od drugiej, współczynnik korelacji Spearmana może wykryć zależność monotoniczną, w przypadku której nie można ujawnić bezpośredniej zależności liniowej.

    Oto przykład.
    Wyjaśnię to na przykładzie. Załóżmy, że sprawdzamy funkcję y=10/x.
    Mamy następujące wymiary X i Y
    {{1,10}, {5,2}, {10,1}, {20,0.5}, {100,0.1}}
    Dla tych danych współczynnik korelacji Pearsona wynosi -0,4686, tj. związek jest słaby lub nieobecny. A współczynnik korelacji Spearmana jest ściśle równy -1, jak gdyby stanowił wskazówkę dla badacza, że ​​Y ma silnie ujemną monotoniczną zależność od X.

    Współczynnik korelacji rang, zaproponowany przez K. Spearmana, odnosi się do nieparametrycznej miary zależności między zmiennymi mierzonymi na skali rang. Przy obliczaniu tego współczynnika nie są wymagane żadne założenia dotyczące charakteru rozkładów cech w populacji. Współczynnik ten określa stopień bliskości powiązania cech porządkowych, które w tym przypadku reprezentują szeregi porównywanych wielkości.

    Współczynnik korelacji Spearmana również mieści się w przedziale +1 i -1. Podobnie jak współczynnik Pearsona może być dodatni i ujemny, charakteryzując kierunek związku pomiędzy dwiema cechami mierzonymi na skali rang.

    W zasadzie liczba uszeregowanych cech (cech, cech itp.) może być dowolna, jednak proces uszeregowania więcej niż 20 cech jest trudny. Możliwe, że dlatego tablicę wartości krytycznych współczynnika korelacji rang obliczono jedynie dla czterdziestu cech rankingowych (n< 40, табл. 20 приложения 6).

    Współczynnik korelacji rang Spearmana oblicza się ze wzoru:

    gdzie n to liczba uszeregowanych cech (wskaźników, przedmiotów);

    D jest różnicą pomiędzy rangami w dwóch zmiennych dla każdego przedmiotu;

    Suma kwadratów różnic rang.

    Korzystając ze współczynnika korelacji rang, rozważ następujący przykład.

    Przykład: Psycholog bada, jak poszczególne wskaźniki gotowości szkolnej, uzyskane przed rozpoczęciem nauki szkolnej wśród 11 pierwszoklasistów, mają się do siebie i ich średnich osiągnięć na koniec roku szkolnego.

    Aby rozwiązać ten problem, dokonaliśmy rankingu, po pierwsze, wartości wskaźników gotowości szkolnej uzyskanych w momencie rozpoczęcia nauki w szkole, a po drugie, końcowych wskaźników osiągnięć na koniec roku średnio dla tych samych uczniów. Wyniki przedstawiono w tabeli. 13.

    Tabela 13

    Student nr.

    Rangi wskaźników gotowości szkolnej

    Średnie roczne rankingi wyników

    Uzyskane dane podstawiamy do wzoru i wykonujemy obliczenia. Otrzymujemy:

    Aby znaleźć poziom istotności, skorzystaj z tabeli. 20 Załącznika 6, który pokazuje wartości krytyczne współczynników korelacji rang.

    Podkreślamy to w tabeli. 20 Załącznika nr 6, podobnie jak w tabeli korelacji liniowej Pearsona, wszystkie wartości współczynników korelacji podano w wartościach bezwzględnych. Dlatego znak współczynnika korelacji jest brany pod uwagę tylko przy jego interpretacji.

    Znalezienie poziomów istotności w tej tabeli odbywa się za pomocą liczby n, czyli liczby osób badanych. W naszym przypadku n = 11. Dla tej liczby znajdujemy:

    0,61 dla P 0,05

    0,76 dla P 0,01

    Konstruujemy odpowiednią „oś znaczenia”:

    Otrzymany współczynnik korelacji pokrywał się z wartością krytyczną dla poziomu istotności 1%. W konsekwencji można postawić tezę, że wskaźniki gotowości szkolnej i oceny końcowe uczniów klas pierwszych łączy dodatnia korelacja – innymi słowy, im wyższy wskaźnik gotowości szkolnej, tym lepsza nauka w klasie pierwszej. W zakresie hipotez statystycznych psycholog musi odrzucić hipotezę zerową o podobieństwie i przyjąć alternatywną hipotezę różnic, która sugeruje, że związek między wskaźnikami gotowości szkolnej a średnimi wynikami w nauce jest różny od zera.

    Przypadek identycznych (równych) rang

    Jeżeli rangi są identyczne, wzór na obliczenie współczynnika korelacji liniowej Spearmana będzie nieco inny. W tym przypadku do wzoru na obliczanie współczynników korelacji dodawane są dwa nowe człony, uwzględniające te same rangi. Nazywa się je poprawkami równej rangi i dodaje się je do licznika wzoru obliczeniowego.

    gdzie n jest liczbą identycznych szeregów w pierwszej kolumnie,

    k jest liczbą identycznych szeregów w drugiej kolumnie.

    Jeśli w dowolnej kolumnie znajdują się dwie grupy identycznych rang, wówczas formuła korekty staje się nieco bardziej skomplikowana:

    gdzie n jest liczbą identycznych rang w pierwszej grupie kolumny z rankingiem,

    k jest liczbą identycznych rang w drugiej grupie kolumny z rankingiem. Modyfikacja wzoru w przypadku ogólnym jest następująca:

    Przykład: Psycholog za pomocą testu rozwoju umysłowego (MDT) przeprowadza badanie inteligencji u 12 uczniów IX klasy. Jednocześnie prosi nauczycieli literatury i matematyki o uszeregowanie tych samych uczniów według wskaźników rozwoju umysłowego. Zadanie polega na określeniu, w jaki sposób obiektywne wskaźniki rozwoju umysłowego (dane SHTUR) i oceny eksperckie nauczycieli są ze sobą powiązane.

    Dane eksperymentalne tego problemu oraz dodatkowe kolumny niezbędne do obliczenia współczynnika korelacji Spearmana przedstawiamy w formie tabeli. 14.

    Tabela 14

    Student nr.

    Rangi testów przy użyciu SHTURA

    Ekspertyzy nauczycieli matematyki

    Ekspertyzy nauczycieli w zakresie literatury

    D (druga i trzecia kolumna)

    D (druga i czwarta kolumna)

    (druga i trzecia kolumna)

    (druga i czwarta kolumna)

    Ponieważ w rankingu zastosowano te same rangi, należy sprawdzić poprawność rankingu w drugiej, trzeciej i czwartej kolumnie tabeli. Sumowanie każdej z tych kolumn daje tę samą sumę - 78.

    Sprawdzamy za pomocą wzoru obliczeniowego. Czek daje:

    Piąta i szósta kolumna tabeli przedstawiają wartości różnicy rang pomiędzy ocenami eksperckimi psychologa w teście SHTUR dla każdego ucznia a wartościami ocen eksperckich nauczycieli odpowiednio z matematyki i literatury. Suma wartości różnicy rang musi być równa zeru. Sumowanie wartości D w piątej i szóstej kolumnie dało pożądany wynik. Dlatego odejmowanie stopni zostało przeprowadzone prawidłowo. Podobną kontrolę należy przeprowadzić za każdym razem, gdy przeprowadza się rankingi złożonego typu.

    Przed rozpoczęciem obliczeń za pomocą wzoru należy obliczyć poprawki dla tych samych rang dla drugiej, trzeciej i czwartej kolumny tabeli.

    W naszym przypadku w drugiej kolumnie tabeli znajdują się dwie identyczne rangi, zatem zgodnie ze wzorem wartość poprawki D1 będzie wynosić:

    Trzecia kolumna zawiera trzy identyczne rangi, zatem zgodnie ze wzorem wartość poprawki D2 będzie wynosić:

    W czwartej kolumnie tabeli znajdują się dwie grupy po trzy identyczne rangi, zatem zgodnie ze wzorem wartość poprawki D3 będzie wynosić:

    Zanim przystąpimy do rozwiązywania problemu, przypomnijmy, że psycholog wyjaśnia dwie kwestie - w jaki sposób wartości rang w teście SHTUR mają się do ocen ekspertów z matematyki i literatury. Dlatego obliczenia przeprowadza się dwukrotnie.

    Pierwszy współczynnik rankingu obliczamy z uwzględnieniem dodatków zgodnie ze wzorem. Otrzymujemy:

    Obliczmy bez uwzględnienia dodatku:

    Jak widać różnica w wartościach współczynników korelacji okazała się bardzo nieistotna.

    Drugi współczynnik rankingu obliczamy biorąc pod uwagę dodatki zgodnie ze wzorem. Otrzymujemy:

    Obliczmy bez uwzględnienia dodatku:

    Ponownie różnice były bardzo niewielkie. Ponieważ liczba uczniów w obu przypadkach jest taka sama, jak wynika z tabeli. 20 Załącznika 6 znajdujemy wartości krytyczne przy n = 12 dla obu współczynników korelacji jednocześnie.

    0,58 dla P 0,05

    0,73 dla P 0,01

    Wykreślamy pierwszą wartość na „osi istotności”:

    W pierwszym przypadku uzyskany współczynnik korelacji rang mieści się w strefie istotności. Psycholog musi zatem odrzucić hipotezę zerową, że współczynnik korelacji jest zbliżony do zera i przyjąć hipotezę alternatywną, że współczynnik korelacji jest istotnie różny od zera. Innymi słowy, uzyskany wynik sugeruje, że im wyższe oceny eksperckie uczniów w teście SHTUR, tym wyższe ich oceny eksperckie z matematyki.

    Drugą wartość wykreślamy na „osi istotności”:

    W drugim przypadku współczynnik korelacji rangowej znajduje się w strefie niepewności. Zatem psycholog może przyjąć Hipotezę zerową, że współczynnik korelacji jest podobny do zera i odrzucić Hipotezę alternatywną, że współczynnik korelacji jest istotnie różny od zera. Uzyskany wynik sugeruje w tym przypadku, że oceny eksperckie uczniów na teście SHTUR nie mają związku z ocenami eksperckimi z literatury.

    Aby zastosować współczynnik korelacji Spearmana, muszą zostać spełnione następujące warunki:

    1. Porównywane zmienne należy uzyskać na skali porządkowej (rankingowej), ale można je również zmierzyć na skali przedziałowej i ilorazowej.

    2. Charakter rozkładu wielkości skorelowanych nie ma znaczenia.

    3. Liczba zmiennych cech w porównywanych zmiennych X i Y musi być taka sama.

    Tablice do wyznaczania wartości krytycznych współczynnika korelacji Spearmana (Tabela 20, Załącznik 6) obliczane są z liczby cech równej n=5 do n=40, a przy większej liczbie porównywanych zmiennych tabela dla Należy zastosować współczynnik korelacji Pearsona (Tabela 19, Załącznik 6). Znalezienie wartości krytycznych odbywa się przy k = n.