Jaka jest różnica? Absolutne różnice

Rozproszenie w statystyce znajduje się jako indywidualne wartości cechy do kwadratu z . W zależności od danych początkowych wyznacza się ją za pomocą prostych i ważonych wzorów na wariancję:

1. (dla danych niezgrupowanych) oblicza się ze wzoru:

2. Wariancja ważona (dla serii zmian):

gdzie n to częstotliwość (powtarzalność współczynnika X)

Przykład znajdowania wariancji

Na tej stronie opisano standardowy przykład znajdowania wariancji. Możesz także przyjrzeć się innym problemom związanym ze znalezieniem wariancji

Przykład 1. Poniższe dane są dostępne dla grupy 20 studentów korespondencyjnych. Należy skonstruować szereg przedziałowy rozkładu cechy, obliczyć średnią wartość cechy i zbadać jej rozproszenie

Zbudujmy grupowanie interwałowe. Wyznaczmy zakres przedziału korzystając ze wzoru:

gdzie X max jest maksymalną wartością cechy grupującej;
X min – minimalna wartość cechy grupującej;
n – liczba przedziałów:

Przyjmujemy n=5. Krok wynosi: h = (192 - 159)/ 5 = 6,6

Utwórzmy grupowanie interwałowe

Do dalszych obliczeń zbudujemy tabelę pomocniczą:

X'i jest środkiem przedziału. (na przykład środek przedziału 159 – 165,6 = 162,3)

Średni wzrost uczniów określamy za pomocą wzoru na średnią ważoną arytmetyczną:

Wyznaczmy wariancję korzystając ze wzoru:

Wzór dyspersji można przekształcić w następujący sposób:

Z tego wzoru wynika, że wariancja jest równa różnica między średnią kwadratów opcji a kwadratem i średnią.

Dyspersja w szeregach wariacyjnych o równych odstępach metodą momentów można obliczyć w następujący sposób, korzystając z drugiej właściwości dyspersji (dzielenie wszystkich opcji przez wartość przedziału). Określanie wariancji, obliczony metodą momentów, zastosowanie poniższego wzoru jest mniej pracochłonne:

gdzie i jest wartością przedziału;
A jest konwencjonalnym zerem, dla którego wygodnie jest użyć środka przedziału o najwyższej częstotliwości;
m1 jest kwadratem momentu pierwszego rzędu;
m2 - moment drugiego rzędu

(jeżeli w populacji statystycznej cecha zmienia się w taki sposób, że istnieją tylko dwie wzajemnie wykluczające się możliwości, to taką zmienność nazywamy alternatywną) można obliczyć korzystając ze wzoru:

Podstawiając q = 1- p do tego wzoru na dyspersję, otrzymujemy:

Rodzaje wariancji

Całkowita rozbieżność mierzy zmienność cechy w całej populacji jako całości pod wpływem wszystkich czynników powodujących tę zmienność. Jest równy średniemu kwadratowi odchyleń poszczególnych wartości cechy x od ogólnej średniej wartości x i można go zdefiniować jako wariancję prostą lub wariancję ważoną.

charakteryzuje się zmiennością losową, tj. część zmienności, która wynika z wpływu nieuwzględnionych czynników i nie zależy od atrybutu czynnika, który stanowi podstawę grupy. Rozrzut taki jest równy średniemu kwadratowi odchyleń poszczególnych wartości atrybutu w obrębie grupy X od średniej arytmetycznej grupy i można go obliczyć jako rozproszenie proste lub rozproszenie ważone.

Zatem, miary wariancji wewnątrzgrupowej zmienność cechy w obrębie grupy i określa się ją według wzoru:

gdzie xi jest średnią grupy;
ni to liczba jednostek w grupie.

Na przykład wariancje wewnątrzgrupowe, które należy określić w zadaniu badania wpływu kwalifikacji pracowników na poziom wydajności pracy w warsztacie, pokazują zróżnicowanie wydajności w każdej grupie spowodowane wszystkimi możliwymi czynnikami (stan techniczny sprzętu, dostępność narzędzia i materiały, wiek pracowników, pracochłonność itp.), z wyjątkiem różnic w kategorii kwalifikacji (w obrębie grupy wszyscy pracownicy mają takie same kwalifikacje).

Średnia wariancji wewnątrzgrupowych odzwierciedla losowość, czyli tę część wariancji, która wystąpiła pod wpływem wszystkich pozostałych czynników, z wyjątkiem czynnika grupującego. Oblicza się go za pomocą wzoru:

Charakteryzuje systematyczne zróżnicowanie wynikowej cechy, które wynika z wpływu znaku czynnika, który stanowi podstawę grupy. Jest równy średniemu kwadratowi odchyleń średnich grupowych od średniej ogólnej. Wariancję międzygrupową oblicza się za pomocą wzoru:

Zasada dodawania wariancji w statystykach

Według zasada dodawania wariancji całkowita wariancja jest równa sumie średniej wariancji wewnątrzgrupowych i międzygrupowych:

Znaczenie tej zasady jest to, że całkowita wariancja powstająca pod wpływem wszystkich czynników jest równa sumie wariancji powstających pod wpływem wszystkich pozostałych czynników oraz wariancji powstałej w wyniku czynnika grupującego.

Korzystając ze wzoru na dodawanie wariancji, możesz określić trzecią nieznaną wariancję z dwóch znanych wariancji, a także ocenić siłę wpływu cechy grupującej.

Właściwości dyspersyjne

1. Jeżeli wszystkie wartości cechy zmniejszą się (zwiększą) o tę samą stałą wartość, wówczas rozproszenie nie ulegnie zmianie.
2. Jeśli wszystkie wartości cechy zostaną zmniejszone (zwiększone) o tę samą liczbę razy n, wówczas wariancja odpowiednio zmniejszy się (zwiększy) n^2 razy.

Jeżeli populację podzielimy na grupy ze względu na badaną cechę, to dla tej populacji można obliczyć następujące typy wariancji: całkowita, grupowa (w obrębie grupy), średnia grupy (średnia wewnątrzgrupowa), międzygrupowa.

Początkowo oblicza współczynnik determinacji, który pokazuje, jaka część całkowitego zmienności badanej cechy stanowi zmienność międzygrupową, tj. ze względu na cechę grupowania:

Empiryczna zależność korelacji charakteryzuje bliskość powiązania między grupowaniem (czynnikowym) a charakterystyką wydajności.

Empiryczny współczynnik korelacji może przyjmować wartości od 0 do 1.

Aby ocenić bliskość powiązania na podstawie empirycznego współczynnika korelacji, można skorzystać z relacji Chaddocka:

Przykład 4. Dostępne są następujące dane na temat wykonywania prac przez organizacje projektujące i badawcze o różnych formach własności:

Definiować:

1) wariancja całkowita;

2) wariancje grupowe;

3) średnia wariancji grupowych;

4) wariancja międzygrupowa;

5) wariancja całkowita na podstawie reguły dodawania wariancji;


6) współczynnik determinacji i współczynnik korelacji empirycznej.

Wyciągać wnioski.

Rozwiązanie:

1. Określmy średni wolumen pracy wykonany przez przedsiębiorstwa dwóch form własności:

Obliczmy całkowitą wariancję:

2. Określ średnie grupowe:

milion rubli;

milion rubli

Wariancje grupowe:

;

3. Oblicz średnią wariancji grupowych:

4. Wyznaczmy wariancję międzygrupową:

5. Oblicz wariancję całkowitą w oparciu o regułę dodawania wariancji:

6. Wyznaczmy współczynnik determinacji:

.

Zatem ilość pracy wykonanej przez organizacje projektowe i badawcze zależy o 22% od formy własności przedsiębiorstw.

Empiryczny współczynnik korelacji oblicza się ze wzoru

.

Wartość obliczonego wskaźnika wskazuje, że zależność wielkości pracy od formy własności przedsiębiorstwa jest niewielka.

Przykład 5. W wyniku badania dyscypliny technologicznej obszarów produkcyjnych uzyskano następujące dane:

Wyznacz współczynnik determinacji

Często w statystyce, analizując zjawisko lub proces, konieczne jest uwzględnienie nie tylko informacji o średnich poziomach badanych wskaźników, ale także rozproszenie lub zmienność wartości poszczególnych jednostek , co jest ważną cechą badanej populacji.

Najbardziej podlegającym wahaniom są ceny akcji, podaż i popyt oraz stopy procentowe w różnych okresach i w różnych miejscach.

Główne wskaźniki charakteryzujące zmienność , to zakres, rozproszenie, odchylenie standardowe i współczynnik zmienności.

Zakres zmienności reprezentuje różnicę między wartościami maksymalnymi i minimalnymi cechy: R = Xmax – Xmin. Wadą tego wskaźnika jest to, że ocenia on jedynie granice zmienności cechy i nie odzwierciedla jej zmienności w tych granicach.

Dyspersja brakuje tego mankamentu. Oblicza się go jako średni kwadrat odchyleń wartości charakterystycznych od ich wartości średniej:

Uproszczony sposób obliczania wariancji przeprowadza się za pomocą następujących wzorów (prostych i ważonych):

Przykłady zastosowania tych wzorów przedstawiono w zadaniach 1 i 2.

Powszechnie stosowanym w praktyce wskaźnikiem jest odchylenie standardowe :

Odchylenie standardowe definiuje się jako pierwiastek kwadratowy wariancji i ma ten sam wymiar co badana cecha.

Uwzględnione wskaźniki pozwalają uzyskać wartość bezwzględną zmienności, tj. ocenić ją w jednostkach miary badanej cechy. W przeciwieństwie do nich, współczynnik zmienności mierzy zmienność w ujęciu względnym – w stosunku do średniego poziomu, co w wielu przypadkach jest preferowane.

Wzór na obliczenie współczynnika zmienności.

Przykłady rozwiązywania problemów na temat „Wskaźniki zmienności statystyk”

Problem 1 . Badając wpływ reklamy na wielkość przeciętnej miesięcznej lokaty w bankach w regionie, zbadano 2 banki. Następujące wyniki zostały osiągnięte:

Definiować:
1) dla każdego banku: a) średni miesięczny depozyt; b) rozproszenie składek;
2) przeciętny miesięczny depozyt dla dwóch banków łącznie;
3) Różnica depozytów dla 2 banków, w zależności od reklamy;
4) Różnica depozytów dla 2 banków, w zależności od wszystkich czynników z wyjątkiem reklamy;
5) Całkowita wariancja za pomocą reguły dodawania;
6) Współczynnik determinacji;
7) Relacja korelacyjna.

Rozwiązanie

1) Stwórzmy tabelę kalkulacyjną dla banku z reklamą . Aby wyznaczyć średni miesięczny depozyt, znajdziemy punkty środkowe przedziałów. W tym przypadku wartość otwartego przedziału (pierwszego) jest warunkowo przyrównywana do wartości sąsiadującego z nim przedziału (drugiego).

Średnią wielkość depozytu wyznaczymy korzystając ze wzoru na średnią ważoną arytmetyczną:

29 000/50 = 580 rubli.

Wariancję wkładu wyznaczamy za pomocą wzoru:

23 400/50 = 468

Będziemy wykonywać podobne działania dla banku bez reklamy :

2) Znajdźmy razem średnią wielkość depozytu dla obu banków. Хср =(580×50+542,8×50)/100 = 561,4 rub.

3) Wariancję lokaty dla dwóch banków w zależności od reklamy wyznaczymy, korzystając ze wzoru: σ 2 =pq (wzór na wariancję alternatywnego atrybutu). Tutaj p=0,5 jest proporcją czynników zależnych od reklamy; q=1-0,5, wówczas σ2 =0,5*0,5=0,25.

4) Ponieważ udział pozostałych czynników wynosi 0,5, to wariancja depozytu dla dwóch banków, w zależności od wszystkich czynników oprócz reklamy, również wynosi 0,25.

5) Wyznacz całkowitą wariancję, korzystając z reguły dodawania.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 = σ 2 fakt + σ 2 reszta = 552,08+345,96 = 898,04

6) Współczynnik determinacji η 2 = σ 2 fakt / σ 2 = 345,96/898,04 = 0,39 = 39% - wielkość wkładu uzależniona jest od reklamy w 39%.

7) Empiryczny współczynnik korelacji η = √η 2 = √0,39 = 0,62 – zależność jest dość bliska.

Problem 2 . Istnieje podział przedsiębiorstw według wielkości produktów rynkowych:

Ustalić: 1) rozproszenie wartości produktów rynkowych; 2) odchylenie standardowe; 3) współczynnik zmienności.

Rozwiązanie

1) Według warunku prezentowana jest seria rozkładów przedziałowych. Należy to wyrazić dyskretnie, czyli znaleźć środek przedziału (x"). W grupach przedziałów domkniętych środek znajdujemy za pomocą prostej średniej arytmetycznej. W grupach z górną granicą - jako różnica między tą górną granicą i połowę rozmiaru następnego przedziału (200-(400 -200):2=100).

W grupach z dolną granicą - suma tej dolnej granicy i połowy wielkości poprzedniego przedziału (800+(800-600):2=900).

Średnią wartość produktów rynkowych obliczamy korzystając ze wzoru:

Хср = k×((Σ((x"-a):k)×f):Σf)+a. Tutaj a=500 to wielkość opcji przy najwyższej częstotliwości, k=600-400=200 to wielkość przedziału przy największej częstotliwości Wynik umieśćmy w tabeli:

Zatem średnia wartość produkcji handlowej w badanym okresie wynosi na ogół Хср = (-5:37)×200+500=472,97 tys. rubli.

2) Wariancję znajdujemy za pomocą następującego wzoru:

σ 2 = (33/37)*2002-(472,97-500)2 = 35675,67-730,62 = 34945,05

3) odchylenie standardowe: σ = ±√σ 2 = ±√34945,05 ≈ ±186,94 tysięcy rubli.

4) współczynnik zmienności: V = (σ /Хср)*100 = (186,94 / 472,97)*100 = 39,52%

Oprócz badania zmienności cechy w całej populacji często konieczne jest prześledzenie zmian ilościowych cechy w grupach, na które podzielona jest populacja, a także między grupami. Badanie zmienności osiąga się poprzez obliczanie i analizowanie różnych typów wariancji.
Istnieją wariancje całkowite, międzygrupowe i wewnątrzgrupowe.
Całkowita wariancja σ 2 mierzy zmienność cechy w całej populacji pod wpływem wszystkich czynników, które tę zmienność spowodowały.

Wariancja międzygrupowa (δ) charakteryzuje zmienność systematyczną, tj. różnice w wartości badanej cechy powstające pod wpływem czynnika-cechy stanowiącej podstawę grupy. Oblicza się go za pomocą wzoru:
.

Wariancja wewnątrzgrupowa (σ) odzwierciedla zmienność losową, tj. część zmienności, która pojawia się pod wpływem nieuwzględnionych czynników i nie zależy od atrybutu czynnika, który stanowi podstawę grupy. Oblicza się go według wzoru:
.

Średnia wariancji wewnątrzgrupowych: .

Istnieje prawo łączące 3 rodzaje dyspersji. Całkowita wariancja jest równa sumie średniej wariancji wewnątrzgrupowej i międzygrupowej: .
Ten stosunek nazywa się zasada dodawania wariancji.

Szeroko stosowanym wskaźnikiem w analizie jest proporcja wariancji międzygrupowej w wariancji całkowitej. To jest nazwane empiryczny współczynnik determinacji (η 2): .
Nazywa się pierwiastkiem kwadratowym empirycznego współczynnika determinacji empiryczny współczynnik korelacji (η):
.
Charakteryzuje wpływ cechy stanowiącej podstawę grupy na zmienność wynikowej cechy. Empiryczny współczynnik korelacji waha się od 0 do 1.
Zademonstrujmy jego praktyczne zastosowanie na poniższym przykładzie (tabela 1).

Przykład nr 1. Tabela 1 - Wydajność pracy dwóch grup pracowników w jednym z warsztatów NPO „Cyklon”

Obliczmy średnie i wariancje ogólne i grupowe:




Wstępne dane do obliczenia średniej wariancji wewnątrzgrupowej i międzygrupowej przedstawiono w tabeli. 2.
Tabela 2
Obliczenia i δ 2 dla dwóch grup pracowników.


Grupy robotnicze
Liczba pracowników, osób Średnia, dzieci/zmiana Dyspersja

Ukończone szkolenie techniczne

5 95 42,0

Osoby, które nie ukończyły szkolenia technicznego

5 81 231,2

Wszyscy pracownicy

10 88 185,6
Obliczmy wskaźniki. Średnia wariancji wewnątrzgrupowych:
.
Wariancja międzygrupowa

Całkowita wariancja:
Zatem empiryczny współczynnik korelacji: .

Oprócz różnic w cechach ilościowych można zaobserwować również różnice w cechach jakościowych. Badanie zmienności osiąga się poprzez obliczenie następujących typów wariancji:

Wewnątrzgrupowe rozproszenie udziału określa wzór

Gdzie n ja– liczba jednostek w oddzielnych grupach.
Udział badanej cechy w całej populacji, który określa się wzorem:
Te trzy typy wariancji są ze sobą powiązane w następujący sposób:
.

Ta relacja wariancji nazywa się twierdzeniem o dodawaniu wariancji udziału cechy.

Głównymi uogólniającymi wskaźnikami zmienności statystyki są rozproszenia i odchylenia standardowe.

Dyspersja to Średnia arytmetyczna kwadratowe odchylenia każdej wartości charakterystycznej od średniej ogólnej. Wariancję nazywa się zwykle średnim kwadratem odchyleń i oznacza się ją przez  2. W zależności od danych źródłowych wariancję można obliczyć za pomocą prostej lub ważonej średniej arytmetycznej:

 wariancja nieważona (prosta);

 ważona wariancja.

Odchylenie standardowe jest to uogólniająca cecha rozmiarów bezwzględnych odmiany znaki w sumie. Wyraża się go w tych samych jednostkach miary, co atrybut (w metrach, tonach, procentach, hektarach itp.).

Odchylenie standardowe jest pierwiastkiem kwadratowym wariancji i jest oznaczone przez :

 odchylenie standardowe nieważone;

 ważone odchylenie standardowe.

Odchylenie standardowe jest miarą wiarygodności średniej. Im mniejsze odchylenie standardowe, tym lepiej średnia arytmetyczna odzwierciedla całą reprezentowaną populację.

Obliczenie odchylenia standardowego poprzedza obliczenie wariancji.

Procedura obliczania wariancji ważonej jest następująca:

1) ustalić ważoną średnią arytmetyczną:

2) obliczyć odchylenia opcji od średniej:

3) podnieś do kwadratu odchylenie każdej opcji od średniej:

4) pomnóż kwadraty odchyleń przez wagi (częstotliwości):

5) podsumuj powstałe produkty:

6) otrzymaną kwotę dzieli się przez sumę wag:

Przykład 2.1

Obliczmy ważoną średnią arytmetyczną:

Wartości odchyleń od średniej i ich kwadratów przedstawiono w tabeli. Zdefiniujmy wariancję:

Odchylenie standardowe będzie równe:

Jeżeli dane źródłowe są prezentowane w formie przedziału seria dystrybucyjna , należy najpierw określić dyskretną wartość atrybutu, a następnie zastosować opisaną metodę.

Przykład 2.2

Pokażmy obliczenie wariancji dla szeregu przedziałowego, wykorzystując dane dotyczące rozkładu powierzchni zasiewów kołchozów według plonu pszenicy.

Średnia arytmetyczna to:

Obliczmy wariancję:

6.3. Obliczanie wariancji za pomocą wzoru opartego na danych indywidualnych

Technika obliczeniowa odchylenia skomplikowany, a przy dużych wartościach opcji i częstotliwości może być uciążliwy. Obliczenia można uprościć wykorzystując właściwości dyspersji.

Dyspersja ma następujące właściwości.

1. Zmniejszenie lub zwiększenie wag (częstotliwości) zmiennej charakterystyki o określoną liczbę razy nie powoduje zmiany dyspersji.

2. Zmniejsz lub zwiększ każdą wartość cechy o tę samą stałą wielkość A nie zmienia dyspersji.

3. Zmniejsz lub zwiększ każdą wartość cechy określoną liczbę razy k odpowiednio zmniejsza lub zwiększa wariancję k 2 razy odchylenie standardowe  w k raz.

4. Rozrzut cechy względem dowolnej wartości jest zawsze większy niż rozrzut względem średniej arytmetycznej na kwadrat różnicy między wartością średnią a wartością arbitralną:

Jeśli A 0, wówczas dochodzimy do następującej równości:

to znaczy wariancja cechy jest równa różnicy między średnim kwadratem wartości charakterystycznych a kwadratem średniej.

Każdą właściwość można stosować niezależnie lub w połączeniu z innymi podczas obliczania wariancji.

Procedura obliczania wariancji jest prosta:

1) określić Średnia arytmetyczna :

2) podnieś średnią arytmetyczną do kwadratu:

3) podnieś do kwadratu odchylenie każdego wariantu szeregu:

X I 2 .

4) znajdź sumę kwadratów opcji:

5) podzielić sumę kwadratów opcji przez ich liczbę, czyli określić średni kwadrat:

6) określić różnicę między średnim kwadratem cechy a kwadratem średniej:

Przykład 3.1 Dostępne są następujące dane na temat produktywności pracowników:

Dokonajmy następujących obliczeń: