Ważona wariancja. Dyspersja dyskretnej zmiennej losowej

Dyspersjazmienna losowa- miara rozproszenia danego zmienna losowa czyli ona odchylenia z matematycznego oczekiwania. W statystyce notacja (sigma do kwadratu) jest często używana do oznaczania wariancji. Nazywa się pierwiastek kwadratowy z wariancji odchylenie standardowe lub standardowy spread. Odchylenie standardowe jest mierzone w tych samych jednostkach, co sama zmienna losowa, a wariancja jest mierzona w kwadratach tej jednostki.

Chociaż bardzo wygodnie jest używać tylko jednej wartości (takiej jak średnia lub tryb i mediana) do oszacowania całej próby, takie podejście może łatwo prowadzić do błędnych wniosków. Przyczyna tej sytuacji nie leży w samej wartości, ale w tym, że jedna wartość w żaden sposób nie odzwierciedla rozrzutu wartości danych.

Na przykład w próbce:

średnia wynosi 5.

Jednak w samej próbce nie ma elementu o wartości 5. Być może trzeba będzie wiedzieć, jak blisko każdego elementu próbki jest jego wartość średnia. Innymi słowy, musisz znać wariancję wartości. Znając zakres, w jakim dane się zmieniły, możesz lepiej je zinterpretować Średnia wartość, mediana I moda. Stopień zmiany wartości próbek określa się, obliczając ich wariancję i odchylenie standardowe.



Wariancja i pierwiastek kwadratowy z wariancji, zwany odchyleniem standardowym, charakteryzują średnie odchylenie od średniej próbki. Wśród tych dwóch wielkości najważniejsza jest odchylenie standardowe. Wartość tę można przedstawić jako średnią odległość, w jakiej elementy znajdują się od środkowego elementu próbki.

Dyspersja jest trudna do sensownej interpretacji. Jednak pierwiastek kwadratowy z tej wartości jest odchyleniem standardowym i dobrze nadaje się do interpretacji.

Odchylenie standardowe oblicza się, najpierw określając wariancję, a następnie obliczając pierwiastek kwadratowy z wariancji.

Na przykład dla tablicy danych pokazanej na rysunku zostaną uzyskane następujące wartości:

Obrazek 1

Tutaj średnia kwadratów różnic wynosi 717,43. Aby uzyskać odchylenie standardowe, pozostaje tylko wziąć pierwiastek kwadratowy z tej liczby.

Wynik wyniesie około 26,78.

Należy pamiętać, że odchylenie standardowe interpretowane jest jako średnia odległość elementów od średniej z próby.

Odchylenie standardowe pokazuje, jak dobrze średnia opisuje całą próbę.

Załóżmy, że jesteś szefem działu produkcji zajmującego się składaniem komputera. Raport kwartalny mówi, że produkcja za ostatni kwartał wyniosła 2500 komputerów. Czy to źle czy dobrze? Poprosiłeś (lub jest już taka kolumna w raporcie) o wyświetlenie odchylenia standardowego dla tych danych w raporcie. Numer odchylenia standardowego to na przykład 2000. Staje się dla Ciebie, jako kierownika działu, jasne, że linia produkcyjna wymaga lepszej kontroli (zbyt duże odchylenia w liczbie składanych komputerów).

Przypomnijmy, że gdy odchylenie standardowe jest duże, dane są szeroko rozrzucone wokół średniej, a gdy odchylenie standardowe jest małe, skupiają się blisko średniej.

Cztery funkcje statystyczne WARIANCJA.POMIAROWA(), WARIANCJA.POMIAROWA(), ODCH.STANDARDOWE ODCH.() i ODCH.STANDARDOWE() służą do obliczania wariancji i odchylenia standardowego liczb w zakresie komórek. Zanim będzie można obliczyć wariancję i odchylenie standardowe zestawu danych, należy określić, czy dane reprezentują populację, czy próbkę populacji. W przypadku próby z populacji ogólnej należy skorzystać z funkcji WARIANCJA.POPUL() i STODCH.STANDARDOWE() a w przypadku populacji ogólnej z funkcji WARIANCJA.POPUL() i STODCH.STANDARDOWE():

Populacja Funkcjonować

WARIANCJA.WARIANCYJNA()

STANDARDDŁUG()
Próbka

WARIANCJA()

ODCH.STANDARDOWE()

Wariancja (podobnie jak odchylenie standardowe), jak zauważyliśmy, wskazuje, w jakim stopniu wartości zawarte w zbiorze danych są rozrzucone wokół średniej arytmetycznej.

Mała wartość wariancji lub odchylenia standardowego wskazuje, że wszystkie dane są wyśrodkowane wokół średniej arytmetycznej, a duża wartość tych wartości wskazuje, że dane są rozproszone w szerokim zakresie wartości.

Wariancja jest raczej trudna do sensownej interpretacji (co oznacza mała wartość, duża wartość?). Wydajność Zadania 3 pozwoli wizualnie, na wykresie, pokazać znaczenie wariancji dla zbioru danych.

Zadania

· Ćwiczenie 1.

· 2.1. Podaj pojęcia: wariancja i odchylenie standardowe; ich symboliczne oznaczenie w statystycznym przetwarzaniu danych.

· 2.2. Sporządź arkusz zgodnie z rysunkiem 1 i wykonaj niezbędne obliczenia.

· 2.3. Podaj podstawowe wzory użyte w obliczeniach

· 2.4. Wyjaśnij wszystkie oznaczenia ( , , )

· 2.5. Wyjaśnij praktyczne znaczenie pojęcia wariancji i odchylenia standardowego.

Zadanie 2.

1.1. Podaj pojęcia: populacja ogólna i próba; oczekiwanie matematyczne i średnia arytmetyczna ich oznaczenia symbolicznego w statystycznym przetwarzaniu danych.

1.2. Zgodnie z rysunkiem 2 sporządź arkusz i wykonaj obliczenia.

1.3. Podaj podstawowe wzory użyte w obliczeniach (dla populacji ogólnej i próby).

Rysunek 2

1.4. Wyjaśnij, dlaczego możliwe jest uzyskanie takich wartości średnich arytmetycznych w próbach jak 46,43 i 48,78 (patrz plik Załącznik). Wyciągać wnioski.

Zadanie 3.

Istnieją dwie próbki z innym zestawem danych, ale średnia dla nich będzie taka sama:

Rysunek 3

3.1. Sporządź arkusz zgodnie z rysunkiem 3 i wykonaj niezbędne obliczenia.

3.2. Podaj podstawowe wzory obliczeniowe.

3.3. Zbuduj wykresy zgodnie z rysunkami 4, 5.

3.4. Wyjaśnij powstałe zależności.

3.5. Wykonaj podobne obliczenia dla tych dwóch próbek.

Początkowa próbka 11119999

Wybierz wartości drugiej próbki tak, aby średnia arytmetyczna dla drugiej próbki była taka sama, na przykład:

Sam wybierz wartości dla drugiej próbki. Ułóż obliczenia i sporządź wykresy jak na rysunkach 3, 4, 5. Wskaż główne wzory, które zostały użyte w obliczeniach.

Wyciągnij odpowiednie wnioski.

Wszystkie zadania powinny być przedstawione w formie raportu z wszystkimi niezbędnymi rysunkami, wykresami, wzorami i krótkimi objaśnieniami.

Uwaga: budowa wykresów musi być wyjaśniona rysunkami i krótkimi objaśnieniami.

Rozrzut zmiennej losowej jest miarą rozrzutu wartości tej zmiennej. Mała wariancja oznacza, że ​​wartości są skupione blisko siebie. Duża wariancja wskazuje na silny rozrzut wartości. Pojęcie rozproszenia zmiennej losowej jest używane w statystyce. Na przykład, jeśli porównasz wariancję wartości dwóch wielkości (takich jak wyniki obserwacji pacjentów płci męskiej i żeńskiej), możesz przetestować istotność jakiejś zmiennej. Wariancja jest również używana podczas budowania modeli statystycznych, ponieważ mała wariancja może być oznaką, że przesadzasz wartości.

Kroki

Przykładowe obliczenie wariancji

  1. Zapisz wartości próbek. W większości przypadków statystykom dostępne są tylko próbki niektórych populacji. Na przykład statystycy z reguły nie analizują kosztów utrzymania populacji wszystkich samochodów w Rosji - analizują losową próbę kilku tysięcy samochodów. Taka próbka pomoże określić średni koszt samochodu, ale najprawdopodobniej wynikowa wartość będzie daleka od rzeczywistej.

    • Na przykład przeanalizujmy liczbę bułek sprzedanych w kawiarni w ciągu 6 dni, w przypadkowej kolejności. Próba ma następującą postać: 17, 15, 23, 7, 9, 13. To jest próba, a nie populacja, ponieważ nie mamy danych o sprzedanych bułkach dla każdego dnia otwarcia kawiarni.
    • Jeśli podano populację, a nie próbkę wartości, przejdź do następnej sekcji.
  2. Zapisz wzór na obliczenie wariancji próby. Dyspersja jest miarą rozrzutu wartości pewnej wielkości. Im wartość dyspersji jest bliższa zeru, tym bliżej wartości są zgrupowane. Pracując z próbką wartości, użyj następującego wzoru do obliczenia wariancji:

    • s 2 (\ displaystyle s ^ (2)) = ∑[(x ja (\ displaystyle x_ (i))-X) 2 (\ Displaystyle ^ (2))] / (n - 1)
    • s 2 (\ displaystyle s ^ (2)) jest dyspersja. Dyspersja jest mierzona w jednostkach kwadratowych.
    • x ja (\ displaystyle x_ (i))- każda wartość w próbce.
    • x ja (\ displaystyle x_ (i)) musisz odjąć x̅, podnieść do kwadratu, a następnie dodać wyniki.
    • x̅ – średnia z próby (średnia z próby).
    • n to liczba wartości w próbce.
  3. Oblicz średnią próbki. Jest oznaczony jako x̅. Średnia próbki jest obliczana jak normalna średnia arytmetyczna: dodaj wszystkie wartości w próbce, a następnie podziel wynik przez liczbę wartości w próbce.

    • W naszym przykładzie dodaj wartości w próbce: 15 + 17 + 23 + 7 + 9 + 13 = 84
      Teraz podziel wynik przez liczbę wartości w próbie (w naszym przykładzie jest ich 6): 84 ÷ 6 = 14.
      Próbka średnia x̅ = 14.
    • Średnia próbki to centralna wartość, wokół której rozkładają się wartości w próbce. Jeśli wartości w próbce skupiają się wokół średniej próbki, wówczas wariancja jest niewielka; w przeciwnym razie dyspersja jest duża.
  4. Odejmij średnią próbki od każdej wartości w próbce. Teraz oblicz różnicę x ja (\ displaystyle x_ (i))- x̅, gdzie x ja (\ displaystyle x_ (i))- każda wartość w próbce. Każdy uzyskany wynik wskazuje, w jakim stopniu dana wartość odbiega od średniej z próby, czyli jak daleko ta wartość odbiega od średniej z próby.

    • W naszym przykładzie:
      x 1 (\ Displaystyle x_ (1))- x̅ = 17 - 14 = 3
      x 2 (\ displaystyle x_ (2))- x̅ = 15 - 14 = 1
      x 3 (\ Displaystyle x_ (3))- x̅ = 23 - 14 = 9
      x 4 (\ Displaystyle x_ (4))- x̅ = 7 - 14 = -7
      x 5 (\ Displaystyle x_ (5))- x̅ = 9 - 14 = -5
      x 6 (\ Displaystyle x_ (6))- x̅ = 13 - 14 = -1
    • Poprawność otrzymanych wyników łatwo zweryfikować, gdyż ich suma musi być równa zeru. Jest to związane z wyznaczaniem wartości średniej, gdyż wartości ujemne (odległości od wartości średniej do wartości mniejszych) są całkowicie niwelowane przez wartości dodatnie (odległości od wartości średniej do wartości większych).
  5. Jak wspomniano powyżej, suma różnic x ja (\ displaystyle x_ (i))- x̅ musi być równe zeru. Oznacza to, że średnia wariancja jest zawsze równa zeru, co nie daje żadnego wyobrażenia o rozkładzie wartości jakiejś wielkości. Aby rozwiązać ten problem, podnieś każdą różnicę do kwadratu x ja (\ displaystyle x_ (i))- X. Spowoduje to, że otrzymasz tylko liczby dodatnie, które po dodaniu nigdy nie sumują się do 0.

    • W naszym przykładzie:
      (x 1 (\ Displaystyle x_ (1))-X) 2 = 3 2 = 9 (\ Displaystyle ^ (2) = 3 ^ (2) = 9)
      (x 2 (\ Displaystyle (x_ (2))-X) 2 = 1 2 = 1 (\ Displaystyle ^ (2) = 1 ^ (2) = 1)
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • Znalazłeś kwadrat różnicy - x̅) 2 (\ Displaystyle ^ (2)) dla każdej wartości w próbce.
  6. Oblicz sumę kwadratów różnic. Oznacza to, że znajdź część formuły, która jest zapisana w następujący sposób: ∑[( x ja (\ displaystyle x_ (i))-X) 2 (\ Displaystyle ^ (2))]. Tutaj znak Σ oznacza sumę kwadratów różnic dla każdej wartości x ja (\ displaystyle x_ (i)) w próbce. Już znalazłeś kwadraty różnic (x ja (\ Displaystyle (x_ (i))-X) 2 (\ Displaystyle ^ (2)) dla każdej wartości x ja (\ displaystyle x_ (i)) w próbce; teraz po prostu dodaj te kwadraty.

    • W naszym przykładzie: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. Podziel wynik przez n - 1, gdzie n to liczba wartości w próbce. Jakiś czas temu, aby obliczyć wariancję próby, statystycy po prostu podzielili wynik przez n; w tym przypadku otrzymasz średnią z kwadratu wariancji, która idealnie nadaje się do opisu wariancji danej próby. Pamiętaj jednak, że każda próbka to tylko niewielka część ogólnej populacji wartości. Jeśli weźmiesz inną próbkę i wykonasz te same obliczenia, otrzymasz inny wynik. Jak się okazuje, dzielenie przez n - 1 (a nie tylko n) daje lepsze oszacowanie wariancji populacji, o co Ci chodzi. Dzielenie przez n - 1 stało się powszechne, dlatego jest uwzględnione we wzorze do obliczania wariancji próbki.

    • W naszym przykładzie próbka zawiera 6 wartości, czyli n = 6.
      Wariancja próbki = s 2 = 166 6 - 1 = (\ Displaystyle s ^ (2) = (\ Frac (166) (6-1)) =) 33,2
  8. Różnica między wariancją a odchyleniem standardowym. Zwróć uwagę, że formuła zawiera wykładnik, więc wariancja jest mierzona w jednostkach kwadratowych analizowanej wartości. Czasami taka wartość jest dość trudna do operowania; w takich przypadkach stosuje się odchylenie standardowe, które jest równe pierwiastkowi kwadratowemu z wariancji. Dlatego wariancja próbki jest oznaczona jako s 2 (\ displaystyle s ^ (2)), a odchylenie standardowe próbki jako s (\ displaystyle s).

    • W naszym przykładzie odchylenie standardowe próbki wynosi: s = √33,2 = 5,76.

    Obliczanie wariancji populacji

    1. Przeanalizuj pewien zestaw wartości. Zestaw zawiera wszystkie wartości rozpatrywanej wielkości. Na przykład, jeśli badasz wiek mieszkańców regionu leningradzkiego, populacja obejmuje wiek wszystkich mieszkańców tego regionu. W przypadku pracy z agregatem zaleca się utworzenie tabeli i wpisanie do niej wartości agregatu. Rozważ następujący przykład:

      • W pewnym pomieszczeniu znajduje się 6 akwariów. Każde akwarium zawiera następującą liczbę ryb:
        x 1 = 5 (\ Displaystyle x_ (1) = 5)
        x 2 = 5 (\ Displaystyle x_ (2) = 5)
        x 3 = 8 (\ Displaystyle x_ (3) = 8)
        x 4 = 12 (\ Displaystyle x_ (4) = 12)
        x 5 = 15 (\ Displaystyle x_ (5) = 15)
        x 6 = 18 (\ Displaystyle x_ (6) = 18)
    2. Zapisz wzór na obliczenie wariancji populacji. Ponieważ populacja obejmuje wszystkie wartości określonej wielkości, poniższy wzór pozwala uzyskać dokładną wartość wariancji populacji. Aby odróżnić wariancję populacji od wariancji próbki (która jest tylko oszacowaniem), statystycy używają różnych zmiennych:

      • σ 2 (\ Displaystyle ^ (2)) = (∑(x ja (\ displaystyle x_ (i)) - μ) 2 (\ Displaystyle ^ (2))) / N
      • σ 2 (\ Displaystyle ^ (2))- wariancja populacji (czytana jako „sigma do kwadratu”). Dyspersja jest mierzona w jednostkach kwadratowych.
      • x ja (\ displaystyle x_ (i))- każda wartość w agregacie.
      • Σ jest znakiem sumy. To znaczy dla każdej wartości x ja (\ displaystyle x_ (i)) odjąć μ, podnieść do kwadratu, a następnie dodać wyniki.
      • μ to średnia populacji.
      • n to liczba wartości w populacji ogólnej.
    3. Oblicz średnią populacji. Podczas pracy z populacją ogólną jej średnią wartość oznacza się jako μ (mu). Średnia populacji jest obliczana jako zwykła średnia arytmetyczna: dodaj wszystkie wartości w populacji, a następnie podziel wynik przez liczbę wartości w populacji.

      • Należy pamiętać, że średnie nie zawsze są obliczane jako średnia arytmetyczna.
      • W naszym przykładzie populacja oznacza: μ = 5 + 5 + 8 + 12 + 15 + 18 6 (\ Displaystyle (\ Frac (5 + 5 + 8 + 12 + 15 + 18) (6))) = 10,5
    4. Odejmij średnią populacji od każdej wartości w populacji. Im wartość różnicy jest bliższa zeru, tym dana wartość jest bliższa średniej populacji. Znajdź różnicę między każdą wartością w populacji a jej średnią, a uzyskasz pierwsze spojrzenie na rozkład wartości.

      • W naszym przykładzie:
        x 1 (\ Displaystyle x_ (1))-μ = 5 - 10,5 = -5,5
        x 2 (\ displaystyle x_ (2))-μ = 5 - 10,5 = -5,5
        x 3 (\ Displaystyle x_ (3))-μ = 8 - 10,5 = -2,5
        x 4 (\ Displaystyle x_ (4))-μ = 12 - 10,5 = 1,5
        x 5 (\ Displaystyle x_ (5))-μ = 15 - 10,5 = 4,5
        x 6 (\ Displaystyle x_ (6))-μ = 18 - 10,5 = 7,5
    5. Podnieś do kwadratu każdy uzyskany wynik. Wartości różnicy będą zarówno dodatnie, jak i ujemne; jeśli umieścisz te wartości na osi liczbowej, będą one leżeć po prawej i lewej stronie średniej populacji. Nie jest to dobre do obliczania wariancji, ponieważ liczby dodatnie i ujemne znoszą się nawzajem. Dlatego podnieś każdą różnicę do kwadratu, aby uzyskać wyłącznie liczby dodatnie.

      • W naszym przykładzie:
        (x ja (\ displaystyle x_ (i)) - μ) 2 (\ Displaystyle ^ (2)) dla każdej wartości populacji (od i = 1 do i = 6):
        (-5,5)2 (\ Displaystyle ^ (2)) = 30,25
        (-5,5)2 (\ Displaystyle ^ (2)), Gdzie x n (\ displaystyle x_ (n)) jest ostatnią wartością w populacji.
      • Aby obliczyć średnią wartość uzyskanych wyników, należy znaleźć ich sumę i podzielić przez n: (( x 1 (\ Displaystyle x_ (1)) - μ) 2 (\ Displaystyle ^ (2)) + (x 2 (\ displaystyle x_ (2)) - μ) 2 (\ Displaystyle ^ (2)) + ... + (x n (\ displaystyle x_ (n)) - μ) 2 (\ Displaystyle ^ (2))) / N
      • Teraz napiszmy powyższe wyjaśnienie za pomocą zmiennych: (∑( x ja (\ displaystyle x_ (i)) - μ) 2 (\ Displaystyle ^ (2))) / n i uzyskaj wzór na obliczenie wariancji populacji.

Dyspersja jest miarą dyspersji, która opisuje względne odchylenie między wartościami danych a średnią. Jest to najczęściej stosowana miara dyspersji w statystyce, obliczana przez zsumowanie, podniesione do kwadratu, odchylenie każdej wartości danych od średniej. Wzór na obliczenie wariancji przedstawiono poniżej:

s 2 - wariancja próby;

x cf jest średnią wartością próbki;

N wielkość próby (liczba wartości danych),

(x i – x cf) to odchylenie od wartości średniej dla każdej wartości zbioru danych.

Aby lepiej zrozumieć formułę, spójrzmy na przykład. Nie lubię gotować, więc rzadko to robię. Aby jednak nie umrzeć z głodu, co jakiś czas muszę podejść do pieca, aby zrealizować plan nasycenia organizmu białkami, tłuszczami i węglowodanami. Poniższy zestaw danych pokazuje, ile razy w miesiącu Renat gotuje jedzenie:

Pierwszym krokiem w obliczeniu wariancji jest określenie średniej próbki, która w naszym przykładzie wynosi 7,8 razy w miesiącu. Pozostałe obliczenia można ułatwić za pomocą poniższej tabeli.

Końcowa faza obliczania wariancji wygląda następująco:

Dla tych, którzy lubią wykonywać wszystkie obliczenia za jednym razem, równanie będzie wyglądać następująco:

Korzystanie z metody surowego liczenia (przykład gotowania)

Istnieje bardziej wydajny sposób obliczania wariancji, znany jako metoda „surowego liczenia”. Chociaż na pierwszy rzut oka równanie może wydawać się dość kłopotliwe, w rzeczywistości nie jest takie straszne. Możesz to zweryfikować, a następnie zdecydować, która metoda najbardziej Ci odpowiada.

jest sumą każdej wartości danych po podniesieniu do kwadratu,

jest kwadratem sumy wszystkich wartości danych.

Nie trać teraz głowy. Ujmijmy to wszystko w formie tabeli, a wtedy zobaczysz, że jest tu mniej obliczeń niż w poprzednim przykładzie.

Jak widać, wynik jest taki sam, jak przy użyciu poprzedniej metody. Zalety tej metody stają się oczywiste wraz ze wzrostem wielkości próby (n).

Obliczanie wariancji w Excelu

Jak zapewne już się domyśliłeś, Excel posiada formułę, która pozwala obliczyć wariancję. Ponadto, począwszy od programu Excel 2010, można znaleźć 4 odmiany formuły dyspersji:

1) VAR.V - Zwraca wariancję próbki. Wartości logiczne i tekst są ignorowane.

2) VAR.G - Zwraca wariancję populacji. Wartości logiczne i tekst są ignorowane.

3) VASP - Zwraca wariancję próbki, biorąc pod uwagę wartości logiczne i tekstowe.

4) WARIANCJA.POPUL - Zwraca wariancję populacji, biorąc pod uwagę wartości logiczne i tekstowe.

Najpierw przyjrzyjmy się różnicy między próbą a populacją. Celem statystyki opisowej jest podsumowanie lub wyświetlenie danych w taki sposób, aby szybko uzyskać duży obraz, że tak powiem, przegląd. Wnioskowanie statystyczne umożliwia wnioskowanie o populacji na podstawie próbki danych z tej populacji. Populacja reprezentuje wszystkie możliwe wyniki lub pomiary, które nas interesują. Próbka jest podzbiorem populacji.

Na przykład interesuje nas cała grupa studentów z jednego z rosyjskich uniwersytetów i musimy określić średni wynik tej grupy. Możemy obliczyć średnie wyniki uczniów, a wtedy wynikowa liczba będzie parametrem, ponieważ w naszych obliczeniach uwzględniona zostanie cała populacja. Jeśli jednak chcemy obliczyć GPA wszystkich uczniów w naszym kraju, to ta grupa będzie naszą próbą.

Różnica we wzorze do obliczania wariancji między próbą a populacją jest w mianowniku. Gdzie dla próby będzie równe (n-1), a dla populacji ogólnej tylko n.

Zajmijmy się teraz funkcjami obliczania wariancji z końcówkami A, w opisie którego jest napisane, że obliczenia uwzględniają wartości tekstowe i logiczne. W takim przypadku podczas obliczania wariancji określonego zestawu danych, w którym występują wartości nieliczbowe, program Excel zinterpretuje tekst i fałszywe wartości logiczne jako 0, a prawdziwe wartości logiczne jako 1.

Tak więc, jeśli masz tablicę danych, obliczenie jej wariancji nie będzie trudne za pomocą jednej z wymienionych powyżej funkcji Excela.

Często w statystyce, analizując zjawisko lub proces, konieczne jest uwzględnienie nie tylko informacji o średnich poziomach badanych wskaźników, ale także rozrzut lub zmienność wartości poszczególnych jednostek , co jest ważną cechą badanej populacji.

Ceny akcji, wielkości podaży i popytu, stopy procentowe w różnych okresach czasu iw różnych miejscach podlegają największym wahaniom.

Główne wskaźniki charakteryzujące zmienność , to rozstęp, wariancja, odchylenie standardowe i współczynnik zmienności.

Zmienność rozpiętości to różnica między maksymalną a minimalną wartością atrybutu: R = Xmaks – Xmin. Wadą tego wskaźnika jest to, że ocenia on tylko granice zmienności cechy i nie odzwierciedla jej fluktuacji w obrębie tych granic.

Dyspersja pozbawiony tego mankamentu. Oblicza się go jako średni kwadrat odchyleń wartości atrybutów od ich średniej wartości:

Uproszczony sposób obliczania wariancji przeprowadza się za pomocą następujących wzorów (prostych i ważonych):

Przykłady zastosowania tych wzorów przedstawiono w zadaniach 1 i 2.

Powszechnie stosowanym w praktyce wskaźnikiem jest odchylenie standardowe :

Odchylenie standardowe definiuje się jako pierwiastek kwadratowy z wariancji i ma ten sam wymiar co badana cecha.

Rozważane wskaźniki pozwalają na uzyskanie bezwzględnej wartości zmienności, tj. oceń ją w jednostkach miary badanej cechy. W przeciwieństwie do nich, współczynnik zmienności mierzy fluktuację w kategoriach względnych - względem średniego poziomu, który w wielu przypadkach jest preferowany.

Wzór do obliczania współczynnika zmienności.

Przykłady rozwiązywania problemów na temat „Wskaźniki zmienności statystyk”

Zadanie 1 . Badając wpływ reklamy na wielkość przeciętnej miesięcznej lokaty w bankach powiatu, zbadano 2 banki. Otrzymuje się następujące wyniki:

Definiować:
1) dla każdego banku: a) średni miesięczny depozyt; b) rozproszenie wkładu;
2) średni miesięczny depozyt dla dwóch banków łącznie;
3) Rozproszenie lokaty na 2 banki w zależności od reklamy;
4) Rozproszenie lokaty na 2 banki w zależności od wszystkich czynników poza reklamą;
5) Całkowita wariancja z wykorzystaniem reguły dodawania;
6) Współczynnik determinacji;
7) Relacja korelacyjna.

Rozwiązanie

1) Zróbmy tabelę obliczeniową dla banku z reklamą . Aby określić średni miesięczny depozyt, znajdujemy punkty środkowe przedziałów. W tym przypadku wartość otwartego przedziału (pierwszego) jest warunkowo zrównana z wartością sąsiadującego z nim przedziału (drugiego).

Średnią wielkość wkładu obliczamy za pomocą wzoru na ważoną średnią arytmetyczną:

29 000/50 = 580 rubli

Dyspersję wkładu oblicza się ze wzoru:

23 400/50 = 468

Podejmiemy się podobnych działań dla banku bez reklam :

2) Znajdź razem średni depozyt dla dwóch banków. Xav \u003d (580 × 50 + 542,8 × 50) / 100 \u003d 561,4 rubla.

3) Wariancję depozytu, dla dwóch banków, w zależności od reklamy, znajdziemy ze wzoru: σ 2 = pq (wzór na wariancję cechy alternatywnej). Tutaj p=0,5 to odsetek czynników zależnych od reklamy; q=1-0,5, wtedy σ2 =0,5*0,5=0,25.

4) Ponieważ udział innych czynników wynosi 0,5, to wariancja depozytu dla dwóch banków, która zależy od wszystkich czynników poza reklamą, również wynosi 0,25.

5) Wyznacz całkowitą wariancję, korzystając z reguły dodawania.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 \u003d σ 2 fakt + σ 2 reszta \u003d 552,08 + 345,96 \u003d 898,04

6) Współczynnik determinacji η 2 = σ 2 fakt / σ 2 = 345,96/898,04 = 0,39 = 39% - wielkość wkładu zależy od reklamy o 39%.

7) Współczynnik korelacji empirycznej η = √η 2 = √0,39 = 0,62 - zależność jest dość bliska.

Zadanie 2 . Istnieje grupowanie przedsiębiorstw według wartości produktów rynkowych:

Określić: 1) rozrzut wartości produktów rynkowych; 2) odchylenie standardowe; 3) współczynnik zmienności.

Rozwiązanie

1) W zależności od warunku przedstawiony jest szereg rozkładów przedziałowych. Musi być wyrażona dyskretnie, to znaczy znaleźć środek przedziału (x"). W grupach przedziałów domkniętych środek znajdujemy za pomocą prostej średniej arytmetycznej. W grupach z górną granicą jako różnicę między tą górną granicą i połowę wielkości następującego po nim przedziału (200-(400-200):2=100).

W grupach z dolnym limitem – suma tego dolnego limitu i połowy wielkości poprzedniego przedziału (800+(800-600):2=900).

Obliczenie średniej wartości produktów rynkowych odbywa się według wzoru:

Хср = k×((Σ((x"-a):k)×f):Σf)+a. Tutaj a=500 to rozmiar wariantu przy najwyższej częstotliwości, k=600-400=200 to rozmiar interwału przy najwyższej częstotliwości Umieśćmy wynik w tabeli:

Tak więc średnia wartość produkcji rynkowej w całym badanym okresie wynosi Xav = (-5:37) × 200 + 500 = 472,97 tysięcy rubli.

2) Znajdujemy dyspersję za pomocą następującego wzoru:

σ 2 \u003d (33/37) * 2002-(472,97-500) 2 \u003d 35 675,67-730,62 \u003d 34 945,05

3) odchylenie standardowe: σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 tysięcy rubli.

4) współczynnik zmienności: V \u003d (σ / Xav) * 100 \u003d (186,94 / 472,97) * 100 \u003d 39,52%

Jednak sama ta cecha nie jest jeszcze wystarczająca do badania zmiennej losowej. Wyobraź sobie dwóch strzelców, którzy strzelają do celu. Jeden strzela celnie i trafia blisko środka, a drugi… po prostu dobrze się bawi i nawet nie celuje. Ale co w tym śmiesznego przeciętny wynik będzie dokładnie taki sam jak pierwszego strzelca! Sytuację tę warunkowo ilustrują następujące zmienne losowe:

Oczekiwanie matematyczne „snajpera” jest jednak równe , dla „interesującej osoby”: - też jest równe zeru!

W związku z tym istnieje potrzeba ilościowego określenia, jak daleko rozsiany pociski (wartości zmiennej losowej) względem środka celu (oczekiwania). dobrze więc rozpraszanie przetłumaczone z łaciny tylko jako dyspersja .

Zobaczmy, jak określa się tę charakterystykę liczbową w jednym z przykładów pierwszej części lekcji:

Tam znaleźliśmy rozczarowujące matematyczne oczekiwanie tej gry, a teraz musimy obliczyć jej wariancję, która oznaczony Poprzez .

Dowiedzmy się, jak daleko wygrane/przegrane są „rozrzucone” w stosunku do wartości średniej. Oczywiście w tym celu musimy obliczyć różnice między wartości zmiennej losowej i jej oczekiwanie matematyczne:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Teraz wydaje się konieczne podsumowanie wyników, ale ten sposób nie jest dobry - z tego powodu, że oscylacje w lewo znoszą się z oscylacjami w prawo. A więc na przykład strzelanka „amatorska”. (przykład powyżej) różnice będą , a po dodaniu dadzą zero, więc nie otrzymamy żadnego oszacowania rozproszenia jego strzałów.

Aby obejść tę irytację, rozważ moduły różnice, ale z przyczyn technicznych podejście zakorzeniło się, gdy są one wyrównane do kwadratu. Wygodniej jest ułożyć rozwiązanie w tabeli:

I tu aż prosi się o kalkulację Średnia ważona wartość kwadratów odchyleń. Co to jest? To jest ich wartość oczekiwana, która jest miarą rozproszenia:

definicja dyspersja. Z definicji od razu wynika, że wariancja nie może być ujemna- uwaga na praktykę!

Pamiętajmy, jak znaleźć oczekiwanie. Pomnóż kwadraty różnic przez odpowiadające im prawdopodobieństwa (Kontynuacja tabeli):
- mówiąc obrazowo, jest to „siła pociągowa”,
i podsumuj wyniki:

Nie sądzisz, że na tle wygranych wynik okazał się za duży? Zgadza się - podnieśliśmy do kwadratu, a żeby wrócić do wymiaru naszej gry, musimy wyciągnąć pierwiastek. Ta wartość nazywa się odchylenie standardowe i jest oznaczony grecką literą „sigma”:

Czasami to znaczenie jest nazywane odchylenie standardowe .

Jakie jest jego znaczenie? Jeśli odchylimy się od oczekiwań matematycznych w lewo i w prawo o odchylenie standardowe:

– wtedy najbardziej prawdopodobne wartości zmiennej losowej będą „skoncentrowane” na tym przedziale. Co tak naprawdę obserwujemy:

Tak się jednak złożyło, że w analizie rozpraszania prawie zawsze operuje się pojęciem dyspersji. Zobaczmy, co to oznacza w odniesieniu do gier. Jeśli w przypadku strzelców mówimy o „celności” trafień względem środka tarczy, to tutaj rozrzut charakteryzuje się dwiema rzeczami:

Po pierwsze, oczywiste jest, że wraz ze wzrostem kursów rośnie również wariancja. Na przykład, jeśli zwiększymy 10-krotnie, to wartość oczekiwana matematyczna wzrośnie 10-krotnie, a wariancja wzrośnie 100-krotnie (gdy tylko jest to wartość kwadratowa). Pamiętaj jednak, że zasady gry się nie zmieniły! Zmieniły się tylko stawki, z grubsza mówiąc, kiedyś stawialiśmy 10 rubli, teraz 100.

Drugim, bardziej interesującym punktem jest to, że wariancja charakteryzuje styl gry. Psychicznie ustal stawki gry na pewnym poziomie i zobacz, co jest tutaj:

Gra o niskiej wariancji jest grą ostrożną. Gracz ma tendencję do wybierania najbardziej niezawodnych schematów, w których nie przegrywa/wygrywa zbyt wiele na raz. Na przykład system czerwony/czarny w ruletce (patrz Przykład 4 artykułu zmienne losowe) .

Gra o dużej wariancji. Często jest nazywana dyspersja gra. Jest to pełen przygód lub agresywny styl gry, w którym gracz wybiera schematy „adrenaliny”. Przynajmniej pamiętajmy „Martyngał”, w której stawką są kwoty o rząd wielkości większe niż w „cichej” grze z poprzedniego akapitu.

Sytuacja w pokerze jest orientacyjna: istnieją tzw obcisły gracze, którzy wydają się być ostrożni i „trzęsą się” swoimi funduszami na grę (forsa). Nic dziwnego, że ich bankroll nie podlega dużym wahaniom (niska wariancja). I odwrotnie, jeśli gracz ma wysoką wariancję, jest agresorem. Często podejmuje ryzyko, robi duże zakłady i może zarówno rozbić ogromny bank, jak i rozbić się na kawałki.

To samo dzieje się na rynku Forex i tak dalej – jest wiele przykładów.

Co więcej, we wszystkich przypadkach nie ma znaczenia, czy gra jest za grosz, czy za tysiące dolarów. Każdy poziom ma swoich graczy o niskiej i wysokiej wariancji. Cóż, za przeciętną wygraną, jak pamiętamy, „odpowiedzialną” wartość oczekiwana.

Prawdopodobnie zauważyłeś, że znalezienie wariancji to długi i żmudny proces. Ale matematyka jest hojna:

Wzór na znalezienie wariancji

Ta formuła pochodzi bezpośrednio z definicji wariancji i natychmiast wprowadzamy ją do obiegu. Skopiuję tabliczkę z naszą grą z góry:

i znalezione oczekiwanie.

Obliczamy wariancję w drugi sposób. Najpierw znajdźmy oczekiwanie matematyczne - kwadrat zmiennej losowej. Przez definicja oczekiwań matematycznych:

W tym przypadku:

Zatem zgodnie ze wzorem:

Jak mówią, poczuj różnicę. A w praktyce oczywiście lepiej zastosować formułę (chyba, że ​​warunek wymaga inaczej).

Opanujemy technikę rozwiązywania i projektowania:

Przykład 6

Znajdź jego matematyczne oczekiwanie, wariancję i odchylenie standardowe.

To zadanie znajduje się wszędzie iz reguły nie ma znaczącego znaczenia.
Można sobie wyobrazić kilka żarówek z cyframi, które zapalają się w domu wariatów z pewnym prawdopodobieństwem :)

Rozwiązanie: Wygodnie jest podsumować główne obliczenia w tabeli. Najpierw zapisujemy początkowe dane w dwóch górnych wierszach. Następnie obliczamy iloczyny, potem i na koniec sumy w prawej kolumnie:

Właściwie prawie wszystko jest gotowe. W trzecim wierszu narysowano gotowe oczekiwanie matematyczne: .

Dyspersję oblicza się według wzoru:

I na koniec odchylenie standardowe:
- osobiście zazwyczaj zaokrąglam do 2 miejsc po przecinku.

Wszystkie obliczenia można przeprowadzić na kalkulatorze, a jeszcze lepiej - w Excelu:

Tutaj trudno się pomylić :)

Odpowiedź:

Ci, którzy chcą, mogą jeszcze bardziej uprościć swoje życie i skorzystać z mojego kalkulator (próbny), który nie tylko natychmiast rozwiązuje ten problem, ale także buduje grafika tematyczna (chodź wkrótce). Program może pobrać w bibliotece– jeśli pobrałeś przynajmniej jeden materiał do nauki lub otrzymałeś Inny sposób. Dzięki za wsparcie projektu!

Kilka zadań do samodzielnego rozwiązania:

Przykład 7

Oblicz wariancję zmiennej losowej z poprzedniego przykładu z definicji.

I podobny przykład:

Przykład 8

Dyskretna zmienna losowa jest dana przez własne prawo dystrybucji:

Tak, wartości zmiennej losowej mogą być dość duże (przykład z prawdziwej pracy), a tutaj, jeśli to możliwe, użyj programu Excel. Jak, nawiasem mówiąc, w przykładzie 7 - jest szybszy, bardziej niezawodny i przyjemniejszy.

Rozwiązania i odpowiedzi na dole strony.

Na zakończenie drugiej części lekcji przeanalizujemy jeszcze jedno typowe zadanie, można nawet powiedzieć mały rebus:

Przykład 9

Dyskretna zmienna losowa może przyjmować tylko dwie wartości: i , i . Prawdopodobieństwo, oczekiwanie matematyczne i wariancja są znane.

Rozwiązanie: Zacznijmy od nieznanego prawdopodobieństwa. Ponieważ zmienna losowa może przyjmować tylko dwie wartości, to suma prawdopodobieństw odpowiednich zdarzeń:

i od tego czasu .

Pozostaje znaleźć..., łatwo powiedzieć :) No ale zaczęło się. Z definicji oczekiwań matematycznych:
- podstawiamy znane wartości:

- i nic więcej nie można wycisnąć z tego równania, poza tym, że można je przepisać w zwykłym kierunku:

Lub:

O dalszych działaniach myślę, że można się domyślić. Stwórzmy i rozwiążmy system:

Ułamki dziesiętne to oczywiście kompletna hańba; pomnóż oba równania przez 10:

i podzielić przez 2:

To jest lepsze. Z pierwszego równania wyrażamy:
(to jest łatwiejszy sposób)- podstawiamy w drugim równaniu:


budujemy do kwadratu i dokonaj uproszczeń:

Mnożymy przez:

W rezultacie, równanie kwadratowe, znajdź jego wyróżnik:
- Świetnie!

i otrzymujemy dwa rozwiązania:

1) jeśli , To ;

2) jeśli , To .

Pierwsza para wartości spełnia warunek. Z dużym prawdopodobieństwem wszystko jest w porządku, ale mimo to zapisujemy prawo dystrybucji:

i wykonaj sprawdzenie, a mianowicie znajdź oczekiwanie: