Algorytm konstruowania szeregu zmian przedziałowych o równych odstępach.

Wyślij swoją dobrą pracę do bazy wiedzy jest prosta. Skorzystaj z poniższego formularza

Studenci, doktoranci, młodzi naukowcy, którzy wykorzystują bazę wiedzy w swoich studiach i pracy, będą Państwu bardzo wdzięczni.

Wysłany dnia http://www.allbest.ru/

ZADANIE1

Dostępne są następujące dane na temat wynagrodzeń pracowników w przedsiębiorstwie:

Tabela 1.1

Wysokość wynagrodzeń w ujęciu konwencjonalnym. legowisko. jednostki

Wymagane jest skonstruowanie szeregu rozkładów przedziałowych, według którego można znaleźć;

1) przeciętne wynagrodzenie;

2) średnie odchylenie liniowe;

4) odchylenie standardowe;

5) zakres zmienności;

6) współczynnik oscylacji;

7) liniowy współczynnik zmienności;

8) prosty współczynnik zmienności;

10) mediana;

11) współczynnik asymetrii;

12) Wskaźnik asymetrii Pearsona;

13) współczynnik kurtozy.

Rozwiązanie

Jak wiadomo, opcje (rozpoznawane wartości) są ułożone w kolejności rosnącej dyskretne serie zmian. Z dużą liczbą opcji (więcej niż 10), nawet w przypadku zmienności dyskretnej konstruowane są szeregi przedziałowe.

Jeśli szereg przedziałowy jest zestawiany z przedziałami parzystymi, wówczas zakres zmienności jest dzielony przez określoną liczbę przedziałów. Co więcej, jeżeli otrzymana wartość jest liczbą całkowitą i jednoznaczną (co zdarza się rzadko), to przyjmuje się, że długość przedziału jest równa tej liczbie. W innych sprawach wytworzony zaokrąglenie Koniecznie V strona zwiększyć, Więc Do ostatnia cyfra, która pozostała, była parzysta. Oczywiście wraz ze wzrostem długości interwału, tj zakres zmienności o wielkość równą iloczynowi liczby przedziałów: o różnicę między obliczoną a początkową długością przedziału

A) Jeżeli wielkość rozszerzenia zakresu zmienności jest niewielka, wówczas jest ona albo dodawana do największej, albo odejmowana od najmniejszej wartości cechy;

b) Jeżeli zauważalna jest wielkość rozszerzenia zakresu zmienności, to aby uniknąć pomylenia środka zakresu, dzieli się go z grubsza na pół, jednocześnie dodając do największych i odejmując od najmniejszych wartości charakterystyka.

Jeżeli zestawiony zostanie szereg przedziałów o nierównych odstępach, proces ulega uproszczeniu, ale nadal długość przedziałów należy wyrazić liczbą z ostatnią parzystą cyfrą, co znacznie ułatwia późniejsze obliczenia charakterystyk numerycznych.

30 to wielkość próbki.

Utwórzmy szereg rozkładów przedziałowych, korzystając ze wzoru Sturgesa:

K = 1 + 3,32*log n,

K - liczba grup;

K = 1 + 3,32*lg 30 = 5,91=6

Zakres atrybutu – płace pracowników w przedsiębiorstwie – (x) wyznaczamy korzystając ze wzoru

R= xmax - xmin i podziel przez 6; R= 195-112=83

Wtedy długość interwału będzie l pas=83:6=13,83

Początek pierwszego interwału będzie wynosił 112. Dodając do 112 l ras = 13,83, otrzymujemy jego końcową wartość 125,83, która jest jednocześnie początkiem drugiego przedziału itd. koniec piątego interwału – 195.

Przy znajdowaniu częstotliwości należy kierować się zasadą: „jeżeli wartość cechy pokrywa się z granicą przedziału wewnętrznego, to należy ją przypisać do przedziału poprzedniego”.

Otrzymujemy przedziałową serię częstotliwości i częstotliwości skumulowane.

Tabela 1.2

Zatem 3 pracowników ma wynagrodzenie. opłata od 112 do 125,83 konwencjonalnych jednostek pieniężnych. Najwyższa pensja opłata od 181,15 do 195 konwencjonalnych jednostek pieniężnych. tylko 6 pracowników.

Aby obliczyć charakterystyki numeryczne, przekształcamy szereg przedziałowy w szereg dyskretny, opcjonalnie przyjmując środek przedziału:

Tabela 1.3

14131,83

Korzystanie ze wzoru na średnią arytmetyczną ważoną

konwencjonalne jednostki monetarne

Średnie odchylenie liniowe:

gdzie xi jest wartością badanej cechy dla i-tej jednostki populacji,

Średnia wartość badanej cechy.

Wysłany dnia http://www.allbest.ru/

LWysłano dnia http://www.allbest.ru/

Konwencjonalne jednostki monetarne

Odchylenie standardowe:

Dyspersja:

Względny zakres zmienności (współczynnik oscylacji): c= R:,

Względne odchylenie liniowe: q = L:

Współczynnik zmienności: V = y:

Współczynnik oscylacji pokazuje względne wahania skrajnych wartości cechy wokół średniej arytmetycznej, a współczynnik zmienności charakteryzuje stopień i jednorodność populacji.

c= R: = 83 / 159,485*100% = 52,043%

Zatem różnica pomiędzy skrajnymi wartościami jest o 5,16% (=94,84%-100%) mniejsza od przeciętnego wynagrodzenia pracowników w przedsiębiorstwie.

q = L: = 17,765/ 159,485*100% = 11,139%

V = y: = 21,704/ 159,485*100% = 13,609%

Współczynnik zmienności wynosi niecałe 33%, co świadczy o słabym zróżnicowaniu wynagrodzeń pracowników w przedsiębiorstwie, tj. że średnia wartość jest typową cechą płac pracowników (populacja jest jednorodna).

W szeregach rozkładu przedziałowego moda określone przez wzór -

Częstotliwość przedziału modalnego, czyli przedziału zawierającego największą liczbę opcji;

Częstotliwość przedziału poprzedzającego mod;

Częstotliwość przedziału następującego po modale;

Długość interwału modalnego;

Dolna granica przedziału modalnego.

Do ustalenia mediany w szeregach przedziałowych używamy wzoru

gdzie jest skumulowaną (skumulowaną) częstotliwością przedziału poprzedzającego medianę;

Dolna granica średniego przedziału;

Mediana częstotliwości interwałów;

Długość średniego interwału.

Mediana interwału- przedział, którego skumulowana częstotliwość (=3+3+5+7) przekracza połowę sumy częstotliwości - (153,49; 167,32).

Obliczmy asymetrię i kurtozę, dla których utworzymy nowy arkusz:

Tabela 1.4

Dane rzeczowe

Obliczone dane

Obliczmy moment trzeciego rzędu

Zatem asymetria jest równa

Od 0,3553 0,25 asymetrię uważa się za znaczącą.

Obliczmy moment czwartego rzędu

Dlatego kurtoza jest równa

Ponieważ< 0, то эксцесс является плосковершинным.

Stopień asymetrii można określić za pomocą współczynnika asymetrii Pearsona (As): obrót wartości próbki oscylacji

gdzie jest średnią arytmetyczną szeregu rozkładów; -- moda; -- odchylenie standardowe.

Zatem przy rozkładzie symetrycznym (normalnym) = Mo współczynnik asymetrii wynosi zero. Jeżeli As > 0, to modów jest więcej, zatem występuje asymetria prawoskrętna.

Jeśli jako< 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

Rozkład nie jest symetryczny, ale ma lewostronną asymetrię.

ZADANIE 2

Jaka powinna być liczebność próby, aby z prawdopodobieństwem 0,954 błąd próby nie przekroczył 0,04, jeżeli z poprzednich badań wiadomo, że wariancja wynosi 0,24?

Rozwiązanie

Liczebność próby w przypadku pobierania próbek jednorazowych oblicza się ze wzoru:

t - współczynnik ufności (z prawdopodobieństwem 0,954 jest równy 2,0; wyznaczany z tablic całek prawdopodobieństwa),

y2=0,24 - odchylenie standardowe;

10 000 osób - wielkość próbki;

Dx =0,04 - maksymalny błąd średniej próbki.

Z prawdopodobieństwem 95,4% można stwierdzić, że wielkość próby zapewniająca błąd względny nie większy niż 0,04 powinna wynosić co najmniej 566 rodzin.

ZADANIE3

Dostępne są następujące dane na temat dochodów z głównej działalności przedsiębiorstwa, w milionach rubli.

Aby przeanalizować szereg dynamiki, określ następujące wskaźniki:

1) łańcuchowy i podstawowy:

Bezwzględne wzrosty;

Tempo wzrostu;

Tempo wzrostu;

2) średnia

Poziom wiersza dynamiki;

Absolutny wzrost;

Tempo wzrostu;

Tempo wzrostu;

3) wartość bezwzględna wzrostu o 1%.

Rozwiązanie

1. Bezwzględny wzrost (Dy)- to jest różnica pomiędzy kolejnym poziomem serii a poprzednim (lub podstawowym):

łańcuch: DN = yi - yi-1,

podstawowy: DN = yi - y0,

уi - poziom wiersza,

i - numer poziomu wiersza,

y0 - poziom roku bazowego.

2. Tempo wzrostu (Tu) to stosunek kolejnego poziomu szeregu do poprzedniego (lub roku bazowego 2001):

łańcuch: Tu = ;

podstawowy: Tu =

3. Tempo wzrostu (TD) to stosunek bezwzględnego wzrostu do poprzedniego poziomu, wyrażony w %.

łańcuch: Tu = ;

podstawowy: Tu =

4. Wartość bezwzględna wzrostu o 1% (A)- jest to stosunek bezwzględnego wzrostu łańcucha do tempa wzrostu, wyrażony w %.

A =

Średni poziom wiersza oblicza się przy użyciu wzoru na średnią arytmetyczną.

Średni poziom przychodów z działalności podstawowej za 4 lata:

Średni bezwzględny wzrost obliczane według wzoru:

gdzie n jest liczbą poziomów szeregu.

Średnio za rok dochody z działalności podstawowej wzrosły o 3,333 mln rubli.

Średnioroczne tempo wzrostu oblicza się ze wzoru na średnią geometryczną:

уn to ostatni poziom rzędu,

y0 to początkowy poziom serii.

Tu = 100% = 102,174%

Średnioroczne tempo wzrostu obliczane według wzoru:

T? = Tu – 100% = 102,74% – 100% = 2,74%.

Tym samym średnio w ciągu roku przychody z podstawowej działalności przedsiębiorstwa wzrosły o 2,74%.

ZADANIAA4

Oblicz:

1. Indywidualne wskaźniki cen;

2. Ogólny wskaźnik obrotów handlowych;

3. Zagregowany wskaźnik cen;

4. Zagregowany wskaźnik fizycznego wolumenu sprzedaży towarów;

5. Rozłóż bezwzględny wzrost wartości obrotów handlowych według czynników (w wyniku zmian cen i liczby sprzedanych towarów);

6. Wyciągnij krótkie wnioski na temat wszystkich uzyskanych wskaźników.

Rozwiązanie

1. Zgodnie z warunkiem indywidualne wskaźniki cen produktów A, B, C wyniosły -

ipA=1,20; iрБ=1,15; iрВ=1,00.

2. Wskaźnik ogólnego obrotu handlowego obliczymy ze wzoru:

I w = = 1470/1045*100% = 140,67%

Obroty handlowe wzrosły o 40,67% (140,67%-100%).

Ceny surowców wzrosły średnio o 10,24%.

Wysokość dodatkowych kosztów kupujących z tytułu podwyżek cen:

w(p) =? p1q1 -? p0q1 = 1470 - 1333,478 = 136,522 mln rubli.

W wyniku rosnących cen kupujący musieli wydać dodatkowe 136,522 mln rubli.

4. Ogólny wskaźnik fizycznego wolumenu obrotu handlowego:

Fizyczny wolumen obrotów handlowych wzrósł o 27,61%.

5. Określmy ogólną zmianę obrotów handlowych w drugim okresie w porównaniu do pierwszego okresu:

w = 1470-1045 = 425 milionów rubli.

ze względu na zmiany cen:

W(p) = 1470 - 1333,478 = 136,522 mln rubli.

ze względu na zmiany objętości fizycznej:

w(q) = 1333,478 - 1045 = 288,478 milionów rubli.

Obrót towarowy wzrósł o 40,67%. Ceny średnio za 3 towary wzrosły o 10,24%. Fizyczny wolumen obrotów handlowych wzrósł o 27,61%.

Ogółem wolumen sprzedaży wzrósł o 425 mln rubli, w tym ze względu na rosnące ceny wzrósł o 136,522 mln rubli, a ze względu na wzrost wolumenu sprzedaży - o 288,478 mln rubli.

ZADANIE5

Poniższe dane są dostępne dla 10 fabryk w jednej branży.

Numer rośliny

Wydajność produktu, tys. szt. (X)

Na podstawie podanych danych:

I) potwierdzić założenia analizy logicznej o występowaniu liniowej korelacji między charakterystyką czynnikową (objętość produktu) a charakterystyką wypadkową (zużycie energii elektrycznej), nanieść dane początkowe na wykres pola korelacji i wyciągnąć wnioski co do postaci związku podaj jego formułę;

2) wyznaczyć parametry równania połączenia i wykreślić otrzymaną linię teoretyczną na wykresie pola korelacji;

3) obliczyć współczynnik korelacji liniowej,

4) wyjaśnić znaczenie wskaźników uzyskanych w pkt 2) i 3);

5) korzystając z otrzymanego modelu dokonać prognozy możliwego zużycia energii w zakładzie o wielkości produkcji 4,5 tys. sztuk.

Rozwiązanie

Dane atrybutu - wielkość produkcji (czynnik) będą oznaczone przez xi; znak - zużycie energii elektrycznej (wynik) przez yi; punkty o współrzędnych (x, y) nanoszone są na pole korelacyjne OXY.

Punkty pola korelacji leżą na określonej linii prostej. Zależność jest zatem liniowa, równania regresji będziemy szukać w postaci prostej Уx=ax+b. Aby to znaleźć, używamy układu równań normalnych:

Stwórzmy tabelę obliczeniową.

Korzystając ze znalezionych średnich, tworzymy układ i rozwiązujemy go w odniesieniu do parametrów a i b:

Otrzymujemy więc równanie regresji dla y na x: = 3,57692 x + 3,19231

Na polu korelacji budujemy linię regresji.

Podstawiając wartości x z kolumny 2 do równania regresji, otrzymujemy obliczone (kolumna 7) i porównujemy je z danymi y, co znajduje odzwierciedlenie w kolumnie 8. Swoją drogą poprawność obliczeń potwierdza zbieżność średnich wartości y i.

Współczynnikkorelacja liniowa ocenia bliskość związku między cechami x i y i oblicza się ją za pomocą wzoru

Współczynnik kątowy regresji bezpośredniej a (w x) charakteryzuje kierunek zidentyfikowanegozależnościznaki: dla a>0 są takie same, dla a<0- противоположны. Jest absolutny wartość - miara zmiany charakterystyki wypadkowej, gdy charakterystyka czynnikowa zmienia się o jednostkę miary.

Swobodny człon regresji bezpośredniej ujawnia kierunek, a jego wartość bezwzględna jest ilościową miarą wpływu wszystkich innych czynników na wynikową charakterystykę.

Jeśli< 0, to zasób czynnika charakterystycznego dla pojedynczego obiektu jest wykorzystywany w mniejszym stopniu i kiedy>0 Zwiększą skuteczność niż średnia dla całego zbioru obiektów.

Przeprowadźmy analizę poregresyjną.

Współczynnik przy x regresji bezpośredniej wynosi 3,57692 >0, zatem wraz ze wzrostem (spadkiem) wielkości produkcji wzrasta (maleje) zużycie energii elektrycznej. Zwiększenie produkcji o 1 tys. sztuk. daje średni wzrost zużycia energii elektrycznej o 3,57692 tys. kWh.

2. Swobodny wyraz regresji bezpośredniej wynosi 3,19231, zatem wpływ pozostałych czynników zwiększa wpływ produkcji produktu na zużycie energii elektrycznej w wartościach bezwzględnych o 3,19231 tys. kWh.

3. Współczynnik korelacji wynoszący 0,8235 wskazuje na bardzo ścisłą zależność zużycia energii elektrycznej od uzysku produktu.

Prognozy można łatwo przeprowadzić za pomocą równania modelu regresji. W tym celu do równania regresji podstawiamy wartości x – wielkość produkcji – i prognozujemy zużycie energii elektrycznej. W takim przypadku wartości x można przyjmować nie tylko w danym zakresie, ale także poza nim.

Zróbmy prognozę możliwego zużycia energii w zakładzie o wielkości produkcji 4,5 tys. sztuk.

3,57692*4,5 + 3,19231= 19,288 45 tys. kWh.

WYKAZ WYKORZYSTANYCH ŹRÓDEŁ

1. Zacharenkow S.N. Statystyki społeczno-gospodarcze: podręcznik i przewodnik praktyczny. -Mn.: BSEU, 2002.

2. Efimova M.R., Petrova E.V., Rumyantsev V.N. Ogólna teoria statystyki. - M.: INFRA - M., 2000.

3. Eliseeva I.I. Statystyka. - M.: Prospekt, 2002.

4. Ogólna teoria statystyki / Ogólne. wyd. OE Baszyna, AA Spirina. - M.: Finanse i statystyka, 2000.

5. Statystyka społeczno-ekonomiczna: edukacyjna i praktyczna. zasiłek / Zakharenkov S.N. i inne - Mn.: Uniwersytet Państwowy w Erewaniu, 2004.

6. Statystyka społeczno-gospodarcza: Podręcznik. dodatek. / wyd. Niesterowicz S.R. - Mn.: BSEU, 2003.

7. Teslyuk I.E., Tarlovskaya V.A., Terlizhenko N. Statystyka - Mińsk, 2000.

8. Kharchenko L.P. Statystyka. - M.: INFRA - M, 2002.

9. Kharchenko L.P., Dolzhenkova V.G., Ionin V.G. Statystyka. - M.: INFRA - M, 1999.

10. Statystyka gospodarcza / wyd. Yu.N. Iwanowa - M., 2000.

Opublikowano na Allbest.ru

...

Podobne dokumenty

    Obliczanie średniej arytmetycznej dla szeregu rozkładów przedziałowych. Wyznaczanie ogólnego wskaźnika fizycznego wolumenu obrotów handlowych. Analiza bezwzględnej zmiany całkowitego kosztu produkcji ze względu na zmiany wolumenu fizycznego. Obliczanie współczynnika zmienności.

    test, dodano 19.07.2010

    Istota handlu hurtowego, detalicznego i publicznego. Wzory do obliczania jednostkowych i zbiorczych wskaźników obrotu. Obliczanie charakterystyk szeregu rozkładów przedziałowych - średnia arytmetyczna, moda i mediana, współczynnik zmienności.

    praca na kursie, dodano 05.10.2013

    Obliczenie planowanej i rzeczywistej wielkości sprzedaży, procentu wykonania planu, bezwzględnej zmiany obrotów. Wyznaczanie wzrostu bezwzględnego, średniego tempa wzrostu i przyrostu dochodów pieniężnych. Obliczanie średnich strukturalnych: mody, mediany, kwartyle.

    test, dodano 24.02.2012

    Szeregi przedziałowe rozkładu banków według wolumenu zysku. Znalezienie postaci i mediany otrzymanego szeregu rozkładów przedziałowych metodą graficzną i obliczeniami. Obliczanie charakterystyk szeregów rozkładów przedziałowych. Obliczanie średniej arytmetycznej.

    test, dodano 15.12.2010

    Wzory do wyznaczania wartości średnich szeregu przedziałowego - mody, mediany, dyspersja. Obliczanie wskaźników analitycznych szeregów dynamicznych z wykorzystaniem schematów łańcuchowych i podstawowych, szybkości wzrostu i przyrostów. Koncepcja skonsolidowanego wskaźnika kosztów, cen, wydatków i obrotów.

    praca na kursie, dodano 27.02.2011

    Koncepcja i cel, porządek i zasady konstruowania serii wariacyjnej. Analiza jednorodności danych w grupach. Wskaźniki zmienności (fluktuacji) cechy. Wyznaczanie średniego odchylenia liniowego i kwadratowego, współczynnika oscylacji i zmienności.

    test, dodano 26.04.2010

    Pojęcie trybu i mediany jako charakterystyk typowych, kolejność i kryteria ich wyznaczania. Znajdowanie formy i mediany w szeregach dyskretnych i przedziałowych. Kwartyle i decyle jako dodatkowa charakterystyka szeregu statystycznego zmienności.

    test, dodano 11.09.2010

    Konstrukcja szeregu rozkładów przedziałowych w oparciu o charakterystykę grupowania. Charakterystyka odchylenia rozkładu częstotliwości od kształtu symetrycznego, obliczanie kurtozy i wskaźników asymetrii. Analiza wskaźników bilansu lub rachunku zysków i strat.

    test, dodano 19.10.2014

    Zamiana szeregów empirycznych na dyskretne i przedziałowe. Wyznaczanie wartości średniej szeregu dyskretnego na podstawie jego właściwości. Obliczenia z wykorzystaniem dyskretnego szeregu modów, mediany, wskaźników zmienności (rozproszenie, odchylenie, współczynnik oscylacji).

    test, dodano 17.04.2011

    Konstrukcja szeregu statystycznego rozkładu organizacji. Graficzne wyznaczanie wartości postaci i mediany. Bliskość korelacji za pomocą współczynnika determinacji. Wyznaczanie błędu próby średniej liczby pracowników.

Praca laboratoryjna nr 1

Według statystyk matematycznych

Temat: Podstawowe przetwarzanie danych eksperymentalnych

3. Zdobądź punkty. 1

5. Pytania testowe.. 2

6. Metodyka wykonywania prac laboratoryjnych. 3

Cel pracy

Nabycie umiejętności pierwotnego przetwarzania danych empirycznych z wykorzystaniem metod statystyki matematycznej.

Na podstawie całości danych eksperymentalnych wykonaj następujące zadania:

Ćwiczenie 1. Skonstruuj szereg rozkładów zmienności przedziałowej.

Zadanie 2. Skonstruuj histogram częstotliwości serii zmian przedziałowych.

Zadanie 3. Utwórz empiryczną funkcję rozkładu i narysuj wykres.

a) tryb i mediana;

b) warunkowe momenty początkowe;

c) średnia próbki;

d) wariancja próbki, skorygowana wariancja populacji, skorygowane odchylenie standardowe;

e) współczynnik zmienności;

f) asymetria;

g) kurtoza;

Zadanie 5. Określ granice prawdziwych wartości cech liczbowych badanej zmiennej losowej z daną niezawodnością.

Zadanie 6. Treściowa interpretacja wyników pierwotnego przetwarzania zgodnie z warunkami zadania.

Wynik w punktach

Zadania 1-56 punktów

Zadanie 62 punkty

Obrona pracy laboratoryjnej(rozmowa ustna dotycząca pytań testowych i prac laboratoryjnych) - 2 punkty

Pracę należy złożyć w formie pisemnej na kartkach formatu A4 i zawierać:

1) Strona tytułowa (Załącznik 1)

2) Dane początkowe.

3) Złożenie pracy według podanego wzoru.

4) Wyniki obliczeń (wykonane ręcznie i/lub przy użyciu programu MS Excel) w określonej kolejności.

5) Wnioski - sensowna interpretacja wyników pierwotnego przetwarzania zgodnie z warunkami zadania.

6) Rozmowa ustna dotycząca pytań związanych z pracą i kwestiami kontrolnymi.



5. Pytania testowe


Metodyka wykonywania prac laboratoryjnych

Zadanie 1. Zbuduj przedziałowy szereg rozkładów wariacyjnych

Aby przedstawić dane statystyczne w postaci szeregu zmian z równomiernie rozmieszczonymi opcjami, należy:

1. W oryginalnej tabeli danych znajdź najmniejszą i największą wartość.

2. Zdefiniuj zakres zmienności :

3. Wyznacz długość przedziału h, jeżeli próbka zawiera do 1000 danych, skorzystaj ze wzoru: , gdzie n – liczebność próby – ilość danych w próbie; do obliczeń weź lgn).

Obliczony współczynnik zaokrągla się do wygodna wartość całkowita .

4. Aby określić początek pierwszego interwału dla parzystej liczby interwałów, zaleca się przyjąć wartość ; i dla nieparzystej liczby interwałów.

5. Zapisz przedziały grupujące i uporządkuj je w rosnącej kolejności granic

, ,………., ,

gdzie jest dolną granicą pierwszego przedziału. Przyjmuje się dogodną liczbę nie większą niż , górna granica ostatniego przedziału powinna być nie mniejsza niż . Zaleca się, aby przedziały zawierały początkowe wartości zmiennej losowej i były od siebie oddzielone 5 do 20 interwały.

6. Zapisz początkowe dane dotyczące przedziałów grupowania, tj. skorzystaj z tabeli źródłowej, aby obliczyć liczbę wartości zmiennych losowych mieszczących się w określonych przedziałach. Jeśli niektóre wartości pokrywają się z granicami przedziałów, wówczas przypisuje się je albo tylko do poprzedniego, albo tylko do kolejnego przedziału.

Notatka 1. Odstępy nie muszą być równej długości. W obszarach, gdzie wartości są gęstsze, wygodniej jest przyjmować mniejsze, krótkie odstępy, a tam, gdzie odstępy są rzadsze, większe.

Uwaga 2.Jeśli dla niektórych wartości otrzymane zostaną wartości „zero” lub małe częstotliwości, wówczas konieczne jest przegrupowanie danych, zwiększenie odstępów (zwiększenie kroku).

Mając dostępne dane statystyczne z obserwacji charakteryzujące dane zjawisko, należy przede wszystkim je uporządkować, tj. nadać charakter systematyczny

Statystyk angielski. UJReichman w przenośni mówił o nieuporządkowanych zbiorach, że natrafienie na masę nieuogólnionych danych jest równoznaczne z sytuacją, w której człowiek zostaje wrzucony w gęstwinę bez kompasu. Na czym polega systematyzacja danych statystycznych w postaci szeregów dystrybucyjnych?

Szeregi statystyczne rozkładów są uporządkowanymi agregatami statystycznymi (Tabela 17). Najprostszym rodzajem szeregów rozkładu statystycznego są szeregi rankingowe, tj. seria liczb w kolejności rosnącej lub malejącej, różniących się charakterystyką. Taki szereg nie pozwala ocenić prawidłowości występujących w rozproszonych danych: w jakiej wartości zgrupowanych jest najwięcej wskaźników, jakie są odchylenia od tej wartości; jak również ogólny obraz dystrybucji. W tym celu dane grupuje się, pokazując, jak często w ich ogólnej liczbie występują poszczególne obserwacje (Schemat 1a 1).

. Tabela 17

. Ogólny widok szeregów rozkładu statystycznego

. Schemat 1. Schemat statystyczny seria dystrybucyjna

Nazywa się rozkład jednostek populacji według cech, które nie mają wyrażenia ilościowego szereg atrybutywny(na przykład rozkład przedsiębiorstw według obszaru produkcyjnego)

Szeregi rozkładu jednostek populacji według cech, które mają wyraz ilościowy, nazywane są seria odmian. W takich szeregach wartość cechy (opcji) jest posortowana rosnąco lub malejąco

W szeregu rozkładu wariacyjnego wyróżnia się dwa elementy: wariant i częstotliwość . Opcja- jest to odrębne znaczenie cech grupujących częstotliwość- liczba pokazująca, ile razy występuje każda opcja

W statystyce matematycznej obliczany jest jeszcze jeden element szeregu zmian - częściowo. Tę ostatnią definiuje się jako stosunek częstości przypadków danego przedziału do całkowitej sumy częstości; część określa się w ułamkach jednostkowych, procentach (%) w ppm (%o)

Zatem szereg rozkładu zmienności to szereg, w którym opcje są ułożone w kolejności rosnącej lub malejącej i wskazane są ich częstotliwości lub częstotliwości. Szeregi zmian są dyskretne (przedziały) i inne przedziały (ciągłe).

. Dyskretne serie zmian- są to szeregi rozkładowe, w których wariant jako wartość cechy ilościowej może przyjmować jedynie określoną wartość. Opcje różnią się od siebie jedną lub większą liczbą jednostek

Zatem liczbę części wyprodukowanych na zmianę przez konkretnego pracownika można wyrazić tylko jedną określoną liczbą (6, 10, 12 itd.). Przykładem dyskretnej serii zmian może być rozkład pracowników według liczby wyprodukowanych części (Tabela 18-18).

. Tabela 18

. Dyskretny rozkład szeregowy _

. Przedziałowy (ciągły) szereg zmian- taki szereg dystrybucyjny, w którym wartość opcji podana jest w formie przedziałów, tj. wartości cech mogą różnić się od siebie o dowolnie małą kwotę. Konstruując szereg wariacyjny charakterystyk perywariantowych NEP nie ma możliwości wskazania każdej wartości wariantu, dlatego populacja jest rozłożona w przedziałach. Te ostatnie mogą być równe lub nierówne. Dla każdego z nich wskazane są częstotliwości lub częstotliwości (Tabela 1 9 19).

W szeregach rozkładów przedziałowych o nierównych odstępach obliczane są cechy matematyczne, takie jak gęstość rozkładu i względna gęstość rozkładu w danym przedziale. Pierwszą cechę wyznacza stosunek częstotliwości do wartości tego samego przedziału, drugą - stosunek częstotliwości do wartości tego samego przedziału. W powyższym przykładzie gęstość rozkładu w pierwszym przedziale będzie wynosić 3:5 = 0,6, a gęstość względna w tym przedziale będzie wynosić 7,5:5 = 1,55%.

. Tabela 19

. Szeregi rozkładu przedziałowego _

Statystyka matematyczna- dział matematyki zajmujący się matematycznymi metodami przetwarzania, systematyzowania i wykorzystywania danych statystycznych do wniosków naukowych i praktycznych.

3.1. PODSTAWOWE POJĘCIA STATYSTYKI MATEMATYCZNEJ

W przypadku problemów medycznych i biologicznych często konieczne jest zbadanie rozkładu określonej cechy dla bardzo dużej liczby osób. Cecha ta ma różne znaczenie dla różnych osób, jest więc zmienną losową. Na przykład każdy lek terapeutyczny ma różną skuteczność, gdy jest stosowany u różnych pacjentów. Jednak, aby mieć pojęcie o skuteczności tego leku, nie ma potrzeby go stosować wszyscy chory. Można prześledzić skutki stosowania leku na stosunkowo małej grupie pacjentów i na podstawie uzyskanych danych zidentyfikować istotne cechy (skuteczność, przeciwwskazania) procesu leczenia.

Populacja- zbiór jednorodnych elementów charakteryzujących się jakąś cechą podlegającą badaniu. Ten znak jest ciągły zmienna losowa z gęstością rozkładu f(x).

Na przykład, jeśli interesuje nas częstość występowania choroby w danym regionie, to populacja ogólna to cała populacja regionu. Jeśli chcemy osobno zbadać podatność kobiet i mężczyzn na tę chorobę, powinniśmy rozważyć dwie ogólne populacje.

Aby zbadać właściwości populacji ogólnej, wybiera się pewną część jej elementów.

Próbka- część populacji ogólnej wybrana do badania (leczenia).

Jeśli nie powoduje to zamieszania, próbkę nazywa się jako zbiór obiektów, wybranych do badania oraz całość

wartości badana cecha uzyskana podczas badania. Wartości te można przedstawić na kilka sposobów.

Proste szeregi statystyczne - wartości badanej cechy, zapisane w kolejności, w jakiej zostały uzyskane.

Przykład prostego szeregu statystycznego uzyskanego poprzez pomiar prędkości fali powierzchniowej (m/s) w skórze czoła u 20 pacjentów przedstawiono w tabeli. 3.1.

Tabela 3.1.Proste szeregi statystyczne

Prosty szereg statystyczny jest głównym i najpełniejszym sposobem rejestrowania wyników ankiety. Może zawierać setki elementów. Bardzo trudno na pierwszy rzut oka przyjrzeć się takiej całości. Dlatego duże próbki są zwykle dzielone na grupy. Aby to zrobić, obszar zmiany charakterystyki dzieli się na kilka (N) interwały równej szerokości i obliczyć względne częstotliwości (n/n) atrybutu mieszczącego się w tych przedziałach. Szerokość każdego przedziału wynosi:

Granice przedziałów mają następujące znaczenie:

Jeżeli dowolny element próbki stanowi granicę pomiędzy dwoma sąsiednimi przedziałami, wówczas jest on klasyfikowany jako lewy interwał. Dane pogrupowane w ten sposób nazywane są przedziałowe serie statystyczne.

to tabela pokazująca przedziały wartości atrybutów i względne częstotliwości występowania atrybutu w tych przedziałach.

W naszym przypadku możemy ułożyć np. następujący przedziałowy szereg statystyczny (N=5, D= 4), tabela. 3.2.

Tabela 3.2.Przedziałowe serie statystyczne

Tutaj przedział 28-32 zawiera dwie wartości równe 28 (tabela 3.1), a przedział 32-36 zawiera wartości 32, 33, 34 i 35.

Przedziałową serię statystyczną można przedstawić graficznie. Aby to zrobić, wzdłuż osi odciętych wykreśla się odstępy wartości atrybutów i na każdym z nich, podobnie jak na podstawie, budowany jest prostokąt o wysokości równej częstotliwości względnej. Powstały wykres słupkowy nazywa się histogram.

Ryż. 3.1. wykres słupkowy

Na histogramie statystyczne wzorce rozkładu cechy są dość wyraźnie widoczne.

Przy dużej liczebności próby (kilka tysięcy) i małych szerokościach kolumn kształt histogramu jest zbliżony do kształtu wykresu gęstość dystrybucji podpisać.

Liczbę kolumn histogramu można wybrać za pomocą następującego wzoru:

Ręczne tworzenie histogramu to długi proces. Dlatego opracowano programy komputerowe, które automatycznie je konstruują.

3.2. CHARAKTERYSTYKA NUMERYCZNA SZEREGÓW STATYSTYCZNYCH

Wiele procedur statystycznych wykorzystuje szacunki próbek dla oczekiwań i wariancji populacji (lub MSE).

Przykładowa średnia(X) jest średnią arytmetyczną wszystkich elementów prostego szeregu statystycznego:

Dla naszego przykładu X= 37,05 (m/s).

Średnia próbka wynosinajlepszeogólne średnie szacunkiM.

Wariancja próbki s 2 równa sumie kwadratów odchyleń elementów od średniej próbki podzielonej przez N- 1:

W naszym przykładzie s 2 = 25,2 (m/s) 2.

Należy pamiętać, że przy obliczaniu wariancji próbki mianownikiem wzoru nie jest liczebność próby n, ale n-1. Wynika to z faktu, że przy obliczaniu odchyleń we wzorze (3.3) zamiast nieznanego oczekiwania matematycznego stosuje się jego oszacowanie - średnia próbki.

Wariancja próbki wynosi najlepsze estymacja wariancji ogólnej (σ 2).

Odchylenie standardowe próbki(s) jest pierwiastkiem kwadratowym wariancji próbki:

Dla naszego przykładu S= 5,02 (m/s).

Selektywny średnia kwadratowa odchylenie jest najlepszym oszacowaniem ogólnego odchylenia standardowego (σ).

Przy nieograniczonym wzroście liczebności próby wszystkie cechy próby mają tendencję do odpowiadania cechom populacji ogólnej.

Do obliczenia charakterystyki próbki stosuje się wzory komputerowe. W programie Excel te obliczenia wykonują funkcje statystyczne ŚREDNIA, Wariancja. ODCHYLENIE STANDARDOWE

3.3. OCENA INTERWAŁOWA

Wszystkie cechy próbki są zmienne losowe. Oznacza to, że dla innej próbki o tej samej wielkości wartości charakterystyk próbki będą inne. Zatem wybiórczo

cechy są tylko szacunki odpowiednie cechy populacji.

Wady oceny selektywnej są kompensowane przez estymacja interwałowa, reprezentowanie przedział numeryczny wewnątrz którego z danym prawdopodobieństwem R & D znaleziono prawdziwą wartość szacowanego parametru.

Pozwalać U r - jakiś parametr populacji ogólnej (średnia ogólna, ogólna wariancja itp.).

Estymacja przedziałowa parametr Ur nazywany jest przedziałem (U 1, U 2), spełniający warunek:

P(U < Ur < U2) = Рд. (3.5)

Prawdopodobieństwo R & D zwany prawdopodobieństwo pewności.

Prawdopodobieństwo ufności PD - prawdopodobieństwo, że prawdziwa wartość szacowanej ilości wynosi wewnątrz określony interwał.

W tym przypadku interwał (U 1, U 2) zwany przedział ufności dla szacowanego parametru.

Często zamiast prawdopodobieństwa ufności stosuje się powiązaną wartość α = 1 - Р d, która jest tzw poziom istotności.

Poziom istotności jest prawdopodobieństwem, że prawdziwa wartość szacowanego parametru wynosi poza przedział ufności.

Czasami α i Pd wyraża się jako wartości procentowe, na przykład 5% zamiast 0,05 i 95% zamiast 0,95.

W estymacji przedziałowej najpierw wybierz odpowiedni prawdopodobieństwo pewności(zwykle 0,95 lub 0,99), a następnie znaleźć odpowiedni zakres wartości dla szacowanego parametru.

Zwróćmy uwagę na pewne ogólne właściwości oszacowań przedziałowych.

1. Im niższy poziom istotności (tym więcej R & D), im szersze jest oszacowanie przedziału. Tak więc, jeśli na poziomie istotności 0,05 oszacowanie przedziałowe średniej ogólnej wynosi 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Im większy rozmiar próbki N, im węższy jest estymator przedziału z wybranym poziomem istotności. Niech np. 5 będzie procentowym oszacowaniem średniej ogólnej (β = 0,05) uzyskanej z próby 20 elementów, wówczas 34,7< M< 39,4.

Zwiększając wielkość próby do 80, otrzymujemy dokładniejsze oszacowanie na tym samym poziomie istotności: 35,5< M< 38,6.

Ogólnie rzecz biorąc, konstrukcja wiarygodnych szacunków ufności wymaga znajomości prawa, zgodnie z którym oszacowany atrybut losowy rozkłada się w populacji. Przyjrzyjmy się, jak konstruowane jest oszacowanie przedziału Średnia ogólna cecha, która jest dystrybuowana w populacji według normalna prawo.

3.4. OSZACOWANIE PRZEDZIAŁOWE OGÓLNEJ ŚREDNIEJ DLA PRAWA PODZIAŁU NORMALNEGO

Konstrukcja estymatora przedziałowego średniej ogólnej M dla populacji z prawem rozkładu normalnego opiera się na następującej własności. Dla objętości próbkowania N postawa

przestrzega rozkładu Studenta z liczbą stopni swobody ν = N- 1.

Tutaj X- średnia próbki i S- selektywne odchylenie standardowe.

Korzystając z tablic rozkładu Studenta lub ich komputerowych odpowiedników, można znaleźć wartość graniczną taką, że przy danym prawdopodobieństwie ufności zachodzi nierówność:

Nierówność ta odpowiada nierówności dla M:

Gdzie ε - połowa szerokości przedziału ufności.

Zatem konstrukcję przedziału ufności dla M przeprowadza się w następującej kolejności.

1. Wybierz prawdopodobieństwo ufności Р d (zwykle 0,95 lub 0,99) i dla niego, korzystając z tablicy rozkładu Studenta, znajdź parametr t

2. Oblicz połowę szerokości przedziału ufności ε:

3. Uzyskaj estymację przedziałową średniej ogólnej z wybranym prawdopodobieństwem ufności:

W skrócie jest to napisane tak:

Opracowano procedury komputerowe w celu znalezienia szacunków przedziałowych.

Wyjaśnijmy, jak korzystać z tabeli rozkładu Studenta. Ta tabela ma dwa „wejścia”: lewą kolumnę, zwaną liczbą stopni swobody ν = N- 1, a górna linia to poziom istotności α. Na przecięciu odpowiedniego wiersza i kolumny znajdź współczynnik Studenta T.

Zastosujmy tę metodę do naszej próbki. Poniżej zaprezentowano fragment tabeli rozkładu Studentów.

Tabela 3.3. Fragment tabeli rozkładu Studentów

Prosty szereg statystyczny dla próby 20 osób (N= 20, ν =19) przedstawiono w tabeli. 3.1. Dla tego szeregu obliczenia z wykorzystaniem wzorów (3.1-3.3) dają: X= 37,05; S= 5,02.

Wybierzmy α = 0,05 (Р d = 0,95). Na przecięciu wiersza „19” i kolumny „0,05” znajdujemy T= 2,09.

Obliczmy dokładność oszacowania korzystając ze wzoru (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Skonstruujmy oszacowanie przedziałowe: z prawdopodobieństwem 95% nieznana średnia ogólna spełnia nierówność:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. METODY TESTOWANIA HIPOTEZ STATYSTYCZNYCH

Hipotezy statystyczne

Przed sformułowaniem hipotezy statystycznej rozważmy następujący przykład.

Aby porównać dwie metody leczenia określonej choroby, wybrano dwie grupy pacjentów po 20 osób każda i leczono tymi metodami. Dla każdego pacjenta był on rejestrowany liczba procedur, po czym uzyskano pozytywny efekt. Na podstawie tych danych dla każdej grupy znaleziono średnie z próbek (X) i wariancje próbek (s 2) i przykładowe odchylenia standardowe (S).

Wyniki przedstawiono w tabeli. 3.4.

Tabela 3.4

Liczba zabiegów niezbędnych do uzyskania pozytywnego efektu jest zmienną losową, o której wszystkie informacje zawarte są aktualnie w danej próbie.

Ze stołu Z ryc. 3.4 wynika, że ​​średnia próby w pierwszej grupie jest mniejsza niż w drugiej. Czy to oznacza, że ​​ta sama zależność zachodzi dla średnich ogólnych: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает statystyczne sprawdzanie hipotez.

Hipoteza statystyczna- jest to założenie dotyczące właściwości populacji.

Rozważymy hipotezy dotyczące właściwości dwa populacje ogólne.

Jeśli populacje mają sławny, identyczny rozkład szacowanej wartości, a założenia dotyczą tych wartości jakiś parametr tego rozkładu, wówczas nazywane są hipotezy parametryczny. Na przykład próbki są pobierane z populacji z normalne prawo rozkład i równa wariancja. Muszę się dowiedzieć czy oni są tacy samiśrednie ogólne dla tych populacji.

Jeśli nic nie wiadomo o prawach dystrybucji populacji ogólnych, wówczas wywoływane są hipotezy dotyczące ich właściwości nieparametryczny. Na przykład, czy oni są tacy sami prawa rozkładu populacji ogólnej, z której pobierane są próbki.

Hipotezy zerowe i alternatywne.

Zadanie testowania hipotez. Poziom istotności

Zapoznajmy się z terminologią stosowaną przy testowaniu hipotez.

H 0 - hipoteza zerowa (hipoteza sceptyka) jest hipotezą o braku różnic pomiędzy porównywanymi próbkami. Sceptyk uważa, że ​​różnice pomiędzy szacunkami próbek uzyskanymi na podstawie wyników badań są przypadkowe;

H 1- hipoteza alternatywna (hipoteza optymistyczna) to hipoteza o występowaniu różnic pomiędzy porównywanymi próbami. Optymista uważa, że ​​różnice między szacunkami próbek wynikają z przyczyn obiektywnych i odpowiadają różnicom w populacjach ogólnych.

Testowanie hipotez statystycznych jest możliwe tylko wtedy, gdy możliwe jest ich skonstruowanie rozmiar(kryterium), którego prawo dystrybucji w przypadku uczciwości H 0 słynny. Następnie dla tej ilości możemy określić przedział ufności, w które z określonym prawdopodobieństwem R & D jego wartość spada. Ten przedział nazywa się obszar krytyczny. Jeżeli wartość kryterium mieści się w obszarze krytycznym, hipoteza zostaje przyjęta N 0. W przeciwnym razie przyjmuje się hipotezę H 1.

W badaniach medycznych stosuje się P d = 0,95 lub P d = 0,99. Wartości te odpowiadają poziomy istotnościα = 0,05 lub α = 0,01.

Podczas testowania hipotez statystycznychpoziom istotności(α) jest prawdopodobieństwem odrzucenia hipotezy zerowej, gdy jest ona prawdziwa.

Należy pamiętać, że w swej istocie celem jest procedura testowania hipotez wykrywanie różnic i nie potwierdzać ich nieobecności. Kiedy wartość kryterium wykracza poza obszar krytyczny, z czystym sercem możemy powiedzieć „sceptykowi” - cóż, czego jeszcze chcesz?! Jeżeli nie byłoby różnic, to z prawdopodobieństwem 95% (lub 99%) obliczona wartość mieściłaby się w określonych granicach. Ale nie!..

Otóż, jeśli wartość kryterium mieści się w obszarze krytycznym, to nie ma podstaw sądzić, że hipoteza H 0 jest poprawna. Najprawdopodobniej wskazuje to na jedną z dwóch możliwych przyczyn.

1. Wielkość próbek nie jest wystarczająco duża, aby wykryć różnice. Jest prawdopodobne, że dalsze eksperymenty przyniosą sukces.

2. Istnieją różnice. Są one jednak tak małe, że nie mają praktycznego znaczenia. W takim przypadku kontynuowanie eksperymentów nie ma sensu.

Przejdźmy teraz do rozważenia niektórych hipotez statystycznych stosowanych w badaniach medycznych.

3.6. TESTOWANIE HIPOTEZ O RÓWNOŚCI Wariancji, KRYTERIUM F FISCHERA

W niektórych badaniach klinicznych pozytywny efekt wykazano nie tyle ogrom badanego parametru, jaka jego część stabilizacja, zmniejszenie jego wahań. W tym przypadku pojawia się pytanie o porównanie dwóch ogólnych wariancji na podstawie wyników badania reprezentacyjnego. Problem ten można rozwiązać za pomocą Próba Fishera.

Sformułowanie problemu

normalne prawo dystrybucje. Przykładowe rozmiary -

nr 1 I n2, A przykładowe odchylenia równy s 1 i s 2 2 ogólne rozbieżności.

Testowalne hipotezy:

H 0- ogólne różnice są takie same;

H 1- ogólne różnice są różne.

Wyświetlane, jeśli próbki zostały pobrane z populacji z normalne prawo rozkładu, to jeśli hipoteza jest prawdziwa H 0 stosunek wariancji próbki jest zgodny z rozkładem Fishera. Dlatego też jako kryterium sprawdzenia rzetelności H 0 wartość jest brana F, obliczane według wzoru:

Gdzie s 1 i s 2 to wariancje próbek.

Stosunek ten jest zgodny z rozkładem Fishera z liczbą stopni swobody licznika ν 1 = nr 1- 1 i liczbę stopni swobody mianownika ν 2 = n 2 - 1. Granice obszaru krytycznego wyznacza się za pomocą tablic rozkładów Fishera lub za pomocą funkcji komputerowej BRASPOBR.

Dla przykładu przedstawionego w tabeli. 3.4 otrzymujemy: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. Przy α = 0,05 granice obszaru krytycznego wynoszą odpowiednio: = 0,40, = 2,53.

Wartość kryterium mieści się w obszarze krytycznym, zatem hipoteza zostaje przyjęta H0: ogólne wariancje próbek są takie same.

3.7. TESTOWANIE HIPOTEZ DOTYCZĄCYCH RÓWNOŚCI ŚREDNICH, KRYTERIUM t-STUDENTA

Zadanie porównawcze przeciętny dwie ogólne populacje powstają, gdy znaczenie praktyczne jest właśnie określone ogrom badana cecha. Np. porównując czas trwania leczenia dwiema różnymi metodami lub liczbę powikłań wynikających z ich stosowania. W takim przypadku można zastosować test t-Studenta.

Sformułowanie problemu

Otrzymano dwie próbki (X 1) i (X 2), wyekstrahowane z populacji ogólnej normalne prawo dystrybucja i identyczne odchylenia. Wielkości próbek - n 1 i n 2, przykładowe środki są równe X 1 i X 2 oraz przykładowe odchylenia- s 1 2 i s 2 2 odpowiednio. Trzeba porównać średnie ogólne.

Testowalne hipotezy:

H 0- średnie ogólne są takie same;

H 1- średnie ogólne są różne.

Wykazano, że jeśli hipoteza jest prawdziwa H 0 wartość t obliczona ze wzoru:

rozłożone zgodnie z prawem Studenta z liczbą stopni swobody ν = ν 1 + + ν2 - 2.

Tutaj gdzie ν 1 = N 1 - 1 - liczba stopni swobody dla pierwszej próbki; ν 2 = N 2 - 1 - liczba stopni swobody dla drugiej próbki.

Granice obszaru krytycznego wyznacza się za pomocą tablic rozkładu t lub funkcji komputerowej STUDRIST. Rozkład Studenta jest symetryczny względem zera, więc lewa i prawa granica obszaru krytycznego mają identyczną wielkość i przeciwny znak: -i

Dla przykładu przedstawionego w tabeli. 3.4, otrzymujemy:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, T= -2,51. Przy α = 0,05 = 2,02.

Wartość kryterium wykracza poza lewą granicę obszaru krytycznego, zatem przyjmujemy hipotezę H1:średnie ogólne są różne. Jednocześnie średnia populacji pierwsza próbka MNIEJ.

Zastosowanie testu t-Studenta

Test t-Studenta ma zastosowanie wyłącznie do próbek z normalna agregaty z identyczne ogólne różnice. Jeżeli choćby jeden z warunków zostanie naruszony, wówczas możliwość zastosowania kryterium stoi pod znakiem zapytania. Wymóg normalności ogółu społeczeństwa jest zwykle ignorowany, cytując centralne twierdzenie graniczne. Rzeczywiście różnicę między średnimi z próby w liczniku (3.10) można uznać za mającą rozkład normalny dla ν > 30. Nie można jednak zweryfikować kwestii równości wariancji i nie można przyjmować odniesień do faktu, że test Fishera nie wykrył różnic na konto. Jednakże test t jest szeroko stosowany do wykrywania różnic w średnich populacji, choć bez wystarczających dowodów.

Poniżej omówiono kryterium nieparametryczne, który jest z powodzeniem używany do tych samych celów i który nie wymaga żadnych normalność,żaden równość wariancji.

3.8. NIEPARAMETRYCZNE PORÓWNANIE DWÓCH PRÓBEK: KRYTERIUM MANN-WHITNEYA

Testy nieparametryczne mają na celu wykrycie różnic w prawach rozkładu dwóch populacji. Kryteria wrażliwe na różnice w ogóle przeciętny, zwane kryteriami zmiana Kryteria wrażliwe na różnice w ogóle dyspersje, zwane kryteriami skala. Test Manna-Whitneya odnosi się do kryteriów zmiana i służy do wykrywania różnic w średnich dwóch populacji, z których próbki są prezentowane w skala rankingowa. Zmierzone cechy umieszczane są na tej skali w kolejności rosnącej, a następnie numerowane liczbami całkowitymi 1, 2... Liczby te nazywane są szeregi. Równym ilościom przypisuje się równe rangi. Nie liczy się sama wartość atrybutu, ale tylko ona miejsce porządkowe które zalicza do innych wielkości.

W tabeli 3.5. pierwszą grupę z tabeli 3.4 przedstawiono w formie rozszerzonej (wiersz 1), uszeregowano (wiersz 2), a następnie szeregi identycznych wartości zastępuje się średnimi arytmetycznymi. Przykładowo pozycje 4 i 4 w pierwszym rzędzie otrzymały rangi 2 i 3, które następnie zastąpiono tymi samymi wartościami 2,5.

Tabela 3.5

Sformułowanie problemu

Niezależne próbki (X 1) I (X 2) wyodrębnione z populacji ogólnych o nieznanych prawach dystrybucji. Przykładowe rozmiary nr 1 I nr 2 odpowiednio. Wartości przykładowych elementów przedstawiono w skala rankingowa. Należy sprawdzić, czy te populacje ogólne różnią się od siebie?

Testowalne hipotezy:

H 0- próbki należą do tej samej populacji ogólnej; H 1- próbki należą do różnych populacji ogólnych.

Aby przetestować takie hipotezy, stosuje się test (/-Manna-Whitneya.

Najpierw z dwóch próbek tworzona jest próbka łączona (X), której elementy są uszeregowane. Następnie znajduje się suma rang odpowiadających elementom pierwszej próbki. Kwota ta stanowi kryterium testowania hipotez.

U= Suma rang pierwszej próbki. (3.11)

Dla niezależnych próbek, których objętość jest większa niż 20, wartość U przestrzega rozkładu normalnego, którego oczekiwanie matematyczne i odchylenie standardowe są równe:

Dlatego granice obszaru krytycznego wyznacza się zgodnie z tablicami rozkładu normalnego.

Dla przykładu przedstawionego w tabeli. 3.4 otrzymujemy: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Dla α = 0,05 otrzymujemy: lewy = 338 i prawy = 482.

Wartość kryterium wykracza poza lewą granicę obszaru krytycznego, dlatego przyjęto hipotezę H 1: populacje ogólne mają różne prawa rozkładu. Jednocześnie średnia populacji pierwsza próbka MNIEJ.

Przetwarzając dużą ilość informacji, co jest szczególnie istotne przy prowadzeniu współczesnych osiągnięć naukowych, badacz staje przed poważnym zadaniem prawidłowego pogrupowania danych źródłowych. Jeśli dane mają charakter dyskretny, to, jak widzieliśmy, nie pojawiają się żadne problemy - wystarczy obliczyć częstotliwość każdej cechy. Jeśli badana cecha ma ciągły charakter (co zdarza się częściej w praktyce), to wybór optymalnej liczby przedziałów grupowania cech nie jest wcale zadaniem trywialnym.

Aby pogrupować ciągłe zmienne losowe, cały zakres wariacyjny cechy dzieli się na określoną liczbę przedziałów Do.

Zgrupowany interwał (ciągły) seria odmian nazywane są przedziałami uszeregowanymi według wartości atrybutu (), gdzie liczby obserwacji mieszczących się w r-tym przedziale, czyli częstotliwości względne (), są wskazane wraz z odpowiadającymi im częstotliwościami ():

Charakterystyczne przedziały wartości

moja częstotliwość

wykres słupkowy I kumulować (ogiva), już przez nas szczegółowo omówione, są doskonałym sposobem wizualizacji danych, pozwalającym uzyskać podstawowe pojęcie o strukturze danych. Takie wykresy (ryc. 1.15) konstruuje się dla danych ciągłych w taki sam sposób, jak dla danych dyskretnych, z tym tylko że biorąc pod uwagę fakt, że dane ciągłe całkowicie wypełniają obszar ich możliwych wartości, przyjmując dowolne wartości.

Ryż. 1,15.

Dlatego kolumny histogramu i kumulacji muszą się stykać i nie mieć obszarów, w których wartości atrybutów nie mieszczą się w granicach wszystkich możliwych(tj. histogram i kumulacje nie powinny mieć „dziur” wzdłuż osi odciętych, które nie zawierają wartości badanej zmiennej, jak na ryc. 1.16). Wysokość słupka odpowiada częstotliwości – liczbie obserwacji mieszczącej się w danym przedziale lub częstotliwości względnej – proporcji obserwacji. Interwały nie mogą się przecinać i zwykle mają tę samą szerokość.

Ryż. 1.16.

Histogram i wielokąt są przybliżeniami krzywej gęstości prawdopodobieństwa (funkcja różniczkowa) k(x) rozkład teoretyczny, rozpatrywany w toku teorii prawdopodobieństwa. Dlatego ich konstrukcja jest tak ważna w pierwotnym przetwarzaniu statystycznym ilościowych danych ciągłych - po ich wyglądzie można ocenić hipotetyczne prawo rozkładu.

Kumuluj – krzywa skumulowanych częstotliwości (częstotliwości) szeregu zmian interwałowych. Wykres funkcji rozkładu skumulowanego porównuje się z wykresem skumulowanym F(x), omawiane również na kursie teorii prawdopodobieństwa.

Zasadniczo pojęcia histogramu i kumulacji są kojarzone w szczególności z danymi ciągłymi i ich seriami zmienności przedziałowej, ponieważ ich wykresy są empirycznymi szacunkami odpowiednio funkcji gęstości prawdopodobieństwa i funkcji rozkładu.

Konstruowanie szeregu zmian przedziałowych rozpoczyna się od określenia liczby przedziałów k. I to zadanie jest chyba najtrudniejsze, najważniejsze i kontrowersyjne w badanym zagadnieniu.

Liczba odstępów nie powinna być zbyt mała, gdyż spowoduje to, że histogram będzie zbyt gładki ( nadmiernie wygładzony), traci wszelkie cechy zmienności danych pierwotnych – na rys. 1.17 widać, jak te same dane, na których opierają się wykresy na ryc. 1.15, używany do konstruowania histogramu z mniejszą liczbą przedziałów (lewy wykres).

Jednocześnie liczba przedziałów nie powinna być zbyt duża – w przeciwnym razie nie będziemy w stanie oszacować gęstości rozkładu badanych danych wzdłuż osi liczbowej: histogram będzie niedogładzony (niewygładzony), z pustymi przedziałami, nierównymi (patrz ryc. 1.17, prawy wykres).

Ryż. 1.17.

Jak określić najkorzystniejszą liczbę interwałów?

Już w 1926 roku Herbert Sturges zaproponował wzór na obliczenie liczby przedziałów, na które należy podzielić pierwotny zbiór wartości badanej cechy. Formuła ta stała się naprawdę niezwykle popularna – oferuje ją większość podręczników statystycznych, a wiele pakietów statystycznych domyślnie z niej korzysta. Na ile jest to uzasadnione i we wszystkich przypadkach jest to bardzo poważne pytanie.

Na czym zatem opiera się wzór Sturgesa?

Rozważ rozkład dwumianowy)