Szeregi rozkładu statystycznego. Skonstruujmy statystyczny szereg dystrybucyjny

Grupowanie- jest to podział populacji na grupy jednorodne pod względem jakiejś cechy.

Cel usługi. Korzystając z kalkulatora online możesz:

  • zbuduj serię odmian, zbuduj histogram i wielokąt;
  • znaleźć wskaźniki zmienności (średnia, tryb (w tym graficznie), mediana, zakres zmienności, kwartyle, decyle, współczynnik zróżnicowania kwartylowego, współczynnik zmienności i inne wskaźniki);

Instrukcje. Aby pogrupować serię, należy wybrać rodzaj uzyskanej serii wariacyjnej (dyskretny lub przedziałowy) oraz wskazać ilość danych (liczba wierszy). Powstałe rozwiązanie zapisywane jest w pliku Word (patrz przykład grupowania danych statystycznych).

Liczba danych wejściowych
",0);">

Jeżeli grupowanie zostało już przeprowadzone i dyskretne serie zmian Lub seria interwałowa, wówczas należy skorzystać z kalkulatora internetowego Wskaźniki zmienności. Testowanie hipotezy o rodzaju rozkładu odbywa się za pomocą usługi Badanie formularza dystrybucji.

Rodzaje grupowań statystycznych

Seria odmian. W przypadku obserwacji dyskretnej zmiennej losowej tę samą wartość można spotkać kilkukrotnie. Rejestruje się takie wartości x i zmiennej losowej, wskazując n i ile razy pojawia się ona w n obserwacjach, jest to częstotliwość występowania tej wartości.
W przypadku ciągłej zmiennej losowej w praktyce stosuje się grupowanie.
  1. Grupowanie typologiczne- jest to podział jakościowo heterogenicznej populacji badanej na klasy, typy społeczno-ekonomiczne, jednorodne grupy jednostek. Aby zbudować to grupowanie, użyj parametru Seria zmienności dyskretnej.
  2. Grupowanie nazywa się strukturalnym, w którym jednorodna populacja jest podzielona na grupy, które charakteryzują jej strukturę według jakiejś zróżnicowanej cechy. Aby zbudować to grupowanie, użyj parametru Seria interwałowa.
  3. Grupowanie, które ujawnia związki między badanymi zjawiskami a ich charakterystyką, nazywa się grupa analityczna(patrz analityczne grupowanie szeregów ).

Zasady konstruowania grup statystycznych

Seria obserwacji uporządkowanych rosnąco nazywana jest serią wariacyjną. Funkcja grupowania jest cechą, według której populacja dzieli się na odrębne grupy. Nazywa się to podstawą grupy. Grupowanie może opierać się zarówno na cechach ilościowych, jak i jakościowych.
Po ustaleniu podstawy grupowania należy rozstrzygnąć kwestię liczby grup, na jakie należy podzielić badaną populację.

W przypadku wykorzystania komputerów osobistych do przetwarzania danych statystycznych grupowanie jednostek obiektowych odbywa się przy użyciu standardowych procedur.
Jedna z takich procedur polega na wykorzystaniu wzoru Sturgessa do określenia optymalnej liczby grup:

k = 1+3,322*log(N)

Gdzie k jest liczbą grup, N jest liczbą jednostek populacji.

Długość przedziałów cząstkowych oblicza się jako h=(x max -x min)/k

Następnie zliczane są liczby obserwacji mieszczące się w tych przedziałach, które przyjmuje się jako częstości n i . Niewiele częstotliwości, których wartości są mniejsze niż 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Jako nowe wartości przyjmuje się środkowe wartości przedziałów x i =(c i-1 +c i)/2.

Są one prezentowane w formie szeregów dystrybucyjnych i prezentowane są w formie.

Szereg rozkładowy jest jednym z typów grupowania.

Zakres dystrybucji— reprezentuje uporządkowany rozkład jednostek badanej populacji na grupy według pewnej zmiennej cechy.

W zależności od cechy leżącej u podstaw tworzenia szeregu rozkładów rozróżnia się je atrybutywne i wariacyjne rzędy dystrybucji:

  • Atrybutywny- nazywane są szeregami dystrybucyjnymi skonstruowanymi według cech jakościowych.
  • Nazywa się serie rozkładów zbudowane w kolejności rosnącej lub malejącej wartości cechy ilościowej wariacyjny.
Szereg zmian rozkładu składa się z dwóch kolumn:

Pierwsza kolumna podaje ilościowe wartości zmiennej charakterystyki, które są tzw opcje i są wyznaczone. Opcja dyskretna - wyrażona jako liczba całkowita. Opcja interwału ma zakres od i do. W zależności od rodzaju opcji można skonstruować szereg dyskretny lub przedziałowy.
Druga kolumna zawiera liczba konkretnych opcji, wyrażone w częstotliwościach lub częstotliwościach:

Częstotliwości- są to liczby bezwzględne, które pokazują, ile razy w sumie występuje dana wartość cechy, co oznacza . Suma wszystkich częstości musi być równa liczbie jednostek w całej populacji.

Częstotliwości() to częstotliwości wyrażone jako procent całości. Suma wszystkich częstotliwości wyrażona w procentach musi być równa 100% w ułamkach jednego.

Graficzne przedstawienie szeregów dystrybucyjnych

Serie dystrybucyjne są prezentowane wizualnie za pomocą obrazów graficznych.

Szeregi dystrybucji są przedstawione jako:
  • Wielokąt
  • Histogramy
  • Kumuluje się
  • Ostrołukowe

Wielokąt

Podczas konstruowania wielokąta wartości zmiennej charakterystyki są wykreślane na osi poziomej (oś x), a częstotliwości lub częstotliwości na osi pionowej (oś y).

Wielokąt na rys. 6.1 opiera się na danych z mikrospisu ludności Rosji w 1994 r.

6.1. Rozkład wielkości gospodarstw domowych

Stan: Podano dane dotyczące podziału 25 pracowników jednego z przedsiębiorstw według kategorii taryfowych:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Zadanie: Skonstruuj dyskretną serię zmian i przedstaw ją graficznie jako wielokąt rozkładu.
Rozwiązanie:
W tym przykładzie opcje obejmują stopień wynagrodzenia pracownika. Aby określić częstotliwości, należy obliczyć liczbę pracowników z odpowiednią kategorią taryfową.

Wielokąt jest używany w przypadku szeregów zmienności dyskretnej.

Aby skonstruować wielokąt rozkładu (ryc. 1), nanosimy wartości ilościowe zmiennej charakterystyki – opcji – na osi odciętych (X), a częstotliwości lub częstotliwości na osi współrzędnych.

Jeśli wartości cechy są wyrażone w postaci przedziałów, wówczas taki szereg nazywa się przedziałem.
Seria interwałowa rozkłady są przedstawiane graficznie w postaci histogramu, kumulacji lub ostrołuku.

Tabela statystyczna

Stan: Podano dane dotyczące wielkości depozytów 20 osób w jednym banku (w tysiącach rubli) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Zadanie: Skonstruuj serię zmian przedziałowych o równych odstępach.
Rozwiązanie:

  1. Początkowa populacja składa się z 20 jednostek (N = 20).
  2. Korzystając ze wzoru Sturgessa, określamy wymaganą liczbę zastosowanych grup: n=1+3,322*lg20=5
  3. Obliczmy wartość równego przedziału: i=(152 - 2) /5 = 30 tysięcy rubli
  4. Podzielmy początkową populację na 5 grup w odstępie 30 tysięcy rubli.
  5. Wyniki grupowania prezentujemy w tabeli:

Przy takim zapisie charakterystyki ciągłej, gdy ta sama wartość występuje dwukrotnie (jako górna granica jednego przedziału i dolna granica drugiego przedziału), to wartość ta należy do grupy, w której wartość ta pełni rolę górnej granicy.

wykres słupkowy

Aby skonstruować histogram, wartości granic przedziałów są wskazane wzdłuż osi odciętych i na ich podstawie konstruowane są prostokąty, których wysokość jest proporcjonalna do częstotliwości (lub częstotliwości).

Na ryc. 6.2. przedstawia histogram rozmieszczenia ludności Rosji w 1997 r. według grup wiekowych.

Ryż. 6.2. Podział ludności Rosji według grup wiekowych

Stan: Podano rozkład 30 pracowników firmy według miesięcznego wynagrodzenia

Zadanie: Wyświetla graficznie serię zmian przedziałów w formie histogramu i kumuluje.
Rozwiązanie:

  1. Nieznaną granicę otwartego (pierwszego) przedziału określa wartość drugiego przedziału: 7000 - 5000 = 2000 rubli. Przy tej samej wartości znajdujemy dolną granicę pierwszego przedziału: 5000 - 2000 = 3000 rubli.
  2. Aby skonstruować histogram w prostokątnym układzie współrzędnych, wykreślamy wzdłuż osi odciętych segmenty, których wartości odpowiadają odstępom serii żylaków.
    Segmenty te służą jako dolna podstawa, a odpowiadająca im częstotliwość (częstotliwość) służy jako wysokość uformowanych prostokątów.
  3. Zbudujmy histogram:

Aby skonstruować kumulacje, konieczne jest obliczenie skumulowanych częstotliwości (częstotliwości). Wyznacza się je poprzez kolejne sumowanie częstotliwości (częstotliwości) poprzednich przedziałów i oznacza się je S. Skumulowane częstotliwości pokazują, ile jednostek populacji ma wartość charakterystyczną nie większą niż rozpatrywana.

Kumuluje się

Rozkład cechy w szeregu zmian na zakumulowanych częstotliwościach jest przedstawiany za pomocą kumulacji.

Kumuluje się lub krzywa skumulowana, w przeciwieństwie do wielokąta, jest zbudowana ze skumulowanych częstotliwości lub częstotliwości. W tym przypadku wartości charakterystyki umieszczane są na osi odciętych, a zakumulowane częstotliwości lub częstotliwości na osi rzędnych (ryc. 6.3).

Ryż. 6.3. Skumulowany rozkład wielkości gospodarstw domowych

4. Obliczmy skumulowane częstotliwości:
Skumulowaną częstotliwość pierwszego przedziału oblicza się w następujący sposób: 0 + 4 = 4, dla drugiego: 4 + 12 = 16; dla trzeciego: 4 + 12 + 8 = 24 itd.

Konstruując kumulację, skumulowana częstotliwość (częstotliwość) odpowiedniego przedziału jest przypisana do jego górnej granicy:

Ogiva

Ogiva jest skonstruowany podobnie do kumulacji, z tą tylko różnicą, że zakumulowane częstotliwości są umieszczone na osi odciętych, a wartości charakterystyczne na osi rzędnych.

Rodzaj kumulacji to krzywa stężenia lub wykres Lorentza. Aby skonstruować krzywą stężenia, na obu osiach prostokątnego układu współrzędnych nanoszona jest skala skali w procentach od 0 do 100. Jednocześnie na osi odciętych wskazane są skumulowane częstotliwości, a skumulowane wartości udziału (w procentach) objętości cechy są wskazane na osi rzędnych.

Równomierny rozkład charakterystyki odpowiada przekątnej kwadratu na wykresie (ryc. 6.4). Przy nierównomiernym rozkładzie wykres przedstawia krzywą wklęsłą w ​​zależności od poziomu koncentracji cechy.

6.4. Krzywa stężenia

2. Pojęcie szeregu dystrybucyjnego. Szereg dystrybucyjny dyskretny i przedziałowy

Rzędy dystrybucji nazywane są grupami specjalnego typu, w których dla każdej cechy, grupy cech lub klasy cech znana jest liczba jednostek w grupie lub udział tej liczby w sumie. Te. seria dystrybucyjna– uporządkowany zbiór wartości atrybutów, ułożony w porządku rosnącym lub malejącym, z odpowiadającymi im wagami. Szeregi rozkładu można konstruować na podstawie cech ilościowych lub atrybutowych.

Szeregi rozkładu zbudowane na zasadzie ilościowej nazywane są szeregami zmienności. Oni są dyskretne i interwałowe. Szereg rozkładowy można zbudować w oparciu o charakterystykę zmieniającą się w sposób ciągły (kiedy cecha może przyjmować dowolne wartości w dowolnym przedziale) oraz w oparciu o cechę dyskretnie zmieniającą się (przyjmuje ściśle określone wartości całkowite).

Oddzielny Szereg odmian rozkładu to uszeregowany zbiór opcji z odpowiadającymi im częstotliwościami lub szczegółami. Warianty szeregu dyskretnego to dyskretnie stale zmieniające się wartości cechy, zwykle będące wynikiem zliczenia.

Oddzielny

Szeregi zmian są zwykle konstruowane, jeśli wartości badanej cechy mogą różnić się od siebie o nie mniej niż pewną skończoną wielkość. W dyskretnych szeregach podaje się wartości punktowe cechy. Przykład : Rozkład garniturów męskich sprzedawanych przez sklepy w miesiącu według rozmiaru.

Interwał

Seria wariacyjna to uporządkowany zbiór przedziałów zmieniania wartości zmiennej losowej z odpowiednimi częstotliwościami lub częstotliwościami wartości zmiennej przypadającej na każdą z nich. Serie interwałowe służą do analizy rozkładu stale zmieniającej się cechy, której wartość najczęściej rejestruje się poprzez pomiar lub ważenie. Warianty takiej serii są grupami.

Przykład : Podział zakupów w sklepie spożywczym według kwot.

Jeśli w szeregach zmienności dyskretnej charakterystyka częstotliwościowa odnosi się bezpośrednio do wariantu szeregu, to w szeregach przedziałowych odnosi się do grupy wariantów.

Wygodnie jest analizować szeregi rozkładów za pomocą ich graficznej reprezentacji, co pozwala ocenić kształt rozkładu i wzorce. Dyskretny szereg jest przedstawiony na wykresie jako linia przerywana - wielokąt dystrybucyjny. Aby go skonstruować, w prostokątnym układzie współrzędnych uszeregowane (uporządkowane) wartości zmiennej charakterystyki są wykreślane wzdłuż osi odciętych w tej samej skali, a skala wyrażania częstotliwości jest wykreślana wzdłuż osi rzędnych.

Serie interwałowe są przedstawiane jako histogramy rozkładu(czyli wykresy słupkowe).

Podczas konstruowania histogramu wartości przedziałów są wykreślane na osi odciętych, a częstotliwości są przedstawiane za pomocą prostokątów zbudowanych na odpowiednich przedziałach. Wysokość kolumn w przypadku równych odstępów powinna być proporcjonalna do częstotliwości.

Dowolny histogram można przekształcić w wielokąt rozkładu, w tym celu konieczne jest połączenie wierzchołków jego prostokątów odcinkami prostymi.

2. Metoda wskaźnikowa analizy wpływu przeciętnej produkcji i przeciętnego zatrudnienia na zmiany wielkości produkcji

Metoda indeksowa służy do analizy dynamiki i porównania wskaźników ogólnych oraz czynników wpływających na zmiany poziomów tych wskaźników. Za pomocą wskaźników można określić wpływ przeciętnej produkcji i przeciętnego zatrudnienia na zmiany wielkości produkcji. Problem ten rozwiązuje się konstruując system wskaźników analitycznych.

Wskaźnik wielkości produkcji jest powiązany ze średnią liczbą pracowników, a wskaźnik średniej produkcji w ten sam sposób, w jaki wielkość produkcji (Q) jest powiązana z produkcją ( w) i liczby ( R) .

Możemy stwierdzić, że wielkość produkcji będzie równa iloczynowi średniej produkcji i średniego zatrudnienia:

Q = wr, gdzie Q jest wielkością produkcji,

w - średnia produkcja,

r – średnia liczba pracowników.

Jak widać, mówimy o związku zjawisk w statyce: iloczyn dwóch czynników daje całkowitą objętość powstałego zjawiska. Oczywiste jest również, że połączenie to jest funkcjonalne, dlatego też dynamikę tego połączenia bada się za pomocą wskaźników. W podanym przykładzie jest to następujący system:

Jw × Jr = Jwr.

Przykładowo wskaźnik wielkości produkcji Jwr, jako wskaźnik zjawiska produkcyjnego, można rozłożyć na dwa wskaźniki czynnikowe: wskaźnik przeciętnej produkcji (Jw) i wskaźnik średniego zatrudnienia (Jr):

Indeks Indeks Indeks

wielkość przeciętnego wynagrodzenia

numer wyjścia produkcyjnego

Gdzie J w- wskaźnik produktywności pracy obliczany według wzoru Laspeyresa;

Jr- wskaźnik liczby pracowników obliczony według wzoru Paaschego.

Systemy indeksowe służą do określenia wpływu poszczególnych czynników na kształtowanie się poziomu wskaźnika efektywności, pozwalają na wyznaczenie wartości nieznanej na podstawie 2 znanych wartości wskaźników.

Na podstawie powyższego układu wskaźników można także wyznaczyć bezwzględny wzrost wolumenu produkcji w rozłożeniu na wpływ czynników.

1. Ogólny wzrost wielkości produkcji:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Wzrost wynikający z działania wskaźnika produktu przeciętnego:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Zwiększenie w wyniku działania wskaźnika przeciętnego zatrudnienia:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Przykład. Znane są następujące dane

Potrafimy określić, jak zmieniała się wielkość produkcji w ujęciu względnym i bezwzględnym oraz jak na tę zmianę wpływały poszczególne czynniki.

Wielkość produkcji wynosiła:

w okresie bazowym

w 0 * r 0 = 2000 * 90 = 180000,

i w reportażu

w 1 * r 1 = 2100 * 100 = 210000.

W efekcie wielkość produkcji wzrosła o 30 tys., czyli o 1,16%.

∆wr=∑w 1 o 1 -∑w 0 r 0= (210000-180000)=30000

lub (210000:180000)*100%=1,16%.

Zmiana wielkości produkcji wynikała z:

1) wzrost przeciętnego zatrudnienia o 10 osób, tj. o 111,1%

r 1 / r 0 = 100 / 90 = 1,11 lub 111,1%.

W wartościach bezwzględnych dzięki temu czynnikowi wielkość produkcji wzrosła o 20 000:

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) wzrost przeciętnej produkcji o 105% lub 10 000:

w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1,05 lub 105%.

W wartościach bezwzględnych wzrost wynosi:

w 1 r 1 – w 0 r 1 = (w 1 -w 0)r 1 = (2100-2000)*100 = 10000.

Zatem łączny wpływ czynników był następujący:

1. W wartościach bezwzględnych

10000 + 20000 = 30000

2. W ujęciu względnym

1,11 * 1,05 = 1,16 (116%)

Zatem wzrost wynosi 1,16%. Obydwa wyniki uzyskano wcześniej.

Słowo „indeks” w tłumaczeniu oznacza wskaźnik, wskaźnik. W statystyce indeks interpretuje się jako względny wskaźnik charakteryzujący zmianę zjawiska w czasie, przestrzeni lub w porównaniu z planem. Ponieważ indeks jest wartością względną, nazwy indeksów są zgodne z nazwami wartości względnych.

W przypadkach, gdy analizujemy zmiany w czasie porównywanych produktów, możemy postawić pytanie, jak zmieniają się składniki indeksu (cena, wolumen fizyczny, struktura produkcji czy sprzedaż poszczególnych rodzajów produktów) w różnych warunkach (w różnych obszarach) . W związku z tym konstruowane są wskaźniki składu stałego, składu zmiennego i zmian strukturalnych.

Indeks składu stałego (stałego) – Jest to wskaźnik charakteryzujący dynamikę wartości średniej dla tej samej ustalonej struktury populacji.

Zasada konstrukcji wskaźnika o stałym składzie polega na wyeliminowaniu wpływu zmian w strukturze wag na wartość indeksowaną poprzez obliczenie średnioważonego poziomu wskaźnika indeksowanego przy tych samych wagach.

Stały wskaźnik składu ma identyczną formę jak wskaźnik zagregowany. Najbardziej rozpowszechniona jest forma zbiorcza.

Wskaźnik stałego składu liczony jest z wagami ustalonymi na poziomie jednego okresu i przedstawia zmianę jedynie wartości indeksowanej. Indeks o stałym składzie eliminuje wpływ zmian w strukturze wag na wartość indeksowaną poprzez obliczenie średniego ważonego poziomu wskaźnika indeksowanego przy tych samych wagach. Wskaźniki o stałym składzie porównują wskaźniki obliczone na podstawie stałej struktury zjawisk.

Najważniejszym etapem badania zjawisk i procesów społeczno-gospodarczych jest systematyzacja danych pierwotnych i na tej podstawie uzyskanie sumarycznej charakterystyki całego obiektu za pomocą wskaźników ogólnych, co osiąga się poprzez podsumowanie i grupowanie pierwotnego materiału statystycznego.

Podsumowanie statystyczne - jest to zespół kolejnych operacji mających na celu uogólnienie konkretnych pojedynczych faktów, które tworzą zbiór w celu zidentyfikowania typowych cech i wzorców właściwych dla badanego zjawiska jako całości. Przeprowadzenie podsumowania statystycznego obejmuje następujące kroki :

  • wybór cech grupujących;
  • ustalenie kolejności tworzenia grup;
  • opracowanie systemu wskaźników statystycznych charakteryzujących grupy i obiekt jako całość;
  • opracowanie układów tabel statystycznych w celu prezentacji podsumowujących wyników.

Grupowanie statystyczne nazywa się podziałem jednostek badanej populacji na jednorodne grupy według pewnych istotnych dla nich cech. Grupowania są najważniejszą metodą statystyczną podsumowującą dane statystyczne, podstawą prawidłowego obliczenia wskaźników statystycznych.

Wyróżnia się następujące typy grupowań: typologiczne, strukturalne, analityczne. Wszystkie te grupy łączy fakt, że jednostki obiektu są podzielone na grupy według jakiejś cechy.

Funkcja grupowania jest cechą, według której jednostki populacji dzielą się na odrębne grupy. Wnioski z badania statystycznego zależą od prawidłowego wyboru cechy grupującej. Jako podstawę grupowania należy wykorzystać istotne, teoretyczne cechy (ilościowe lub jakościowe).

Ilościowe cechy grupowania mają wyrażenie liczbowe (wolumen obrotu, wiek osoby, dochód rodziny itp.) oraz jakościowe oznaki grupowania odzwierciedlają stan jednostki populacji (płeć, stan cywilny, branża przedsiębiorstwa, jego forma własności itp.).

Po ustaleniu podstawy grupowania należy rozstrzygnąć kwestię liczby grup, na jakie należy podzielić badaną populację. Liczba grup zależy od celów badania i rodzaju wskaźnika stanowiącego podstawę grupowania, wielkości populacji i stopnia zmienności cechy.

Na przykład grupowanie przedsiębiorstw według rodzaju własności uwzględnia własność podmiotu komunalnego, federalnego i federalnego. Jeżeli grupowanie odbywa się według kryterium ilościowego, należy zwrócić szczególną uwagę na liczbę jednostek badanego obiektu i stopień wahań cechy grupowania.

Po ustaleniu liczby grup należy określić odstępy między grupami. Interwał - są to wartości zmiennej cechy, które mieszczą się w pewnych granicach. Każdy przedział ma swoją wartość, górną i dolną granicę lub przynajmniej jedną z nich.

Dolna granica interwału nazywa się najmniejszą wartością cechy w przedziale, oraz Górna granica - najwyższa wartość cechy w przedziale. Wartością przedziału jest różnica między górną i dolną granicą.

Przedziały grupujące, w zależności od ich wielkości, są: równe i nierówne. Jeżeli zmienność cechy przejawia się w stosunkowo wąskich granicach, a rozkład jest równomierny, wówczas grupę buduje się w równych odstępach. Wartość równego przedziału określa następujący wzór :

gdzie Xmax, Xmin są maksymalnymi i minimalnymi wartościami cechy w agregacie; n - liczba grup.

Najprostsze grupowanie, w którym każda wybrana grupa charakteryzuje się jednym wskaźnikiem, reprezentuje szereg rozkładów.

Szeregi rozkładu statystycznego - jest to uporządkowany rozkład jednostek populacji na grupy według określonej cechy. W zależności od cechy leżącej u podstaw tworzenia szeregu rozkładów wyróżnia się szeregi atrybutywne i wariacyjne.

Atrybutywny nazywane są szeregami dystrybucyjnymi zbudowanymi według cech jakościowych, to znaczy cech, które nie mają wyrażenia liczbowego (podział według rodzaju pracy, płci, zawodu itp.). Szeregi rozkładu atrybutów charakteryzują skład populacji według pewnych zasadniczych cech. Dane te, ujęte w kilku okresach, umożliwiają badanie zmian w strukturze.

Seria wariacyjna nazywane są szeregami dystrybucyjnymi skonstruowanymi na zasadzie ilościowej. Każda seria odmian składa się z dwóch elementów: opcji i częstotliwości. Opcje nazywane są poszczególne wartości cechy, które przyjmuje w szeregu zmian, to znaczy konkretna wartość zmiennej cechy.

Częstotliwości nazywa się liczby poszczególnych wariantów lub każdej grupy szeregu zmian, czyli są to liczby, które pokazują, jak często w szeregu rozkładowym występują określone warianty. Suma wszystkich częstotliwości określa wielkość całej populacji, jej objętość. Częstotliwości nazywane są częstotliwościami wyrażonymi w ułamkach jednostki lub jako procent całości. Odpowiednio suma częstotliwości jest równa 1 lub 100%.

W zależności od charakteru zmienności cechy wyróżnia się trzy formy szeregów zmienności: szeregi rankingowe, szeregi dyskretne i szeregi przedziałowe.

Seria odmian rankingowych - jest to rozkład poszczególnych jednostek populacji w porządku rosnącym lub malejącym według badanej cechy. Ranking pozwala w łatwy sposób podzielić dane ilościowe na grupy, natychmiast wykryć najmniejsze i największe wartości cechy oraz wyróżnić wartości, które najczęściej się powtarzają.

Dyskretne serie zmian charakteryzuje rozkład jednostek populacji według cechy dyskretnej, która przyjmuje tylko wartości całkowite. Na przykład kategoria taryfowa, liczba dzieci w rodzinie, liczba pracowników w przedsiębiorstwie itp.

Jeśli cecha ma ciągłą zmianę, która w pewnych granicach może przyjmować dowolne wartości („od - do”), wówczas dla tej cechy konieczne jest zbudowanie szereg zmian interwałowych . Na przykład wysokość dochodu, staż pracy, koszt środków trwałych przedsiębiorstwa itp.

Przykłady rozwiązywania problemów na temat „Podsumowanie i grupowanie statystyczne”

Problem 1 . Znajdują się tam informacje o liczbie książek, które studenci otrzymali w prenumeracie w ciągu ostatniego roku akademickiego.

Konstruuj uporządkowane i dyskretne szeregi rozkładu zmienności, wyznaczając elementy szeregu.

Rozwiązanie

Zestaw ten reprezentuje wiele opcji liczby książek otrzymywanych przez uczniów. Policzmy liczbę takich opcji i uporządkujmy je w postaci wariacyjnych szeregów rankingowych i wariacyjnych szeregów dyskretnych.

Problem 2 . Istnieją dane dotyczące kosztów środków trwałych dla 50 przedsiębiorstw, tysiące rubli.

Zbuduj szereg rozkładów, wyróżniając 5 grup przedsiębiorstw (w równych odstępach).

Rozwiązanie

Do rozwiązania wybierzemy największe i najmniejsze wartości wartości środków trwałych przedsiębiorstw. Są to 30,0 i 10,2 tys. Rubli.

Znajdźmy rozmiar przedziału: h = (30,0-10,2):5= 3,96 tys. Rubli.

Wtedy do pierwszej grupy należeć będą przedsiębiorstwa, których aktywa trwałe wynoszą od 10,2 tys. Rubli. do 10,2+3,96=14,16 tys. rubli. Takich przedsiębiorstw będzie 9. Do drugiej grupy należeć będą przedsiębiorstwa, których majątek trwały wynosi od 14,16 tys. rubli. do 14,16+3,96=18,12 tys. rubli. Takich przedsiębiorstw będzie 16. Podobnie znajdziemy liczbę przedsiębiorstw zaliczanych do grup trzeciej, czwartej i piątej.

Powstałe szeregi rozkładów umieszczamy w tabeli.

Problem 3 . Dla szeregu przedsiębiorstw przemysłu lekkiego uzyskano następujące dane:

Pogrupuj przedsiębiorstwa według liczby pracowników, tworząc 6 grup w równych odstępach. Oblicz dla każdej grupy:

1. liczba przedsiębiorstw
2. liczba pracowników
3. wielkość produkcji wyrobów rocznie
4. średnia rzeczywista produkcja na jednego pracownika
5. wielkość środków trwałych
6. średnia wielkość majątku trwałego jednego przedsiębiorstwa
7. średnia wartość produktów wytworzonych przez jedno przedsiębiorstwo

Wyniki obliczeń przedstaw w tabelach. Wyciągać wnioski.

Rozwiązanie

Do rozwiązania wybierzemy największą i najmniejszą wartość średniej liczby pracowników w przedsiębiorstwie. Są to 43 i 256.

Znajdźmy wielkość przedziału: h = (256-43):6 = 35,5

Wtedy do pierwszej grupy należeć będą przedsiębiorstwa, których przeciętna liczba pracowników wynosi od 43 do 43 + 35,5 = 78,5 osób. Takich przedsiębiorstw będzie 5. Do drugiej grupy zaliczać się będą przedsiębiorstwa, w których przeciętne zatrudnienie będzie wynosić od 78,5 do 78,5+35,5=114 osób. Takich przedsiębiorstw będzie 12. Podobnie znajdziemy liczbę przedsiębiorstw zaliczanych do grup trzeciej, czwartej, piątej i szóstej.

Powstałe szeregi rozkładów umieszczamy w tabeli i obliczamy niezbędne wskaźniki dla każdej grupy:

Wniosek : Jak wynika z tabeli, druga grupa przedsiębiorstw jest najliczniejsza. Obejmuje 12 przedsiębiorstw. Najmniejsze grupy to piąta i szósta grupa (po dwa przedsiębiorstwa w każdej). Są to przedsiębiorstwa największe (pod względem liczby pracowników).

Ponieważ druga grupa jest największa, wolumen produktów wytwarzanych rocznie przez przedsiębiorstwa tej grupy oraz wolumen środków trwałych są znacznie wyższe niż w pozostałych. Jednocześnie przeciętna rzeczywista produkcja na jednego pracującego w przedsiębiorstwach tej grupy nie jest największa. Prym wiodą tu przedsiębiorstwa czwartej grupy. Do tej grupy zalicza się także dość duży wolumen środków trwałych.

Podsumowując, zauważamy, że średnia wielkość środków trwałych i średnia wielkość produkcji wyprodukowanej przez jedno przedsiębiorstwo są wprost proporcjonalne do wielkości przedsiębiorstwa (pod względem liczby pracowników).

Szeregi rozkładu statystycznego– jest to uporządkowany rozkład jednostek populacji na grupy według pewnej zmiennej cechy.
W zależności od cechy leżącej u podstaw tworzenia szeregu rozkładów istnieją szeregi dystrybucyjne atrybutywne i wariacyjne.

Obecność wspólnej cechy jest podstawą do utworzenia populacji statystycznej, która reprezentuje wyniki opisu lub pomiaru ogólnych cech obiektów badań.

Przedmiotem badań statystycznych są zmieniające się (zmienne) cechy lub cechy statystyczne.

Rodzaje cech statystycznych.

Szeregi rozkładowe nazywane są atrybutywnymi zbudowany zgodnie z kryteriami jakości. Atrybutywny– jest to znak, który ma nazwę (np. zawód: krawcowa, nauczycielka itp.).
Szeregi rozkładów przedstawia się zazwyczaj w formie tabel. W tabeli 2.8 przedstawia szereg rozkładu atrybutów.
Tabela 2.8 - Rozkład rodzajów pomocy prawnej świadczonej przez prawników obywatelom jednego z regionów Federacji Rosyjskiej.

Seria odmian– są to wartości charakterystyki (lub przedziały wartości) i ich częstotliwości.
Szereg zmian to szeregi rozkładu, zbudowane na zasadzie ilościowej. Każda seria odmian składa się z dwóch elementów: opcji i częstotliwości.
Warianty są uważane za indywidualne wartości cechy, które przyjmuje ona w serii zmian.
Częstotliwości to liczba poszczególnych wariantów lub każdej grupy szeregu zmian, tj. Są to liczby pokazujące, jak często w szeregu rozkładów występują określone opcje. Suma wszystkich częstotliwości określa wielkość całej populacji, jej objętość.
Częstotliwości to częstotliwości wyrażone jako ułamki jednostki lub jako procent całości. Odpowiednio suma częstotliwości jest równa 1 lub 100%. Szereg wariacyjny pozwala na oszacowanie postaci prawa dystrybucji na podstawie danych rzeczywistych.

W zależności od charakteru zmienności cechy, istnieją dyskretne i interwałowe serie zmian.
Przykład dyskretnego szeregu zmian podano w tabeli. 2.9.
Tabela 2.9. Rozkład rodzin według liczby zajmowanych pokoi w poszczególnych mieszkaniach w 1989 r. w Federacji Rosyjskiej.

Pierwsza kolumna tabeli przedstawia opcje dyskretnej serii zmian, druga kolumna zawiera częstotliwości serii zmian, a trzecia zawiera wskaźniki częstotliwości.

Seria odmian

W populacji ogólnej badana jest pewna cecha ilościowa. Pobierana jest z niego losowo próbka objętości N, czyli liczba elementów próbki jest równa N. Na pierwszym etapie przetwarzania statystycznego nośny próbki, tj. zamawianie numeru x 1 , x 2 , …, x rz Rosnąco. Każda zaobserwowana wartość x ja zwany opcja. Częstotliwość ja jest liczbą obserwacji wartości x ja w próbce. Częstotliwość względna (częstotliwość) w ja jest stosunkiem częstotliwości ja do wielkości próbki N: .
Podczas badania szeregów zmian stosuje się również pojęcia częstotliwości skumulowanej i częstotliwości skumulowanej. Pozwalać X jakiś numer. Następnie liczba opcji , których wartości są mniejsze X, nazywa się częstotliwością skumulowaną: dla x i N nazywa się częstotliwością skumulowaną w i max.
Cechę nazywamy zmienną dyskretną, jeśli jej poszczególne wartości (warianty) różnią się od siebie o pewną skończoną wartość (zwykle liczbę całkowitą). Szereg zmian takiej cechy nazywany jest szeregiem zmian dyskretnych.

Tabela 1. Ogólny widok szeregu częstotliwości dyskretnych zmian

Wartości charakterystycznex ja x 1 x 2 x rz
Częstotliwościja m 1 m 2 m n

Cechę nazywa się stale zmieniającą się, jeśli jej wartości różnią się od siebie o dowolnie małą wartość, tj. znak może przyjąć dowolną wartość w określonym przedziale. Ciągły szereg zmian takiej cechy nazywany jest przedziałem.

Tabela 2. Ogólny widok serii częstotliwości zmienności przedziałowej

Tabela 3. Obrazy graficzne serii zmian

WierszWielokąt lub histogramDystrybucja empiryczna
Oddzielny
Interwał
Przeglądając wyniki obserwacji określa się, ile wartości wariantów mieści się w każdym konkretnym przedziale. Zakłada się, że każdy przedział należy do jednego ze swoich końców: albo we wszystkich przypadkach lewy (częściej), albo we wszystkich przypadkach prawy, a częstotliwości lub częstotliwości pokazują liczbę opcji zawartych w określonych granicach. Różnice a i – a i +1 nazywane są przedziałami częściowymi. Aby uprościć późniejsze obliczenia, szereg zmian przedziałowych można zastąpić szeregiem warunkowo dyskretnym. W tym przypadku wartość średnia I-interval jest opcją x ja i odpowiednią częstotliwość interwału ja– dla częstotliwości tego przedziału.
Do graficznego przedstawienia szeregów zmienności najczęściej stosuje się wielokąt, histogram, krzywą skumulowaną i dystrybuantę empiryczną.

W tabeli 2.3 (Grupowanie ludności rosyjskiej według średniego dochodu na mieszkańca w kwietniu 1994 r.) szereg zmian interwałowych.
Wygodnie jest analizować szeregi rozkładów za pomocą obrazu graficznego, który pozwala ocenić kształt rozkładu. Wizualną reprezentację charakteru zmian częstotliwości szeregu zmian podaje wzór wielokąt i histogram.
Wielokąt jest używany do przedstawiania szeregów dyskretnych zmian.
Przedstawmy na przykład graficznie rozkład zasobów mieszkaniowych według typu mieszkania (tabela 2.10).
Tabela 2.10 - Rozkład zasobów mieszkaniowych obszaru miejskiego według rodzaju mieszkań (dane warunkowe).


Ryż. Obszar dystrybucji mieszkań


Na osiach współrzędnych można wykreślić nie tylko wartości częstotliwości, ale także częstotliwości serii zmian.
Histogram służy do przedstawienia szeregu zmian interwałowych. Podczas konstruowania histogramu wartości przedziałów są wykreślane na osi odciętych, a częstotliwości są przedstawiane za pomocą prostokątów zbudowanych na odpowiednich przedziałach. Wysokość kolumn w przypadku równych odstępów powinna być proporcjonalna do częstotliwości. Histogram to wykres, na którym seria jest przedstawiona jako słupki sąsiadujące ze sobą.
Przedstawmy graficznie szereg rozkładów przedziałowych podanych w tabeli. 2.11.
Tabela 2.11 – Rozkład rodzin według wielkości powierzchni mieszkalnej na osobę (dane warunkowe).
Np Grupy rodzin według wielkości powierzchni mieszkalnej na osobę Liczba rodzin o danej powierzchni mieszkalnej Łączna liczba rodzin
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
CAŁKOWITY 115 ----


Ryż. 2.2. Histogram rozkładu rodzin według wielkości powierzchni mieszkalnej na osobę


Korzystając z danych zakumulowanego szeregu (tabela 2.11), konstruujemy kumulować dystrybucję.


Ryż. 2.3. Skumulowany rozkład rodzin według wielkości powierzchni mieszkalnej na osobę


Reprezentacja szeregu zmian w formie kumulacji jest szczególnie efektywna w przypadku szeregów zmian, których częstotliwości są wyrażone jako ułamki lub procenty sumy częstotliwości serii.
Jeśli zmienimy osie podczas graficznego przedstawiania serii zmian w postaci kumulacji, wówczas otrzymamy ostrołuk. Na ryc. 2.4 przedstawia ostrołuk skonstruowany na podstawie danych z tabeli. 2.11.
Histogram można przekształcić w wielokąt rozkładu, znajdując środki boków prostokątów, a następnie łącząc te punkty liniami prostymi. Powstały wielokąt rozkładu pokazano na ryc. 2.2 linią przerywaną.
Konstruując histogram rozkładu szeregu zmian o nierównych odstępach, to nie częstotliwości są wykreślane wzdłuż osi rzędnych, ale gęstość rozkładu cechy w odpowiednich przedziałach.
Gęstość rozkładu to częstotliwość obliczana na jednostkę szerokości przedziału, tj. ile jednostek w każdej grupie przypada na jednostkę wartości przedziału. Przykład obliczenia gęstości rozkładu przedstawiono w tabeli. 2.12.
Tabela 2.12 – Rozkład przedsiębiorstw według liczby zatrudnionych (dane warunkowe)
Np Grupy przedsiębiorstw według liczby pracowników, osób. Liczba przedsiębiorstw Rozmiar interwału, ludzie. Gęstość dystrybucji
A 1 2 3=1/2
1 Do 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
CAŁKOWITY 147 ---- ----

Może być również używany do graficznego przedstawienia serii odmian krzywa skumulowana. Za pomocą kumulacji (krzywej sumy) przedstawiono serię skumulowanych częstotliwości. Częstości skumulowane są określane poprzez sekwencyjne sumowanie częstotliwości w grupach i pokazują, ile jednostek w populacji ma wartości atrybutów nie większe niż wartość brana pod uwagę.


Ryż. 2.4. Ostrołuk rozmieszczenia rodzin według wielkości powierzchni mieszkalnej na osobę

Podczas konstruowania kumulacji serii zmian przedziałowych warianty serii są wykreślane wzdłuż osi odciętych, a zakumulowane częstotliwości są wykreślane wzdłuż osi współrzędnych.